应用Python进行多少解析(玖)

二进制数据格式

pickle序列化

兑现2进制存款和储蓄最简易方法正是使用pickle种类化。
pandas可以用frame.save('ch06/frame_pickle')SQL Server,把frame以pickle方式保留到磁盘上的方法。读取使用的是pd.load('ch06/frame_pickle')

使用HDF5格式

HDF指层次型数据格式(hierarchical data
format)。HDF伍援助各类压缩器的即时压缩,还是能高效存款和储蓄重复格局数据,还足以急迅分块读写,所以对那多少个大的力不从心直接放入内部存款和储蓄器的数码集就可怜实用。
HDF5库有多个接口分别是PyTables和h5py。处理海量数据(io密集型
重复读写磁盘数据)时,那多个接口非常符合供给。

#HDFStore就是通过PyTables存储的pandas对象:
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
#形如字典一样存取。
#HDF5被用来一次写多次读,不建议多个写操作,文件可能会损坏。

读取Microsoft Excel文件

读取xls或然xlsx文件获得ExcelFile实例
xls_file = pd.ExcelFile('data.xls')
实例再通过parse读取到DataFrame中:
table = xls_file.parse('Sheet1')

使用HTML和Web API

做客这么些提供了数额的API最简便的办法运用requests包。

import requests
url = 'https://www.baidu.com'
resp = requests.get(url)

多数的Web API重回的都以JSON字符串,大家先要加载到Python对象中:

import json
data = json.loads(resp.text)
data.keys()
#keys里有一个results,results有一组tweet,每条为一个字典。
tweet_fields = ['created at', 'from-User', 'id','text']
tweets = DataFrame(data['results'], columns = tweet_fields)
#即可得到tweet的数据
tweets.ix[7]

选择数据库

数据库近期重大有两种,一种是SQL关全面据库(SQL
Server,MySQL等),此外正是NoSQL(Not Only SQL)。

import sqlite3
#假设已经有一个Table叫text,先取出表中数据
con = sqlite3.connect(':memory:')
cursor = con.execute('select  * from test')
rows = cursor.fetchall()
#cursor.description游标的description属性获取到列名
DataFrame(rows,columns = zip(*cursor.description)[0])

很麻烦,对吧。pandas.io.sql模块提供了简便的秘诀(read_frame):

import pandas.io.sql as sql
sql.read_frame('select * from test',con)
#con为连接对象

存取MongoDB中的数据

先是连接上MongoDb实例:

import pymongo
con = pymongo.Connection('localhost',port=27017)

写入数据:

import requests, json
url  = 'http://search.twitter.com/search.json?q=python%20pandas'
data = json.loads(requests.get(url).text)
for tweet in data['results']:
    tweets.save(tweet)

读取数据:

cursor = tweets.find({'from_user':'wesmckinn'})
#cursor可以迭代
tweet_fields =['created at','from_user','id','text']
result= DataFrame(list(cursor), columns = tweet_fields)

总结

那章和上一章总计了一般景色下什么加载常用的任何来源的数额,存款和储蓄,查询等。来源首要有常用的文书,表格,json,数据库等等。既然数据已经加载实现,那么下壹章节就该起来清洗,规整一下那么些数量了。

相关文章