In [1]:
# pandas 操作数据 输入输出
# 1、读取文本文件和其他更高效的磁盘储存格式
# 2、加载数据库中的数据
# 3、利用 web API 操作网络资源

import numpy as np
import pandas as pd

In [2]:
# 1 文本文件
# pandas 提供方法 将数据读取为 DataFrame 对象
# 函数          说明
# read_csv      从文件、URL、文件型对象中加载带分隔符的数据，默认分隔符为逗号
# read_table    从文件、URL、文件型对象中加载带分隔符的数据，默认分隔符为“\t”
# read_json     读取 JSON 字符串中的数据
# read_excel    从 Excel XLS 或者 XLSX 文件类型中读取表格数据
# read_hdf      读取 pandas 写的 HDFS 文件
# read_html     读取 HTML 文档中的所有表格
# read_msgpack  二进制格式编码的 pandas 数据
# read_pickle   读取 Python pickle格式中储存的任意对象
# read_sas      读取储存于 SAS 系统自定义储存格式的 SAS 数据集
# read_sql      读取 SQL 查询结果为 pandas 的 DataFrame
# read_stata    读取 Stata 文件格式的数据集
# read_feather  读取 Feather 二进制文件格式

# the path of dataset
dataset_path = './../dataset/'

df = pd.read_csv(dataset_path + 'test.csv')
df.head()

Unnamed: 0,userId,movieId,rating,split_index
2525823,16829,7371,4.0,1
4128727,27171,43679,2.5,1
908682,6114,4973,4.0,1
5250989,34118,8798,4.5,1
9589939,62261,3160,1.0,1


In [3]:
df2 = pd.read_table(dataset_path + 'test.csv', sep=',')
df2.tail()

Unnamed: 0,userId,movieId,rating,split_index
21533729,139994,161,3.0,1
12995078,84148,45,4.0,1
10190611,66078,1199,4.5,1
68283,546,5618,5.0,1
12751939,82461,1580,4.5,1


In [5]:
# 没有标题行
# pandas 默认分配列名
pd.read_csv(dataset_path + 'test-copy.csv', header=None).head()

Unnamed: 0,0,1,2,3,4
0,2525823,16829,7371,4.0,1
1,4128727,27171,43679,2.5,1
2,908682,6114,4973,4.0,1
3,5250989,34118,8798,4.5,1
4,9589939,62261,3160,1.0,1


In [6]:
# 自定义列名
pd.read_csv(dataset_path + 'test-copy.csv', names=['userID', 'movieID', 'rating', 'split']).tail()

Unnamed: 0,userID,movieID,rating,split
21533729,139994,161,3.0,1
12995078,84148,45,4.0,1
10190611,66078,1199,4.5,1
68283,546,5618,5.0,1
12751939,82461,1580,4.5,1


In [7]:
# 有些情况下，数据间分隔符不是固定的 
# 这需要对数据集进行规整，常传入 正则表达式 作为 read_table 的分隔符
# 解析器函数有许多参数帮助解决处理各种类型的异形文件格式
#     - skiprows 跳过文件的行
# 缺失值 ： 空字符串、NA、NULL
#     - na_values 一组替换NA的值

# read_csv/read_table 函数的参数
# 参数          说明
# path          文件系统位置，URL，文件型对象的字符串
# sep/delimiter 行的字段进行拆分的字符序列或者正则表达式
# date_parser   用于解析日期的函数
# nrows         指定读取的行数
# chunksize     文件块的大小，用于迭代
# encoding      用于 Unicode 的文本编码格式，如 utf-8
# thousands     千分位分隔符

In [9]:
# 文件写入
# 将一个 DataFrame 对象写入文件，to_csv 方法，可以指定分隔符
# 将一个 DataFrame 对象写入文件，to_json 方法，

# 处理分隔符格式
# Python 内置模块 csv
# import csv

# JSON数据
# Python 内置模块 json
# json.loads 将 JSON 字符串转换为 Python形式
# json.dumps 将 Python对象转换为 JSON 格式
# import json

In [10]:
# 2 二进制数据格式

# 实现数据的高效二进制储存
# 使用 Python 内置 pickle 序列化
# pandas 对象都有一个用于将数据以 pickle 格式保存到磁盘方法 to_pickle
# 可以通过 pickle 直接读取被pickle化的数据，或者使用 pandas.read_pickle


In [11]:
# HDF5 格式

# HDF5是一种存储大规模科学数组数据的非常好的文件格式。
#     它可以被作为C标准库， 带有许多语言的接口， 如Java、 Python和MATLAB等。 
# HDF5中的 HDF 指的是层次型数据格式（hierarchicaldata format） 

# 每个HDF5文件都含有一个文件系统式的节点结构， 它使你能够存储多个数据集并支持元数据。 
# 与其他简单格式相比， HDF5支持多种压缩器的即时压缩， 还能更高效地存储重复模式数据。 
# 对于那些非常大的无法直接放入内存的数据集， HDF5就是不错的选择， 因为它可以高效地分块读写。
# 可以用 PyTables 或 h5py 库直接访问 HDF5 文件， 
# pandas提供了更为高级的接口，简化存储Series和DataFrame对象。 HDFStore类可以像字典一样， 处理低级的细节：
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore(dataset_path + 'mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
store


<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [12]:
# HDF5文件中的对象可以通过与字典一样的API进行获取：
store['obj1']


Unnamed: 0,a
0,0.747949
1,-0.674777
2,0.068323
3,-2.117886
4,-0.716841
...,...
95,0.561240
96,-0.981324
97,-0.489343
98,0.075235


In [13]:
# HDFStore支持两种存储模式， 'fixed'和'table'。 
# 后者通常会更慢， 但是支持使用特殊语法进行查询操作：
store.put('obj2', frame, format='table')
store.select('obj2', where=['index >= 10 and index <= 15'])
store.close()

In [14]:
# put是store['obj2'] = frame方法的显示版本， 允许我们设置其它的选项， 比如格式。
# pandas.read_hdf函数可以快捷使用这些工具：
frame.to_hdf(dataset_path + 'mydata.h5', 'obj3', format='table')
pd.read_hdf(dataset_path + 'mydata.h5', 'obj3', where=['index < 5'])

# 笔记： 如果你要处理的数据位于远程服务器， 比如Amazon S3或HDFS， 
# 使用专门为分布式存储（比如Apache Parquet） 的二进制格式也许更加合适。 
# Python的 Parquet和其它存储格式还在不断的发展之中

# 如果需要本地处理海量数据， 建议研究一下 PyTables和 h5py， 看看它们能满足你的哪些需求
# 由于许多数据分析问题都是IO密集型（而不是CPU密集型），利用 HDF5 这样的工具能显著提升应用程序的效率

Unnamed: 0,a
0,0.747949
1,-0.674777
2,0.068323
3,-2.117886
4,-0.716841


In [17]:
# Web APIs 交互数据

# 许多网站都有一些通过 JSON 或其他格式提供数据的公共 API。 
# 通过Python访问这些API的办法有不少。 
# 一个简单易用的办法（推荐） 是requests包（http://docs.python-requests.org） 。
# 为了搜索最新的30个GitHub上的pandas主题，发一个HTTP GET请求， 使用requests扩展库：

import requests

url = 'https://lab.isaaclin.cn/nCoV/api/overall'

resp = requests.get(url)
resp


<Response [200]>

In [18]:
# 响应对象的json方法会返回一个包含被解析过的JSON字典， 加载到一个Python 对象中
data = resp.json()

data

{'results': [{'currentConfirmedCount': 441,
   'currentConfirmedIncr': 39,
   'confirmedCount': 85070,
   'confirmedIncr': 52,
   'suspectedCount': 1885,
   'suspectedIncr': 9,
   'curedCount': 79983,
   'curedIncr': 13,
   'deadCount': 4646,
   'deadIncr': 0,
   'seriousCount': 99,
   'seriousIncr': -15,
   'globalStatistics': {'currentConfirmedCount': 4304709,
    'confirmedCount': 9073850,
    'curedCount': 4297182,
    'deadCount': 471959,
    'currentConfirmedIncr': -20905,
    'confirmedIncr': 40655,
    'curedIncr': 60088,
    'deadIncr': 1472},
   'generalRemark': '1. 3 月 12 日国家卫健委确诊补订遗漏 12 例确诊病例（非 12 日新增），暂无具体省份信息。 2. 浙江省 12 例外省治愈暂无具体省份信息。',
   'remark1': '易感人群：人群普遍易感。老年人及有基础疾病者感染后病情较重，儿童及婴幼儿也有发病',
   'remark2': '潜伏期：一般为 3～7 天，最长不超过 14 天，潜伏期内可能存在传染性，其中无症状病例传染性非常罕见',
   'remark3': '宿主：野生动物，可能为中华菊头蝠',
   'remark4': '',
   'remark5': '',
   'note1': '病毒：SARS-CoV-2，其导致疾病命名 COVID-19',
   'note2': '传染源：新冠肺炎的患者。无症状感染者也可能成为传染源。',
   'note3': '传播途径：经呼吸道飞沫、接触传播是主要的传播途径。气溶胶传播和消化道等传播途径尚待明

In [19]:
# 4 数据库交互

# 在商业场景下， 大多数数据可能不是存储在文本或Excel文件中。 
# 基于SQL的关系型数据库（如SQL Server、 PostgreSQL和MySQL等）使用非常广泛。 
# 数据库的选择通常取决于性能、 数据完整性以及应用程序的伸缩性需求。

# 将数据从SQL加载到DataFrame的过程很简单， 此外pandas还有一些能够简化该过程的函数

# 例如，使用 SQLite 数据库，通过 Python 内置的 sqlite3 驱动器
import sqlite3

# 从表中选取数据时， 大部分Python SQL驱动器（PyODBC、 psycopg2、 MySQLdb、 pymssql等）
#   都会返回一个元组列表：
# 将这个元组列表传给DataFrame构造器， 但还需要列名（位于光标的description属性中） 

# 这种数据规整操作相当多， 你肯定不想每查一次数据库就重写一次。 
# SQLAlchemy项目是一个流行的Python SQL工具，它抽象出了SQL数据库中的许多常见差异。 
# pandas有一个 read_sql 函数， 可以让你轻松的从 SQLAlchemy 连接读取数据

# 用 SQLAlchemy 连接 SQLite 数据库， 并读取数据
# 
# import sqlalchemy as sqla
# db = sqla.create_engine('sqlite:///mydata.sqlite')
# pd.read_sql('select * from test', db)

In [1]:
# 访问到自己需要的数据，this is the first step
# 研究 数据规整、数据可视化、时间序列分析
# 在数据分析和建模过程中，数据准备：加载、清理、转换、重塑
# 这些流程占据分析师大部分时间