In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [2]:
# pandas.read_csv()已经有超过50个参数了，用来应付各种不同的场景
df = pd.read_csv('data/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
# pandas.read_table()默认使用\t作为分隔符，手动指定分隔符就可以读取csv
df = pd.read_table('data/ex1.csv', sep=',')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
# 读取没有列名的数据，pandas会自动分配列名
df = pd.read_csv('data/ex2.csv', header=None)
df

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# 读取没有列名的数据，也可以手动指定列名
df = pd.read_csv('data/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
# 指定读取的某列为索引
names=['a', 'b', 'c', 'd', 'message']
df = pd.read_csv('data/ex2.csv', names=names, index_col='message')
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [7]:
# 分层索引
df = pd.read_csv('data/csv_mindex.csv', index_col=['key1', 'key2'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [8]:
# 读取多种不同分隔符的文本文件
df = pd.read_table('data/ex3.txt', sep='\s+')  # 使用正则表达式来提供分隔符
df  # 列名比数据列少一列，pandas自动将数据的第一列解析为索引

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [9]:
# 使用skiprows来跳过第一行、第三行和第四行
df = pd.read_csv('data/ex4.csv', skiprows=[0, 2, 3])
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
# pandas默认使用NA、NULL等显示缺失值
df = pd.read_csv('data/ex5.csv')
df

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [11]:
pd.isnull(df)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [12]:
pd.isna(df)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [13]:
# 手动处理缺失值
df = pd.read_csv('data/ex5.csv', na_values=['NULL'])
df

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [14]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
df = pd.read_csv('data/ex5.csv', na_values=sentinels)
df

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [15]:
# 一些read_csv/read_table函数的参数
# 参数             说明
# path           表示文件系统位置、URL、文件型对象的字符串
# sep/delimiter  用于对行中各字段进行拆分的字符序列或正则表达式
# header         用作列名的行号。默认为0（第一行），如果没有header行就应该设置为None
# index_col      用作行索弓1的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表（层次化索引）
# names          用于结果的列名列表，结合header=None
# skiprows       需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）
# na_values       一组用于替换NA的值
# comment        用于将注释信息从行尾拆分出去的字符（一个或多个）
# parse_dates     尝试将数据解析为日期，默认为False。如果为True,则尝试解析所有列。此外，还可以指定需要解析的一组列号或列名。如果列表的元素为列表或元组，就会将多个列组合到一起再进行日期解析工作（例如，日期/时间分别位于两个列中）
# keep_date_col  如果连接多列解析日期，则保持参与连接的列。默认为False。
# converters     由列号/列名跟函数之间的映射关系组成的字典。例如，{foo，：f｝会对foo列的所有值应用函数f
# dayfirst       当解析有歧义的日期时，将其看做国际格式（例如，7/6/2012 - June 7, 2012）o 默认为False
# date_parser    用于解析日期的函数
# nrows          需要读取的行数（从文件开始处算起）
# iterator       返回一个TextParser以便逐块读取文件
# chunksize      文件块的大小（用于迭代）
# skip_footer    需要忽略的行数（从文件末尾处算起）
# verbose        打印各种解析器输出信息，比如“非数值列中缺失值的数量”等
# encoding       用于unicode的文本编码格式。例如，“utf-8"表示用UTF-8编码的文本
# squeeze        如果数据经解析后仅含一列，则返回Series
# thousands      千分位分隔符