In [1]:
import pandas as pd
import numpy as np

print(pd.__version__)

1.2.4


#### CSV文件读写

In [2]:
with open('./p361/exam1.csv') as file:
    print(file.read())

a,b,c,d
8,5,0,9
6,7,1,2
0,4,7,3
1,1,5,6
7,6,2,4
9,0,5,6


- sep参数默认为逗号(exam2.csv文件是用 = 分隔)

In [3]:
df = pd.read_csv('./p361/exam1.csv')
print(df)
df2 = pd.read_csv('./p361/exam2.csv', sep='=')
print(df2)

   a  b  c  d
0  8  5  0  9
1  6  7  1  2
2  0  4  7  3
3  1  1  5  6
4  7  6  2  4
5  9  0  5  6
   a  b  c  d
0  8  5  0  9
1  6  7  1  2
2  0  4  7  3
3  1  1  5  6
4  7  6  2  4
5  9  0  5  6


- header参数默认自行推断, 会把第一行数据作为列索引(表头)
- 如果不想使用数据为列索引, 可设置为None, 那么列索引就会是(0,1...)

In [4]:
df = pd.read_csv('./p361/exam2.csv', sep='=', header=None)
print(df)

   0  1  2  3
0  a  b  c  d
1  8  5  0  9
2  6  7  1  2
3  0  4  7  3
4  1  1  5  6
5  7  6  2  4
6  9  0  5  6


- header=2, 指定第3行数据作为列索引(表头), 之后的行才为数据

In [5]:
df = pd.read_csv('./p361/exam1.csv', header=2)
print(df)

   6  7  1  2
0  0  4  7  3
1  1  1  5  6
2  7  6  2  4
3  9  0  5  6


- names参数可以指定列索引

In [6]:
df = pd.read_csv('./p361/exam1.csv', names=list('QWER'))
print(df)

   Q  W  E  R
0  a  b  c  d
1  8  5  0  9
2  6  7  1  2
3  0  4  7  3
4  1  1  5  6
5  7  6  2  4
6  9  0  5  6


- 如果指定names, 则header推断为None

In [7]:
df = pd.read_csv('./p361/exam1.csv', names=list('QWER'), header=2)
print(df)

   Q  W  E  R
0  0  4  7  3
1  1  1  5  6
2  7  6  2  4
3  9  0  5  6


#### index_col 指定某一列为行索引名

In [8]:
df = pd.read_csv('./p361/exam1.csv', index_col=1)
print(df)
print('*' * 30)
df.index.name = None
print(df)

   a  c  d
b         
5  8  0  9
7  6  1  2
4  0  7  3
1  1  5  6
6  7  2  4
0  9  5  6
******************************
   a  c  d
5  8  0  9
7  6  1  2
4  0  7  3
1  1  5  6
6  7  2  4
0  9  5  6


In [9]:
df = pd.read_csv('./p361/exam1.csv', index_col=1, names=list('QWER'))
print(df)

   Q  E  R
W         
b  a  c  d
5  8  0  9
7  6  1  2
4  0  7  3
1  1  5  6
6  7  2  4
0  9  5  6


#### 读取大文件片段

- nrows参数用来读取指定行数的数据：这里读取前两行数据(header先推断再读取)

In [10]:
df = pd.read_csv('./p361/exam1.csv', header=1, nrows=3)
print(df)

   8  5  0  9
0  6  7  1  2
1  0  4  7  3
2  1  1  5  6


- skiprows参数用来指定需要跳过的行(先跳过, header再推断)
- 当skiprows为整数时, 表示跳过对应的前几行：这里跳过前两行
- 当skiprows为索引时, 表示跳过对应的索引行：这里跳过第1行和第3行


In [11]:
df = pd.read_csv('./p361/exam1.csv', header=1, skiprows=2)
print(df)
print('*' * 30)
df = pd.read_csv('./p361/exam1.csv', header=1, skiprows=[0, 2])
print(df)

   0  4  7  3
0  1  1  5  6
1  7  6  2  4
2  9  0  5  6
******************************
   0  4  7  3
0  1  1  5  6
1  7  6  2  4
2  9  0  5  6


- usecols参数用来读取指定列的数据：这里读取第1列和第3列

In [12]:
df = pd.read_csv('./p361/exam1.csv')
print(df)

   a  b  c  d
0  8  5  0  9
1  6  7  1  2
2  0  4  7  3
3  1  1  5  6
4  7  6  2  4
5  9  0  5  6


In [13]:
df = pd.read_csv('./p361/exam1.csv', usecols=[0, 2])
print(df)

   a  c
0  8  0
1  6  1
2  0  7
3  1  5
4  7  2
5  9  5


- chunksize参数指定时, read_csv会返回TextFileReader对象
- TextFileReader对象是个迭代器, 可以按照chunksize迭代

In [14]:
df = pd.read_csv('./p361/exam1.csv', chunksize=4)
print(df)
for i in df:
    print(i)

<pandas.io.parsers.TextFileReader object at 0x000001E91B8A54F0>
   a  b  c  d
0  8  5  0  9
1  6  7  1  2
2  0  4  7  3
3  1  1  5  6
   a  b  c  d
4  7  6  2  4
5  9  0  5  6


#### 把DataFrame写入csv文件
- sep参数默认为逗号, 所以文件中分隔符为逗号
- index参数默认为True, 所以行索引也被写入了文件
- header参数默认为True, 所以列索引也被写入了文件

In [15]:
d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
     '年龄': [18, 19, 20, 22, 17],
     '身高': [188, 178, 189, 175, 177]}
df = pd.DataFrame(data=d)
print(df)
df.to_csv('./p361/exam3.csv')
# df.to_csv('./p361/exam3.csv', index=False,header=False)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


- 可以给sep参数指定其他的分隔符(分隔符必须是一个字符)

In [16]:
df.to_csv('./p361/exam3.csv', sep=';')
df = pd.read_csv('./p361/exam3.csv', sep=';', index_col=0, header=0)
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


- 如果不想把行索引写入文件可以把index参数指定为False

In [17]:
df.to_csv('./p361/exam3.csv', index=False)
df = pd.read_csv('./p361/exam3.csv')
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


- 如果不想把列索引写入文件可以把header参数指定为False

In [18]:
df.to_csv('./p361/exam3.csv', header=False)
df = pd.read_csv('./p361/exam3.csv', index_col=0, names=['名字', '年龄', '身高'])
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


#### EXCEL文件读写

- 把DataFrame写入excel文件
- index参数默认为True, 所以行索引也被写入了文件
- header参数默认为True, 所以列索引也被写入了文件

In [19]:
import pandas as pd

In [20]:
d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
     '年龄': [18, 19, 20, 22, 17],
     '身高': [188, 178, 189, 175, 177]}
df = pd.DataFrame(data=d)
print(df)
df.to_excel('./p361/exam4.xlsx')
df = pd.read_excel('./p361/exam4.xlsx', index_col=0, header=0)
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177
   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


In [21]:
d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
     '年龄': [18, 19, 20, 22, 17],
     '身高': [188, 178, 189, 175, 177]}
df = pd.DataFrame(data=d)
df.to_excel('./p361/exam4.xlsx', index=False, header=False)
df = pd.read_excel('./p361/exam4.xlsx', header=None, names=['名字', '年龄', '身高'])
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


- 如果不想把行索引写入文件可以把index参数指定为False

In [22]:
d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
     '年龄': [18, 19, 20, 22, 17],
     '身高': [188, 178, 189, 175, 177]}
df = pd.DataFrame(data=d)
df.to_excel('./p361/exam4.xlsx', index=False)
df = pd.read_excel('./p361/exam4.xlsx')
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


- 如果不想把列索引写入文件可以把header参数指定为False

In [23]:
d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
     '年龄': [18, 19, 20, 22, 17],
     '身高': [188, 178, 189, 175, 177]}
df = pd.DataFrame(data=d)
df.to_excel('./p361/exam4.xlsx', header=False)
df = pd.read_excel('./p361/exam4.xlsx', index_col=0, header=None, names=['名字', '年龄', '身高'])
print(df)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177


#### 把DataFrame写入excel文件

In [24]:
d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
     '年龄': [18, 19, 20, 22, 17],
     '身高': [188, 178, 189, 175, 177]}
df = pd.DataFrame(data=d)
print(df)
print('*' * 30)
lst = [[1, 2],
       [3, 4],
       [5, 6]]
df2 = pd.DataFrame(lst)
print(df2)

   名字  年龄   身高
0  张三  18  188
1  李四  19  178
2  王五  20  189
3  赵六  22  175
4  孙七  17  177
******************************
   0  1
0  1  2
1  3  4
2  5  6


In [25]:
writer = pd.ExcelWriter('./p361/exam4.xlsx')
df.to_excel(writer)
df2.to_excel(writer)
writer.close()
df = pd.read_excel('./p361/exam4.xlsx', index_col=0)
print(df)

    0   1   身高
0   1   2  188
1   3   4  178
2   5   6  189
3  赵六  22  175
4  孙七  17  177


In [26]:
writer = pd.ExcelWriter('./p361/exam4.xlsx')
df.to_excel(writer)
df2.to_excel(writer, startrow=6, startcol=1)
writer.close()
df = pd.read_excel('./p361/exam4.xlsx', index_col=0)
print(df)

       0   1   身高
0.0    1   2  188
1.0    3   4  178
2.0    5   6  189
3.0   赵六  22  175
4.0   孙七  17  177
NaN  NaN   0    1
NaN    0   1    2
NaN    1   3    4
NaN    2   5    6


In [27]:
with pd.ExcelWriter('./p361/exam4.xlsx') as writer:
    df.to_excel(writer)
    df2.to_excel(writer, sheet_name='工作表2', startrow=6, startcol=1)
df = pd.read_excel('./p361/exam4.xlsx', index_col=0)
print(df)

       0   1   身高
0.0    1   2  188
1.0    3   4  178
2.0    5   6  189
3.0   赵六  22  175
4.0   孙七  17  177
NaN  NaN   0    1
NaN    0   1    2
NaN    1   3    4
NaN    2   5    6


#### 读取excel

In [28]:
# d = {'名字': ['张三', '李四', '王五', '赵六', '孙七'],
#      '年龄': [18, 19, 20, 22, 17],
#      '身高': [188, 178, 189, 175, 177]}
# df = pd.DataFrame(data=d)
# df.to_excel('./p361/exam4.xlsx')

In [29]:
df = pd.read_excel('./p361/exam4.xlsx')
print(df)

   Unnamed: 0    0   1   身高
0         0.0    1   2  188
1         1.0    3   4  178
2         2.0    5   6  189
3         3.0   赵六  22  175
4         4.0   孙七  17  177
5         NaN  NaN   0    1
6         NaN    0   1    2
7         NaN    1   3    4
8         NaN    2   5    6


In [30]:
df = pd.read_excel('./p361/exam4.xlsx', index_col=0)
print(df)

       0   1   身高
0.0    1   2  188
1.0    3   4  178
2.0    5   6  189
3.0   赵六  22  175
4.0   孙七  17  177
NaN  NaN   0    1
NaN    0   1    2
NaN    1   3    4
NaN    2   5    6


In [31]:
df = pd.read_excel('./p361/exam4.xlsx', index_col=0, names=[None, 'A', 'B', 'C'])
print(df)

       A   B    C
0.0    1   2  188
1.0    3   4  178
2.0    5   6  189
3.0   赵六  22  175
4.0   孙七  17  177
NaN  NaN   0    1
NaN    0   1    2
NaN    1   3    4
NaN    2   5    6


In [32]:
df2 = pd.read_excel('./p361/exam4.xlsx', sheet_name='工作表2')
print(df2.iloc[-4:,-3:])

   Unnamed: 1  Unnamed: 2  Unnamed: 3
5         NaN         0.0         1.0
6         0.0         1.0         2.0
7         1.0         3.0         4.0
8         2.0         5.0         6.0


In [33]:
df2 = pd.read_excel('./p361/exam4.xlsx', sheet_name='工作表2')
print(df2.dropna(how='all').dropna(axis=1,how='all'))

   Unnamed: 1  Unnamed: 2  Unnamed: 3
5         NaN         0.0         1.0
6         0.0         1.0         2.0
7         1.0         3.0         4.0
8         2.0         5.0         6.0


In [34]:
df = pd.read_excel('./p361/exam4.xlsx', sheet_name=[0,'工作表2'])
print(df)

{0:    Unnamed: 0    0   1   身高
0         0.0    1   2  188
1         1.0    3   4  178
2         2.0    5   6  189
3         3.0   赵六  22  175
4         4.0   孙七  17  177
5         NaN  NaN   0    1
6         NaN    0   1    2
7         NaN    1   3    4
8         NaN    2   5    6, '工作表2':    Unnamed: 0  Unnamed: 1  Unnamed: 2  Unnamed: 3
0         NaN         NaN         NaN         NaN
1         NaN         NaN         NaN         NaN
2         NaN         NaN         NaN         NaN
3         NaN         NaN         NaN         NaN
4         NaN         NaN         NaN         NaN
5         NaN         NaN         0.0         1.0
6         NaN         0.0         1.0         2.0
7         NaN         1.0         3.0         4.0
8         NaN         2.0         5.0         6.0}
