# Pandas 学习日常笔记

[TOC]

In [2]:
import pandas as pd

## Pandas input\output
### Pandas.read_csv() 读取txt数据集
当然也可以使用 Pandas.read_table()读取txt,但是它的默认分割符号是'\t'，所以要加参数 delimiter=','

pd.read_table()中有种各样的参数，我会慢慢积累常用的参数

1. header
- 若header不指定，则默认文件的第一行为每列的表头名字
    

In [3]:
pd.read_csv('./ex1data2.txt', nrows=3) #nrows=3 只读取前3行

Unnamed: 0,2104,3,399900
0,1600,3,329900
1,2400,3,369000
2,1416,2,232000


- 若header=0, 则用数据的第一行为表头的名字（如果skip_blank_lines=True，此参数将忽略带注释的行和空行 ，因此header=0表示数据的第一行而不一定是文件的第一行）


In [4]:
pd.read_csv('./ex1data2.txt',header=0, nrows=3)

Unnamed: 0,2104,3,399900
0,1600,3,329900
1,2400,3,369000
2,1416,2,232000


- 若header=None, 表示用自动分配的表头0,1,2 ... , n。(注意：对于自带有表头的数据集设置 header=None会报错)

In [5]:
pd.read_csv('./ex1data2.txt', header=None, nrows=3)

Unnamed: 0,0,1,2
0,2104,3,399900
1,1600,3,329900
2,2400,3,369000


2. prefix

- prefix = str , 例： str为 'X'  则表头为 'X0','X1', ... , 'Xn'

In [6]:
pd.read_csv('./ex1data2.txt',header=None, prefix='X', nrows=3)

Unnamed: 0,X0,X1,X2
0,2104,3,399900
1,1600,3,329900
2,2400,3,369000


3.names
- names : 可接受列表类型的值, 可选项
将列表的值作为数据集每列的表头.如果这个文件已经包含了表头列，那么你需要设置header=0 或 None 去覆盖已存在的表头列，否在会报错。 


In [7]:
pd.read_csv('./ex1data2.txt',header=None, names=['size','num','price' ], nrows=3)

Unnamed: 0,size,num,price
0,2104,3,399900
1,1600,3,329900
2,2400,3,369000


## Pandas 行列操作

In [8]:
df = pd.read_csv('./ex1data2.txt',header=None, names=['size','num','price' ], nrows=3)
df_o = pd.read_csv('./ex1data2.txt',header=None, names=['size','num','price' ])
df['size'],df['num'],df['price']
#取size列    num列     price列

(0    2104
 1    1600
 2    2400
 Name: size, dtype: int64,
 0    3
 1    3
 2    3
 Name: num, dtype: int64,
 0    399900
 1    329900
 2    369000
 Name: price, dtype: int64)

In [9]:
df.head(4) #返回前多少行。包括表头列

Unnamed: 0,size,num,price
0,2104,3,399900
1,1600,3,329900
2,2400,3,369000


In [10]:
df.loc[1] #读取 index=1的行数据

size       1600
num           3
price    329900
Name: 1, dtype: int64

In [11]:
df.loc[1].values #读取 index=1行的数据 并转化为 ndarray

array([  1600,      3, 329900], dtype=int64)

In [15]:
df.at[0,'size'] ,df.loc[0].at['size']
# 读取单个值 [行，列标签]

(2104, 2104)

In [31]:
# df[['size','num']] #取前两列 标签
# df.loc[:,['size','num']] 标签
df.iloc[:,0:2] #索引

Unnamed: 0,size,num
0,2104,3
1,1600,3
2,2400,3


## Pandas 查询

1. 单条件查询

可用 > < == != 来进行筛选

In [13]:
df_o[df_o['size']>3000] #查询size>3000

Unnamed: 0,size,num,price
13,4478,5,699900
19,3031,4,599000
24,3890,3,573900
33,3137,3,579900
38,4215,4,549000


2. 多条件查询

可用 | (或)， & (且) 逻辑连接多个条件查询

In [14]:
df_o[ (df_o['size']>2000) & (df_o['price']<400000) ] #size>2000 且 price<400000

Unnamed: 0,size,num,price
0,2104,3,399900
2,2400,3,369000
29,2637,3,299900
32,2040,4,314900
37,2132,4,345000
39,2162,4,287000
41,2238,3,329900
42,2567,4,314000
