# Pandas

pandas是一个基于Numpy的库。  
pandas的主要数据结构是一维向量和二维矩阵，一维向量是Series，二维矩阵是DataFrame。
DataFrame的本质就是二维数组，pandas与numpy的区别就是pandas为每行起了一个名字叫做index，为每列起了一个名字叫做column。每行表示一个记录，每列表示一个属性。index就相当于主键，每列就相当于一个字段。      
pandas可以视为内存中的关系型数据库。

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import numpy as np
import pandas as pd

# Jupyter Notebook
jupyter notebook是重要的Python基础设施，了解jupyter的一些用法至关重要。  
魔法函数分为两种：行魔法函数、cell魔法函数。行魔法函数用`%`开头，cell魔法函数用`%%`开头。  

生成配置：jupyter notebook --generate-config   
查看帮助：jupyter notebook --help

In [4]:
# 统计语句用时
%time sum(x for x in range(10000))

CPU times: user 738 µs, sys: 0 ns, total: 738 µs
Wall time: 744 µs


49995000

In [13]:
# 查看全部magic命令
%magic

In [15]:
# 使用`!`开头直接运行shell命令
!ls

Pandas精华笔记.ipynb                   pandas切片更改.py
README.md                              pandas容易出错的bug.py
[1m[36mdata[m[m                                   pandas拼接操作.py
dataframe弹出元素.py                   pandas的数据是否与numpy一致.py
pan.iml                                删除元素.py
[1m[36mpandas-tutorial-master[m[m                 奇葩的pandas切片.py
[1m[36mpandas_exercises-master[m[m                测试数组复制.py
pandas切片.py


In [34]:
# 添加问号查看文档
index.append?

In [None]:
# Ipython和一些常用配置
from IPython.core.interactiveshell import InteractiveShell
import pandas as pd
import matplotlib.pyplot as plt
InteractiveShell.ast_node_interactivity = "all"

pd.set_option('display.mpl_style', 'default') # Make the graphs a bit prettier
plt.rcParams['figure.figsize'] = (15, 5) #matplotlib默认图片大小
# pandas显示的宽度和列数
pd.set_option('display.width', 5000)
pd.set_option('display.max_columns', 60)

## 函数说明：
- get/set/reset_opthon其实从本地配置文件去查询和设置这个关键字；
- 这些关键字都是以字符串给定的，可以使用任何正则表达式，但如果匹配到多个则报错，所以最好是精确表示。

`pd.get_option(key)`
- key：也即上面列出的关键字

`pd.set_option(key, value)`
- key：要设置的关键字
- value：int，要设置的值

`pandas.reset_option(key)`恢复自定义参数为默认参数
- key：上面提到的关键字

----
## 重要参数
一般来说，对我们有用的get_option和set_option操作不多，主要有以下三种关键字：
- 'display.max_rows'控制可以显示的最大行数。
- 'display.max_columns'控制可以显示的最大列数，这个参数对DataFrame更有价值。
- 'display.max_colwidth'控制每个网格点能够显示的最大字符数
- 'display.precision'控制浮点类型显示的小数位数，不影响实际精度。
- 'display.colheader_justify'控制DataFrame的列名对齐位置，靠左或者靠右，取值为left或者right

更多设置参数查看官方说明
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.set_option.html?highlight=set_option#pandas.set_option

```python
pd.get_option('display.max_rows')# 60的意思就是最多显示60行，如果行数超过60，那么将省略显示一部分。

pd.Series( index = range(0,60) )  # 把60改成61试试，然后将上面注释取消，再试试。
```

# 数据创建
本节讲述Series和DataFrame的创建。

## Series
Series有两种创建方式：
* 数组`pd.Series(data=[1,2,3],index=['one','two','three'])`
* 字典`pd.Series(data={'one':1,'two':2,'three':3})`


In [16]:
# 使用数组创建Series
pd.Series(data=[1,2,3],index=None,name='one')

0    1
1    2
2    3
Name: one, dtype: int64

In [17]:
# 使用数组创建Series，同时指定index
pd.Series(data=[1,2,3],index=['one','two','three'])

one      1
two      2
three    3
dtype: int64

In [4]:
# 使用字典创建Series，key表示index，value表示数值
pd.Series(data={'one':1,'two':2,'three':3})

one      1
two      2
three    3
dtype: int64

从Python3.8开始，Python中的dict类型默认是有序字典。

In [24]:
x=pd.Series(data={'one':1,'two':2,'three':3},index=['one','two','four'])
x,x.values.dtype

(one     1.0
 two     2.0
 four    NaN
 dtype: float64,
 dtype('float64'))

In [3]:
# 创建series的时候传字典数组，则每条记录都是一个字典
pd.Series(data=[{'index':'one','value':1},{'index':'two','value':2}])

0    {'index': 'one', 'value': 1}
1    {'index': 'two', 'value': 2}
dtype: object

## DataFrame
DataFrame有两类创建方式：按行创建、按列创建。如果按行创建，则data是一个数组，数组中每个元素表示一条记录，表示一行；如果按列创建，则data是一个字典，字典中每个key表示列名，value表示这一列的各个记录的取值。  

DataFrame的创建极其灵活，包括了全部情况，让你不管怎么写都是对的。  
* 数组+字典：`[{'one':1,'two':2},{'one':3,'two':4}]`
* 数组+数组：`[[1,2],[3,4]]`
* 字典+数组：`{'one':[1,3],'two':[2,4]}`
* 字典+字典：`{'one':{'row1':1,'row2':3},'two':{'row1':2,'row2':4}}`


In [5]:
# 数组+数组
data = [[1,2,3],[4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index = index, columns = columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [6]:
df.index

Index(['a', 'b'], dtype='object')

In [7]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [8]:
df.values

array([[1, 2, 3],
       [4, 5, 6]])

In [9]:
df.dtypes,type(df.dtypes)

(A    int64
 B    int64
 C    int64
 dtype: object,
 pandas.core.series.Series)

使用字典创建DataFrame有两种方式：
* 数组，数组中每个元素都是字典，每个元素表示一条记录
* 字典，字典中每个value都是数组，每个数组表示一列取值

如果创建DataFrame时指明index，则index个数必须等于行数；如果没有指明index，则默认为`[0,len(data))`  
如果创建DataFrame时，指明了columns，如果数据是字典，则columns的顺序决定了DataFrame中列的顺序。

In [11]:
# 字典+数组
data2 = { 'A' : [1,4], 'B': [2,5], 'C':[3,6] }
index2 = ['a','b']
columns2 = ['A','B','D']
pd.DataFrame(data=data2, index = index2, columns = columns2)

Unnamed: 0,A,B,D
a,1,2,
b,4,5,


In [12]:
# 字典+字典：字典中每个value依旧是一个字典，key表示每行的index
data3 = { 'A' : { 'a':1, 'b':4}, 'B': {'b':5,'a':2,}, 'C':{'a':3, 'c':6} }
pd.DataFrame(data=data3)

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


In [16]:
# 数组+字典：使用数组创建DataFrame，每个元素都是一个字典，每个字典表示一条记录
pd.DataFrame([{'one':1,'two':2},{'one':'a','two':'b'}])

Unnamed: 0,one,two
0,1,2
1,a,b


## 转换成numpy
使用series.values或者dataframe.values即可得到numpy数组。

In [6]:
a=pd.DataFrame([[1,2],[3,4]])
type(a.values)# values是numpy类型的数据
a[0].array # array是pandasArray类型

numpy.ndarray

<PandasArray>
[1, 3]
Length: 2, dtype: int64

In [66]:
a.index
a.index.values
type(a.index.values)

RangeIndex(start=0, stop=2, step=1)

array([0, 1])

numpy.ndarray

## Series<=>DataFrame

In [154]:
a=pd.DataFrame([[1,2],[3,4]],index=('one','two'),columns=('甲','乙'))

In [157]:
a
a.index.to_frame()
a.index

Unnamed: 0,甲,乙
one,1,2
two,3,4


Unnamed: 0,0
one,one
two,two


Index(['one', 'two'], dtype='object')

# 索引
在上文中可以看到DataFrame类型的对象有index和column两个属性，这两个属性都是Index类型的数据。

索引是只读的，就像Java中的String一样，每次对它修改都会返回一个新的Index。
## 创建
`pd.Index(data, dtype = Object, name = None)`
- name：一维列表
- dtype：索引元素的类型，默认为object型
- name：索引的名字，类似于列的名字

In [19]:
data = ['a','b','c']
index = pd.Index(data, name = 'name1')
index

Index(['a', 'b', 'c'], dtype='object', name='name1')

In [20]:
index.name,index.values,index.dtype

('name1', array(['a', 'b', 'c'], dtype=object), dtype('O'))

In [30]:
# 索引的查询
index[0] # scalar，返回值
index[0:2] # 范围，返回index
index[[0,2]] # 列表，返回index
mask = [True,False,True]  # mask,返回index
index[mask]

Index(['a', 'c'], dtype='object', name='name1')

In [31]:
# 修改索引的名称有两种方法：直接访问属性或者调用函数
index.name="haha"
index.set_names(names='one', inplace=False)
index.set_names(names=['one'], inplace=False) # 此处names如果是数组，长度必须是1，也可以直接是一个字符串

Index(['a', 'b', 'c'], dtype='object', name='one')

## 索引的增删改查
按位置添加一行
`Index.insert(loc, value)`
- loc：位置编号
- value：值

In [21]:
index.insert(1,'d')
index # 在位置1处插入一个元素，插入操作不会更改旧数据而会copy一份新数据

Index(['a', 'd', 'b', 'c'], dtype='object', name='name1')

Index(['a', 'b', 'c'], dtype='object', name='name1')

In [22]:
index.append(pd.Index(['one','two'])) # append一个索引
index.append([pd.Index(['one']),pd.Index(['two'])])# append两个索引

Index(['a', 'b', 'c', 'one', 'two'], dtype='object')

Index(['a', 'b', 'c', 'one', 'two'], dtype='object')

In [23]:
# 索引可以重复
index.append(pd.Index(['one','two'])).append([pd.Index(['one']),pd.Index(['two'])])

Index(['a', 'b', 'c', 'one', 'two', 'one', 'two'], dtype='object')

In [24]:
index.copy() # 索引复制

Index(['a', 'b', 'c'], dtype='object', name='name1')

## 设置DataFrame的索引
```
df.set_index(
    keys,
    drop=True,//删除即将用作新索引的列
    append=False,//是否把该列追加到当前索引
    inplace=False,//是否原地修改
    verify_integrity=False,
)
```

In [140]:
df=pd.DataFrame([[1,2],[3,4]],columns=['one','two'],index=['first','second'])

df

Unnamed: 0,one,two
first,1,2
second,3,4


In [57]:
df.set_index('two')# 调用此方法会复制一份新的DataFrame
df.set_index('two',drop=False)
df.set_index('two',append=True) # 每行的索引是两列

Unnamed: 0_level_0,one
two,Unnamed: 1_level_1
2,1
4,3


Unnamed: 0_level_0,one,two
two,Unnamed: 1_level_1,Unnamed: 2_level_1
2,1,2
4,3,4


Unnamed: 0_level_0,Unnamed: 1_level_0,one
Unnamed: 0_level_1,two,Unnamed: 2_level_1
first,2,1
second,4,3


In [59]:
df2=df.set_index('two')
df2.columns
df2.index

Index(['one'], dtype='object')

Int64Index([2, 4], dtype='int64', name='two')

In [50]:
df.set_index?

In [60]:
# df2 是df的另一份，更改df2不会影响df
df2['one'][2]=13
df2
df

Unnamed: 0_level_0,one
two,Unnamed: 1_level_1
2,13
4,3


Unnamed: 0,one,two
first,1,2
second,3,4


In [141]:
# 重置索引
df.reset_index?

```
df.reset_index(
    level: Union[Hashable, Sequence[Hashable], NoneType] = None,
    drop: bool = False,# 对当前索引的处理方式
    inplace: bool = False,
    col_level: Hashable = 0,
    col_fill: Union[Hashable, NoneType] = ''
```

In [146]:
df
df.reset_index(drop = True)
df.reset_index(drop=False)

Unnamed: 0,one,two
first,1,2
second,3,4


Unnamed: 0,one,two
0,1,2
1,3,4


Unnamed: 0,index,one,two
0,first,1,2
1,second,3,4


In [150]:
mid=df.reset_index(drop=False)
mid.reset_index()

Unnamed: 0,level_0,index,one,two
0,0,first,1,2
1,1,second,3,4


# 数据读写
除了直接从内存中创建DataFrame，还可以从硬盘中读取DataFrame。

`pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None,index_col=None, encoding=None ) `
read_csv的参数很多，但这几个参数就够我们使用了：
- filepath_or_buffer：路径和文件名不要带中文，带中文容易报错。
- sep: csv文件数据每列之间的分隔符，默认是','，根据实际情况修改；
- header：如果有列名，那么这一项不用改；
- names：如果没有列名，那么必须设置header = None， names为需要传入的列名列表，不设置默认生成数值索引；
- index_col：list of (int or name)，传入列名的列表或者列名的位置，选取这几列作为索引；
- encoding：根据你的文档编码来确定，如果有中文读取报错，试试encoding = 'gbk'。

`pd.read_excel(io, sheetname=0, header=0, index_col=None, names=None) `
read_excel的参数很多，但这几个参数就够我们使用了：
- header：如果有列名，那么这一项不用改；
- names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
- index_col：索引列。

In [None]:
# 以下代码无法直接运行，了解用法即可
broken_df = pd.read_csv('../data/bikes.csv')
fixed_df = pd.read_csv('../data/bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')
weather_2012.to_csv('../data/weather_2012.csv')
fixed_df[:3]
# 选择一列并plot
fixed_df['Berri 1'].plot()
# 多列同时plot
fixed_df.plot(figsize=(15, 10))

# plot的时候可以获取figure对象
appl_open = apple['Adj Close'].plot(title = "Apple Stock")
fig = appl_open.get_figure()
fig.set_size_inches(13.5, 9)

# 读取mysql
con = sqlite3.connect("../data/weather_2012.sqlite")
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con)
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con, index_col='id')
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con, 
                 index_col=['id', 'date_time'])

# 直接写入到sql中，这个过程会自动触发建表过程
weather_df = pd.read_csv('../data/weather_2012.csv')
con = sqlite3.connect("../data/test_db.sqlite")
con.execute("DROP TABLE IF EXISTS weather_2012")
weather_df.to_sql("weather_2012", con)

# 读csv并添加列名
popcon = pd.read_csv('../data/popularity-contest', sep=' ', )[:-1]
popcon.columns = ['atime', 'ctime', 'package-name', 'mru-program', 'tag']                  

In [None]:
# 从网页上加载数据
url_template = "http://climate.weather.gc.ca/climateData/bulkdata_e.html?format=csv&stationID=5415&Year={year}&Month={month}&timeframe=1&submit=Download+Data"
url = url_template.format(month=3, year=2012)
weather_mar2012 = pd.read_csv(url, skiprows=15, index_col='Date/Time', parse_dates=True, encoding='latin1', header=True)

# 数据处理

## 类似SQL的操作

In [None]:
# 删除包含na的行
weather_mar2012 = weather_mar2012.dropna(axis=1, how='any')
# 删除列
weather_mar2012 = weather_mar2012.drop(['Year', 'Month', 'Day', 'Time', 'Data Quality'], axis=1)
weather_mar2012[:5]

# 把-字符串使用na填充
rows_with_dashes = requests['Incident Zip'].str.contains('-').fillna(False)

na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('../data/311-service-requests.csv', na_values=na_values, dtype={'Incident Zip': str})

print(temperatures.head)
temperatures.loc[:,'Hour'] = weather_mar2012.index.hour
temperatures.groupby('Hour').aggregate(np.median).plot()

# 选择一列
weather_description = weather_2012['Weather']
is_snowing = weather_description.str.contains('Snow')# 这是一个bool值的DataFrame
is_snowing.plot()# 可以直接画出很多条线

# 使用resample重采样，使用apply决定聚合方式
weather_2012['Temp (C)'].resample('M').apply(np.median).plot(kind='bar')
# 使用astype进行类型转换
is_snowing.astype(float).resample('M')
# 使用mean方式进行聚合
is_snowing.astype(float).resample('M').apply(np.mean).plot(kind='bar')

# plot的复杂配置
stats.plot(kind='bar', subplots=True, figsize=(15, 10))


# 找到比较长的字符串
long_zip_codes = requests['Incident Zip'].str.len() > 5
requests['Incident Zip'][long_zip_codes].unique()

# 执行字符串切片
requests['Incident Zip'] = requests['Incident Zip'].str.slice(0, 5)

# 字符串操作+counter
requests['City'].str.upper().value_counts()

# 排序
unique_zips.sort()
requests[is_far][['Incident Zip', 'Descriptor', 'City']].sort('Incident Zip')

# 按照索引排序
apple.sort_index(ascending = True).head()

# 按照某列，逆序排列
nonlibraries.sort('ctime', ascending=False)
# 字符串操作
zips = requests['Incident Zip']
# Let's say the zips starting with '0' and '1' are okay, for now. (this isn't actually true -- 13221 is in Syracuse, and why?)
is_close = zips.str.startswith('0') | zips.str.startswith('1')
# There are a bunch of NaNs, but we're not interested in them right now, so we'll say they're False
is_far = ~(is_close) & zips.notnull()



drinks.groupby('continent').wine_servings.describe()
drinks.groupby('continent').beer_servings.mean()
users.groupby('occupation').age.agg(['min', 'max'])
users.groupby(['occupation', 'gender']).age.mean()
gender_ocup = users.groupby(['occupation', 'gender']).agg({'gender': 'count'})

# create a DataFrame and apply count for each occupation
occup_count = users.groupby(['occupation']).agg('count')

# divide the gender_ocup per the occup_count and multiply per 100
occup_gender = gender_ocup.div(occup_count, level = "occupation") * 100

# present all rows from the 'gender column'
occup_gender.loc[: , 'gender']

# 按照两列进行group，这就涉及到了多个索引列

#Present the mean preTestScores grouped by regiment and company
regiment.groupby(['regiment', 'company']).preTestScore.mean()
# Present the mean preTestScores grouped by regiment and company without heirarchical indexing
regiment.groupby(['regiment', 'company']).preTestScore.mean().unstack()
regiment.groupby(['regiment', 'company']).mean()
regiment.groupby(['company', 'regiment']).size()



# delete the duplicates in item_name and quantity
chipo_filtered = chipo.drop_duplicates(['item_name','quantity','choice_description'])
chipo.query('price_per_item > 10').item_name.nunique()
chipo.item_name.sort_values()
chipo.sort_values(by = "item_name")
chipo.sort_values(by = "item_price", ascending = False).head(1)
chipo_drink_steak_bowl = chipo[(chipo.item_name == "Canned Soda") & (chipo.quantity > 1)]


discipline.sort_values(['Red Cards', 'Yellow Cards'], ascending = False)
euro12.loc[euro12.Team.isin(['England', 'Italy', 'Russia']), ['Team','Shooting Accuracy']]

`value_counts()`
不适合DataFrame，只适用于Series和Index`Series/Index.value_counts(normalize=False, ascending=False, bins=None)`
- normalize：True or False，计算频次或者频率比；
- ascending：True or False，排序方式，默认降序；
- bins：int，pd.cut的一种快捷操作，对连续数值型效果好；

`.count()`
计算统计每一类non-NaN元素个数，这个函数可以快速了解哪些特征或哪些样本缺失比较严重。`DataFrame.count(axis=0)`
- axis: 0-查看列，1-查看行；

In [None]:
"""
select item_name,sum(quantity) from chipo groupby item_name
order by sum(quantity) desc
"""
chipo.loc[:,['item_name','quantity']].groupby('item_name').aggregate(sum).sort_values('quantity',ascending=False)

## 四则运算

In [61]:
# 加法是按照列执行加法，列取并集b
df1 = pd.DataFrame([[1,2],[3,4]], index =['a','b'],columns = ['A','B'])
df2 = pd.DataFrame([[3,4],[5,6]], index =['b','c'],columns = ['B','C'])
df1 + df2

Unnamed: 0,A,B,C
a,,,
b,,7.0,
c,,,


In [62]:
# dataframe+series，按照列对应相加，每列增加的数值是一样的
s1 = pd.Series([1,2], index =['A','B'], name = 'A')
df1 + s1  # +号默认将Series的index与DataFrame的columns对齐，然后以DataFrame的index为index，纵向复制构造一个DataFrame。
# 也即s1被转化成了：
#   A	B
#a	1	2
#b	1	2

Unnamed: 0,A,B
a,2,4
b,4,6


In [40]:
df1.add(s1, axis = 'columns')

Unnamed: 0,A,B
a,2,4
b,4,6


In [41]:
# 按照主键，不同的行加上不同的数字
s2 = pd.Series([1,2], index =['a','B'])
df1.add(s2, axis = 'index') 

Unnamed: 0,A,B
B,,
a,2.0,3.0
b,,


其它运算：-, ×, /, //,%, **  
相应的函数形式：sub(), mul(), div(), floordiv(), mod(), pow()。 这几个操作和+ 以及add()完全相同。  
**补充** divmod()  
divmod()是python内建函数，不是pandas API，其支持Series进行逐元素操作。

## 矩阵运算

In [44]:
# 矩阵乘法必须保证第一个元素的columns与第二个元素的index完全相同
df1 = pd.DataFrame([[1,2],[3,4]], index =['a','b'],columns = ['A','B'])
df2 = pd.DataFrame([[3,4],[5,6]], index =['A','B'],columns = ['a','b'])
df1.dot(df2)

Unnamed: 0,a,b
a,13,16
b,29,36


In [45]:
# 矩阵乘以向量
s1 = pd.Series([1,2], index =['A','B'], name = 'A')
df1.dot(s1)

a     5
b    11
dtype: int64

In [46]:
df1.T

Unnamed: 0,a,b
A,1,3
B,2,4


## 其它运算

In [47]:
df=pd.DataFrame({'one':[-1,2],'two':[-3,-4]})
df.abs()

Unnamed: 0,one,two
0,1,3
1,2,4


df.cumxxx累计运算，从开始到当前数据结束获取一个值。

DataFrame.cumxxx(axis='index')
axis：'index'或'columns'
xxx 可取：max, min, sum, prod

In [48]:
df.cumsum()# 默认沿着index，从上往下
df.cumsum(axis='columns')# 从左往右

Unnamed: 0,one,two
0,-1,-4
1,2,-2


In [49]:
df.clip(-1,1)

Unnamed: 0,one,two
0,-1,-1
1,1,-1


In [50]:
pd.Series([1.111,2.222]).round(2)# 保留两位小数

0    1.11
1    2.22
dtype: float64

`.rank()`
顾名思义，rank次序的意思，也即标示出数值的次序。`DataFrame.rank(axis=0, method='average',  ascending=True, pct=False)`
- axis：0（'index'）-按列方向，1('columns')-按行方向
- method：对于值相同的数怎么标记顺序，
   - 'first'：所有数按照大小排序，如相同按照出现顺序赋次序。
   - 'dense'：值相同为一组，按照组值排序，组内取相同次序，和min不同—min是将相同数用第一
- ascending：True or False，升序还是降序；
- pct：percent，按照百分比显示，将显示的次序除以列、或行元素个数。

In [None]:
df1 = pd.DataFrame(data = [[1,1,2,2],[2,3,2,4]])
df1.rank( axis = 'columns',method = 'min',pct= False) # 注意和下面 dense 对比
df1.rank( axis = 'columns',method = 'dense',pct= False) 
df1.rank( axis = 'columns',method = 'dense',pct= True)  

In [161]:
df=pd.DataFrame([[1,2,3],[4,5,6]])
df
def addone(x):
    return x+1
df.apply(addone)
df[0].apply(addone) # 第一列加1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,0,1,2
0,2,3,4
1,5,6,7


0    2
1    5
Name: 0, dtype: int64

## merge
 `pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort = False)`
concat函数本质上是在所有索引上同时进行对齐合并，而如果想在任意**列**上对齐合并，则需要merge函数，其在sql应用很多。
- left,right： 两个要对齐合并的DataFrame；
- how： 先做笛卡尔积操作，然后按照要求，保留需要的，缺失的数据填充NaN；
   - left: 以左DataFrame为基准，即左侧DataFrame的数据全部保留（不代表完全一致、可能会存在复制），保持原序;
   - right: 以右DataFrame为基准，保持原序;
   - inner: 交，保留左右`DataFrame`在`on`上完全一致的行，保持左`DataFrame`顺序;
   - outer: 并，按照字典顺序重新排序;
- on：对应列名或者行索引的名字，如果要在DataFrame相同的列索引做对齐，用这个参数；
- left_on, right_on, left_index, right_index：
   - on对应列名或者行索引的名字（所以行索引一般要跟列一样看待，有自己的名字），用这俩参数；
   - index对应要使用的index,不建议使用，会搞晕。
- sort: True or False，是否按字典序重新排序。

In [7]:
df1 = pd.DataFrame([[1,2],[3,4]], index = ['a','b'],columns = ['A','B'])
df2 = pd.DataFrame([[1,3],[4,8]], index = ['b','d'],columns = ['B','C'])

In [8]:
pd.merge(left = df1, right = df2, how = 'inner' ,left_index = True, right_index = True)

Unnamed: 0,A,B_x,B_y,C
b,3,4,1,3


In [9]:
# 小区别是concat对重复列没有重命名，但是重名的情况不多，而且重名了说明之前设计就不大合理。
pd.concat([df1,df2], join = 'inner',axis =1)  

Unnamed: 0,A,B,B.1,C
b,3,4,1,3


In [10]:
#对于'B'列：df1的'b'行、df2的'd'行，是相同的，其他都不同。 
pd.merge(left = df1, right = df2, how = 'inner' , on =['B']) 

Unnamed: 0,A,B,C
0,3,4,8


In [11]:
pd.merge(left = df1, right = df2, how = 'left' , on =['B']) 

Unnamed: 0,A,B,C
0,1,2,
1,3,4,8.0


In [12]:
pd.merge(left = df1, right = df2, how = 'right' , on =['B']) 

Unnamed: 0,A,B,C
0,3.0,4,8
1,,1,3


In [14]:
pd.merge?

# DataFrame访问元素
DataFrame的索引只需要记住几句话：
* `df[colName]`表示取列，得到的是一个Series
* `df.loc[indexName,columnName]`参数为index，column
* `df.iloc[]`参数为数字

In [166]:
a = pd.DataFrame(np.random.randint(0,10,(5,5)),columns=list('一二三四五'),index=list('ABCDE'))
a

Unnamed: 0,一,二,三,四,五
A,2,5,1,2,9
B,9,7,4,5,9
C,6,1,8,7,5
D,1,1,9,9,8
E,5,2,3,9,8


In [119]:
# 选择前3行，当使用切片的时候，表示的是行
a[:3]

Unnamed: 0,一,二,三,四,五
A,9,8,9,3,9
B,1,3,5,7,0
C,6,7,0,8,8


In [120]:
# 运行下面语句报错，因为a没有名称为0的列
# a[0]

当使用元素的时候，表示的是列；当使用切片的时候，表示的是行。  
因此DataFrame的下标略微奇怪，使用loc，iloc则可以避免这种模糊的语义。

In [121]:
# 选择一列
a['二']

A    8
B    3
C    7
D    4
E    0
Name: 二, dtype: int64

In [134]:
#像JavaScript一样直接访问列名
a.二

A    8
B    3
C    7
D    4
E    0
Name: 二, dtype: int64

In [122]:
# 选择一列的前2行
a['二'][:2]# 正确
# a['二',:2]# 错误，因为df中括号里面表示列名，发现没有(‘二’,:2)这个列名

A    8
B    3
Name: 二, dtype: int64

In [123]:
#使用先行后列的方式
a[:2]['二']

A    8
B    3
Name: 二, dtype: int64

In [124]:
# 选择多列
a[['二','三']][:2]

Unnamed: 0,二,三
A,8,9
B,3,5


In [83]:
# 使用bool数组访问，这时奇迹再次出现：下标表示的是行。
a[[True,False,True,False,True]]

Unnamed: 0,一,二,三,四,五
A,5,7,9,9,8
C,0,5,0,1,5
E,9,4,6,0,4


In [125]:
# loc的第一个元素表示行
a.loc['A']

一    9
二    8
三    9
四    3
五    9
Name: A, dtype: int64

In [126]:
#loc的第二个元素表示列
a.loc[:,'一']
a.loc[:]['一']

A    9
B    1
C    6
D    1
E    5
Name: 一, dtype: int64

A    9
B    1
C    6
D    1
E    5
Name: 一, dtype: int64

In [91]:
# 美妙的切片
a.loc['A':'C','一':'三']

Unnamed: 0,一,二,三
A,5,7,9
B,4,8,7
C,0,5,0


In [92]:
# 第一行
a.iloc[1]

一    4
二    8
三    7
四    5
五    5
Name: B, dtype: int64

In [93]:
# 第一列
a.iloc[:,1]

A    7
B    8
C    5
D    7
E    4
Name: 二, dtype: int64

In [127]:
# 删除一列，使用del是原地删除，使用a.drop则可以更灵活地控制
# del a['一']
a.drop('一',axis=1)

Unnamed: 0,二,三,四,五
A,8,9,3,9
B,3,5,7,0
C,7,0,8,8
D,4,5,2,9
E,0,5,3,1


In [128]:
# 删除一行
a.drop('A')
a.drop('A',axis=0,inplace=False)

Unnamed: 0,一,二,三,四,五
B,1,3,5,7,0
C,6,7,0,8,8
D,1,4,5,2,9
E,5,0,5,3,1


Unnamed: 0,一,二,三,四,五
B,1,3,5,7,0
C,6,7,0,8,8
D,1,4,5,2,9
E,5,0,5,3,1


In [129]:
a.drop?

In [24]:
# 删除多行
a.drop(['one','two'])
a.drop(['first','second'],axis=1)# 删除多列

one
two


In [130]:
# 删除二三行
a.drop(a.iloc[2:4].index)
# 删除二三列
a.drop(a.iloc[:,2:4].columns,axis=1)

Unnamed: 0,一,二,三,四,五
A,9,8,9,3,9
B,1,3,5,7,0
E,5,0,5,3,1


Unnamed: 0,一,二,五
A,9,8,9
B,1,3,0
C,6,7,8
D,1,4,9
E,5,0,1


In [131]:
a.iloc[:,2:4].columns

Index(['三', '四'], dtype='object')

In [170]:
#使用组合方式
a.iloc[1].loc['三']
a.loc[:,'三'].iloc[1]
a['三'].iloc[1]

4

4

4

# 统计信息

In [None]:
complaint_counts=complaints['Complaint Type'].value_counts()# 得到的结果依旧是一个dataframe
complaint_counts[:10]
complaint_counts[:10].plot(kind='bar')
complaints.describe()


weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)
requests['Incident Zip'].unique()

In [57]:
import numpy as np
df=pd.DataFrame(np.random.randint(0,10,(3,2)))

In [58]:
df

Unnamed: 0,0,1
0,8,2
1,8,3
2,5,2


In [137]:
# 计算每列满足某个条件的个数
df.isnull().sum()
pd.isnull(df).sum()

one    0
two    0
dtype: int64

one    0
two    0
dtype: int64

In [139]:
# 把第一列的na替换为1
df.iloc[:,0].fillna(1,inplace=False)

first     1
second    3
Name: one, dtype: int64

In [None]:
#全表删除
df.dropna(how='any')

In [60]:
df.sum()# 求每列的和

0    21
1     7
dtype: int64

In [62]:
df.sum(axis='columns')# 求每行的和

0    10
1    11
2     7
dtype: int64

In [64]:
# 求每列的统计信息
df.mean()
df.std()
df.var()
df.max()
df.min()
df.median()

0    8.0
1    2.0
dtype: float64

In [78]:
# 求各列的协方差矩阵
df.cov(min_periods=None)# min_periods表示去掉NaN之后，能够参与运算的最少元素个数

Unnamed: 0,0,1
0,3.0,0.5
1,0.5,0.333333


In [79]:
# 求各列的相关系数
df.corr()

Unnamed: 0,0,1
0,1.0,0.5
1,0.5,1.0


`DataFrame.corrwith(other, axis=0, drop=False)`
corr是自身列之间的关系，而这个函数可以对不同的DataFrame进行运算，不要要记得运算发生在**同名列和同索引的行**之间。

- other：另一个DataFrame或Series
- axis：'index'或'columns'
- drop：是否丢掉结果中的NaN

In [64]:
df1 = pd.DataFrame([[1,2],[2,0],[2,3]],index = [0,1,2],columns = ['B','C'])
df=pd.DataFrame({'B':[1,2,3,4]})# 此处df1.B与df.B长度不同，是如何计算的？
df.corrwith(df1)  #只对 同名列 和 同名行 进行计算

B    0.866025
C         NaN
dtype: float64

In [65]:
import numpy as np
np.corrcoef([1,2,3],[1,2,2])# 这表明会取二者中的较短者计算相关系数

array([[1.       , 0.8660254],
       [0.8660254, 1.       ]])

In [66]:
df.describe()

Unnamed: 0,B
count,4.0
mean,2.5
std,1.290994
min,1.0
25%,1.75
50%,2.5
75%,3.25
max,4.0


# 快速了解一个DataFrame
pd和numpy的关系:pandas是numpy的马甲

In [4]:
import pandas as pd
a=pd.DataFrame({
    'one':[1,2,3],
    'two':[4,5,6]
})

  return f(*args, **kwds)


In [6]:
a.describe()

Unnamed: 0,one,two
count,3.0,3.0
mean,2.0,5.0
std,1.0,1.0
min,1.0,4.0
25%,1.5,4.5
50%,2.0,5.0
75%,2.5,5.5
max,3.0,6.0


`DataFrame.info(verbose=None, memory_usage=True, null_counts=True)`
这是DataFrame才可用的API，快捷查看多种信息：总行数和列数、每列元素类型和non-NaN的个数，总内存。

- verbose：True or False，字面意思是冗长的，也就说如何DataFrame有很多列，是否显示所有列的信息，如果为否，那么会省略一部分；
- memory_usage：True or False，默认为True，是否查看DataFrame的内存使用情况；
- null_counts：True or False，默认为True，是否统计NaN值的个数。

In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   B       4 non-null      int64
dtypes: int64(1)
memory usage: 160.0 bytes


In [70]:
a=df
a.ndim,a.shape,a.size,a.dtypes,a.columns,a.index

(2,
 (4, 1),
 4,
 B    int64
 dtype: object,
 Index(['B'], dtype='object'),
 RangeIndex(start=0, stop=4, step=1))

In [71]:
a.head(3)
a.tail(2)

Unnamed: 0,B
2,3
3,4


In [74]:
a.memory_usage(deep=True)# deep表示是否递归查询object类型的全部成员，否则只查看object的指针

Index        128
now            8
yesterday      8
dtype: int64

In [11]:
type(a),type(a['one']),type(a['one'].values),type(a.values)

(pandas.core.frame.DataFrame,
 pandas.core.series.Series,
 numpy.ndarray,
 numpy.ndarray)

In [14]:
b=a.values
b.shape

(3, 2)

# 复制拼接

In [None]:
berri_bikes = bikes[['Berri 1']].copy()
berri_bikes.index
# 如果索引类型是datetime
berri_bikes.index.day
berri_bikes.index.weekday
berri_bikes.loc[:,'weekday'] = berri_bikes.index.weekday
berri_bikes[:5]


# 设置索引
weekday_counts.index = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

# 拼接若干个dataframe
pd.concat(data_by_month)

# 水平拼接
stats = pd.concat([temperature, snowiness], axis=1)

# 日期时间

In [16]:
from time import time
a=pd.DataFrame({
    'now':[time()],
    'yesterday':[time()-24*3600],
})
a['now'].astype(int)

0    1603207591
Name: now, dtype: int64

In [18]:
# 这么操作会有时差
pd.to_datetime(a['now'],unit='s')

0   2020-10-20 15:26:31.333647966
Name: now, dtype: datetime64[ns]

# Category类型：枚举类型
类别类型可谓是非常常用的一种类型，其具有如下特征：

1. 取固定几种值；
2. 可以定义序，序的形式与实数序或字典序可以都不同；
3. 即使是数值表示，数值运算可能也无意义，与离散数值型不一定相同。

# 画图
pandas的绘图是基于Matplotlib的。seaborn则基于DataFrame提供了更简洁的画图方式。  
## 散点图

In [None]:
# then groupby the orders and sum
orders = chipo.groupby('order_id').sum()

# creates the scatterplot
# plt.scatter(orders.quantity, orders.item_price, s = 50, c = 'green')
plt.scatter(x = orders.item_price, y = orders.quantity, s = 50, c = 'green')

# Set the title and labels
plt.xlabel('Order Price')
plt.ylabel('Items ordered')
plt.title('Number of items ordered per order price')
plt.ylim(0)

## 柱状图


In [None]:
# use the Counter class from collections to create a dictionary with keys(text) and frequency
letter_counts = Counter(x)

# convert the dictionary to a DataFrame
df = pd.DataFrame.from_dict(letter_counts, orient='index')

# sort the values from the top to the least value and slice the first 5 items
df = df[0].sort_values(ascending = True)[45:50]

# create the plot
df.plot(kind='bar')

# Set the title and labels
plt.xlabel('Items')
plt.ylabel('Number of Times Ordered')
plt.title('Most ordered Chipotle\'s Items')

# show the plot
plt.show()

# 探索全部
* 知识不必远求，dir，help等命令足以了解全部
* 人缺的不是学习资料，而是缺少学习的心境
* 知识是学不完的，只需要掌握经常使用的部分即可
* 随着学习的深入，知识的增长速度趋于缓慢，完全掌握一个库是没必要的、不划算的。与其增加知识的深度，不如增加知识的广度。
* pandas是非常高层的库，它基于numpy、matplotlib等库，掌握这两个库比掌握pandas更重要。学习一些原子操作，随意组合之。

In [3]:
# 索引的全部属性
' '.join([i for i in dir(pd.Index) if not i.startswith('_')])

'T all any append argmax argmin argsort array asi8 asof asof_locs astype copy delete difference drop drop_duplicates droplevel dropna dtype duplicated empty equals factorize fillna format get_indexer get_indexer_for get_indexer_non_unique get_level_values get_loc get_slice_bound get_value groupby has_duplicates hasnans holds_integer identical inferred_type insert intersection is_ is_all_dates is_boolean is_categorical is_floating is_integer is_interval is_mixed is_monotonic is_monotonic_decreasing is_monotonic_increasing is_numeric is_object is_type_compatible is_unique isin isna isnull item join map max memory_usage min name names nbytes ndim nlevels notna notnull nunique putmask ravel reindex rename repeat searchsorted set_names set_value shape shift size slice_indexer slice_locs sort sort_values sortlevel str symmetric_difference take to_flat_index to_frame to_list to_native_types to_numpy to_series tolist transpose union unique value_counts values view where'

In [4]:
' '.join([i for i in dir(pd.Series) if not i.startswith('_')])

'T abs add add_prefix add_suffix agg aggregate align all any append apply argmax argmin argsort array asfreq asof astype at at_time attrs autocorr axes between between_time bfill bool cat clip combine combine_first convert_dtypes copy corr count cov cummax cummin cumprod cumsum describe diff div divide divmod dot drop drop_duplicates droplevel dropna dt dtype dtypes duplicated empty eq equals ewm expanding explode factorize ffill fillna filter first first_valid_index floordiv ge get groupby gt hasnans head hist iat idxmax idxmin iloc index infer_objects interpolate is_monotonic is_monotonic_decreasing is_monotonic_increasing is_unique isin isna isnull item items iteritems keys kurt kurtosis last last_valid_index le loc lt mad map mask max mean median memory_usage min mod mode mul multiply name nbytes ndim ne nlargest notna notnull nsmallest nunique pct_change pipe plot pop pow prod product quantile radd rank ravel rdiv rdivmod reindex reindex_like rename rename_axis reorder_levels repe

In [5]:
' '.join([i for i in dir(pd.DataFrame) if not i.startswith('_')])

'T abs add add_prefix add_suffix agg aggregate align all any append apply applymap asfreq asof assign astype at at_time attrs axes between_time bfill bool boxplot clip columns combine combine_first convert_dtypes copy corr corrwith count cov cummax cummin cumprod cumsum describe diff div divide dot drop drop_duplicates droplevel dropna dtypes duplicated empty eq equals eval ewm expanding explode ffill fillna filter first first_valid_index floordiv from_dict from_records ge get groupby gt head hist iat idxmax idxmin iloc index infer_objects info insert interpolate isin isna isnull items iteritems iterrows itertuples join keys kurt kurtosis last last_valid_index le loc lookup lt mad mask max mean median melt memory_usage merge min mod mode mul multiply ndim ne nlargest notna notnull nsmallest nunique pct_change pipe pivot pivot_table plot pop pow prod product quantile query radd rank rdiv reindex reindex_like rename rename_axis reorder_levels replace resample reset_index rfloordiv rmod r

In [135]:
# pandas的类和函数
' '.join([i for i in dir(pd) if not i.startswith('_')])

'BooleanDtype Categorical CategoricalDtype CategoricalIndex DataFrame DateOffset DatetimeIndex DatetimeTZDtype ExcelFile ExcelWriter Float64Index Grouper HDFStore Index IndexSlice Int16Dtype Int32Dtype Int64Dtype Int64Index Int8Dtype Interval IntervalDtype IntervalIndex MultiIndex NA NaT NamedAgg Period PeriodDtype PeriodIndex RangeIndex Series SparseDtype StringDtype Timedelta TimedeltaIndex Timestamp UInt16Dtype UInt32Dtype UInt64Dtype UInt64Index UInt8Dtype api array arrays bdate_range compat concat core crosstab cut date_range describe_option errors eval factorize get_dummies get_option infer_freq interval_range io isna isnull json_normalize lreshape melt merge merge_asof merge_ordered notna notnull offsets option_context options pandas period_range pivot pivot_table plotting qcut read_clipboard read_csv read_excel read_feather read_fwf read_gbq read_hdf read_html read_json read_orc read_parquet read_pickle read_sas read_spss read_sql read_sql_query read_sql_table read_stata read_t

In [63]:
# 学习numpy
' '.join([i for i in dir(np) if not i.startswith('_')])

