## Pandas数据结构：5种Dataframe创建方式

1.由列表组成的字典创建，一般形式：data = {key1:[列表数据1]，key2:[列表数据2]}，pd.DataFrame(data,index = )<br>
2.由Series组成的字典创建，一般形式：data = {key1:pd.Series(s1,index=[ ])，key2:pd.Series(s2,index=[ ])}，pd.DataFrame(data)<br>
3.通过二维数组直接创建，一般形式：data = np.random.randint().reshape/np.array([]).reshape()，pd.DataFrame(data,index=,columns=[])<br>
4.由字典组成的列表创建，一行字典，对应的是一行数据，pd.DataFrame(data,index=)<br>
5.由字典组成的字典，pd.DataFrame(data,index=,columns=[])<br>
参考： https://zhuanlan.zhihu.com/p/37856914

## pandas读取文件

| Format Type 	| Data Description     	| Reader         	| Writer       	|
|:-------------	|:----------------------	|:----------------	|:--------------	|
| text        	| CSV                  	| read_csv       	| to_csv       	|
| text        	| JSON                 	| read_json      	| to_json      	|
| text        	| HTML                 	| read_html      	| to_html      	|
| text        	| Local clipboard      	| read_clipboard 	| to_clipboard 	|
| binary      	| MS Excel             	| read_excel     	| to_excel     	|
| binary      	| OpenDocument         	| read_excel     	|              	|
| binary      	| HDF5 Format          	| read_hdf       	| to_hdf       	|
| binary      	| Feather Format       	| read_feather   	| to_feather   	|
| binary      	| Parquet Format       	| read_parquet   	| to_parquet   	|
| binary      	| Msgpack              	| read_msgpack   	| to_msgpack   	|
| binary      	| Stata                	| read_stata     	| to_stata     	|
| binary      	| SAS                  	| read_sas       	|              	|
| binary      	| Python Pickle Format 	| read_pickle    	| to_pickle    	|
| SQL         	| SQL                  	| read_sql       	| to_sql       	|
| SQL         	| Google Big Query     	| read_gbq       	| to_gbq       	|

pandas.read_csv(filepath, sep=',', header=0, skiprow=0, usecols=None, index_col=None, names=None)

| Parameters 	| Introduction                                                                                                                              	|
|:------------	|:-------------------------------------------------------------------------------------------------------------------------------------------	|
| sep        	| 指定分隔符。如果不指定参数，则会尝试使用逗号分隔。                                                                                        	|
| header     	| 指定第几行作为列名(忽略注解行)，如果没有指定列名，默认header=0，即第0行; 如果指定了列名header=None，则以位置标为列名。                    	|
| skiprows   	| 忽略某几行或者从开始算起的几行，default=0                                                                                                 	|
| usecols    	| 选取指定的列。默认None，可以使用列序列也可以使用列名                                                                                      	|
| index_col  	| 选取指定的列作为行索引，如果给定一个序列则有多个行索引。                                                                                  	|
| names      	| 相当于给表加列名，此时header默认为None，若names列表提供的元素个数n少于表中列数m，则提供的元素被设置为后n列的列名，而表的前m-n列被作为索引 	|

## pandas中DataFrame数据合并连接(merge, join, concat)
https://blog.csdn.net/qq_41853758/article/details/83280104
### pd.concat()
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False)<br>
objs：series，dataframe或者是panel构成的序列lsit<br>
axis：需要合并链接的轴，0是行，1是列 <br>
join：连接的方式inner，或者outer<br>
(练习：pandas_exercise/05_Merge/Fictitous Names)

## 删除某行或某列
df1.drop(['列名'],axis=1)  删除整列<br>
df1.drop(columns=['列名'])  删除整列<br>
df.drop([0,1])  删除索引为0、1的整行

## pandas索引和选择数据

pandas中有三种索引方法：.loc，.iloc和[]
.loc和.iloc只输入一维时选取的是行，而[]选取的是列，并且必须使用列名

In [5]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(5,15,(6,4)),index = list('abcdef'),columns=['One','Two','Three','Four'])
df

Unnamed: 0,One,Two,Three,Four
a,6,7,5,9
b,7,8,8,9
c,14,6,12,12
d,12,6,6,7
e,12,6,12,12
f,11,7,8,10


In [6]:
df.loc['a':'c','Two']

a    7
b    8
c    6
Name: Two, dtype: int64

In [7]:
df.iloc[[5, 1]]

Unnamed: 0,One,Two,Three,Four
f,11,7,8,10
b,7,8,8,9


In [8]:
df[['Two', 'One']]

Unnamed: 0,Two,One
a,7,6
b,8,7
c,6,14
d,6,12
e,6,12
f,7,11


In [9]:
df[df.One > 10]

Unnamed: 0,One,Two,Three,Four
c,14,6,12,12
d,12,6,6,7
e,12,6,12,12
f,11,7,8,10


In [12]:
df.loc[df.One > 10]

Unnamed: 0,One,Two,Three,Four
c,14,6,12,12
d,12,6,6,7
e,12,6,12,12
f,11,7,8,10


In [13]:
df[(df.One > 5) & (df.Three > 10)]

Unnamed: 0,One,Two,Three,Four
c,14,6,12,12
e,12,6,12,12


## isin函数 （条件前加~表示isin的逆函数）

1. 返回含有具体条件的dataframe, 如返回'One'列中含有 [10,11] 的dataframe( 用逆函数对筛选后的结果取余，起删除指定行作用 )

In [14]:
df[df['One'].isin([11,12])]

Unnamed: 0,One,Two,Three,Four
d,12,6,6,7
e,12,6,12,12
f,11,7,8,10


In [15]:
df[~df['One'].isin([11,12])]

Unnamed: 0,One,Two,Three,Four
a,6,7,5,9
b,7,8,8,9
c,14,6,12,12


2. 返回含有多个条件的dataframe, 如返回'One'列中含有11, 'Two'列中含有7的dataframe

In [16]:
df[df['One'].isin([11]) & df['Two'].isin([7])]

Unnamed: 0,One,Two,Three,Four
f,11,7,8,10


In [21]:
df[~(df['One'].isin([11]) & df['Two'].isin([7]))]

Unnamed: 0,One,Two,Three,Four
a,6,7,5,9
b,7,8,8,9
c,14,6,12,12
d,12,6,6,7
e,12,6,12,12


3. 返回含有条件所在行的行号（Index）

In [23]:
list(df[df['One'].isin([12])].index)

['d', 'e']

## set_index()

set_index( ) 将 DataFrame 中的列转化为行索引。可设置参数drop=False来保留原来的列

In [8]:
df.set_index('Three')

Unnamed: 0_level_0,One,Two,Four
Three,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,7,10,6
9,6,7,12
13,11,10,14
7,13,14,11
11,14,11,5
9,8,13,6


In [9]:
df.set_index('Three',drop=False)

Unnamed: 0_level_0,One,Two,Three,Four
Three,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5,7,10,5,6
9,6,7,9,12
13,11,10,13,14
7,13,14,7,11
11,14,11,11,5
9,8,13,9,6


## .describe() 查看该份数据的描述统计

In [3]:
df.describe()

Unnamed: 0,One,Two,Three,Four
count,6.0,6.0,6.0,6.0
mean,9.666667,9.166667,8.833333,8.166667
std,2.503331,2.562551,3.188521,2.228602
min,7.0,7.0,5.0,5.0
25%,8.25,7.0,7.25,7.0
50%,9.0,8.5,8.0,8.0
75%,10.5,10.75,10.25,9.75
max,14.0,13.0,14.0,11.0


## 处理缺失值
### 删除含缺失值的样本

In [None]:
df.isnull()  #是缺失值返回True，否则范围False
df.isnull().sum()  #返回每列包含的缺失值的个数
df.dropna()  #直接删除含有缺失值的行
df.dropna(axis=1)  #直接删除含有缺失值的列
df.dropna(how='all')  #只删除全是缺失值的行
df.dropna(thresh=4)  #保留至少有4个缺失值的行
df.dropna(subset=['C'])  #删除含有缺失值的特定的列

### 填充缺失值 fillna()

In [None]:
df.fillna(0)  #用0填充
df.fillna(method='pad')  #用前一个数值填充
df.fillna(df2.mean())  #用该列均值填充

## df.drop_duplicates() 处理重复值
df.drop_duplicates(subset=None, keep='first', inplace=False)

| Parameters 	| Description                                                                                                                                                           	|
|:------------	|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------	|
| subset     	| 列名，可选，默认为None                                                                                                                                                	|
| inplace    	| 为布尔值，默认为False，是否直接在原数据上删除重复项或删除重复项后返回副本。<br>（inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。） 	|
| keep       	| {‘first’, ‘last’, False}, 默认值 ‘first’<br>①first：保留第一次出现的重复行，删除后面的重复行；<br>②last： 删除重复项，除了最后一次出现；<br>③False：删除所有重复项。  	|

## rolling() 计算移动平均

In [17]:
df['ave'] = df['Four'].rolling(window=3).mean()
df

Unnamed: 0,One,Two,Three,Four,ave
a,13,10,14,12,
b,11,6,7,9,
c,7,6,5,9,10.0
d,11,12,13,9,9.0
e,10,5,9,8,8.666667
f,11,8,5,12,9.666667


## value_counts()计数函数
value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)<br>
返回值类型是series<br>
`df['column name'].value_counts()`

| Parameters 	| Introduction                                                                             	|
|:------------	|:------------------------------------------------------------------------------------------	|
| normalize  	| boolean, default False，如为true，则以百分比的形式显示                        	|
| sort       	| boolean, default True，会对结果进行排序，如果为True，则与原表格顺序相同                                       	|
| ascending  	| boolean, default False，默认降序排序                                                     	|
| bins       	| integer, 格式(bins=1)，意义不是执行计算，而是把它们分成半开放的数据集合，只适用于数字数据 	|
| dropna     	| boolean, default True　默认删除NaN值                                                      	|

## df.sort_values()
`DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')`

| Parameters  	| Description                                                                                                  	|
|:-------------	|:--------------------------------------------------------------------------------------------------------------	|
| by          	| 指定列名(axis=0或'index')或索引值(axis=1或'columns')                                                         	|
| axis        	| 若axis=0或'index'，则按照指定列中数据大小排序；若axis=1或'columns'，则按照指定索引中数据大小排序，默认axis=0 	|
| ascending   	| 是否按指定列的数组升序排列，默认为True，即升序排列                                                           	|
| inplace     	| 是否用排序后的数据集替换原來的数据，默认为False，即不替换                                                    	|
| na_position 	| {'first','last'}，设定缺失值的显示位置                                                                       	|

## pd.to_datetime()处理时间序列
`pandas.to_datetime(arg，errors ='raise'，utc = None，format = None，unit = None)`

| Parameters 	| Description                                                                                                                                               	|
| :------------	|:-----------------------------------------------------------------------------------------------------------------------------------------------------------	|
| errors     	| 三种取值，'ignore','raise','coerce'，默认为raise.<br>'raise'，无效的解析将引发异常<br>'coerce'，无效解析将被设置为NaT<br>'ignore'，无效的解析将返回输入值 	|
| utc        	| 布尔值，默认为None，返回utc即协调世界时                                                                                                                   	|
| format     	| 格式化显示时间的格式                                                                                                                                      	|
| unit       	| 默认值为'ns'，则将会精确到微秒，'s'为秒                                                                                                                   	|

## df.resample() 时间聚合

| Parameters  	| Introduction                                                                                                                                                                                              	|
|:-------------	|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------	|
| rule        	|  表示目标转换的偏移字符串或对象，一般是时间参数，比如“M”，“A”，“Q”，“BM”，“BA”，“BQ”和“W”；                                                                                                               	|
| axis        	|  int, optional, default 0                                                                                                                                                                                 	|
| closed      	|  {‘right’,   ‘left’}；间隔的哪一侧是关闭的，对于除“M”，“A”，“Q”，“BM”，“BA”，“BQ”和“W”之外的所有频率偏移，默认值为“左”，其默认值均为“右”                                                                  	|
| label       	|  {‘right’,   ‘left’}；用于标记bins，间隔的哪一侧是关闭的，对于除“M”，“A”，“Q”，“BM”，“BA”，“BQ”和“W”之外的所有频率偏移，默认值为“左”，其默认值均为“右”                                                    	|
| convention  	|  {‘start’, ‘end’, ‘s’, ‘e’}：For   PeriodIndex only, controls whether to use the start or end of rule                                                                                                     	|
| kind        	|  {‘timestamp’, ‘period’},   optional；Pass ‘timestamp’ to convert the resulting index to a DateTimeIndex   or ‘period’ to convert it to a PeriodIndex. By default the input   representation is retained. 	|
| loffset     	|  调整重新采样的时间标签                                                                                                                                                                                   	|
| on          	|  对于DataFrame，要使用的列而不是索引进行重新采样。列必须与日期时间相似的数据。                                                                                                                            	|

| Date Offset                              	| Frequency String 	| Description                                           	|
|:------------------------------------------	|:------------------	|:-------------------------------------------------------	|
| DateOffset                               	| None             	| Generic offset class, defaults to 1 calendar day      	|
| BDay or BusinessDay                      	| 'B'              	| business day (weekday)                                	|
| CDay or CustomBusinessDay                	| 'C'              	| custom business day                                   	|
| Week                                     	| 'W'              	| one week, optionally anchored on a day of the week    	|
| WeekOfMonth                              	| 'WOM'            	| the x-th day of the y-th week of each month           	|
| LastWeekOfMonth                          	| 'LWOM'           	| the x-th day of the last week of each month           	|
| MonthEnd                                 	| 'M'              	| calendar month end                                    	|
| MonthBegin                               	| 'MS'             	| calendar month begin                                  	|
| BMonthEnd or BusinessMonthEnd            	| 'BM'             	| business month end                                    	|
| BMonthBegin or BusinessMonthBegin        	| 'BMS'            	| business month begin                                  	|
| CBMonthEnd or CustomBusinessMonthEnd     	| 'CBM'            	| custom business month end                             	|
| CBMonthBegin or CustomBusinessMonthBegin 	| 'CBMS'           	| custom business month begin                           	|
| SemiMonthEnd                             	| 'SM'             	| 15th (or other day_of_month) and calendar month end   	|
| SemiMonthBegin                           	| 'SMS'            	| 15th (or other day_of_month) and calendar month begin 	|
| QuarterEnd                               	| 'Q'              	| calendar quarter end                                  	|
| QuarterBegin                             	| 'QS'             	| calendar quarter begin                                	|
| BQuarterEnd                              	| 'BQ              	| business quarter end                                  	|
| BQuarterBegin                            	| 'BQS'            	| business quarter begin                                	|
| FY5253Quarter                            	| 'REQ'            	| retail (aka 52-53 week) quarter                       	|
| YearEnd                                  	| 'A'              	| calendar year end                                     	|
| YearBegin                                	| 'AS' or 'BYS'    	| calendar year begin                                   	|
| BYearEnd                                 	| 'BA'             	| business year end                                     	|
| BYearBegin                               	| 'BAS'            	| business year begin                                   	|
| FY5253                                   	| 'RE'             	| retail (aka 52-53 week) year                          	|
| Easter                                   	| None             	| Easter holiday                                        	|
| BusinessHour                             	| 'BH'             	| business hour                                         	|
| CustomBusinessHour                       	| 'CBH'            	| custom business hour                                  	|
| Day                                      	| 'D'              	| one absolute day                                      	|
| Hour                                     	| 'H'              	| one hour                                              	|
| Minute                                   	| 'T' or 'min'     	| one minute                                            	|
| Second                                   	| 'S'              	| one second                                            	|
| Milli                                    	| 'L' or 'ms'      	| one millisecond                                       	|
| Micro                                    	| 'U' or 'us'      	| one microsecond                                       	|
| Nano                                     	| 'N'              	| one nanosecond                                        	|