# Pandas常用函数
### 读取数据 
函数|说明
:---|:---  
pd.read_csv(filename)|读取 CSV 文件；  
pd.read_excel(filename)|读取 Excel 文件；  
pd.read_sql(query, connection_object)|从 SQL 数据库读取数据；  
pd.read_json(json_string)|从 JSON 字符串中读取数据；  
pd.read_html(url)| 	从 HTML 页面中读取数据。  
### 查看数据
函数|说明  
:---|:---
df.head(n)|显示前 n 行数据；  
df.tail(n)|显示后 n 行数据；  
df.info()|	显示数据的信息，包括列名、数据类型、缺失值等；
df.describe()|显示数据的基本统计信息，包括均值、方差、最大值、最小值等；  
df.shape|显示数据的行数和列数。 
### 数据清洗  
函数|说明  
:---|:---
df.dropna()|删除包含缺失值的行或列；  
df.fillna(value)|将缺失值替换为指定的值；  
df.replace(old_value, new_value)|将指定值替换为新值；  
df.duplicated()|检查是否有重复的数据；  
df.drop_duplicates()|删除重复的数据。  
### 数据选择和切片
函数|说明
:---|:---
df[column_name]|选择指定的列；  
df.loc[row_index, column_name]|通过标签选择数据；  
df.iloc[row_index, column_index]|通过位置选择数据；  
df.ix[row_index, column_name]|通过标签或位置选择数据；  
df.filter(items=[column_name1, column_name2])|选择指定的列；  
df.filter(regex='regex')|选择列名匹配正则表达式的列  
df.sample(n)|随机选择 n 行数据。
### 数据排序 
函数|说明  
:---|:---  
df.sort_values(column_name)|按照指定列的值排序；  
df.sort_values([column_name1, column_name2], ascending=[True, False])|按照多个列的值排序；  
df.sort_index()|按照索引排序。

### 数据分组和聚合  
函数|说明
:---|:---
df.groupby(column_name)|按照指定列进行分组；  
df.aggregate(function_name)|对分组后的数据进行聚合操作；  
df.pivot_table(values, index, columns, aggfunc)|	生成透视表。

### 数据合并  
函数|说明  
:---|:---  
pd.concat([df1, df2])|将多个数据框按照行或列进行合并；
pd.merge(df1, df2, on=column_name)|按照指定列将两个数据框进行合并。

### 数据选择和过滤
函数|说明  
:---|:--- 
df.loc[row_indexer, column_indexer]|按标签选择行和列。  
df.iloc[row_indexer, column_indexer]|按位置选择行和列。  
df[df['column_name'] > value]|选择列中满足条件的行。  
df.query('column_name > value')	|使用字符串表达式选择列中满足条件的行。

### 数据统计和描述
函数|说明
:---|:---
df.describe()|计算基本统计信息，如均值、标准差、最小值、最大值等。  
df.mean()|计算每列的平均值。  
df.median()|计算每列的中位数。  
df.mode()|计算每列的众数。  
df.count()|计算每列非缺失值的数量。

# pandas-seriers
pandas.Series( data, index, dtype, name, copy)**特指一维向量应该？** 
* data：一组数据(ndarray 类型)。 列表，字典，numpy数组 
* index：数据索引标签，如果不指定，默认从 0 开始。  
* dtype：数据类型，默认会自己判断。  
* name：设置名称。  
* copy：拷贝数据，默认为 False。  
![image](https://medium.com/epfl-extension-school/selecting-data-from-a-pandas-dataframe-53917dc39953)

In [6]:
import pandas as pd
a = [1, 2, 3]
myvar = pd.Series(a,index=["x", "y", "z"])
myvar

x    1
y    2
z    3
dtype: int64

In [9]:
##字典
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar = pd.Series(sites,index=[1,2],name='run')
print(myvar)

1    Google
2    Runoob
Name: run, dtype: object


## Pandas数据结构-DataFrame
pandas.DataFrame( data, index, columns, dtype, copy) **series中的name->columns**  
* data：一组数据(ndarray、series, map, lists, dict 等类型)。  
* index：索引值，或者可以称为行标签。  
* columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。  
* dtype：数据类型。  
* copy：拷贝数据，默认为 False。

In [11]:
import pandas as pd
data = [['Google',10],['Runoob',12],['Wiki',13]]   #使用列表创建
df = pd.DataFrame(data,columns=['Site','Age'])
print(df)

     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


In [12]:
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]} #使用字典创建
df = pd.DataFrame(data)
print (df)

     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


### 索引  
loc[i]返回第i行  **返回结果其实就是一个 Pandas Series 数据。**  
i可为列表，index名称  
df.loc[[0, 1]]，df.loc["day2"]

In [15]:
print(df.loc[0]),print(df.loc[1]),print(df.loc[[0, 1]])

Site    Google
Age         10
Name: 0, dtype: object
Site    Runoob
Age         12
Name: 1, dtype: object
     Site  Age
0  Google   10
1  Runoob   12


(None, None, None)

# Pandas CSV文件  
读取pd.read_csv(r'F:\practice_data\nba.csv')  
存储df.to_csv('site.csv')


In [19]:
"""读取csv""" 
import pandas as pd
df = pd.read_csv(r'F:\practice_data\nba.csv')
print(df)    #trick df.to_string() 如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替

              Name            Team  Number Position   Age Height  Weight  \
0    Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1      Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2     John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3      R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4    Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   
..             ...             ...     ...      ...   ...    ...     ...   
453   Shelvin Mack       Utah Jazz     8.0       PG  26.0    6-3   203.0   
454      Raul Neto       Utah Jazz    25.0       PG  24.0    6-1   179.0   
455   Tibor Pleiss       Utah Jazz    21.0        C  26.0    7-3   256.0   
456    Jeff Withey       Utah Jazz    24.0        C  26.0    7-0   231.0   
457            NaN             NaN     NaN      NaN   NaN    NaN     NaN   

               College     Salary  
0                Texas  7730337.0  
1            Ma

df.head() 读取前n行
df.tail() 读取末n行
df.info() 返回表格基本信息