# 安装Pandas

In [30]:
import numpy as np
import pandas as pd


# 什么是Series？
Series是pandas中最重要的数据结构，它是带有标签的一维数组。
多个Series组成DataFrame。

In [31]:
se1 = pd.Series(data=[10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'], name='age', dtype=np.uint8)
print(se1)

a    10
b    20
c    30
d    40
e    50
Name: age, dtype: uint8


# Series如何索引？

In [32]:
## 整数索引，使用[整数] 或者 iloc[整数]
s1 = se1[3]
print(s1)
s1 = se1.iloc[4]
print(s1)

40
50


  s1 = se1[3]


In [33]:
## 标签索引，使用[标签] 或者 loc[标签]
s1 = se1['e']
print(s1)
s1 = se1.loc['e']
print(s1)

## 布尔索引

50
50


# Series如何切片？

In [34]:
# 位置索引，是左闭有开区间
print(se1.iloc[1:3])
print(se1[1:3])

b    20
c    30
Name: age, dtype: uint8
b    20
c    30
Name: age, dtype: uint8


In [35]:
# 标签索引，左右都是闭区间
print(se1['a':'e'])
print(se1.loc['a':'e'])

a    10
b    20
c    30
d    40
e    50
Name: age, dtype: uint8
a    10
b    20
c    30
d    40
e    50
Name: age, dtype: uint8


#  Series有哪些属性？

In [36]:
# Series有以下几个属性：
# 1. values：Series的值
# 2. index：Series的索引
# 3. dtype：Series的值的数据类型
# 4. size：Series的长度
# 5. ndim：Series的维度
# 6. T：Series的转置
# 7. shape：Series的形状

# Series如何转换为DataFrame？

In [37]:
# 使用pd.DataFrame()
df1 = pd.DataFrame(se1, columns=['age'])
print(df1)

# 使用to_frame()
print(se1.to_frame())

   age
a   10
b   20
c   30
d   40
e   50
   age
a   10
b   20
c   30
d   40
e   50


# 如何创建DataFrame？

In [45]:
# 使用dict 创建
data = {
    'Name': ['Tom', 'Jack', 'Jerry'],
    "Age": [20, 30, 40],
    'City': ['Boston', 'New York', 'Washington']
}
df1 = pd.DataFrame(data)
print(df1)

# 使用 二维list或者tuple 创建
data = [
    ['Tom', 'Jack', 'Jerry'],
    [20, 30, 40],
    ['Boston', 'New York', 'Washington']
]
df2 = pd.DataFrame(data, columns=['Name', 'Age', ' City'])
print(df2)

# 从numpy数组创建
df3 = pd.DataFrame(data=np.random.randint(0, 151, size=(500, 3)), columns=['Python', 'Java', 'JavaScript'],
                   dtype=np.uint8)
print(df3)

    Name  Age        City
0    Tom   20      Boston
1   Jack   30    New York
2  Jerry   40  Washington
     Name       Age        City
0     Tom      Jack       Jerry
1      20        30          40
2  Boston  New York  Washington
     Python  Java  JavaScript
0        43     4         126
1        42   117         115
2        61    55         109
3       145     9           6
4        53   146         144
..      ...   ...         ...
495      55    66           2
496      12    78          92
497       1    42         145
498      10    94         123
499      21   137          83

[500 rows x 3 columns]


# Pandas如何读写文件？

In [None]:
# df.to_csv('文件名.csv', sep='分隔符', index=False)
# df.to_excel()
# df.to_json()

# Excel中写入多个表单？
```
# 创建多个DataFrame，创建一个ExcelWriter对象，使用to_excel()方法
```

# 如何创建多层索引？

In [46]:
# 使用pd.MultiIndex.from_tuples
index = pd.MultiIndex.from_tuples(tuples=[('桌子', '红色'), ('桌子', '绿色'), ('椅子', '红色'), ('椅子', '绿色')],
                                  names=['物品', '颜色'])
data = {
    '一月': [20, 30, 40, 50],
    '二月': [210, 310, 410, 510],
    '三月': [120, 130, 140, 150],
}
df3 = pd.DataFrame(data=data, index=index)
print(df3)

# 使用pd.MultiIndex.from_arrays
# 使用pd.MultiIndex.from_product

       一月   二月   三月
物品 颜色              
桌子 红色  20  210  120
   绿色  30  310  130
椅子 红色  40  410  140
   绿色  50  510  150


# 读写多层索引？

# melt、pivot进行数据重塑
包括转置、行列转换、以及使用melt和pivot函数进行数据转换

In [58]:
# 转置.T
# print(df1.T)

# 使用melt 列变行，宽表转长表
df4 = pd.DataFrame({
    'Name': ['Tom', 'Jack', 'Jerry', 'Mary', 'Lisi'],
    'Math': [30, 40, 50, 60, 70],
    'Chinese': [20, 30, 40, 50, 60],
    'English': [40, 40, 50, 60, 70],
})
print(df4)
df5 = df4.melt(id_vars='Name', value_name='score', var_name='subject')
print(df5)

# 使用pivot 行变列，长表转宽表
df6 = df5.pivot(index='Name', columns='subject', values='score')
print(df6)
print(df6.shape)

# 13 如何使用groupby函数进行分组
# 14 如何使用pivot_table函数进行数据重塑
# 15 如何使用merge函数进行数据合并
# 16 如何使用crosstab函数进行数据交叉
# 17 如何使用qcut函数进行数据分箱
# 18 如何使用cut函数进行数据分箱

    Name  Math  Chinese  English
0    Tom    30       20       40
1   Jack    40       30       40
2  Jerry    50       40       50
3   Mary    60       50       60
4   Lisi    70       60       70
     Name  subject  score
0     Tom     Math     30
1    Jack     Math     40
2   Jerry     Math     50
3    Mary     Math     60
4    Lisi     Math     70
5     Tom  Chinese     20
6    Jack  Chinese     30
7   Jerry  Chinese     40
8    Mary  Chinese     50
9    Lisi  Chinese     60
10    Tom  English     40
11   Jack  English     40
12  Jerry  English     50
13   Mary  English     60
14   Lisi  English     70
subject  Chinese  English  Math
Name                           
Jack          30       40    40
Jerry         40       50    50
Lisi          60       70    70
Mary          50       60    60
Tom           20       40    30
(5, 3)


# stack、unstack实现多层索引的行列转换

# concat实现数据合并

In [None]:
# concat 可以实现行或者列合并， 
# pd.concat([df1, df2])   行合并，行更多

# df.reset_index(drop=True)  行合并之后，index不对。reset指的是原来的index删除，使用新的index替代

# pd.concat([df1, df2], axis=1)  列合并，列更多


# merge实现数据融合
将2个DataFrame根据共同的列进行数据融合。类似于SQL中的join

In [None]:
# pd.merge([df1, df2], on='id')
# pd.merge([df1, df2], left_on='ID', right_on='sid')    # 两个df的列名不同，左右分别指定
# pd.merge([df1, df2], on='id', how='inner')    # 表连接方式，inner、left、right、outer、cross等
# pd.merge(..., left_index=True, right_index=True)

# 使用join进行数据连接

```
# df1.set_index(...)  # 重新设置索引
```

# 使用[]筛选列数据

```
# 使用 df.列名
# 使用 df[[列名1, 列名2]]
```

# 使用loc按照标签进行筛选行数据

```
# 两行的值  df.loc[[标签1, 标签2]]
# 两列的值  df.loc[:, [字段1, 字段2]]
# 所有的值  df.loc[:, :]
# 单个值    df.loc[标签1, 列1]
```

# 使用iloc按照位置筛选数据

```
# 切片    df.iloc[1:4, 5:9]
# 3行3列  df.iloc[[1,3,5], [2,4,6]]
```

# 使用布尔索引筛选数据
```
# 根据列值创建条件  cond1 = df.列名>50
# 应用条件         df[cond1]

# 逻辑与           cond2 = (df.列名<50) & (df.列名>90)       
# 逻辑或是竖线|
# 取反条件         df[~cond2]

# 离散值条件       cond3 = df.列名.isin([值1,值2,值3])
```

# 使用query用sql筛选数据
```
# df.query(' Age>=25 and Salary>=5000')
```

# 修改DataFrame中的数据
```
# 在最后增加一列 df[新列名] = [值列表]或者Series类型

# 修改单个值     df.loc[标签1, 字段1] = 新的值
# 修改某个列     df.loc[:, 字段1] = 单个值
# 修改某一列     df[列名] += 10
# 修改某些值     df[df>128] = -df
```

# 使用loc和iloc对多层索引筛选数据

# 简单统计函数有哪些
```
平均值  mean
众数    mode
中位数  median
求和    sum
最小值  min
最大值  max
标准差  std
方差    var
计数    count  不含空行
计数    size   含空行   
分位数  quantile([0.25, 0.5, 0.75, 1])
描述    describe
唯一值  value_counts()
最小值索引 idxmin
最大值索引 idmax

```

# 高级统计函数有哪些
```
cumsum      按字段累计和
cummax      按字段累计最大值
cummin      按字段累计最小值
cumprod     按字段累计乘积
diff        差值，对于时间序列计算环比
pct_change  百分比变化，环比百分比

```

# 相关性分析函数有哪些
```
cov    协方差
corr   相关性系数，常用的方法有pearson、kendall、spearman

```

# 使用groupby()对多层索引计算
```
# 按照最外层索引求中位数    df.groupby(level=0).median()
```

# 使用dropna()删除空数据
```
np.nan是空数据

df1.dropna(level=0  )    # level=0表示删除行，level=1表示删除列。不写表示0

df1.dropna(how='all')    # all表示该行的所有值都是空则删除，any表示该行有一个值为空则删除
```

# 使用fillna() 填充空数据
```
df1.fillna(value='', inplace=True)   # 使用空填充，这样就不显示NaN，inplace=True替换当前的df1内容

df1.fillna(value=df1.mean().round(1), inplace=True)

df1.fillna(value=df1.mean(),  method='..')  # method指的是填充方式，有backfill、pad、
```

# 处理异常值
```
3西格玛
箱线图
```

# 使用map()对Series转换数据
```
df1[列名].map(字典)                        # 没有匹配的显示Nan

df1[列名].map(字典, na_action='ignore')    # 没有匹配的显示原值
 
df1[列名].map('I am a {}'.format)          # 对值进行格式化

df1[列名].map(lambda x:x+100)              # 使用函数
```

# 使用apply()函数对DataFrame进行数据转换
```
df1.apply(lambda row : row[列名] + row[列名], axis=1)

df1.apply(lambda values: values[索引]+values[索引],  axis=0)

df1.apply(lambda row, w1,w2:函数体, args=(w1对应的值, w2对应的值))
```

# 使用rename改列名、该行名
```
df1.rename(columns={"A": "a", "B": "c"}, index={0:"0a",1:"1a"}, inplace=True)
```

# 使用transform()进行数据变换

# 使用drop_duplicates()删除重复行的数据
```
df1.drop_duplicates(subset=[列1, 列2], keep='first')    # 根据指定列判断是否重复，去重时保留第1个
```

# 使用cut()分箱操作

# 使用groupby()进行分组聚合
```
df1.groupby(by=[列1, 列2])

df1.groupby(...).size()     # size()统计包含空 count()统计非空

d1f.groupby(...).describe().T
```

# 使用apply()进行自定义聚合
```
df1.groupby(by=列名1).apply(lambda group: group['金额'].sum().round(2))   # 这里的group是个dataframe结构
```

# 使用transform() 对每个分组内的数据进行转换,结合merge可以实现over函数功能
```
```

# 使用agg进新分组聚合

# 分组组合时，agg、apply、transform的区别

# pivot透视表
```

```