# 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
## 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

## 数据清洗
- 数据列名修改：`rename()`
- 数据类型转换：`astype()`
- 重复值处理：`drop_duplicate()`
- 缺失值处理：`fillna()`
- 数据替换：`replace()`
- 字符处理：
    - 大小写转换 `str.lower()`
    - 删除字符空格 `str.strip`
   
---
### 数据列名修改
修改数据列名的DataFrame的函数有两个`df.columns`和`df.rename()`，其中：
- `df.columns`--只能修改全部列名；    
- `df.rename()`--既可以修改全部，也可以修改部分列名；但需要以字典的形式进行修改。


>**`df.rename()`函数详解：**    
>函数表达式：`df.rename(index=None,columns=None,axis=None,inplace=False)`
> - `index`--以字典形式，赋予索引新的值；
> - `columns`--以字典形式，赋予列名新的值；
> - `axis`--指定坐标轴，'index'或'columns'，参数index和columns不能与axis同时使用；
> - `inplace`--是否用新生成的列表替换原始列表；

In [2]:
# 通过字典创建DataFrame数据
data = {'A':['李逍遥','赵灵儿','林月如'],
        'B':['男','女','女'],
        'C':[19,16,18],
        'D':[173,162,167]}
df = pd.DataFrame(data)
display(df)

# 修改全部列名
df.columns = ['姓名','性别','年龄','身高']
df

Unnamed: 0,A,B,C,D
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167


In [3]:
# 部分列名修改
df.rename(columns = {'姓名':'角色姓名'}, inplace=True)
df

Unnamed: 0,角色姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167


### 数据类型转换
`astype()`函数可用于转化dateframe某一列的数据类型;    
函数表达式：`df.astype()`

In [4]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如'],
        '性别':['男','女','女'],
        '年龄':[19,16,18],
        '身高':[173,162,167]}
df = pd.DataFrame(data)
display(df)
print('>>>身高字段的数据类型：',df['身高'].dtypes)

# 修改身高的数据类型：int->float
df['身高'] = df['身高'].astype(float)
display(df)
print('>>>身高字段的数据类型：',df['身高'].dtypes)

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167


>>>身高字段的数据类型： int64


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173.0
1,赵灵儿,女,16,162.0
2,林月如,女,18,167.0


>>>身高字段的数据类型： float64


### 数据替换
`replace()`函数可用于替换dateframe某一列中的数据;    
函数表达式：`df.replace()`

In [5]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如'],
        '性别':['男','女','女'],
        '年龄':[19,16,18],
        '身高':[173,162,167]}
df = pd.DataFrame(data)
display(df)

# 将林月如的名字替换为阿奴
df['姓名'] = df['姓名'].replace('林月如','阿奴')
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,阿奴,女,18,167


### 数据排序

函数表达式：`df.sort_values(by=None, axis=1, ascending=True, inplace=False)`
 - `by` -- 指定列名(axis=0或'index')或索引值(axis=1或'columns')。
 - `axis` -- 指定坐标轴，删除缺失值所在行还是列；
    - 0/'index'：按照指定列中数据大小排序，默认值；
    - 1/'columns'：按照指定索引中数据大小排序。
 - `ascending` -- 指定升序还是降序排列, 默认为True，即升序排列。
 - `inplace` -- 表示是否用新生成的列表替换原始列表，默认为False。

In [6]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如'],
        '性别':['男','女','女'],
        '年龄':[19,16,18],
        '身高':[173,162,167]}
df = pd.DataFrame(data)
display(df)

# 按年龄进行升序排列
df.sort_values(by='年龄', inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167


Unnamed: 0,姓名,性别,年龄,身高
1,赵灵儿,女,16,162
2,林月如,女,18,167
0,李逍遥,男,19,173


In [7]:
# 按年龄进行降序排列
df.sort_values(by='年龄', ascending=False, inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
2,林月如,女,18,167
1,赵灵儿,女,16,162


### 重复值处理
重复数据的清洗就是对两行或多行重复数据进行判断和删除，其中涉及的函数包括以下两个：
- `duplicated()` -- 判断是否有重复数据；
- `drop_duplicates()` -- 对重复数据进行删除；

---
#### 重复值判断（`duplicated()`函数）
  
函数表达式：`df.duplicated(subset=None, keep='first')`
 - `subset` -- 表示识别重复项的列索引或列索引序列；默认标识所有的列索引。
 - `keep` -- 表示采用哪种方式保留重复项；保留方式如下所示：
     - first，保留第一次出现的数据项，默认值；
     - last，保留最后一次出现的数据项；

In [8]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','李逍遥'],
        '性别':['男','女','女','男'],
        '年龄':[19,16,18,19],
        '身高':[173,162,167,173]}
df = pd.DataFrame(data)
display(df)

# 所有列索引是否存在重复值，并保留第一次出现的数据项
df.duplicated(keep='first')

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167
3,李逍遥,男,19,173


0    False
1    False
2    False
3     True
dtype: bool

In [9]:
# 性别列是否存在重复值，并保留最后一次出现的数据项
df.duplicated('性别', keep='last')

0     True
1     True
2    False
3    False
dtype: bool

#### 重复值删除（`drop_duplicates()`函数）
  
函数表达式：`df.drop_duplicates(subset=None, keep=‘first’, inplace=False, ignore_index=False)`
 - `subset` -- 表示识别重复项的列索引或列索引序列。默认标识所有的列索引；
 - `keep` -- 表示采用哪种方式保留重复项；保留方式如下所示：
     - first，默认值，删除重复项，仅保留第一次出现的数据项；
     - last，删除重复项，仅保留最后一次出现的数据项；
     - False，表示将所有相同的数据都标记为重复项。
 - `inplace` -- 表示是否用新生成的列表替换原始列表，默认为False；
 - `ignore_index` -- 表示是否对删除重复值后数据的行索引进行重新排序，默认为False。

In [10]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','李逍遥','刘晋元'],
        '性别':['男','女','女','男','男'],
        '年龄':[19,16,18,19,20],
        '身高':[173,162,167,173,174]}
df = pd.DataFrame(data)
display(df)

# 所有列索引是否存在重复值，并保留第一次出现的数据项
df.drop_duplicates(keep='first',inplace=True,ignore_index=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167
3,李逍遥,男,19,173
4,刘晋元,男,20,174


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162
2,林月如,女,18,167
3,刘晋元,男,20,174


In [11]:
# 性别列是否存在重复值，并保留第一次出现的数据项
df.drop_duplicates('性别', inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19,173
1,赵灵儿,女,16,162


### 缺失值处理
缺失数据的清洗就是对缺失数据进行判断和删除，其中涉及的函数包括以下两个：
- `isnull()` -- 判断是否有缺失值；
- `fillna()` -- 对缺失值进行填充；
- `dropna()` -- 对缺失值进行删除；

---

#### 缺失值判断（`isnull()`函数）

函数表达式：`df.isnull()`

In [12]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
        '性别':['男','女','女','男'],
        '年龄':[19,16,18,None],
        '身高':[173,162,167,174]}
df = pd.DataFrame(data)
display(df)

# 判断整个数据表是否存在缺失值
df.isnull()

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,,174


Unnamed: 0,姓名,性别,年龄,身高
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,True,False


In [13]:
# 判断某一列是否存在缺失值
df['年龄'].isnull()

0    False
1    False
2    False
3     True
Name: 年龄, dtype: bool

#### 缺失值删除（`dropna()`函数）    

函数表达式：`df.dropna(how=None, axis=None, inplace=False)`
 - `how`-- 数据筛选方式如下：
     - any：表示该行/列只要有一个以上的空值就删除该行/列，默认值。
     - all：表示该行/列全部都为空值才删除该行/列。
 - `axis` -- 指定坐标轴，删除缺失值所在行还是列；
     - 0：删除空值所在行，默认值；
     - 1：删除空值所在列。
 - `inplace` -- 表示是否用新生成的列表替换原始列表，默认为False；

In [14]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
        '性别':['男','女','女','男'],
        '年龄':[19,16,18,None],
        '身高':[173,162,167,174]}
df = pd.DataFrame(data)
display(df)

# 删除数据表存在缺失值的行
df.dropna(inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,,174


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167


In [15]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
        '性别':['男','女','女','男'],
        '年龄':[None,None,None,None],
        '身高':[173,162,167,174]}
df = pd.DataFrame(data)
display(df)

# 删除数据表中全部为空的列
df.dropna(how='all',axis=1,inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,,173
1,赵灵儿,女,,162
2,林月如,女,,167
3,刘晋元,男,,174


Unnamed: 0,姓名,性别,身高
0,李逍遥,男,173
1,赵灵儿,女,162
2,林月如,女,167
3,刘晋元,男,174


#### 缺失值填充（`fillna()`函数）    

函数表达式：`df.fillna(value, method=None, axis=None, inplace=False)`
 - `value` -- 表示固定值填充缺失值；
 - `method` -- 表示用前一帧数据或后一帧数据填充缺失值；填充方式如下所示：
     - ffill，用前一个非空缺值填充；
     - bfill，用后一个非空缺值填充；
 - `axis` -- 指定坐标轴，'index'或'columns'；
     - 0：按列填充，默认值。
     - 1：按行填充；
 - `inplace` -- 表示是否用新生成的列表替换原始列表，默认为False；

In [16]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
        '性别':['男','女','女','男'],
        '年龄':[19,16,18,None],
        '身高':[173,162,167,174]}
df = pd.DataFrame(data)
display(df)

# 固定值填充缺失值
df.fillna(20, inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,,174


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,20.0,174


In [17]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
        '性别':['男','女','女','男'],
        '年龄':[19,16,18,None],
        '身高':[173,162,167,174]}
df = pd.DataFrame(data)
display(df)

# 固定值填充缺失值
df.fillna(df['年龄'].mean(), inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,,174


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,17.666667,174


In [18]:
# 通过字典创建DataFrame数据
data = {'姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
        '性别':['男','女','女','男'],
        '年龄':[19,16,18,None],
        '身高':[173,162,167,174]}
df = pd.DataFrame(data)
display(df)

# 前一帧数据填充缺失值
df.fillna(method='ffill', inplace=True)
df

Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,,174


Unnamed: 0,姓名,性别,年龄,身高
0,李逍遥,男,19.0,173
1,赵灵儿,女,16.0,162
2,林月如,女,18.0,167
3,刘晋元,男,18.0,174
