## 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
### 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

---
### 文件读取
>当使用 Pandas 做数据分析的时，需要读取事先准备好的数据集，这是做数据分析的第一步。  

**`Pandas`提供了多种读取数据的方法：**
- `read_csv()` -- 用于读取文本文件
- `read_excel()` -- 用于读取excel文件
- `read_html()` -- 用于读取html表格
- `read_json()` -- 用于读取json文件
- `read_sql_query()` -- 读取sql语句的  

接下来我们将介绍一下常用的两个数据读取方法`read_csv()`和`read_excel()`；对于函数参数的解析也是选择一些常用的参数进行解释说明，其他的方法和参数大家有兴趣可以自行学习。  

---
#### 读取文本文件 (csv/txt)
**表达式：**`df = pd.read_csv(filepath_or_buffer, sep =',', header=0, names=[], usecols=[], encoding='', dtype ={} )`
- `filepath_or_buffer`: 可以是文件路径、可以是 URL、也可以是实现 read 方法的任意对象。
>绝对路径 = 全称；相对路径 = 和程序在同一个文件夹中的路径的简称。
- `sep`：读取 csv 文件时指定的分隔符，默认为逗号;
- `header`: 用作列名的行号，以及数据的开头；默认为header=0，即使用首行作为列名；
- `names`:当 names 没被赋值时，header 会变成 0，即选取数据文件的第一行作为列名；，

- `usecols`：要读取的列号或列名,如果是类似列表的，则所有元素都必须是位置性的（即文档列中的整数索引）;
- `encoding`：表示文件的编码格式，utf-8，gbk；
- `dtype`：在读取数据的时候，设定字段的类型。

**在`read_csv()`函数中省略了index_col参数的说明和演示，在下文`read_excel()`函数中有体现！**

In [2]:
# 绝对路径读取文本文件，并演示sep、header、encoding参数值
path_str = r'D:\gang.chenPT\myCoding\iPython\iPython\data\sample_data.csv'
df = pd.read_csv(path_str, sep =',', header=0, encoding='utf-8')
display(df)

# 相对路径读取文本文件，并演示sep、header、encoding的默认参数值
df = pd.read_csv('data/sample_data.csv')
display(df)

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


In [3]:
# 相对路径读取文本文件，并演示自然数作为usecols参数值
df = pd.read_csv('data/sample_data.csv', usecols=[0,1,2])
display(df)

# 相对路径读取文本文件，并演示列名称作为usecols参数值
df = pd.read_csv('data/sample_data.csv', usecols=['姓名','年龄','武器'])
display(df)

Unnamed: 0,姓名,年龄,性别
0,李逍遥,19,男
1,赵灵儿,16,女
2,林月如,18,女
3,阿奴,14,女


Unnamed: 0,姓名,年龄,武器
0,李逍遥,19,长剑
1,赵灵儿,16,双剑
2,林月如,18,长鞭
3,阿奴,14,弯刀


In [4]:
# 相对路径读取文本文件，并演示dtype参数值
df = pd.read_csv('data/sample_data.csv')
df.info()  # df.info() -- 查看DataFrame数据整体情况
print('\n')

df = pd.read_csv('data/sample_data.csv', dtype ={'年龄':float})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      4 non-null      object
 1   年龄      4 non-null      int64 
 2   性别      4 non-null      object
 3   武器      4 non-null      object
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   姓名      4 non-null      object 
 1   年龄      4 non-null      float64
 2   性别      4 non-null      object 
 3   武器      4 non-null      object 
dtypes: float64(1), object(3)
memory usage: 256.0+ bytes


---
#### 读取excel文件

**表达式：**`df = pd.read_excel(filepath_or_buffer,sheet_name=0,header=0,names=None,index_col=None,usecols=None,dtype=None )`

- `filepath_or_buffer`: 可以是文件路径、可以是 URL、也可以是实现read方法的任意对象；
- `sheet_name`：读取excel文件时指定的sheet表；默认为0，表示第一个sheet；
- `header`: 表示用第几行作为表头，支持 int, list of int；默认是0，第一行的数据当做表头；
- `names`:表示自定义表头的名称，此时需要传递数组参数；
- `index_col`：指定列属性为行索引列，支持 int, list of int, 默认是None；
- `usecols`：待解析的列，支持 int, str, list-like，默认是 None；
- `dtype`：指定列属性的字段类型，支持dict，eg.{“a”: “float64”}；默认为None，也就是不改变数据类型。

**在上文read_csv()函数演示过的参数（filepath_or_buffer、header、names、usecols），在本次read_excel函数中不再重复演示！**

In [5]:
# 相对路径读取文本文件，并演示自然数称作为sheet_name参数值
df = pd.read_excel('data/sample_data.xlsx', sheet_name=0)
display(df)

# 相对路径读取文本文件，并演示Sheet页名称作为sheet_name参数值
df = pd.read_excel('data/sample_data.xlsx', sheet_name='仙剑3')
display(df)

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0,姓名,年龄,性别,武器
0,景天,19,男,长剑
1,唐雪见,16,女,天龙刺
2,紫萱,不详,女,法杖
3,徐长卿,14,男,长剑
4,重楼,不详,男,双刀


In [6]:
# 相对路径读取文本文件，并演示Sheet页名称作为index_col参数值
df = pd.read_excel('data/sample_data.xlsx')
display(df)

# 相对路径读取文本文件，并演示自然数作为index_col参数值
df = pd.read_excel('data/sample_data.xlsx', index_col=0)
display(df)

# 相对路径读取文本文件，并演示列名称作为index_col参数值
df = pd.read_excel('data/sample_data.xlsx', index_col='姓名')
display(df)

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0_level_0,年龄,性别,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
李逍遥,19,男,长剑
赵灵儿,16,女,双剑
林月如,18,女,长鞭
阿奴,14,女,弯刀


Unnamed: 0_level_0,年龄,性别,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
李逍遥,19,男,长剑
赵灵儿,16,女,双剑
林月如,18,女,长鞭
阿奴,14,女,弯刀


---
### 文件输出

**Pandas常用的文件输出函数：**
- `to_csv()` -- 用于输出文本文件
- `to_excel()` -- 用于输出excel文件
- ...


#### 输出文本文件 (csv/txt)
**表达式：**`df.to_csv(filepath_or_buffer, sep=',', columns=None, header=True, index=True, index_label=None, encoding=None)`

- `filepath_or_buffer`: 文件路径, 不存在会自动生成；
- `sep`：输出csv文件的字段分隔符，默认为逗号;
- `columns`:写出列名称（表头）。如果给定字符串列表，则假定为列名的别名；
- `header`: 是否保留列名（表头）；
- `index`：是否保留索引列；
- `index_label`：索引列的列标签（索引列的表头）；
- `encoding`：表示在输出文件中使用的编码的字符串，Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。

In [7]:
# 使用相对路径读取数据
df = pd.read_csv('data/sample_data.csv')
display(df)

# 使用相对路径保存数据
df.to_csv('result/result_data.csv')
## 测试是否保存成功
display(pd.read_csv('result/result_data.csv'))

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0.1,Unnamed: 0,姓名,年龄,性别,武器
0,0,李逍遥,19,男,长剑
1,1,赵灵儿,16,女,双剑
2,2,林月如,18,女,长鞭
3,3,阿奴,14,女,弯刀


In [8]:
# 使用相对路径读取数据，并演示columns参数值
df = pd.read_csv('data/sample_data.csv')
display(df)

# 使用相对路径保存数据
df.to_csv('result/result_data_1.0.csv', columns=['姓名','年龄','性别'])
## 测试是否保存成功
display(pd.read_csv('result/result_data_1.0.csv'))

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0.1,Unnamed: 0,姓名,年龄,性别
0,0,李逍遥,19,男
1,1,赵灵儿,16,女
2,2,林月如,18,女
3,3,阿奴,14,女


In [9]:
# 使用相对路径读取数据，并演示header、index_label参数值
df = pd.read_csv('data/sample_data.csv')
display(df)

# 使用相对路径保存数据，保留列名
df.to_csv('result/result_data_2.0.csv', header=True, index_label='序号')
## 测试是否保存成功
display(pd.read_csv('result/result_data_2.0.csv'))

# 使用相对路径保存数据，不保留列名
df.to_csv('result/result_data_3.0.csv', header=False)
## 测试是否保存成功
display(pd.read_csv('result/result_data_3.0.csv'))

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0,序号,姓名,年龄,性别,武器
0,0,李逍遥,19,男,长剑
1,1,赵灵儿,16,女,双剑
2,2,林月如,18,女,长鞭
3,3,阿奴,14,女,弯刀


Unnamed: 0,0,李逍遥,19,男,长剑
0,1,赵灵儿,16,女,双剑
1,2,林月如,18,女,长鞭
2,3,阿奴,14,女,弯刀


In [10]:
# 使用相对路径读取数据，并演示header参数值
df = pd.read_csv('data/sample_data.csv')
display(df)

# 使用相对路径保存数据，保留索引列
df.to_csv('result/result_data_4.0.csv', index=True)
## 测试是否保存成功
display(pd.read_csv('result/result_data_4.0.csv'))

# 使用相对路径保存数据，不保留索引列
df.to_csv('result/result_data_5.0.csv', index=False)
## 测试是否保存成功
display(pd.read_csv('result/result_data_5.0.csv'))

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0.1,Unnamed: 0,姓名,年龄,性别,武器
0,0,李逍遥,19,男,长剑
1,1,赵灵儿,16,女,双剑
2,2,林月如,18,女,长鞭
3,3,阿奴,14,女,弯刀


Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


---
#### 输出excel文件

**表达式：**`df.to_excel(filepath_or_buffer, sheet_name="Sheet1",na_rep="",float_format=None,columns=None,header=True,index=True,index_label=None,startcol=0,encoding=None)`

- `filepath_or_buffer`: 文件路径, 不存在会自动生成；
- `sheet_name`：指定写入的sheet表名称，一个excel文件只能写入一个sheet表；
- `columns`:指定输出的列，默认保存所有列；
- `header`: 是否保存第1行的列名(表头)，默认保存；
- `index`: 是否保存索引列，默认保存；
- `encoding`:文件保存格式，常用：utf-8；

In [11]:
# 使用相对路径读取数据，并演示header参数值
df = pd.read_csv('data/sample_data.csv')
display(df)

# 使用相对路径保存数据，保留索引列
df.to_excel('result/result_data_6.0.xlsx', sheet_name='仙剑1', index=False)
# ## 测试是否保存成功
display(pd.read_excel('result/result_data_6.0.xlsx',sheet_name='仙剑1'))

Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀


Unnamed: 0,姓名,年龄,性别,武器
0,李逍遥,19,男,长剑
1,赵灵儿,16,女,双剑
2,林月如,18,女,长鞭
3,阿奴,14,女,弯刀
