## 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
### 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

### 文件读取
>当使用 Pandas 做数据分析的时，需要读取事先准备好的数据集，这是做数据分析的第一步。  

**`Pandas`提供了多种读取数据的方法：**
- `read_csv()` -- 用于读取文本文件
- `read_excel()` -- 读取 excel 文件
- `read_html()` -- 读取 html 表格
- `read_json()` -- 用于读取 json 文件
- `read_sql_query()` -- 读取 sql 语句的  

接下来我们将介绍一下常用的两个数据读取方法`read_csv()`和`read_excel()`；对于函数参数的解析也是选择一些常用的参数进行解释说明，其他的方法和参数大家有兴趣可以自行学习。  

---
#### 读取文本文件 (csv/txt)
**表达式：**`df = pd.read_csv(filepath_or_buffer, sep =',', header=0, names=[], usecols=[], encoding='', dtype ={} )`
- `filepath_or_buffer`: 可以是文件路径、可以是 URL、也可以是实现 read 方法的任意对象。
>绝对路径 = 全称；相对路径 = 和程序在同一个文件夹中的路径的简称。
- `sep`：读取 csv 文件时指定的分隔符，默认为逗号;
- `header`: 用作列名的行号，以及数据的开头；默认为header=0，即使用首行作为列名；
- `names`:当 names 没被赋值时，header 会变成 0，即选取数据文件的第一行作为列名；
- `usecols`：要读取的列号或列名,如果是类似列表的，则所有元素都必须是位置性的（即文档列中的整数索引）;
- `encoding`：表示文件的编码格式，utf-8，gbk。
- `dtype`：在读取数据的时候，设定字段的类型。

#### 读取excel文件

**表达式：**`df = pd.read_excel(filepath_or_buffer,sheet_name=0,header=0,names=None,index_col=None,usecols=None,dtype=None )`

- `filepath_or_buffer`: 可以是文件路径、可以是 URL、也可以是实现read方法的任意对象；
- `sheet_name`：读取excel文件时指定的sheet表；默认为0，表示第一个sheet；
- `header`: 表示用第几行作为表头，支持 int, list of int；默认是0，第一行的数据当做表头；
- `names`:表示自定义表头的名称，此时需要传递数组参数；
- `index_col`：指定列属性为行索引列，支持 int, list of int, 默认是None；
- `usecols`：待解析的列，支持 int, str, list-like，默认是 None；
- `dtype`：指定列属性的字段类型，支持dict，eg.{“a”: “float64”}；默认为None，也就是不改变数据类型。

### 文件输出



#### 输出文本文件 (csv/txt)
**表达式：**`df = pd.to_csv(filepath_or_buffer, sep=', ’, columns=None, header=True, index=True,mode='w', encoding=None)`
- `filepath_or_buffer`: 可以是文件路径、可以是 URL、也可以是实现 read 方法的任意对象。
- `sep`：读取 csv 文件时指定的分隔符，默认为逗号;
- `header`: 用作列名的行号，以及数据的开头；默认为header=0，即使用首行作为列名；
- `names`:当 names 没被赋值时，header 会变成 0，即选取数据文件的第一行作为列名；
- `usecols`：要读取的列号或列名,如果是类似列表的，则所有元素都必须是位置性的（即文档列中的整数索引）;
- `encoding`：表示文件的编码格式，utf-8，gbk。
- `dtype`：在读取数据的时候，设定字段的类型。

#### 输出excel文件

**表达式：**`df = pd.to_excel(filepath_or_buffer, sheet_name='Sheet1', header=True, index=False)`

- `filepath_or_buffer`: 可以是文件路径、可以是 URL、也可以是实现read方法的任意对象；
- `sheet_name`：读取excel文件时指定的sheet表；默认为0，表示第一个sheet；
- `header`: 表示用第几行作为表头，支持 int, list of int；默认是0，第一行的数据当做表头；
- `names`:表示自定义表头的名称，此时需要传递数组参数；
- `index_col`：指定列属性为行索引列，支持 int, list of int, 默认是None；
- `usecols`：待解析的列，支持 int, str, list-like，默认是 None；
- `dtype`：指定列属性的字段类型，支持dict，eg.{“a”: “float64”}；默认为None，也就是不改变数据类型。