# Pandas

## 什么是Pandas？

Pandas被广泛应用于数据清洗、转换、分析以及可视化等领域。Pandas的核心数据结构是Series和DataFrame。

  * **Series:** 一维带标签的数组，可以存储不同数据类型。
  * **DataFrame:** 二维的表格型数据结构，包含一组有序的列，每列可以是不同的数据类型。

## 安装Pandas

```bash
pip install pandas
conda install pandas
```

## 基本数据结构

```python
import pandas as pd

# 创建一个Series
data = {'a': 0, 'b': 1, 'c': 2}
s = pd.Series(data)
print(s)

# 创建一个DataFrame
data = {'column1': [1, 2, 3], 'column2': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)
```

## IO

read_csv()：读取 CSV 文件，创建 DataFrame。
to_csv()：将 DataFrame 导出为 CSV 文件。
read_excel()：从 Excel 文件中读取数据。
to_excel()：将 DataFrame 导出为 Excel 文件。
read_sql()：从 SQL 数据库读取数据。

## 常用操作

  * **选择数据**
      * 根据标签选择：
        ```python
        print(df['column1'])
        ```
      * 根据索引选择：
        ```python
        print(df.loc[0])
        ```
      * 根据位置选择：
        ```python
        print(df.iloc[0])
        ```
  * **筛选数据**
    ```python
    # 筛选column1大于2的行
    print(df[df['column1'] > 2])
    ```
  * **添加/删除列**
    ```python
    # 添加一列
    df['column3'] = [7, 8, 9]
    # 删除一列
    df = df.drop('column2', axis=1)
    ```
  * **读取/写入数据**
      * 读取CSV文件：
        ```python
        df = pd.read_csv('data.csv')
        ```
      * 写入CSV文件：
        ```python
        df.to_csv('output.csv', index=False)
        ```
  * **数据处理**
      * 缺失值处理：
        ```python
        # 删除缺失值
        df = df.dropna()
        # 填充缺失值
        df.fillna(0, inplace=True)
        ```
      * 数据分组：
        ```python
        grouped = df.groupby('column1')
        print(grouped.mean())
        ```
  * **数据统计**
    ```python
    print(df.mean())
    print(df.max())
    print(df.std())
    ```
  * **数据查看**
    ```python
    # 查看前几行
    df.head(n)：查看 DataFrame 的前 n 行。
    # 查看后几行
    df.tail(n)：查看 DataFrame 的后 n 行。
    # 查看数据类型
    df.dtypes()
    # 查看简要信息
    df.info()
    # 查看数据统计描述
    df.describe()
    ```
  * **数据可视化**
    ```python
    import matplotlib.pyplot as plt
    df.plot(kind='bar')
    ```
    其中kind可以填入多种类型，如'line'、'bar'、'hist'、'scatter'等。可以使用plt的各种方法来对图形进行自定义修饰。
  * **数据操作**
    ```python
    # 转换DataFrame的列的数据类型
    df['column1'] = df['column1'].astype(float)
    # 合并DataFrame
    df.stack()
    # 展开DataFrame
    df.unstack()
    ```
  * **数据变换**
    ```python
    # 对行或列应用一个函数
    df.apply(function)
    # 对Series的每个元素应用一个函数
    df.map(function)
    # 对DataFrame的每个元素应用一个函数
    df.applymap(function)
    # 对DataFrame的列应用一个函数，返回一个同样大小的DataFrame。
    df.transform(lambda x: x - x.mean())
    # 替换DataFrame中的特定值。
    df.replace({1: 'one', 2: 'two'})
