# Pandas 入门

pandas 是 Python 做统计分析时最重要的数据分析工具之一，它基于 numpy 开发，提供了许多处理大型数据集所需的函数，可以灵活高效的处理各种数据集。

pandas 一般使用的数据类型为 `DataFrame`, DataFrame 是二维数据，相当于 Excel 里面的一张表格数据。使用 pandas 时首先要导入 pandas 包。

In [1]:
 import pandas as pd

## 创建，读取与存储数据

### 创建数据

例如有下面的数据：
    
 姓名|统计学 |高数 |英语
 |:--------:|:--------:|:--------:|:--------:|
 张三 | 85 | 82 | 84  
 李四 | 68 | 63 | 90 
 王五 | 90 | 88 | 78 |

我们使用字典类型数据，将上面的读取到一个 DataFrame 里面：

In [2]:
df = pd.DataFrame({'姓名':['张三', '李四', '王五'], '统计学': [85, 68, 90],
                   '高数': [82, 63, 88], '英语': [84, 90, 78]})
df

Unnamed: 0,姓名,统计学,高数,英语
0,张三,85,82,84
1,李四,68,63,90
2,王五,90,88,78


上面的图形中，第一行是列标题，第一列是行标题，可以分别通过 ``columns`` 与 ``index`` 访问。

In [3]:
df.columns

Index(['姓名', '统计学', '高数', '英语'], dtype='object')

In [4]:
df.index

RangeIndex(start=0, stop=3, step=1)

### 读取数据

多数情况下，我们要读取数据文件（例如 excel），假设上面的例子在 excel 文件 'transcripts.xlsx' 里并放在电脑硬盘位置“/Users/zhenchen/Documents/python data” 中，可以通过函数``read_excel``读取文件：

In [5]:
df = pd.read_excel(r'/Users/zhenchen/Documents/python data/transcripts.xlsx')
df

Unnamed: 0,姓名,统计学,高数,英语
0,张三,85,82,84
1,李四,68,63,90
2,王五,90,88,78


```{admonition} 注意
- 苹果电脑的文件地址用符号``/``分割，而 windows 系统的文件地址用符号``\``分割
- 文件地址前加上``r``能够保持字符串原始值的含义，而不对其中的符号进行转义
```

``read_excel`` 的一般语法如下：

<table>   
    <tr style="border-top:solid; border-bottom:solid">
            <th colspan=2 style="text-align:center">read_excel(io, sheetname=0, header=0, skiprows=None,  index_col=None)</th>
    </tr>
    <tr>
        <td style="text-align:left">io</td>
        <td style="text-align:left">数据文件的地址与名字，一般为字符串</td>
    </tr>
    <tr>
        <td style="text-align:left">sheetname</td>
        <td style="text-align:left">工作簿名字，默认为0，表示读取第一张工作簿</td>
    </tr>
    <tr>
        <td style="text-align:left">header</td>
        <td style="text-align:left">作为列名的行，默认为0，即取第一行的值为列名</td>
    </tr>
    <tr>
        <td style="text-align:left">skiprows</td>
        <td style="text-align:left">省略指定行数的数据,从第一行开始查起</td>
    </tr>
    <tr style="border-bottom:solid; border-spacing: 15px">
        <td style="text-align:left">index_col</td>
        <td style="text-align:left">行标题所在的列</td>
    </tr>
</table>

还有一种常见的数据文件类型为 csv，我们只需使用 pandas 中的函数``read_csv``，它的语法与``read_excel``基本一致。

### 存储数据

存储时使用函数 ``to_excel`` 或 ``to_csv``。例如我们将数据 df 仍然存储到文件夹 “/Users/zhenchen/Documents/python data” 里，并命名为 “marks.xlsx”：

In [6]:
df.to_excel(r'/Users/zhenchen/Documents/python data/marks.xlsx')

## 查看与修改数据

快速查看 DataFrame 各列数据的统计信息可以使用 ``discribe()`` 函数，包括各列数据的非空数值数目、均值、标准差、最大值、最小值、分位数。

In [7]:
df.describe()

Unnamed: 0,统计学,高数,英语
count,3.0,3.0,3.0
mean,81.0,77.666667,84.0
std,11.532563,13.051181,6.0
min,68.0,63.0,78.0
25%,76.5,72.5,81.0
50%,85.0,82.0,84.0
75%,87.5,85.0,87.0
max,90.0,88.0,90.0


另外还有几个方便使用的函数：

|  函数 | 作用| 
|:--|:-- |
|``info()``| 查看各列数据的类型|
|``head()``| 查看前 5 行数据 |
|``tail()``| 查看后 5 行数据 |

### 查看单行，单列，单元格数据

查看某一列数据时，最简单的方式是在中括号``[]``里面输入列名的方式，例如查看英语成绩那一列数据：

In [8]:
df['英语']

0    84
1    90
2    78
Name: 英语, dtype: int64

查看某一行数据时，最简单的方式是用中括号``[]``里面跟着相邻两个行索引的方式，例如 df[0:1] 显示第 1 行的数据，而 df[1:2] 显示第 2 行的数据

In [9]:
df[0:1]

Unnamed: 0,姓名,统计学,高数,英语
0,张三,85,82,84


In [10]:
df[1:2]

Unnamed: 0,姓名,统计学,高数,英语
1,李四,68,63,90


若查看某个单元格，比较方便的方式是用两个中括号，每个中括号内分别跟着行索引和列索引，例如查看李四的高数成绩：

In [11]:
df[1:2]['高数']

1    63
Name: 高数, dtype: int64

### 查看多行，多列数据

查看多行、多列数据时，可以用 ``iloc``，它不仅能查看多行多列数据，也能查看单行、单列或某个单元格数据。
例如，查看行数据：

In [12]:
df.iloc[1]          # 查看第 2 行数据
df.iloc[0:2]        # 查看前 2 行数据
df.iloc[[0, 2]]     # 查看第 1 行与第 3 行数据

Unnamed: 0,姓名,统计学,高数,英语
0,张三,85,82,84
2,王五,90,88,78


查看列数据：

In [13]:
df.iloc[:, 1]       # 查看第 2 列数据
df.iloc[:, 0:2]     # 查看前 2 列数据
df.iloc[:, [0, 2]]  # 查看第 1 列与第 3 列数据

Unnamed: 0,姓名,高数
0,张三,82
1,李四,63
2,王五,88


In [14]:
查看一块数据：

SyntaxError: invalid character '：' (U+FF1A) (2904920790.py, line 1)

In [None]:
df.iloc[0:2, 0:2]          # 查看前 2 行，前 2 列的一块数据
df.iloc[[0, 2],  [0, 2]]   # 查看第 1、第 3 行，第 1、第 3 列的一块数据
df.iloc[0:2, [0, 2]]       # 查看前 3 行，第 1、第 3 列的一块数据
df.iloc[[0, 2], 0:2]       # 第 1、第 3 行，前 2 列的一块数据

In [None]:
查看某个单元格：

In [None]:
df.iloc[1, 1]   # 查看第 2 行，第 2 列的单元格数据

查看具体几列数据，可以在中括号``[]``里面跟一个索引列表，例如，查看统计学与英语的成绩：

In [21]:
df[['统计学', '英语']]

Unnamed: 0,统计学,英语
0,85,84
1,68,90
2,90,78


In [46]:
df[0:3]

Unnamed: 0,姓名,统计学,高数,英语
0,张三,85,82,84
1,李四,68,63,90
2,王五,90,88,78


查看具体几行数据，可以用``iloc``结合索引列表的形式，例如，查看统计学与英语的成绩：

In [47]:
df.iloc[[0,2]]

Unnamed: 0,姓名,统计学,高数,英语
0,张三,85,82,84
2,王五,90,88,78
