# pandas 入门

pandas 库是一个流行的 Python 数据处理和分析库，它提供了用于处理和操作数据的强大工具和数据结构。Pandas 的核心数据结构包括 Series（序列）和 DataFrame（数据框），它们使数据的读取、清理、转换和分析变得更加容易。

### 导入 Pandas

In [1]:
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


导入 pandas：

In [2]:
import pandas as pd

### Series

在 pandas 中，`Series` 是一种一维的带标签的数组状数据结构。

我们首先以 4 个数创建一个 `Series`，并命名为 `my series`。

In [3]:
s = pd.Series([1, 2, 3, 4], name = 'my series')

`Series` 是一个数组状数据结构，数组最重要的结构是索引（index）。index 主要用于标记第几个位置存储什么数据。`pd.Series()` 中不指定 index参数时，默认从0开始，逐一自增，形如： 0，1，... 

- Series 支持计算操作。

  ```{.python .input}
  s * 100
  ```

- Series 支持描述性统计。

  ```{.python .input}
  s.describe()
  ```

- Series 的索引很灵活。

  ```{.python .input}
  s.index = ['number1','number2','number3','number4']
  ```

  这时，`Series` 就像一个 Python 中的字典 `dict`，可以使用像 `dict` 一样的语法来访问 `Series` 中的元素，其中 `index` 相当于 `dict` 的键 `key`。例如，使用 `[]` 操作符访问 `number1` 对应的值。

  ```{.python .input}
  s['number1']
  ```
  
  又例如，使用 `in` 表达式判断某个索引是否在 Series 中。

  ```{.python .input}
  'number1' in s
  ```

### DataFrame

`DataFrame` 可以简单理解为一个 Excel 表，有很多列和很多行。
`DataFrame` 的列（column）表示一个字段；`DataFrame` 的行（row）表示一条数据。`DataFrame` 常被用来分析像 Excel 这样的、有行和列的表格类数据。Excel 也正在兼容 `DataFrame`，使得用户在 Excel 中进行 pandas 数据处理与分析。

#### 创建 DataFrame
`DataFrame` 可以来自列表、字典、文件等。

- 基于列表创建

In [4]:
names = ['Alice', 'Bob', 'Charlie']
ages = [25, 30, 22]
cities = ['New York', 'San Francisco', 'Los Angeles']
data = {'Name': names, 'Age': ages, 'City': cities}
df = pd.DataFrame(data)

- 基于字典创建

In [5]:
data = {'Column1': [1, 2], 'Column2': [3, 4]}
df = pd.DataFrame(data)

- 基于文件创建

对于不同类型的文件，使用不同的函数，比如 `read_csv` 读取 csv 类型的数据。`df = pd.read_csv('csv 文件的绝对路径')` 用来读取一个 csv 文件，`df =  pd.read_excel('excel 文件的绝对路径')` 用来读取一个 excel 文件

> 注：pd.read_csv 默认分隔符为逗号，pd.read_table 默认分隔符为换行符。它们还支持许多其他参数，可以使用 `help()` 函数查看。
> 例：help(pd.read_csv)

### 案例：PWT

[PWT](https://www.rug.nl/ggdc/productivity/pwt/) 是一个经济学数据库，用于比较国家和地区之间的宏观经济数据，该数据集包含了各种宏观经济指标，如国内生产总值（GDP）、人均收入、劳动力和资本等因素，以及价格水平、汇率等信息。我们先下载，并使用 pandas 简单探索该数据集。

In [6]:
import os
import urllib.request
import zipfile

folder_path = os.path.join(os.getcwd(), "./data/pwt")
download_url = "https://www.rug.nl/ggdc/docs/pwt70_06032011version.zip"
file_name = download_url.split("/")[-1]
if not os.path.exists(folder_path):
    # 创建文件夹
    os.makedirs(folder_path)
    print(f"文件夹不存在，已创建。")

    zip_file_path = os.path.join(folder_path, file_name)

    urllib.request.urlretrieve(download_url, zip_file_path)
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        zip_ref.extractall(folder_path)
    print("数据已下载并解压缩。")
else:
    print(f"文件夹已存在，无需操作。")

文件夹已存在，无需操作。


#### 查看数据

使用 `read_csv()` 读取数据。

In [7]:
df = pd.read_csv(os.path.join(folder_path, "pwt70_w_country_names.csv"))

`head()` 函数可以指定查看前 n 行。

In [8]:
n = 5
df.head(n)

Unnamed: 0,country,isocode,year,POP,XRAT,Currency_Unit,ppp,tcgdp,cgdp,cgdp2,...,kg,ki,openk,rgdpeqa,rgdpwok,rgdpl2wok,rgdpl2pe,rgdpl2te,rgdpl2th,rgdptt
0,Afghanistan,AFG,1950,8150.368,,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,1951,8284.473,,,,,,,...,,,,,,,,,,
2,Afghanistan,AFG,1952,8425.333,,,,,,,...,,,,,,,,,,
3,Afghanistan,AFG,1953,8573.217,,,,,,,...,,,,,,,,,,
4,Afghanistan,AFG,1954,8728.408,,,,,,,...,,,,,,,,,,


`tail()` 函数指定查看后 n 行。

In [9]:
df.tail(n)

Unnamed: 0,country,isocode,year,POP,XRAT,Currency_Unit,ppp,tcgdp,cgdp,cgdp2,...,kg,ki,openk,rgdpeqa,rgdpwok,rgdpl2wok,rgdpl2pe,rgdpl2te,rgdpl2th,rgdptt
11395,Zimbabwe,ZWE,2005,11639.47,22.36364,Zimbabwe Dollar,39.482829,1968.205961,169.097559,184.183929,...,6.99577,9.376272,89.399427,214.739197,418.970867,418.970867,,390.907086,,169.097559
11396,Zimbabwe,ZWE,2006,11544.326,164.3606,Zimbabwe Dollar,384.899651,2132.305773,184.705956,192.953943,...,7.64802,14.986823,81.697014,217.543648,424.754259,407.262097,,377.352394,,179.368685
11397,Zimbabwe,ZWE,2007,11443.187,9675.781,Zimbabwe Dollar,38583.32396,2107.9371,184.208918,198.215361,...,8.387106,15.787322,84.483374,202.70708,396.486201,376.163064,,345.764991,,173.113448
11398,Zimbabwe,ZWE,2008,11350.0,6715424000.0,Zimbabwe Dollar,38723.95774,1772.209867,156.141839,162.112294,...,7.685312,13.444449,85.11713,174.178806,343.159758,332.649861,,302.945712,,142.329054
11399,Zimbabwe,ZWE,2009,11383.0,1.4e+17,Zimbabwe Dollar,40289.95899,1906.049843,167.447056,174.4197,...,7.905525,14.743667,83.749534,182.613004,,,,314.171069,,151.435285


`info()` 函数可以查看数据基本信息，包括字段类型和非空值计数。

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11400 entries, 0 to 11399
Data columns (total 37 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   country        11400 non-null  object 
 1   isocode        11400 non-null  object 
 2   year           11400 non-null  int64  
 3   POP            11398 non-null  float64
 4   XRAT           10163 non-null  float64
 5   Currency_Unit  10163 non-null  object 
 6   ppp            8745 non-null   float64
 7   tcgdp          8745 non-null   float64
 8   cgdp           8745 non-null   float64
 9   cgdp2          8745 non-null   float64
 10  cda2           8745 non-null   float64
 11  cc             8745 non-null   float64
 12  cg             8745 non-null   float64
 13  ci             8745 non-null   float64
 14  p              8745 non-null   float64
 15  p2             8745 non-null   float64
 16  pc             8745 non-null   float64
 17  pg             8745 non-null   float64
 18  pi    

#### 数据切片

实际中，我们常常想要选取感兴趣的数据子集。

- 切片选择行
  
从第 2 行到第 5 行（不包括第 5 行）：

In [11]:
df[2:5]

Unnamed: 0,country,isocode,year,POP,XRAT,Currency_Unit,ppp,tcgdp,cgdp,cgdp2,...,kg,ki,openk,rgdpeqa,rgdpwok,rgdpl2wok,rgdpl2pe,rgdpl2te,rgdpl2th,rgdptt
2,Afghanistan,AFG,1952,8425.333,,,,,,,...,,,,,,,,,,
3,Afghanistan,AFG,1953,8573.217,,,,,,,...,,,,,,,,,,
4,Afghanistan,AFG,1954,8728.408,,,,,,,...,,,,,,,,,,


- 列名索引选择列

要选择列，我们可以传递一个列表，其中包含以字符串表示的所需列的名称。

In [12]:
df[['country', 'tcgdp']]

Unnamed: 0,country,tcgdp
0,Afghanistan,
1,Afghanistan,
2,Afghanistan,
3,Afghanistan,
4,Afghanistan,
...,...,...
11395,Zimbabwe,1968.205961
11396,Zimbabwe,2132.305773
11397,Zimbabwe,2107.937100
11398,Zimbabwe,1772.209867


如果只选取一列，df['country'] 等价于 `df.country`。

- `iloc` 方法选择，形式应为 `.iloc[rows, columns]`

In [13]:
df.iloc[2:5, 0:4]

Unnamed: 0,country,isocode,year,POP
2,Afghanistan,AFG,1952,8425.333
3,Afghanistan,AFG,1953,8573.217
4,Afghanistan,AFG,1954,8728.408
