# Test: Pandas 的用法

引入模块

In [9]:
import pandas as pd

基本示例

In [10]:
sites = {1: "Google", 2: "Runoob", 3: "Wiki", 4: "Taobao"}
# 创建一个 Series，索引为 1 和 2
myvar = pd.Series(sites, index = [1, 3])
print(myvar)

1    Google
3      Wiki
dtype: object


## DataFrame
Pandas DataFrame 是一个**二维**的数组结构，类似二维数组。
### 构造方法
```python
pandas.DataFrame(data, index, columns, dtype, copy)
```
### 参数说明
- **data:** 一组数据
- **index：** 索引值，或者可以称为行标签。
- **columns：** 列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
- **dtype：** 数据类型。
- **copy：** 拷贝数据，默认为 False。

In [18]:
data = [['Google',10],['Runoob',12],['Wiki',13]]

# dtype 参数用于指定 DataFrame 中所有列的数据类型。
# 这里设置为 'object'，表示所有数据都按通用 Python 对象类型存储（通常用于字符串或混合类型）。
# 如果不指定 dtype，pandas 会自动推断每列的类型（如 int、float、str 等）。
df = pd.DataFrame(data, columns=['Site', 'Age'], dtype='object')

print(df)

     Site Age
0  Google  10
1  Runoob  12
2    Wiki  13


自动推导数组元素类型。

In [19]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}, {'a': 10, 'c': 30}]

df = pd.DataFrame(data)

print (df)

    a     b     c
0   1   2.0   NaN
1   5  10.0  20.0
2  10   NaN  30.0


Pandas 可以使用 `loc` 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：

In [20]:
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)
print(df)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

   calories  duration
0       420        50
1       380        40
2       390        45
calories    420
duration     50
Name: 0, dtype: int64
calories    380
duration     40
Name: 1, dtype: int64


**注意：** 返回结果其实就是一个 Pandas Series 数据。

也可以返回多行数据，使用 `[[ ... ]]` 格式，`...` 为各行的索引，以逗号隔开：

In [14]:
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行和第二行
print(df.loc[[0, 1]])

   calories  duration
0       420        50
1       380        40


**注意：** 返回结果其实就是一个 Pandas DataFrame 数据。
我们可以指定索引值，如下实例：

In [15]:
import pandas as pd

data = {
    "calories": [420, 380, 390],
    "duration": [50, 40,45]
}

index = ["day1", "day2", "day3"]

df = pd.DataFrame(data, index)

print(df)
print('------ 输出第二行 ------')
print(df.loc["day2"])

      calories  duration
day1       420        50
day2       380        40
day3       390        45
------ 输出第二行 ------
calories    380
duration     40
Name: day2, dtype: int64


DataFrame 还可以添加一列数据。

In [16]:
import pandas as pd

data = {
  "mango": [420, 380, 390],
  "apple": [50, 40, 45],
  "pear": [1, 2, 3],
  "banana": [23, 45,56]
}

df = pd.DataFrame(data)

df['sum']=df['mango']+df['apple']+df['pear']+df['banana']

print(df)

   mango  apple  pear  banana  sum
0    420     50     1      23  494
1    380     40     2      45  467
2    390     45     3      56  494


### to_excel
将 DataFrame 写入到 excel 文件中。
```python
to_excel(excel_writer，sheet_name=‘sheet1’，na_rep=’ ’ ，float_format=None，columns=None，header=True，index=True，index_label=None，startrow=0，startcol=0，engine=None，merge_cells=True，encoding=None，inf_rep=‘inf’，verbose=True，freeze_panes=None)
```

In [17]:
import pandas as pd

data1 = {
  "mango": [420, 380, 390],
  "apple": [50, 40, 45],
  "pear": [1, 2, 3],
  "banana": [23, 45,56]
}

data2 = {
    "calories": [420, 380, 390],
    "duration": [50, 40,45]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

with pd.ExcelWriter('out/pandas_test-1.xlsx') as writer:
    df1.to_excel(writer, sheet_name='fruit', index_label="序号")
    df2.to_excel(writer, sheet_name='health', index_label="天数")

ModuleNotFoundError: No module named 'openpyxl'