**本节介绍数据处理库——Pands的入门使用**

In [23]:
# 导入包
import pandas as pd
import numpy as np

**一，Pandas数据结构——Series**

Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。

In [16]:
# 展示一下Series的结构，默认索引为0，1，2....
a = [1, 2, 3]
myvar = pd.Series(a)
print(myvar)

0    1
1    2
2    3
dtype: int64


In [17]:
# 单一索引
print(myvar[2])

3


In [18]:
# 指定数据的索引，0，1，2 -> x，y，z
a = ["Google", "Runoob", "Wiki"]
myvar = pd.Series(a, index = ["x", "y", "z"])
print(myvar)

x    Google
y    Runoob
z      Wiki
dtype: object


In [19]:
# 单一索引
print(myvar['y'])
print(myvar[1]) # 默认索引依旧生效

Runoob
Runoob


  print(myvar[1])


In [20]:
# 用python字典创建Series
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar = pd.Series(sites)
print(myvar)

# 字典的 key 变成了索引值!!!

1    Google
2    Runoob
3      Wiki
dtype: object


In [21]:
# 截取一部分字典生成Series
myvar = pd.Series(sites,index = [1,2])
print(myvar)

1    Google
2    Runoob
dtype: object


In [24]:
# 更多创建方法

# 使用列表创建 Series
s = pd.Series([1, 2, 3, 4])

# 使用 NumPy 数组创建 Series
s = pd.Series(np.array([1, 2, 3, 4]))

# 使用字典创建 Series
s = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})


In [25]:
# 基本操作
# 指定索引创建 Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# 获取值
value = s[2]  # 获取索引为2的值
print(s['a'])  # 返回索引标签 'a' 对应的元素

# 获取多个值
subset = s[1:4]  # 获取索引为1到3的值

# 使用自定义索引
value = s['b']  # 获取索引为'b'的值

# 索引和值的对应关系
for index, value in s.items():
    print(f"Index: {index}, Value: {value}")


# 使用切片语法来访问 Series 的一部分
print(s['a':'c'])  # 返回索引标签 'a' 到 'c' 之间的元素
print(s[:3])  # 返回前三个元素

# 为特定的索引标签赋值
s['a'] = 10  # 将索引标签 'a' 对应的元素修改为 10

# 通过赋值给新的索引标签来添加元素
s['e'] = 5  # 在 Series 中添加一个新的元素，索引标签为 'e'

# 使用 del 删除指定索引标签的元素。
del s['a']  # 删除索引标签 'a' 对应的元素

# 使用 drop 方法删除一个或多个索引标签，并返回一个新的 Series。
s_dropped = s.drop(['b'])  # 返回一个删除了索引标签 'b' 的新 Series


1
Index: a, Value: 1
Index: b, Value: 2
Index: c, Value: 3
Index: d, Value: 4
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64


  value = s[2]  # 获取索引为2的值


In [31]:
# 基本属性与运算方法
# 获取索引
index = s.index

# 获取值数组
values = s.values

# 获取描述统计信息
stats = s.describe()

# 获取最大值和最小值的索引
max_index = s.idxmax()
min_index = s.idxmin()

# 其他属性和方法
print(s.dtype)   # 数据类型
print(s.shape)   # 形状
print(s.size)    # 元素个数
print(s.head())  # 前几个元素，默认是前 5 个
print(s.tail())  # 后几个元素，默认是后 5 个
print(s.sum())   # 求和
print(s.mean())  # 平均值
print(s.std())   # 标准差
print(s.min())   # 最小值
print(s.max())   # 最大值


int64
(4,)
4
b    2
c    3
d    4
e    5
dtype: int64
b    2
c    3
d    4
e    5
dtype: int64
14
3.5
1.2909944487358056
2
5


**二，Pandas数据结构——DataFrame**

DataFrame 是 Pandas 中的另一个核心数据结构，用于表示二维表格型数据。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。

DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

DataFrame 提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。

In [33]:
# 展示DataFrame的结构
data = [['Google', 10], ['Runoob', 12], ['Wiki', 13]]

# 创建DataFrame
df = pd.DataFrame(data, columns=['Site', 'Age'])

# 使用astype方法设置每列的数据类型
df['Site'] = df['Site'].astype(str)
df['Age'] = df['Age'].astype(float)

print(df)

# 发现有行索引也有列索引

     Site   Age
0  Google  10.0
1  Runoob  12.0
2    Wiki  13.0


In [34]:
# 使用字典创建(1），先列后行
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)

     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


In [35]:
# 使用ndarray创建
ndarray_data = np.array([
    ['Google', 10],
    ['Runoob', 12],
    ['Wiki', 13]
])

# 使用DataFrame构造函数创建数据帧
df = pd.DataFrame(ndarray_data, columns=['Site', 'Age'])

# 打印数据帧
print(df)

     Site Age
0  Google  10
1  Runoob  12
2    Wiki  13


In [36]:
# 使用字典列表创建(2)
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print (df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


In [37]:
# 例子理解column与index的差异
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

# 指定索引
print(df.loc["day2"])

calories    380
duration     40
Name: day2, dtype: int64
