# Pandas

Pandas 是一个开源的 Python 数据分析库，它提供了快速、灵活和表达力强的数据结构，旨在使数据清洗和分析工作变得更加简单易行。Pandas 特别适合处理表格数据，即类似于电子表格或 SQL 数据库中的数据

In [2]:
import numpy as np
import pandas as pd

## Pandas 中的基本数据结构

1. `Series` 一维带标签数组，可保存任何类型数据
2. `DataFrame` 二维数据结构，可像基于行列的表格一样保存数据

In [3]:
# 通过传递一个值列表来创建一个Series，让 pandas 创建一个默认的RangeIndex
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [4]:
# 使用 ndarray 创建 Series
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s

a   -0.441431
b    1.213733
c    0.889893
d    1.484981
e   -0.593813
dtype: float64

>pandas 支持非唯一索引值。如果尝试执行不支持重复索引值的运算，将在此时引发异常

In [5]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [6]:
pd.Series(np.random.randn(5))

0    1.100355
1    0.316636
2   -1.235976
3    1.018711
4    0.422942
dtype: float64

In [8]:
pd.Series({"b": 1, "a": 0, "c": 2})

b    1
a    0
c    2
dtype: int64

>`Series` 可从字典实例化

In [9]:
pd.Series({"b": 1, "a": 0, "c": 2}, index=["b", "c", "d", "a"])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

>如果传递了索引，将提取与索引中标签相对应的 `data` 中的值

In [10]:
pd.Series(5.0, index=["a", "b", "c", "d", "e"])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

>如果 `data` 是一个标量值，则必须提供索引。该值将重复以匹配 **索引** 的长度

In [21]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

In [22]:
s.iloc[0]

np.float64(0.8750424919785778)

In [23]:
s.iloc[:3]

a    0.875042
b   -0.689753
c   -0.687049
dtype: float64

In [27]:
s[s > s.median()]

a    0.875042
c   -0.687049
dtype: float64

In [31]:
s.iloc[[4,3,1]]

e   -0.755621
d   -1.702413
b   -0.689753
dtype: float64

In [32]:
np.exp(s)

a    2.398977
b    0.501700
c    0.503059
d    0.182243
e    0.469719
dtype: float64

>`Series` 的行为与 `ndarray` 非常相似，并且是大多数 `NumPy` 函数的有效参数。但是，诸如切片之类的操作也将切片索引

In [33]:
s.array

<NumpyExtensionArray>
[ np.float64(0.8750424919785778),  np.float64(-0.689752792655723),
 np.float64(-0.6870487050412248), np.float64(-1.7024133352870114),
 np.float64(-0.7556205192328711)]
Length: 5, dtype: float64

>使用 `.array` 方法可以访问 `Series` 的底层数组（并不是 `ndarray`，而是被代理增强的 `ndarray`）

In [34]:
s.to_numpy()

array([ 0.87504249, -0.68975279, -0.68704871, -1.70241334, -0.75562052])

>获取真正的 `ndarray`

In [35]:
s['a']

np.float64(0.8750424919785778)

>`Series` 也类似于固定大小的字典，可以通过索引标签获取设置值

In [36]:
s.get('b')

np.float64(-0.689752792655723)

>`get` 方法和下标的区别在于，如果键不存在则返回 `None` 或指定默认值

In [37]:
s + s

a    1.750085
b   -1.379506
c   -1.374097
d   -3.404827
e   -1.511241
dtype: float64

>在使用原始 NumPy 数组时，通常不需要逐个值地循环。在使用 pandas 中的 `Series` 时也是如此。 `Series` 也可以传递给大多数期望 `ndarray` 的 NumPy 方法

>`Series` 和 `ndarray` 之间的一个关键区别是，`Series` 之间的操作会根据标签自动对齐数据。因此，我们可以随意编写计算，而无需考虑所涉及的 `Series` 是否具有相同的标签

In [42]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}
df = pd.DataFrame(data=d)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


>`DataFrame` 是一种二维带标签的数据结构，包含可能不同类型的列。您可以将其视为电子表格或 SQL 表，或 `Series` 对象的字典。它通常是 pandas 中最常用的对象。与 `Series` 一样，`DataFrame` 接受许多不同类型的输入

>除了数据之外，您还可以选择传递 index（行标签）和 columns（列标签）参数。如果您传递了 index 和/或 columns，则保证了结果 `DataFrame` 的 index 和/或 columns

In [43]:
pd.DataFrame(d, index=["a", "b"])

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0


>当传递特定列集以及数据字典时，传递的列将覆盖字典中的键
 
>`Series` 字典加上特定 index 将丢弃所有与传递的 index 不匹配的数据

In [46]:
data = np.asarray([(1, 2.0, "Hello"), (2, 3.0, "World")])
data

array([['1', '2.0', 'Hello'],
       ['2', '3.0', 'World']], dtype='<U32')

In [50]:
pd.DataFrame(data=data, columns=["A", "B", "C"])

Unnamed: 0,A,B,C
0,1,2.0,Hello
1,2,3.0,World


In [62]:
df = pd.DataFrame(data=data, columns=["A", "B", "C"], index=['first', 'second'])
df

Unnamed: 0,A,B,C
first,1,2.0,Hello
second,2,3.0,World


>从结构化或记录数组创建 `DataFrame`