# pandas的基本使用
## Series数据结构的基本使用
`series`是一种**一维**的**带有标签**的**同构类型数组**.在默认情况下,其标签可以算是数据的索引,但是标签是可以改变的,只需要标签唯一就行.其`__new__()`函数有多种重载,其中一种为:
``` python
    def __new__(
        cls, # 表示当前正在创建的对象
        data: S1 | _ListLike[S1] | dict[HashableT1, S1],  # 存储的数据
        index: Axes | None = ...,# 索引
        *,
        dtype: Dtype = ..., # 数据的类型,series要求类型相同
        name: Hashable = ..., # series的名字,要求可哈希
        copy: bool = ...,
    ) -> Self: ...
```
其中`Axes`对象的定义为:
``` python
Axes: TypeAlias = AnyArrayLike | list | dict | range | tuple
```
其他属性都是可选项，只有数据一栏是必须参数．

In [3]:
import numpy as np 
import pandas as pd
s=pd.Series([1,3,5,6,8],name="example")
print(s)
print(s.__dict__)

0    1
1    3
2    5
3    6
4    8
Name: example, dtype: int64
{'_is_copy': None, '_mgr': SingleBlockManager
Items: RangeIndex(start=0, stop=5, step=1)
NumpyBlock: 5 dtype: int64, '_item_cache': {}, '_attrs': {}, '_flags': <Flags(allows_duplicate_labels=True)>, '_name': 'example'}


上面的代码输出中,分为两列,第一列是索引,第二列是`Series`结构的数据.

## DataFrame
`DataFrame`是一种类似**二维数组**的数据结构,但是更准确来说其更像是一个二维的数据表,因为它有行何列的索引.其类的结构定义如下:
``` python
 def __init__(
        self,
        data=None,
        index: Axes | None = None, # 行索引
        columns: Axes | None = None, # 列名
        dtype: Dtype | None = None,
        copy: bool | None = None,
    ) -> None:
```

In [8]:
import numpy as np
import pandas as pd

# 使用`date_range()`创建一个`datetime index``
dates=pd.date_range("20250701",periods=6)
dates
# 使用numpy的ndarray创建DataFrame对象
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2025-07-01,-0.266276,0.087143,-1.842953,-1.966072
2025-07-02,0.152547,1.015309,0.206035,0.746694
2025-07-03,0.572909,-1.795848,-3.044905,-0.300246
2025-07-04,-0.502446,-0.043482,-0.287107,-1.123606
2025-07-05,-1.04352,-1.509854,0.880079,0.533172
2025-07-06,-0.710311,-0.924725,3.964485,-0.779178


### 用字典创建`DataFrame`对象
在上面的例子中,`columns`属性实质就是二维数据表的列名.而数据`index`属性就是列坐标.除了使用`ndarray`创建对象外还可以通过`字典创建`.`DataFrame`的构造函数体内通过`if-else`语句判断输入参数的类型来使用不同的逻辑创建`DataFrame`对象.

In [9]:
import numpy as np
import pandas as pd

df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


参数为字典时,字典的每一个元素都是一个`Series`,也是二维数据表中的列.由于`Series`有`name`这一属性,该属性也是二维数据表的列名.不同的`Series`数据类型可以不同.

# DataFrame数据的查看
