## 数据结构



In [1]:
import pandas as pd
import numpy as np 

### Series

* Series Series是一个带有索引和名称的以为数组对象，该数组的类型可以是int、string或者是Python 对象
```
s = pd.Series(data, index=index)
```

__如果 data 是一个 ndarray，那么 index 也必须和 data 是相同的长度。__

In [12]:

# 根据 ndarray 创建 Series
s = pd.Series(np.random.rand(5), index= ['a','b','c','e','f'])
print(s)
print("--------------")

# 根据字典创建 Series
d = {'a':1,'b':2,'c':3,'d':4}
s = pd.Series(d)
print(s)
print("--------------")

# 常数创建 Series
pd.Series(5,index= ['A','B','C'])


a    0.784977
b    0.762775
c    0.770313
e    0.850738
f    0.329592
dtype: float64
--------------
a    1
b    2
c    3
d    4
dtype: int64
--------------


A    5
B    5
C    5
dtype: int64

Series 是一个类似于 ndarray 的对象，多数情况下它可以当参数传递给 Numpy 函数，但是对于切片操作
Series 依然还是基于索引进行切片

Pandas 的 Series对象 扩展了 Numpy 的类型系统，在Pandas中 dtype 是 ExtensionDtype 对象，它还是扩展出了 Categorial 类型和 Nullable Integer 类型

Pandas 利用 to_numpy() 方法将一个 Series 转化为 array 对象

In [19]:
s[s > s.mean()]

s.to_numpy()

array([1, 2, 3, 4], dtype=int64)

Series 同样可以视为一个固定大小的字典，可以使用 key - value 形式访问

In [27]:
# 利用 key 获取数据
s['a']

# 判断 f 是否在 是中
print('f' in s )

# 如果 key 不在s 中，直接访问则会抛出异常，可以利用 get方法获取默认值
# s['gg']

s.get('gg',np.nan)

False


nan

In [40]:
# 对序列进行向量化操作
print("-----------")
print(s + s)

print("-----log------")
print(np.log(s))

print("-----exp------")
print(np.exp(s))

print("----- * 2 ------")
print(s * 2 )

# 不同的 Series 计算，会根据 Index自动对齐，不必考虑不同 Series 之间如何对齐
# 对于无法对齐的列以 NaN 填充，最终返回的两个 Series 合并后的结果

print("----- Index 对齐 ------")
s[1:]  + s[:-1]

# Series 同样有用一个name， DataFrame 中的 Series 名称就是列名，Series可以通过 rename 修改名称
s.rename('different_Name')

-----------
a    2
b    4
c    6
d    8
dtype: int64
-----log------
a    0.000000
b    0.693147
c    1.098612
d    1.386294
dtype: float64
-----exp------
a     2.718282
b     7.389056
c    20.085537
d    54.598150
dtype: float64
----- * 2 ------
a    2
b    4
c    6
d    8
dtype: int64
----- Index 对齐 ------


a    1
b    2
c    3
d    4
Name: different_Name, dtype: int64

### DataFrame 
DataFrame 是一个 2维表格，每一列可以拥有多个数据列，数据列之间的数据类型可以不同。

In [46]:
# 基于字典创建DataFrame
# 如果创建DataFrame时 没有设置 columns ，那么DataFrame的列名就是 字典的key

d = {
    'one': pd.Series([1.0, 2.0, 3.0],index= ['a','b','c']),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index= ['a','b','c','d'])
}

df = pd.DataFrame(d)
print(df)


pd.DataFrame(d,index=['b','c','d'],columns=['two','Three'])




   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0


Unnamed: 0,two,Three
b,2.0,
c,3.0,
d,4.0,
