In [11]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

DataFrame是一个矩形数据表，含有一组有序且有命名的列，每一列可以是不同类型。
DataFrame既有索引行也有索引列，可以看做由同一个索引的Series组成的字典。
虽然DataFrame是二维的，但可以用层次化索引可以表示更高维度的表格型数据。

In [12]:
#常用的创建DataFrame的方式：等长的列表或np数组构成的字典：
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
生成的DataFrame会自动加上索引，与Series一样，全部列都会按照data键（键的顺序取决于在字典里插入的顺序）的顺序有序排列，
在jupter里会生成友好地HTML表格，
对于特别大的DataFrame，head方法只会取前五行：

In [13]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [14]:
#tail会返回最后五行：
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [15]:
#如果指定了列的序列，则DataFrame的列就会按照指定顺序进行排列：
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [41]:
#如果字典不包含传入的列，就会在结果中产生缺失值：
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [17]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [18]:
#通过类似字典标记的方式或点属性的方式，可以将DataFrame的列获取为一个Series：
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [19]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

frame[]可以访问任意列的名，而frame.xxx只能访问特定名称的列（列名中含下划线空格以外的特殊符号就不行）

In [20]:
#通过iloc和loc属性，可以通过位置或名称的方式进行获取行：
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [21]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

In [22]:
#想要修改列可以通过赋值的方式
#例如：可以将空的列debt赋值为标量值或数组值：
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [23]:
frame2["debt"] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [42]:
#将列表和数组赋值给某列时，其长度必须和DataFrame的长度匹配。
#如果赋值的是Series，它的标签就会精确匹配到DataFrame的索引，所有的空缺都会填上缺失值
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


Series是一种带标签的一维数组，在创建Series时要带着索引，不带索引则会直接赋值为整数
因为索引对应的"two", "four", "five"在表中没有，所以对debt赋值时，通过索引赋值，索引不存在，
就没有可以赋值的，所以所有的debt为空值

In [33]:
#如果将index中的:"two"改为存在的索引 0 ，那么则会将对应的debt修改为val对应的值
val = pd.Series([-1.2, -1.5, -1.7], index=[0, "four", "five"])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,-1.2
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [None]:
#此时通过
val = pd.Series([-1.2, -1.5, -1.7], index=[0, "four", "five"])
frame2["debt"] = val
frame2

In [39]:
#修改索引测试
new_index = ["two", "four", "five", 3, 4, 5]
frame2.index = new_index
frame2

Unnamed: 0,year,state,pop,debt,eastern
two,2000,Ohio,1.5,,True
four,2001,Ohio,1.7,,True
five,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


给frame2添加一列索引后再去赋值就会根据列赋值，
给列赋值语句:frame2.index = [] 或 frame2.index = 对象]

In [43]:
#关键字del可以像字典那样删除列。先创建一个新的bool值的列，
#条件为state列是否为“Ohio”：
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


这段代码是判断frame2中的 state 列是不是为字符串 "Ohio"，
如果是，则添加新的一列bool列，名称为eastern
且新建列时是frame2["eastern"]，而不是frame.eastern

In [44]:
#删除
del frame2["eastern"]
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

通过索引方式从DataFrame返回的列只是底层数据的视图而已，并不是副本，
所以，对返回的Seies所做的任何就地修改全部都会反映到DataFrame上，
所以应当应当通过Series的copy方法复制列

In [54]:
#嵌套字典的字典：
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 3.4, 2002: 2.9},}

frame3  = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,3.4
2002,3.6,2.9


如果将嵌套字典传给DataFrame，pandas就会将外层字典解释为列，将内层字典解释为行索引，
且互相对应，没有对应的会继续向下添加

In [46]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2003: 3.4, 2004: 2.9},}

framex  = pd.DataFrame(populations)
framex

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,
2002,3.6,
2003,,3.4
2004,,2.9


In [48]:
#如果是多层字典呢？
populations = {"Ohio": {2000: {1999: 1.5}, 2001: 1.7, 2002: 3.6},
               "Nevada": {2003: 3.4, 2004: 2.9},}

framex  = pd.DataFrame(populations)
framex

Unnamed: 0,Ohio,Nevada
2000,{1999: 1.5},
2001,1.7,
2002,3.6,
2003,,3.4
2004,,2.9


framex 对于多层嵌套的字典，仍然是二维的。
即使字典本身有多层嵌套，pandas 在创建 DataFrame 时只会处理到第二层嵌套，形成一个二维的结构。
所以最后将嵌套的字典也是整体输出

In [55]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,3.4
2002,3.6,2.9


In [56]:
#使用Numpy数组方法，可以对DataFrame进行转置：交换行和列
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,3.4,2.9


如果列没有所有相同的数据类型，转置则会丢弃列的数据类型，
因此转置以及再次转置返回原先的矩阵会导致丢失先前的类型信息，
在这个例子中，列变为了纯py对象的数组

当 DataFrame 中的列包含不同的数据类型（例如，一列是整数类型，另一列是浮点数类型），在进行转置操作时，pandas 可能会将这些列转换为一种通用的数据类型，如 object 类型（即 Python 对象类型），以保持一致性。
这种转换在某些情况下可能导致数据类型信息的丢失。

In [53]:
populationx = {
    "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
    "Nevada": {2001: 3.4, 2002: 2.9},
}

framey = pd.DataFrame(populationx)

# 转置 DataFrame
transposed_frame = frame3.T

# 再次转置回原来的形式
double_transposed_frame = transposed_frame.T

print("Original DataFrame (frame3):")
print(frame3)
print("\nTransposed DataFrame (transposed_frame):")
print(transposed_frame)
print("\nDouble Transposed DataFrame (double_transposed_frame):")
print(double_transposed_frame)

Original DataFrame (frame3):
      Ohio  Nevada
2000   1.5     NaN
2001   1.7     3.4
2002   3.6     2.9

Transposed DataFrame (transposed_frame):
        2000  2001  2002
Ohio     1.5   1.7   3.6
Nevada   NaN   3.4   2.9

Double Transposed DataFrame (double_transposed_frame):
      Ohio  Nevada
2000   1.5     NaN
2001   1.7     3.4
2002   3.6     2.9


1.	原始 DataFrame (frame3):
    frame3 中的 Ohio 和 Nevada 列包含浮点数值（float64 数据类型）。其中，Nevada 列在 2000 年的数据是 NaN（缺失值），而 Ohio 列在所有年份都有数据。
2.	转置后的 DataFrame (transposed_frame):
    转置操作 (frame3.T) 将原先的列（Ohio, Nevada）变成行索引，而原先的行索引（年份）变成列索引。
    由于转置后的 DataFrame 的列可能包含不同的数据类型（例如，NaN 和浮点数混合），pandas 可能会将这些列转换为通用的 object 类型来兼容所有数据。
3.	再次转置后的 DataFrame (double_transposed_frame):
    当你再次转置回原来的形式时，DataFrame 的数据类型信息可能已经丢失，所有列的数据类型都被统一为 object 类型（即 Python 对象）。
    虽然数据的值保持不变，但数据类型不再是原始的 float64，而是变成了 object。

数据类型丢失的原因
	数据类型转换：当列包含不同的数据类型（例如 float64 和 NaN），转置操作可能会将数据类型转换为 object 类型。
	统一数据类型：pandas 会尝试在转置时统一列的数据类型。如果列的原始类型不能被统一，可能会导致数据类型的信息丢失。

In [57]:
#内层字典的键被合并后形成了结果的索引。如果明确指定了索引，则不会发生如下事件：
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,3.4
2002,3.6,2.9
2003,,


此时就将2001，2002，2003作为索引，就不会将字典外层作为索引

In [59]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,3.4
2002,3.6,2.9


In [58]:
#由Series组成的字典也差不多一样的用法：
pdata = {"Ohio": frame3["Ohio"][:-1],
         "Nevada": frame3["Nevada"][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,3.4


从 frame3 中提取了一部分数据来创建一个新的 DataFrame，并将其存储在变量 pdata 中.

1.	frame3["Ohio"][:-1]:
	这会从 frame3 的 Ohio 列中提取所有行，除了最后一行（即去除 2002 年的数据）。
2.	frame3["Nevada"][:2]:
	这会从 frame3 的 Nevada 列中提取前两行（即 2000 年和 2001 年的数据）。

将这些数据组合成一个字典后，使用 pd.DataFrame(pdata) 创建一个新的 DataFrame。

In [60]:
pdata = {"Ohio": frame3["Ohio"][:-2],
         "Nevada": frame3["Nevada"][:-1]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,,3.4


frame3["Ohio"][:-2] 是从 Ohio 列中从后向前选取，从倒数第二行开始选取之前所有的，
或者理解为除了最后两行不取，其他行都选取，
所以只选取了 Ohio 的第一行，也就一行数据，2000 1.5

frame3["Nevada"][:-1] 是从 Nevada 列中除了最后一列不选取，其他行都选取
所以就选取了 Nevada 的第一二行，也就是数据，2000 NaN 和 2001 3.4

因为 Ohio 的第二行没有数据，所以最后补为NaN

DataFrame可以接收的各种数据如下：
![jupyter](./5.1.png)


In [61]:
#如果设置了 DataFrame 的 index 和 colums 的 name 属性，则这些信息也会显示出来：
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,3.4
2002,3.6,2.9


In [62]:
#不同于Series，DataFrame本身没有name属性。
#DataFrame的to_numpy方法将数据以二维ndarray的DataFrame方式返回：
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 3.4],
       [3.6, 2.9]])

In [63]:
#如果DataFrame各列的数据类型不同，则返回数组会选用能兼容所有列的数据类型：如object
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

In [64]:
#索引对象
#pandas索引对象负责存储轴标签（包括DataFrame的列名）和其他元数据（比如轴名称或者标签）。
#构建Series或DataFrame时，所用到的任何数组或其他标签序列都会转化成索引对象：
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [65]:
index[1:]

Index(['b', 'c'], dtype='object')

In [67]:
#index对象是不可变的，因此用户不能对其进行修改
index[1] = "d"  #会报错: Index does not support mutable operations

TypeError: Index does not support mutable operations

索引的不可变性可以使索引在多个数据结构之间安全共享

In [68]:
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int64')

In [69]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [70]:
obj2.index is labels

True

In [71]:
obj2.index   #label 也是[0, 1, 2],所以为True

Index([0, 1, 2], dtype='int64')

虽然用户不需要经常使用索引功能，但是因为一些操作生成的结果会包含索引化的数据，所以理解工作原理很重要

In [72]:
#除了类似于数组，索引也类似于一个大小固定的集合：
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,3.4
2002,3.6,2.9


In [73]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [74]:
"Ohio" in frame3.columns

True

In [75]:
2003 in frame3.columns

False

In [76]:
#与py不同，pandas的索引可以包含重复的标签：
pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

选择重复的标签，会选取所有对应的结果

In [None]:
每个索引都会有一些集合逻辑的方法和属性，可用于处理索引包含数据的常见问题。

![jupyter](./5.2.png)
![jupyter](./5.3.png)