In [2]:
# DataFrame：一个表格型数据结构，既有行标签，又有列标签；也被称为异构数据表，所谓异构是指表格中每列的数据类型可以不同；比如可以是字符串、整形、浮点型等
# 每一列数据均可看作Series结构，只不过为每列数据增加了一个列标签；因此DataFrame其实是从Series基础上演变而来，并且该列的每个值具有相同的标签
# 每列标签对应的值允许使用不同的数据类型；每个数据值均可被修改；允许增加/删除行数/列数；有两个方向的标签轴，分别是行标签和列标签；可以对行和列执行算术运算
import numpy as np
import pandas as pd

In [None]:
# 1.创建DataFrame对象
# (1)使用普通列表创建
data1=[1,2,3,4,5]
df1=pd.DataFrame(data1)
print(df1)
# 与Series作对比
ds1=pd.Series(data1)
print(ds1)

# (2)使用嵌套列表创建
# 列表中每个元素代表一行数据
data2=[['xiaowang',20],['Lily',30],['Anne',40]]
# 未分配列标签，默认使用0、1、2......
df2=pd.DataFrame(data2)
print(df2)
# 自定义分配列标签
df2=pd.DataFrame(data2,columns=['Name','Age'])
print(df2)

# (3)指定数值元素的数据类型为float
# 需要注意，dtype只能设置一个，设置多个列的数据类型需要使用其他方式
data3=[['xiaowang',20,'男',5000],['Lily',30,'女',8000],['Anne',40,'女',10000]]
# int满足某列特征会自动使用，不满足则自动识别
# 报错invalid literal for int() with base 10: 'xiaowang'
# df4=pd.DataFrame(data3,columns=['Name','Age','Gender','Salary'],dtype=int)
df3=pd.DataFrame(data3,columns=['Name','Age','Gender','Salary'],dtype=(str,int))
print(df3)

# (4)列表嵌套字典创建DataFrame对象
# 列表嵌套字典可以作为输入数据传递给DataFrame构造函数；默认情况下字典的键被用作列名
data4=[{'a':1,'b':2},{'a':5,'b':10,'c':20}]
# 注意：如果某个元素值缺失，也就是字典的key没有对应的value，将使用NaN代替
# 自定义行标签是'first'、'second'；列标签是字典中的key
df4=pd.DataFrame(data4,index=['first','second'])
print(df4)
# 注意：因为列标签'No.2'在字典键key中不存在，所以对应值为NaN
df4=pd.DataFrame(data4,index=['first','second'],columns=['a','No.2'])
print(df4)

# 总结：从列表/元组创建，表示一行一行的数据
# (1)列表嵌套列表：[['xiaowang',20,'男',5000],['Lily',30,'女',8000],['Anne',40,'女',10000]]；使用默认的列表标签
# (2)列表嵌套字典：[{'a':1,'b':2},{'a':5,'b':10,'c':20}]；使用字典的key作为标签

   0
0  1
1  2
2  3
3  4
4  5
0    1
1    2
2    3
3    4
4    5
dtype: int64
          0   1
0  xiaowang  20
1      Lily  30
2      Anne  40
       Name  Age
0  xiaowang   20
1      Lily   30
2      Anne   40
       Name Age Gender Salary
0  xiaowang  20      男   5000
1      Lily  30      女   8000
2      Anne  40      女  10000
        a   b     c
first   1   2   NaN
second  5  10  20.0
        a  No.2
first   1   NaN
second  5   NaN


In [11]:
# (5)字典嵌套列表创建
# data字典中，键对应的值的元素长度必须相同（也就是列表长度相同）。如果传递了索引，那么索引的长度应该等于数组的长度；
# 如果没有传递索引，默认情况下行索引将是RangeIndex(0,1,...,n)，其中n代表数组长度
data5={'Name':['关羽','刘备','张飞','曹操'],'Age':[28,34,29,42]}
# 通过字典创建DataFrame
df5=pd.DataFrame(data5)
print(df5)
# 输出默认情况下的行索引 RangeIndex(0,1,...,n)
print(df5.index)
# 输出列标签 Index(['Name', 'Age'], dtype='object')
print(df5.columns)

# (6)Series创建DataFrame对象
# 通过字典形式的Series，从而创建DataFrame对象，输出结果的行索引是所有index的合集
# 每个Series是DataFrame中的一列
data6={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df6=pd.DataFrame(data6)
# 因为'one'标签对应的列长度不够，使用numpy.NaN数据类型填充，然而numpy.NaN为float类型，于是1,2,3整体被强制转换为float类型
print(df6)
print(type(np.NaN))
# 解决不同列设置不同的数据类型
data6={
    'Name':pd.Series(['xiaowang','Lily','Anne']),
    'Age':pd.Series([20,30,40],dtype=int),
    'Gender':pd.Series(['男','男','女']),
    'Salary':pd.Series([5000,8000,10000],dtype=float)
}
df6=pd.DataFrame(data6)
print(df6)

# 总结：从字典创建，表示一列一列的数据
# (1)字典对应值是列表：{'Name':['关羽','刘备','张飞','曹操'],'Age':[28,34,29,42]}；行使用默认标签
# (2)字典对应值是Series：{'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}；行和列都使用设置的标签，并且还可以指定列的数据类型

  Name  Age
0   关羽   28
1   刘备   34
2   张飞   29
3   曹操   42
RangeIndex(start=0, stop=4, step=1)
Index(['Name', 'Age'], dtype='object')
   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
<class 'float'>
       Name  Age Gender   Salary
0  xiaowang   20      男   5000.0
1      Lily   30      男   8000.0
2      Anne   40      女  10000.0
