In [2]:
import numpy as np
import pandas as pd

## 创建方式总结
```
DataFrame创建:
	总结:
	1.列表/元组出发:--->表示的一行一行数据
		1.列表嵌套列表:[['xiaowang',20],['Lily',30],['Anne',40]]
		(('xiaowang',20),('Lily',30),('Anne',40))
			-- 使用默认的列表标签
		2.列表嵌套字典:[{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
						({'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20})
			--- 使用字典的key作为标签
	2.字典出发: ----> 表示一列一列数据
		1.字典对应值是列表:{'Name':['关羽', '刘备', '张飞', '曹操'],'Age':[28,34,29,42]}
			-- 行使用默认标签
		2. 字典对应值是Series
		  {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
		  'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
		   -- 行和列都是设置的标签,并且还可以指定列的数据类型4
```

## 创建DataFrame对象
`pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)`

- data: 输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame
- index: 行标签，如果没有传递 index 值，则默认行标签是 RangeIndex(0, 1, 2, …, n)，n 代表 data 的元素个数。
- columns: 列标签，如果没有传递 columns 值，则默认列标签是 RangeIndex(0, 1, 2, …, n)。
- dtype: 要强制的数据类型。只允许使用一种数据类型。如果没有，自行推断
- copy:  从输入复制数据。对于dict数据，copy=True,重新复制一份。对于DataFrame或ndarray输入，类似于copy=False,使用的是试图

In [3]:
# 列表创建
data=[1,2,3,4]
df=pd.DataFrame(data)
df

Unnamed: 0,0
0,1
1,2
2,3
3,4


### 嵌套列表创建

In [4]:
# 嵌套列表创建
# 列表中每个元素代表一行数据
data = [['xiaowang',20],['Lily',30],['Anne',40]]
# 未分配列标签
df = pd.DataFrame(data)

print(df)

          0   1
0  xiaowang  20
1      Lily  30
2      Anne  40


In [8]:
data = [['xiaowang',20],['Lily',30],['Anne',40]]
# 未分配列标签
df = pd.DataFrame(data,columns=['name','age'])
df

Unnamed: 0,name,age
0,xiaowang,20
1,Lily,30
2,Anne,40


### 数据类型会自动识别，这种方式只能统一指定所有的数据类型

In [9]:
data = [['xiaowang', 20, "男", 5000.50],['Lily', 30, "男", 8000],['Anne', 40, "女", 10000]]
# 分配列标签 
#df = pd.DataFrame(data,columns=['Name','Age',"gender", "salary"], dtype=[str,int,str,float])  #错误
df = pd.DataFrame(data, columns=['Name','Age',"gender", "salary"], dtype=str)
# int满足某列特征,会自动使用, 不满足,则自动识别
print(df)

print(df['salary'].dtype)

       Name Age gender   salary
0  xiaowang  20      男   5000.5
1      Lily  30      男   8000.0
2      Anne  40      女  10000.0
object


###  <b>4. 字典嵌套列表创建</b>

data 字典中，键对应的值的元素长度必须相同（也就是列表长度相同）。如果传递了索引，那么索引的长度应该等于数组的长度；如果没有传递索引，那么默认情况下，索引将是 RangeIndex(0.1...n)，其中 n 代表数组长度。

In [15]:
data = {'Name':['关羽', '刘备', '张飞', '曹操'],'Age':[28,34,29,42]}
# 通过字典创建DataFrame
# df = pd.DataFrame(data) #默认为rangeIndex
df = pd.DataFrame(data,index=['rank1','rank2','rank3','rank4'])
print(df)
# 输入行标签
print(df.index)
# 输入列标签
print(df.columns)

      Name  Age
rank1   关羽   28
rank2   刘备   34
rank3   张飞   29
rank4   曹操   42
Index(['rank1', 'rank2', 'rank3', 'rank4'], dtype='object')
Index(['Name', 'Age'], dtype='object')


### <b>6. 列表嵌套字典创建DataFrame对象</b>

列表嵌套字典可以作为输入数据传递给 DataFrame 构造函数。默认情况下，字典的键被用作列名。

In [17]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
#df = pd.DataFrame(data)
df = pd.DataFrame(data, index=['first', 'second']) # 不设置需要的列，默认选择键的名称作为列
df

Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


In [18]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])# 选择需要的列

# 注意：因为 b1 在字典键中不存在，所以对应值为 NaN。 
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print("===========df1============")
print(df1)
print("===========df2============")
print(df2)

        a   b
first   1   2
second  5  10
        a  b1
first   1 NaN
second  5 NaN


### <b>7. Series创建DataFrame对象</b>

您也可以传递一个字典形式的 Series，从而创建一个 DataFrame 对象，其输出结果的行索引是所有 index 的合集

In [35]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df=pd.DataFrame(data=d)
print(type(np.NaN)) # 因为有缺失值，所以该列的类型转换为和NaN相同的float64
print(df.columns)
print(df['one'].dtype)# 有缺失值,float64
print(df['two'].dtype)# 没有缺失值,int64
df

<class 'float'>
Index(['one', 'two'], dtype='object')
float64
int64


Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [37]:
# 创建数据
data = {
    "Name":pd.Series(['xiaowang', 'Lily', 'Anne']),
    "Age":pd.Series([20, 30, 40],  dtype=float),
    "gender":pd.Series(["男", "男", "女"]),
    "salary":pd.Series([5000, 8000, 10000], dtype=float)
}
df = pd.DataFrame(data)
# int满足某列特征,会自动使用, 不满足,则自动识别
df
# 解决不同列 设置自定义数据类型

KeyError: 0