# 02 pandas Dataframe

"二维数组"Dataframe：是一个表格型的数据结构，包含一组有序的列，其列的值类型可以是数值、字符串、布尔值等。

Dataframe中的数据以一个或多个二维块存放，不是列表、字典或一维数组结构。

## 基本内容

In [1]:
# 导入numpy、pandas模块
import numpy as np
import pandas as pd  

In [2]:
# Dataframe 数据结构
# Dataframe是一个表格型的数据结构，“带有标签的二维数组”。
# Dataframe带有index（行标签）和columns（列标签）

data = {'name':['Jack','Tom','Mary'],
        'age':[18,19,20],
       'gender':['m','m','w']}
frame = pd.DataFrame(data)
print(frame)  
print(type(frame))
print(frame.index,'\n该数据类型为：',type(frame.index))
print(frame.columns,'\n该数据类型为：',type(frame.columns))
print(frame.values,'\n该数据类型为：',type(frame.values))
# 查看数据，数据类型为dataframe
# .index查看行标签
# .columns查看列标签
# .values查看值，数据类型为ndarray

   name  age gender
0  Jack   18      m
1   Tom   19      m
2  Mary   20      w
<class 'pandas.core.frame.DataFrame'>
RangeIndex(start=0, stop=3, step=1) 
该数据类型为： <class 'pandas.core.indexes.range.RangeIndex'>
Index(['name', 'age', 'gender'], dtype='object') 
该数据类型为： <class 'pandas.core.indexes.base.Index'>
[['Jack' 18 'm']
 ['Tom' 19 'm']
 ['Mary' 20 'w']] 
该数据类型为： <class 'numpy.ndarray'>


In [3]:
# Dataframe 创建方法一：由数组/list组成的字典
# 创建方法:pandas.Dataframe()

data1 = {'a':[1,2,3],
        'b':[3,4,5],
        'c':[5,6,7]}
data2 = {'one':np.random.rand(3),
        'two':np.random.rand(3)}   # 这里如果尝试  'two':np.random.rand(4) 会怎么样？
print(data1)
print(data2)
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1)
print(df2)
# 由数组/list组成的字典 创建Dataframe，columns为字典key，index为默认数字标签
# 字典的值的长度必须保持一致！

df1 = pd.DataFrame(data1, columns = ['b','c','a','d'])
print(df1)
df1 = pd.DataFrame(data1, columns = ['b','c'])
print(df1)
# columns参数：可以重新指定列的顺序，格式为list，如果现有数据中没有该列（比如'd'），则产生NaN值
# 如果columns重新指定时候，列的数量可以少于原数据

df2 = pd.DataFrame(data2, index = ['f1','f2','f3'])  # 这里如果尝试  index = ['f1','f2','f3','f4'] 会怎么样？
print(df2)
# index参数：重新定义index，格式为list，长度必须保持一致

{'a': [1, 2, 3], 'b': [3, 4, 5], 'c': [5, 6, 7]}
{'one': array([0.31567386, 0.33804203, 0.51698769]), 'two': array([0.01118154, 0.08397727, 0.61255283])}
   a  b  c
0  1  3  5
1  2  4  6
2  3  5  7
        one       two
0  0.315674  0.011182
1  0.338042  0.083977
2  0.516988  0.612553
   b  c  a    d
0  3  5  1  NaN
1  4  6  2  NaN
2  5  7  3  NaN
   b  c
0  3  5
1  4  6
2  5  7
         one       two
f1  0.315674  0.011182
f2  0.338042  0.083977
f3  0.516988  0.612553


In [4]:
# Dataframe 创建方法二：由Series组成的字典

data1 = {'one':pd.Series(np.random.rand(2)),
        'two':pd.Series(np.random.rand(3))}  # 没有设置index的Series
data2 = {'one':pd.Series(np.random.rand(2), index = ['a','b']),
        'two':pd.Series(np.random.rand(3),index = ['a','b','c'])}  # 设置了index的Series
print(data1)
print(data2)
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1)
print(df2)
# 由Seris组成的字典 创建Dataframe，columns为字典key，index为Series的标签（如果Series没有指定标签，则是默认数字标签）
# Series可以长度不一样，生成的Dataframe会出现NaN值

{'one': 0    0.317930
1    0.723881
dtype: float64, 'two': 0    0.536432
1    0.366410
2    0.616695
dtype: float64}
{'one': a    0.385209
b    0.827302
dtype: float64, 'two': a    0.851281
b    0.644637
c    0.558161
dtype: float64}
        one       two
0  0.317930  0.536432
1  0.723881  0.366410
2       NaN  0.616695
        one       two
a  0.385209  0.851281
b  0.827302  0.644637
c       NaN  0.558161


In [5]:
# Dataframe 创建方法三：通过二维数组直接创建

ar = np.random.rand(9).reshape(3,3)
print(ar)
df1 = pd.DataFrame(ar)
df2 = pd.DataFrame(ar, index = ['a', 'b', 'c'], columns = ['one','two','three'])  # 可以尝试一下index或columns长度不等于已有数组的情况
print(df1)
print(df2)
# 通过二维数组直接创建Dataframe，得到一样形状的结果数据，如果不指定index和columns，两者均返回默认数字格式
# index和colunms指定长度与原数组保持一致

[[0.10414395 0.87019064 0.29532148]
 [0.87035522 0.54592094 0.30197411]
 [0.63354379 0.0831659  0.11894459]]
          0         1         2
0  0.104144  0.870191  0.295321
1  0.870355  0.545921  0.301974
2  0.633544  0.083166  0.118945
        one       two     three
a  0.104144  0.870191  0.295321
b  0.870355  0.545921  0.301974
c  0.633544  0.083166  0.118945


## 作业

### 作业1：用三种不同的方法，创建以下Dataframe（保证columns和index一致，值不做要求）

In [6]:
dict1 = {'four':[4,5,6,7,8],'one':[1,2,3,4,5],'three':[3,4,5,6,7],'two':[2,3,4,5,6]}
df1 = pd.DataFrame(dict1, index=('a','b','c','d','e'))
df1

Unnamed: 0,four,one,three,two
a,4,1,3,2
b,5,2,4,3
c,6,3,5,4
d,7,4,6,5
e,8,5,7,6


In [7]:
data1 = {'four': pd.Series(np.arange(4,9,1),index=('a','b','c','d','e')),
        'one': pd.Series([1,2,3,4,5],index=('a','b','c','d','e')),
        'three': pd.Series([3,4,5,6,7],index=('a','b','c','d','e')),
        'two': pd.Series([2,3,4,5,6],index=('a','b','c','d','e'))}
df2 = pd.DataFrame(data1)
df2

Unnamed: 0,four,one,three,two
a,4,1,3,2
b,5,2,4,3
c,6,3,5,4
d,7,4,6,5
e,8,5,7,6


In [8]:
list1 = list(dict1.values())
arr = np.array(list1).T
df3 = pd.DataFrame(arr, index = ['a', 'b', 'c','d','e'], columns = ['four','one','three','two'])
df3

Unnamed: 0,four,one,three,two
a,4,1,3,2
b,5,2,4,3
c,6,3,5,4
d,7,4,6,5
e,8,5,7,6
