# DataFrame
数据帧(DataFrame)是二维数据结构，即数据以行(row)和列(columns)的表格方式排列。

- 创建DataFrame
- 列操作
    - 列选择
    - 列添加
    - 列删除
- 行操作
    - 行选择
        - 行切片
    - 行添加
    - 行删除
 

## 1 创建DataFrame

pandas.DataFrame( data, index, columns, dtype, copy 
    - data 数据采取各种形式，如:ndarray，series，map，lists，dict，constant和另一个DataFrame。 
    - index 对于行标签，要用于结果帧的索引是可选缺省值np.arrange(n)，如果没有传递索引值。
    - colums 对于列标签，可选的默认语法是 - np.arange(n)。 这只有在没有索引传递的情况下才是这样。
    - dtype 每列的数据类型。
    - copy  如果默认值为False，则此命令(或任何它)用于复制数据。

- 创建一个空的DataFrame
- 从列表中创建DataFrame
- 从ndarrays/List的字典中创建DataFrame
- 从列表中创建DataFrame
- 从系列字典中创建DataFrame

In [3]:
#-------------  创建一个空的DataFrame
import pandas as pd
df = pd.DataFrame()
"""
print(df)

Empty DataFrame
Columns: []
Index: []
"""

#-------------- 从列表中创建DataFrame

# 实例-1 可以使用单个列表或列表列表创建数据帧(DataFrame)。
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
"""
print(df)

   0
0  1
1  2
2  3
3  4
4  5
"""

# 实例-2
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
"""
print(df)

     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13
"""

# 实例-3
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
"""
print(df)

     Name   Age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0
"""

#---------------- 从ndarrays/Lists的字典来创建DataFrame  
"""
所有的ndarrays必须具有相同的长度。如果传递了索引(index)，则索引的长度应等于数组的长度。
如果没有传递索引，则默认情况下，索引将为range(n)，其中n为数组长度。
"""

# 实例-1
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
"""
print(df)

    Name  Age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42
"""

# 示例-2 使用数组创建一个索引的数据帧(DataFrame)。
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
"""
print(df)

        Name  Age
rank1    Tom   28
rank2   Jack   34
rank3  Steve   29
rank4  Ricky   42
"""

#---------------------- 从列表创建数据帧DataFrame
"""
字典列表可作为输入数据传递以用来创建数据帧(DataFrame)，字典键默认为列名。
"""

# 实例-1 以下示例显示如何通过传递字典列表来创建数据帧(DataFrame)。
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
"""
print(df)

   a   b     c
0  1   2   NaN
1  5  10  20.0
"""

# 示例-2 以下示例显示如何通过传递字典列表和行索引来创建数据帧(DataFrame)。
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
"""
print(df)

        a   b     c
first   1   2   NaN
second  5  10  20.0
"""

# 实例-3  以下示例显示如何使用字典，行索引和列索引列表创建数据帧(DataFrame)。
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}] 
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b']) 
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
"""
print (df1)
print (df2 )

        a   b
first   1   2
second  5  10
        a  b1
first   1 NaN
second  5 NaN
"""


#----------------------从系列的字典来创建DataFrame


import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
"""
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
"""
print()




## 2 列操作
- 选择列
- 添加列
- 删除列

In [10]:
#---------------- 选择列

# 下面将通过从数据帧(DataFrame)中选择一列
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
"""
print(df ['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64
"""

#---------------- 列添加
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)  
df['three']=pd.Series([10,20,30],index=['a','b','c'])
"""
print(df) 

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
"""
df['four']=df['one']+df['three']
"""
print(df)

   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3   30.0  33.0
d  NaN    4    NaN   NaN
"""

#--------------- 列删除
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d) 
"""
print(df)

Our dataframe is:
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
"""

#==using del function 
del df['one']
"""
print(df) 

   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN
"""
#==using pop function 
df.pop('two')
"""
print(df)

   three
a   10.0
b   20.0
c   30.0
d    NaN
"""
print()




## 3 行操作
- 行选择
    - 行切片
- 行添加
- 行删除

In [19]:
#--------------行选择

# 标签选择
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
"""
print(df.loc['b'] )

one    2.0
two    2.0
Name: b, dtype: float64
"""

# 按整数位置选择
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
"""
print(df.iloc[2] )

one    3.0
two    3.0
Name: c, dtype: float64
"""

##-------------- 行切片
# 可以使用:运算符选择多行
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
    'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
"""
print(df[2:4])

   one  two
c  3.0    3
d  NaN    4
"""

#-------------- 增加行
# 使用append()函数将新行添加到DataFrame
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2)
"""
print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8
"""

#-------------- 删除行
# 使用索引标签从DataFrame中删除或删除行。 如果标签重复，则会删除多行。
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2) 
df = df.drop(0)
"""
print(df)

   a  b
1  3  4
1  7  8
"""

print()


