# 第6章 Pandas和数据帧（DataFrame）


In [12]:
# importing Pandas package using alias
import pandas as pd
import numpy as np

In [2]:
# Pandas 主要有两种广泛应用于数据科学的数据结构。
# 序列 （Series）
# 数据帧 （DataFrame）


Pandas中的序列是一维标记数组，能够保存任何数据类型。如整数，浮点数和字符串，与NumPy的一维数组类似。除由程序员指定的值之外，Pandas还为每个值分配一个标签。如果程序员没有提供标签，那么将由Pandas分配标签（第一个元素为0，第二个元素为1，以此类推）。把标签分配给数据值的好处是，随着整个数据集变得更像字典，当每一个值都与一个标签关联时，可以更加简便地操作数据集。

In [3]:
# Pandas序列可以通过pd.Series()构建
# creating an empty Series
x = pd.Series()
print("empty series example:",x)

empty series example: Series([], dtype: float64)


在输出单元格中，可以看到序列的默认数据类型为浮点型。接下来再使用数字列表创建另一个序列示例。

In [5]:
# series example
series1 = pd.Series([10,20,30,50])
print(series1)

0    10
1    20
2    30
3    50
dtype: int64


可以看到输出形式是两列表格——第一列显示从零开始的索引，第二列显示对应的元素。该索引列是由序列自动生成的，如果想使用自定义索引名称重命名索引列，那么请使用索引参数。

In [7]:
# re-indexing the default index column  自定义索引
series2 = pd.Series([10,20,30,50], index = ['a','b','c','d'])
print(series2)

a    10
b    20
c    30
d    50
dtype: int64


In [8]:
# accessing a Series element
series2['b']

20

In [13]:
# data manipulation with series
print("adding 5 to Series:\n",series2 + 5)
print("filtering series with greater than 30:\n",series2[series2>30])
print("square root of Series elements:\n", np.sqrt(series2))

adding 5 to Series:
 a    15
b    25
c    35
d    55
dtype: int64
filtering series with greater than 30:
 d    50
dtype: int64
square root of Series elements:
 a    3.162278
b    4.472136
c    5.477226
d    7.071068
dtype: float64


In [14]:
# 字典数据结构转换城序列式
# a sample dictionary
data = {'a': 1, 'b': 2, 'c': 3}
# converting dictionary to series
pd.Series(data)

a    1
b    2
c    3
dtype: int64

# DataFrame

Pandas的数据帧是一个二维标记的数据结构，具有类型可能不同的两列数值，包含3个组件——索引、行和列。它也是一种表格型数据结构，其中数据以行和列的格式（类似于CSV和SQL文件）排列，但也可用于更高维度的数据集。数据帧对象可以包含同质和异质的值，可以把它看作是序列数据结构的逻辑扩展。与仅有一个索引的序列不同，数据帧对象同时有列索引和行索引，体现了其访问和处理数据的灵活性。

In [15]:
# creating an empty dataframe
df = pd.DataFrame()
print("dataframe example:\n",df)

dataframe example:
 Empty DataFrame
Columns: []
Index: []


In [24]:
# a sample list containing name and age
data = [['Tom',10],['Harry',12],['Jim',13]]
# creating a dataframe form givin list with column names
df = pd.DataFrame(data, columns=['Name','Age'])
df

Unnamed: 0,Name,Age
0,Tom,10
1,Harry,12
2,Jim,13


In [25]:
# accessing a dataframe column-first way
df['Name']

0      Tom
1    Harry
2      Jim
Name: Name, dtype: object

In [26]:
# accessing a dataframe column-second way
df.Name

0      Tom
1    Harry
2      Jim
Name: Name, dtype: object

In [27]:
# adding a column in existing dataframe
df['Year'] = 2020
df

Unnamed: 0,Name,Age,Year
0,Tom,10,2020
1,Harry,12,2020
2,Jim,13,2020


In [28]:
# 删除列也是一项比较简单的任务，可以使用del或.pop()完成
print("orignial dataframe:\n", df)
del df['Year']
print("dataframe after del:\n",df)
df.pop('Age')
print("dataframe after pop:\n",df)

orignial dataframe:
     Name  Age  Year
0    Tom   10  2020
1  Harry   12  2020
2    Jim   13  2020
dataframe after del:
     Name  Age
0    Tom   10
1  Harry   12
2    Jim   13
dataframe after pop:
     Name
0    Tom
1  Harry
2    Jim


# 6.3 .loc[] & .iloc[]