# 第6章 Pandas和数据帧（DataFrame）


In [1]:
# importing Pandas package using alias
import pandas as pd
import numpy as np

In [2]:
# Pandas 主要有两种广泛应用于数据科学的数据结构。
# 序列 （Series）
# 数据帧 （DataFrame）


Pandas中的序列是一维标记数组，能够保存任何数据类型。如整数，浮点数和字符串，与NumPy的一维数组类似。除由程序员指定的值之外，Pandas还为每个值分配一个标签。如果程序员没有提供标签，那么将由Pandas分配标签（第一个元素为0，第二个元素为1，以此类推）。把标签分配给数据值的好处是，随着整个数据集变得更像字典，当每一个值都与一个标签关联时，可以更加简便地操作数据集。

In [3]:
# Pandas序列可以通过pd.Series()构建
# creating an empty Series
x = pd.Series()
print("empty series example:",x)

empty series example: Series([], dtype: float64)


  This is separate from the ipykernel package so we can avoid doing imports until


在输出单元格中，可以看到序列的默认数据类型为浮点型。接下来再使用数字列表创建另一个序列示例。

In [4]:
# series example
series1 = pd.Series([10,20,30,50])
print(series1)

0    10
1    20
2    30
3    50
dtype: int64


可以看到输出形式是两列表格——第一列显示从零开始的索引，第二列显示对应的元素。该索引列是由序列自动生成的，如果想使用自定义索引名称重命名索引列，那么请使用索引参数。

In [5]:
# re-indexing the default index column  自定义索引
series2 = pd.Series([10,20,30,50], index = ['a','b','c','d'])
print(series2)

a    10
b    20
c    30
d    50
dtype: int64


In [6]:
# accessing a Series element
series2['b']

20

In [7]:
# data manipulation with series
print("adding 5 to Series:\n",series2 + 5)
print("filtering series with greater than 30:\n",series2[series2>30])
print("square root of Series elements:\n", np.sqrt(series2))

adding 5 to Series:
 a    15
b    25
c    35
d    55
dtype: int64
filtering series with greater than 30:
 d    50
dtype: int64
square root of Series elements:
 a    3.162278
b    4.472136
c    5.477226
d    7.071068
dtype: float64


In [8]:
# 字典数据结构转换城序列式
# a sample dictionary
data = {'a': 1, 'b': 2, 'c': 3}
# converting dictionary to series
pd.Series(data)

a    1
b    2
c    3
dtype: int64

# DataFrame

Pandas的数据帧是一个二维标记的数据结构，具有类型可能不同的两列数值，包含3个组件——索引、行和列。它也是一种表格型数据结构，其中数据以行和列的格式（类似于CSV和SQL文件）排列，但也可用于更高维度的数据集。数据帧对象可以包含同质和异质的值，可以把它看作是序列数据结构的逻辑扩展。与仅有一个索引的序列不同，数据帧对象同时有列索引和行索引，体现了其访问和处理数据的灵活性。

In [9]:
# creating an empty dataframe
df = pd.DataFrame()
print("dataframe example:\n",df)

dataframe example:
 Empty DataFrame
Columns: []
Index: []


In [10]:
# a sample list containing name and age
data = [['Tom',10],['Harry',12],['Jim',13]]
# creating a dataframe form givin list with column names
df = pd.DataFrame(data, columns=['Name','Age'])
df

Unnamed: 0,Name,Age
0,Tom,10
1,Harry,12
2,Jim,13


In [11]:
# accessing a dataframe column-first way
df['Name']

0      Tom
1    Harry
2      Jim
Name: Name, dtype: object

In [12]:
# accessing a dataframe column-second way
df.Name

0      Tom
1    Harry
2      Jim
Name: Name, dtype: object

In [13]:
# adding a column in existing dataframe
df['Year'] = 2020
df

Unnamed: 0,Name,Age,Year
0,Tom,10,2020
1,Harry,12,2020
2,Jim,13,2020


In [14]:
# 删除列也是一项比较简单的任务，可以使用del或.pop()完成
print("orignial dataframe:\n", df)
del df['Year']
print("dataframe after del:\n",df)
df.pop('Age')
print("dataframe after pop:\n",df)

orignial dataframe:
     Name  Age  Year
0    Tom   10  2020
1  Harry   12  2020
2    Jim   13  2020
dataframe after del:
     Name  Age
0    Tom   10
1  Harry   12
2    Jim   13
dataframe after pop:
     Name
0    Tom
1  Harry
2    Jim


# 6.3 .loc[] & .iloc[]

In [15]:
# a sample dataframe containing company stock data
data = pd.DataFrame({'Company':['American Express','Cisco','Walt Disney','Microsoft'],
                     'Price': [95,25,85,41],
                   'Ticker':['AXP','CSCO','DIS','MSFT'],
                   })
data

Unnamed: 0,Company,Price,Ticker
0,American Express,95,AXP
1,Cisco,25,CSCO
2,Walt Disney,85,DIS
3,Microsoft,41,MSFT


要访问company列中索引为0的值，可以使用标签或通过指示位置来实现。对于基于标签的索引，可以使用.loc[]；而对于基于位置的索引，可以使用.iloc[]

In [16]:
# access the value that is at index 0, in column 'Company' using loc
print(data.loc[0]['Company'])
# access the value that is at index 0, in column 'Company' using iloc
print(data.iloc[0][0])

American Express
American Express


In [17]:
print(data.iloc[3])


Company    Microsoft
Price             41
Ticker          MSFT
Name: 3, dtype: object


In [18]:
print(data.loc[1][0])

Cisco


# 数据帧函数

In [19]:
# inspecting top 5 rows of a dataframe
print("Top five data:\n",data.head())
# inspecting below 5 rows of a dataframe
print("Below 5 data:\n",data.tail())

Top five data:
             Company  Price Ticker
0  American Express     95    AXP
1             Cisco     25   CSCO
2       Walt Disney     85    DIS
3         Microsoft     41   MSFT
Below 5 data:
             Company  Price Ticker
0  American Express     95    AXP
1             Cisco     25   CSCO
2       Walt Disney     85    DIS
3         Microsoft     41   MSFT


In [20]:
# check data type of columns
data.dtypes

Company    object
Price       int64
Ticker     object
dtype: object

Pandas数据帧还有一种独特的方法，可以提供数据集的描述性统计信息（平均值、中位数及计数等）。要了解这些统计信息，请使用.describe()

In [21]:
# descriptive statistics of data
data.describe()

Unnamed: 0,Price
count,4.0
mean,61.5
std,33.798422
min,25.0
25%,37.0
50%,63.0
75%,87.5
max,95.0


In [22]:
# information of the dataframe 数据信息
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Company  4 non-null      object
 1   Price    4 non-null      int64 
 2   Ticker   4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


# 6.5 处理数据帧中的缺失值

数据科学家经常会遇到未清洗的数据中存在缺失值的情况。这里的缺失意味着由某些原因导致数据不可用（NA），但是也不能因此就忽略所丢失的数据。实际上，在应用机器学习算法之前，需要处理这些缺失值。Pandas提供了一种灵活的方法来处理丢失的数据，它使用NaN（非数字）或NaT作为缺失值的默认标记。借助于此，可以使用isnull()函数轻松地检测到缺失值。

In [28]:
# a sample dataframe
df = pd.DataFrame(np.random.randn(5,3), 
                  index = ['a','c','e','f','h'], 
                  columns = ['One','Two','Three'])
# creating a data with missing values by reindexing
df2 = df.reindex(['a','b','c','d','e','f','g','h'])
df2

Unnamed: 0,One,Two,Three
a,-0.159222,-1.411017,1.454112
b,,,
c,1.210108,0.242917,0.786402
d,,,
e,-0.774799,-1.463119,-1.528251
f,1.062209,1.182602,-0.771568
g,,,
h,1.526785,0.299881,1.525348


可以将缺失的值视为NaN，然后使用isnull()函数检查是否存在缺失值，最后使用sum()函数统计缺失值的数量，如图6-21所示。isnull()函数的作用是返回一个尺寸一致的布尔值，以指示数值是否缺失；而sum()函数的作用是统计布尔值为真的数量。

In [24]:
# checking missing values using isbull()
print(df2.isnull())
missing_values_count = df2.isnull().sum()
print("Count if missing values:\n", missing_values_count)

     One    Two  Three
a  False  False  False
b   True   True   True
c  False  False  False
d   True   True   True
e  False  False  False
f  False  False  False
g   True   True   True
h  False  False  False
Count if missing values:
 One      3
Two      3
Three    3
dtype: int64


一旦知道缺失值的总数，就可以考虑如何处理这些值了。当不知道为什么会有缺失值时，一种简单的方法是使用.dropna()函数删除它们

In [25]:
# remove all the rows that contain a missing value
df2 = df.dropna()
print(df2)

        One       Two     Three
a  1.032503 -1.906586  0.035877
c  0.183757  0.755848 -0.716863
e -0.005347  1.263301  0.621241
f  0.573832 -0.680203 -0.207532
h  1.857959 -0.099415 -0.875876


dropna()也能够应用于列，可以使用dropna()函数中的axis=1参数删除所有至少有一个缺失值的列。作为示例，要把这种方法应用在原始的df2数据帧上。

In [29]:
# remove all columns with at least one missing value 需要重新运行df2
column_with_na_dropped = df2.dropna(axis=1)
column_with_na_dropped.head()

a
b
c
d
e


基于列来删除NaN值可能有风险，因为如果每一列都有NaN值，则会丢失所有列。在这种情况下，基于行的dropna()方法比较有用。

第二种处理缺失值的方法是用零、平均值、中间值或者单词填充。一起来看一看如何填充缺失的值

In [30]:
# filling NaN with zeros
df3 = df2.fillna(0)
df3

Unnamed: 0,One,Two,Three
a,-0.159222,-1.411017,1.454112
b,0.0,0.0,0.0
c,1.210108,0.242917,0.786402
d,0.0,0.0,0.0
e,-0.774799,-1.463119,-1.528251
f,1.062209,1.182602,-0.771568
g,0.0,0.0,0.0
h,1.526785,0.299881,1.525348


In [31]:
# replace all NA's the value that comes directly after it in the same column
# then replace all the remaining NA's with 0
df4 = df2.fillna(method = 'bfill',axis = 0).fillna(0)
df4

Unnamed: 0,One,Two,Three
a,-0.159222,-1.411017,1.454112
b,1.210108,0.242917,0.786402
c,1.210108,0.242917,0.786402
d,-0.774799,-1.463119,-1.528251
e,-0.774799,-1.463119,-1.528251
f,1.062209,1.182602,-0.771568
g,1.526785,0.299881,1.525348
h,1.526785,0.299881,1.525348


我们使用Pandas数据帧的后向填充方法来填充缺失值。同样，也可以使用ffil（方法进行前向填充。