# Pandas

<img src="../images/logo.png" width=150>

在本文中，我们将学习使用Python Pandas库进行数据分析的基础知识。

<img src="../images/pandas.png" width=500>




# 下载数据

首先，我们要获得一些数据。我们将从下面的公共链接中下载titanic数据集。

In [None]:
# import urllib

In [None]:
# # 将数据从GitHub下载到笔记本电脑的本地磁盘
# url = "https://raw.githubusercontent.com/GokuMohandas/practicalAI/master/data/titanic.csv"
# response = urllib.request.urlopen(url)
# html = response.read()
# with open('titanic.csv', 'wb') as f:
#     f.write(html)

In [None]:
# 检查数据是否已下载成功
# !ls -l 

# 加载数据

现在我们有一些数据可以使用，让我们加载到Pandas数据帧（dataframe）中。Pandas是一个很棒的python数据库分析库。

In [None]:
import pandas as pd

In [None]:
# 从CSV读取到Pandas DataFrame
df = pd.read_csv("../data/titanic.csv", header=0)

In [None]:
# 前五项
df.head()

他们有不同的特征: 
* pclass: class of travel
* name: full name of the passenger
* sex: gender
* age: numerical age
* sibsp: # of siblings/spouse aboard
* parch: number of parents/child aboard
* ticket: ticket number
* fare: cost of the ticket
* cabin: location of room
* emarked: port that the passenger embarked at (C - Cherbourg, S - Southampton, Q = Queenstown)
* survived: survial metric (0 - died, 1 - survived)

# 探索性分析

我们将使用Pandas库，看看如何探索和处理我们的数据。

In [None]:
# 描述性统计
df.describe()

In [None]:
# 直方图
df["age"].hist()

In [None]:
# 唯一值
df["embarked"].unique()

In [None]:
# 根据特征选择数据
df["name"].head()

In [None]:
# 筛选
df[df["sex"]=="female"].head() # 只有女性数据出现

In [None]:
# 排序
df.sort_values("age", ascending=False).head()

In [None]:
# Grouping（数据聚合与分组运算）
sex_group = df.groupby("survived")
sex_group.mean()

In [None]:
# iloc根据位置的索引来访问
df.iloc[0, :] # iloc在索引中的特定位置获取行（或列）（因此它只需要整数）

In [None]:
# 获取指定位置的数据
df.iloc[0, 1]


In [None]:
# loc根据标签的索引来访问
df.loc[0] # loc从索引中获取具有特定标签的行（或列）

# 预处理

In [None]:
# 具有至少一个NaN值的行
df[pd.isnull(df).any(axis=1)].head()

In [None]:
# 删除具有Nan值的行
df = df.dropna() # 删除具有NaN值的行
df = df.reset_index() # 重置行索引
df.head()

In [None]:
# 删除多行
df = df.drop(["name", "cabin", "ticket"], axis=1) # we won't use text features for our initial basic models
df.head()

In [None]:
# 映射特征值
df['sex'] = df['sex'].map( {'female': 0, 'male': 1} ).astype(int)
df["embarked"] = df['embarked'].dropna().map( {'S':0, 'C':1, 'Q':2} ).astype(int)
df.head()

# 特征工程

In [None]:
# lambda表达式创建新特征
def get_family_size(sibsp, parch):
    family_size = sibsp + parch
    return family_size

df["family_size"] = df[["sibsp", "parch"]].apply(lambda x: get_family_size(x["sibsp"], x["parch"]), axis=1)
df.head()

In [None]:
# 重新组织标题
df = df[['pclass', 'sex', 'age', 'sibsp', 'parch', 'family_size', 'fare', 'embarked', 'survived']]
df.head()

# 保存数据

In [None]:
# 保存数据帧（dataframe）到 CSV
df.to_csv("../output/processed_titanic.csv", index=False)

In [None]:
# 看你一下你保持的文件
!ls -l ../output