In [34]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" 

## 第一章：数据加载
访问数据是使用各类工具所必需的第一步，本章重点关注使用pandas进行数据输入和输出。

输入和输出的类型：读取文本文件及硬盘上其他高效的格式文件、从数据库载入、网络资源交互（例如Web API）.

数据的加载不仅仅是加载数据这一步骤，要对数据进行初步观察，并了解数据，这才是访问数据的完整第一步。

本章节为数据加载，内容总共分为三部分：
1. 载入数据进行初步观察
2. 查看数据项并筛选有效数据
3. 深入了解数据

### 1. 载入数据
本次学习将以案例带入，动手实操学习为特点，进行学习并应用实际，会根据笔者的知识对部分内容进行扩充巩固。

- 第一个经典案例：铁达尼克
- 数据源：https://www.kaggle.com/c/titanic/overview

In [1]:
###导入数据分析必备库
import numpy as np
import pandas as pd

### 1.1 载入数据函数
常见的数据载入有两种，一种是pandas类型下的`read`，另一种是`open`函数或`with open`函数，这里先介绍pandas的应用，而`open`函数可以参考笔者的其他文件：https://github.com/evenson5/Python_into

这里简单介绍下载入路径`filepath`，载入路径有两种，一种是*相对路径*，另一种是*绝对路径*。
 - 指定相对路径：相对与某个基准目录的路径，“/”表示根目录（域名映射的硬盘目录），“./”代表当前目录，“../”代表上级（父级）目录。例如`../data/data.txt`是data.txt位于当前python工作目录的父级目录中的data文件夹中。
 - 指定绝对路径：在硬盘上的真正的路径，例如`D:/python_data/data/data.txt`或者转义字符表示`D:\\python_data\\data\\data.txt`
 - 在路径前面加r，保持字符原始值的意思，例如`r'.\...\'`。

#### pandas载入数据
pandas读取的数据文件一般以*CSV、TXT、JSON、EXCEL*为主：

`pd.read_csv(filepath, encoding, sep, header, names, usecols, index_col, skiprows, nrows,chunksize...)`
- `filepath`:文件存储路径，可用`r`进行非转义限定，路径最好是纯英文。
- `encoding`:默认是`utf-8`，若同样读取默认`utf-8`的txt或json格式可忽略；*如果是csv，数据中带有中文时，指定`encoding='gbk'`*.
- `sep`:指定分隔符形式，csv默认逗号分割可忽略。
- `header`:指定第一行是否是列名，通常三种用法：忽略或`header=0`(表示数据第一行为列名），`header=None`（表明数据没有列名），常与names搭配使用。
-`names`: 指定列名，通常用一个字符串列表表示，当`header=0`即第一行为列名时，用`names`可以替换掉第数据中的第一行作为列名，如果`header=None`即数据没有列名时，用`names`可以增加一行作为列名，如果没有`header`参数时，用`names`会增加一行作为列名，原数据的第一行仍然保留.
- `usecols`:一个字符串列表，可以指定读取的列名。
- `index_col`:一个字符串列表，指定哪几列作为索引。
- `skiprows`:跳过多少行再读取数据，通常数据不太干净去掉表头才用到。
- `nrows`：仅读取多少，行后面的处理仅限于读取这些行。
- `chunksize`:指定分块大小读取文件，返回一个可迭代的对象TextFileReader。
- `df.to_csv('doc/csvFile.csv')`表示写入文件内容，保存文件，`df`为读取的数据集，其他格式表示一直，可以替代`csv`，例如`df.to_excel('/excelFile.xlsx',sheet_name="sheet_one")`

TXT读取:`pd.read_table()`

参数与CSV一致，其中要注意txt格式内可能有多种分隔符号，`sep`用正则表达式"\s+"可以匹配多种分隔符号。

JSON读取：`pd.read_json(filepath, orient, typ...)`

- `orient`:可选择 split,index,column,values,records,None，区别在于数据的组成结果不同
 - `split`:dict like {index -> [index], columns -> [columns], data -> [values]}
有索引，有列字段，和数据矩阵构成的json格式。key名称只能是index,columns和data，不能省略。
 - `records`:list like [{column -> value}, … , {column -> value}]
最常见的就是列表，列表中的每一项都是列字段与值构成的字典，可省略.
 - `index or column`:dict like {index -> {column -> value}} or {column -> {index -> value}}词典嵌套，index则指定外键为索引，内键为列，column相反，不能省略
 - `values`: 就是最常见的嵌套列表，可省略。
- JSON文件属于values格式，可省略`orient`参数。

In [4]:
###载入csv数据文件
df = pd.read_csv('train.csv')
df.head().append(df.tail())
#头尾数据都观察，可以看到具体的Indexes

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


#### 提示：
1. 当路径出现问题的时候，可以应用`os`库的`os.getcwd()`查看当前工作目录，`os.chdir("*/*")`为切换到**目录。
2. 如果绝对路径正确，但是读取代码失败，请注意字符原始值的应用`r`.

In [7]:
### 分块读取应用-大文件读取
chunker = pd.read_csv('train.csv',chunksize = 1000)
#本文件891行，属于“小文件”，仅用于举例说明

#chunksize和iterator一起应用可以打开前几行观察数据类型，如下：
chunks = pd.read_csv('train.csv',iterator = True)
chunk = chunks.get_chunk(5)
print(chunk)    #就是不如DataFrame打开的方式美观

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex  Age  SibSp  \
0                            Braund, Mr. Owen Harris    male   22      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female   38      1   
2                             Heikkinen, Miss. Laina  female   26      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female   35      1   
4                           Allen, Mr. William Henry    male   35      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [146]:
### 前面已经读取了对应的列名，为了让数据分析更高效，可以针对各个英文的列名翻译成中文：
df = pd.read_csv('train.csv', header = 0, names=['乘客ID','是否幸存','舱位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID')
#数据的列也以乘客ID(1开头)作为索引
df.head()

Unnamed: 0_level_0,是否幸存,舱位等级,姓名,性别,年龄,兄弟姐妹个数,父母子女个数,船票信息,票价,客舱,登船港口
乘客ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [11]:
### 其他表头更改方式1
#可以用names直接增加表头-中英对照
df_1 = pd.read_csv('train.csv',header=None,names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID')
df_1.head()

Unnamed: 0_level_0,是否幸存,仓位等级,姓名,性别,年龄,兄弟姐妹个数,父母子女个数,船票信息,票价,客舱,登船港口
乘客ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S


In [143]:
###其他表头更改方式2
#直接更改DataFrame的表头
df_2 = pd.read_csv('train.csv')
df_2.columns = ['乘客ID','是否幸存','舱位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口']
df_2.head()

Unnamed: 0,乘客ID,是否幸存,舱位等级,姓名,性别,年龄,兄弟姐妹个数,父母子女个数,船票信息,票价,客舱,登船港口
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [20]:
###其他表头更改方式3
#温柔的应用rename修改
df_3 = pd.read_csv('train.csv')
df_3.rename(columns={'PassengerId':'乘客ID'},inplace = True)
df_3.head()

Unnamed: 0,乘客ID,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### 小结：
上述四种改表头的方式各有千秋，建议可以直接使用`pd.read_csv(header=0,names=[])`方式，简单高效。

如果需要中英文对照的方式，`pd.read_csv(header=None,names=[])`表明原来不存在表头，再加入names。并且注意此时的DataFrame便是以英文名作为第1行（即index=0）。

DataFrame之后再直接修改也可，相比较比`rename`方便一些。

### 1.2 初次探索数据分析

In [21]:
### 判断数据中是否包含空值，可以可视化看（数据太多不建议），可以直接计算个数
df.isnull().sum()

是否幸存        0
仓位等级        0
姓名          0
性别          0
年龄        177
兄弟姐妹个数      0
父母子女个数      0
船票信息        0
票价          0
客舱        687
登船港口        2
dtype: int64

根据上述各项特征的空值计算可以看出，乘客的年龄和客舱的空值较多。结合铁达尼克号事件，在实际数据挖掘或分析中要注意这两列的数据应用，或填充或删除，鉴于两列性质较重要，后续将对其进行特征处理。

In [22]:
### 观察数据大小-shape
df.shape

(891, 11)

In [23]:
###数据统计总览
df.describe()

Unnamed: 0,是否幸存,仓位等级,年龄,兄弟姐妹个数,父母子女个数,票价
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


只有数据的特征可以进行统计描述，观察上述表格可以看出：
1. 共有6个数值特征，后面将附上所有的特征类型。
2. 幸存均值约0.3838,std约0.4866，整体数值偏0.
3. 舱位等级均值2.3，说明舱位3人数相比较多，标准差不算大，波动不大，说明分布较为均匀。
4. 年龄中年化，整体分布较广，最大也有80岁，最小几个月。
5. 票价波动较大，均值32，75%的人票价为31，最大值512，大部分偏向低价值票价。
6. 结合空值计算的数目，整体的乘客人数为891人。

In [24]:
### 数据类型，查看除了nan以外的异常情况
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   是否幸存    891 non-null    int64  
 1   仓位等级    891 non-null    int64  
 2   姓名      891 non-null    object 
 3   性别      891 non-null    object 
 4   年龄      714 non-null    float64
 5   兄弟姐妹个数  891 non-null    int64  
 6   父母子女个数  891 non-null    int64  
 7   船票信息    891 non-null    object 
 8   票价      891 non-null    float64
 9   客舱      204 non-null    object 
 10  登船港口    889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [25]:
### 查看数据分布个数
df.nunique()

是否幸存        2
仓位等级        3
姓名        891
性别          2
年龄         88
兄弟姐妹个数      7
父母子女个数      7
船票信息      681
票价        248
客舱        147
登船港口        3
dtype: int64

In [147]:
### 查看单个特征的特征值-舱位等级的特征
df['舱位等级'].unique()

array([3, 1, 2], dtype=int64)

In [148]:
### 查看数值特征的数值分布-例如舱位等级
df['舱位等级'].value_counts()

3    491
1    216
2    184
Name: 舱位等级, dtype: int64

In [172]:
### 保存数据-将加载作出改变的数据，保存在工作目录下的新文件
df.to_csv('train_1.csv')

### 2. 了解数据并观察筛选
前面一节已经对数据进行了加载，并初步对数据进行了简单的观察，现在要利用pandas了解数据的含义和字段，观察数据,所以这一章节更像pandas的入门应用。

### Pandas 简介
Pandas是贯穿本次学习的主要工具，包含的数据结构和数据处理工具的设计使其在Python中进行数据清洗和分析非常快捷。Pandas常用与数值计算,支持大部分Numpy语言风格的数组计算，尤其是数组函数以及没有for循环的各种数据处理。

与Numpy相比，Pandas是用来处理表格型或异质型数据，Numpy处理同质型的数值类型组数据。

从本地命名空间中导入**Series和DataFrame**，属于常用的类：

`from pandas import Series, DataFrame`

In [30]:
import numpy as mp
import pandas as pd

### 2.1 Series
Series是一种一维数组型对象，包含了一个值序列（Numpy中的类型相似）和数据标签（索引index）。

In [35]:
#简单序列
obj = pd.Series([1,3,5,-3])
obj
'''索引在左，值在右，默认索引0开始，values和index属性调取Series对象的值和索引'''

0    1
1    3
2    5
3   -3
dtype: int64

'索引在左，值在右，默认索引0开始，values和index属性调取Series对象的值和索引'

In [36]:
#values和index
obj.values
obj.index

array([ 1,  3,  5, -3], dtype=int64)

RangeIndex(start=0, stop=4, step=1)

In [37]:
#创建索引序列，用标签表示数据点
obj_1 = pd.Series([1,3,5,-3],index=['a','b','c','d'])
obj_1

a    1
b    3
c    5
d   -3
dtype: int64

In [38]:
obj_1['a'] = 0
obj_1

a    0
b    3
c    5
d   -3
dtype: int64

In [42]:
'0' in obj_1
0 in obj_1
'a' in obj_1

False

False

True

In [43]:
#使用字典生成Series
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj_2 = pd.Series(sdata)
obj_2

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [45]:
#更换index为另一个顺序
states = ['Australia','Oregon','Texas','Ohio']
obj_3 = pd.Series(sdata,index = states)
obj_3
'''因为‘Australia’没有湖现在sdata的键中，对应的值是NaN(not a number)，是pandas标记缺失值或NA值的方式'''

Australia        NaN
Oregon       16000.0
Texas        71000.0
Ohio         35000.0
dtype: float64

'因为‘Australia’没有湖现在sdata的键中，对应的值是NaN(not a number)，是pandas标记缺失值或NA值的方式'

In [47]:
#计算属性
obj_3 + obj_2

Australia         NaN
Ohio          70000.0
Oregon        32000.0
Texas        142000.0
Utah              NaN
dtype: float64

In [49]:
#name属性
obj_3.name = 'population'
obj_3.index.name = 'state'
obj_3

state
Australia        NaN
Oregon       16000.0
Texas        71000.0
Ohio         35000.0
Name: population, dtype: float64

### 2.2 DataFrame
- DataFrame表示矩阵的数据表，包含*已排序的列集合*，每一列可以是不同的值类型（int/string/bool）。
- DataFrame有行有列，可以视为一个共享相同索引的Series字典。
- DataFrame中数据存储为一个以上的二维块，不是列表、字典等其他一维数组的集合。
- 可利用分层索引在DataFrame中展现更高维度的数据，后续介绍分层索引。

In [52]:
#利用等长度列表或Numpy数组的字典构成DataFrame
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year':[2000,2010,2020,2000,2020,2010],'pop':[2.3,2.2,3.2,2.3,4.5,4.3]}
ex_2 = pd.DataFrame(data)
ex_2

Unnamed: 0,state,year,pop
0,Ohio,2000,2.3
1,Ohio,2010,2.2
2,Ohio,2020,3.2
3,Nevada,2000,2.3
4,Nevada,2020,4.5
5,Nevada,2010,4.3


In [53]:
ex_2.columns
ex_2.index

Index(['state', 'year', 'pop'], dtype='object')

RangeIndex(start=0, stop=6, step=1)

#### 注：
1. 属性型连接例如ex_2.year和列名的tab补全是非常方便的。
2. ex_2['column']对于任意列名有效，ex_2.column值在列名是*有效的Python变量名时*有效。

In [59]:
#行可通过具体的位置或者特殊属性loc进行选取（后续介绍）
ex_2.loc[3]

state    Nevada
year       2000
pop         2.3
Name: 3, dtype: object

In [60]:
#列的查看，数据多时可应用head()
ex_2.state.head(3)

0    Ohio
1    Ohio
2    Ohio
Name: state, dtype: object

In [63]:
###创建新列并赋值
#直接传入行新列，不存在在原DataFrame中的，为NaN
ex_3 = pd.DataFrame(data,columns=['year','state','pop','news'],index=range(1,7))
ex_3

#赋值
val = pd.Series([1.2,1.5,1.8],index=[1,3,5])
ex_3['news'] = val
ex_3

Unnamed: 0,year,state,pop,news
1,2000,Ohio,2.3,
2,2010,Ohio,2.2,
3,2020,Ohio,3.2,
4,2000,Nevada,2.3,
5,2020,Nevada,4.5,
6,2010,Nevada,4.3,


Unnamed: 0,year,state,pop,news
1,2000,Ohio,2.3,1.2
2,2010,Ohio,2.2,
3,2020,Ohio,3.2,1.5
4,2000,Nevada,2.3,
5,2020,Nevada,4.5,1.8
6,2010,Nevada,4.3,


In [69]:
##对于原来的赋值的列并不存在，则产生一个新列
ex_3['the news'] = ex_3.state =='Ohio'#判断赋值
ex_3
'''注意，ex_3.the_news无法创建新列'''

Unnamed: 0,year,state,pop,news,the news
1,2000,Ohio,2.3,1.2,True
2,2010,Ohio,2.2,,True
3,2020,Ohio,3.2,1.5,True
4,2000,Nevada,2.3,,False
5,2020,Nevada,4.5,1.8,False
6,2010,Nevada,4.3,,False


'注意，ex_3.the_news无法创建新列'

In [70]:
###删除新建列
del ex_3['the news']
ex_3

Unnamed: 0,year,state,pop,news
1,2000,Ohio,2.3,1.2
2,2010,Ohio,2.2,
3,2020,Ohio,3.2,1.5
4,2000,Nevada,2.3,
5,2020,Nevada,4.5,1.8
6,2010,Nevada,4.3,


#### 注意：
从DataFrame中选取的列是数据的视图，并非拷贝，所以修改Series会映射到DataFrame中，复制可用copy。

#### 索引对象
- Pandas中的索引对象是用于存储轴标签和其他元数据的（例如轴名或标签）。在构造Series或DataFrame时，所用的任意数组或标签序列都可以在内部转换为索引对象。
- 由于index返回的是一个不可变的数组，所以索引对象是不可变的。
- 但可以改变的是index重新指向另一个同等大小的数组，即指针指向的数组内容不可变，但指针指向的数组是可变的
- pandas索引可以*重复标签*，一些DataFrame要小心。

In [104]:
ex_3
ex_3.index = ['one','2','3','4','5','six']

Unnamed: 0,year,state,pop,news
one,2000,Ohio,2.3,1.2
2,2010,Ohio,2.2,
3,2020,Ohio,3.2,1.5
4,2000,Nevada,2.3,
5,2020,Nevada,4.5,1.8
six,2010,Nevada,4.3,


In [105]:
#索引不可变
ex_3.index[1] 
ex_3.index[1] = 'two'

'2'

TypeError: Index does not support mutable operations

In [110]:
ex_3.index.is_unique

True

每个索引都有一些集合逻辑的方法和属性，这些解决了关于它所包含的数据常见问题，以下是对常用的整合：

| 方法     |   描述         | 用法 |
|:-----------:| :-------------:|:------------:|
| `append` |   将额外的索引黏贴到原索引后，产生新的索引  | `df_new = df.append(df1)`|
| `difference` |   索引的差集  | `df.difference(['column1','column2'])`|
| `intersection` |   索引的交集  | `df1.intersection(df2)`|
| `concat` |   索引不同轴的融合  | `pd.concat([df1,df2],axis=0/1)`|
| `isin` |   计算表示每一个值是否在传值容器中的布尔数组  | `df.column.isin(['element'])`|
| `insert` |   位置i插入元素，产生新索引  | `df.insert(loc=,column=,value=,allow_duplicates=True/False)`,`allow_duplicates是否重名`|
| `is_monotonic` |   索引序列递增返回True  | `df.index.is_monotonic`|
| `is_unique` |   索引序列唯一返回True  | `df.index.is_unique`|
| `unique` |   计算索引的唯一值序列  | `df.unique()`输出对应且不重复的序列|

详细的应用案例后续详解。

###  代入铁达尼克案例中

In [138]:
df = pd.read_csv('train.csv')
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [75]:
df.Fare.head()

0     7.2500
1    71.2833
2     7.9250
3    53.1000
4     8.0500
Name: Fare, dtype: float64

In [93]:
### 加载文件“test_1.csv”进行对比，查看多出的列并删除
test_1 = pd.read_csv('test_1.csv')
test_1.columns

Index(['Unnamed: 0', 'PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age',
       'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked', 'a'],
      dtype='object')

In [94]:
#删除列
del test_1['a']
test_1.head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [95]:
### 其他删除方式：drop+inplace
#drop是对
test_1.drop(['Unnamed: 0'],axis=1)  #此处DataFrame：axis=1为隐藏某一列，axis=0隐藏行

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [96]:
'''加上inplace=True，才是对原DataFrame上操作'''
test_1.drop(['Unnamed: 0'],axis=1,inplace=True)
test_1.head()

'加上inplace=True，才是对原DataFrame上操作'

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### 小结：
1. drop函数是不改变原有的df中的数据，而是可选择性的返回另一个dataframe来存放删除后的数据，即inplace的参数,True即覆盖原数据，意为删除。
2. drop函数可以一次隐藏/删除多行/列:`df.drop(['A','B'])`

### 2.4 基本的功能
Pandas可以说有很多常用重要的数据分析功能，除了删除以外还有很多必备的应用。例如筛选和过滤、排序、重建索引、计算、统计等等，下面将一一介绍。

### 2.4.1 索引、选择与过滤
表格数据中，最重要的一个功能就是要具有可筛选过滤的能力，可以选择并丢弃无用的信息。
#### 筛选

In [123]:
#年龄在18岁以下的乘客信息
df_18 = df[df['Age']<18]
df_18.head(5)
df_18['Age'].value_counts()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q


16.00    17
17.00    13
2.00     10
4.00     10
9.00      8
1.00      7
14.00     6
3.00      6
15.00     5
8.00      4
11.00     4
5.00      4
6.00      3
7.00      3
0.75      2
13.00     2
10.00     2
0.83      2
0.67      1
0.42      1
12.00     1
0.92      1
14.50     1
Name: Age, dtype: int64

In [139]:
#年龄区间筛选：18到55岁之间的乘客信息，命名为midage
midage = df[(df['Age']>18)&(df['Age']<55)]
midage.head(5)
midage['Age'].value_counts()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


24.0    30
22.0    27
30.0    25
19.0    25
28.0    25
21.0    24
25.0    23
36.0    22
29.0    20
27.0    18
35.0    18
32.0    18
26.0    18
31.0    17
20.0    15
34.0    15
23.0    15
33.0    15
39.0    14
42.0    13
40.0    13
45.0    12
38.0    11
50.0    10
44.0     9
48.0     9
47.0     9
54.0     8
51.0     7
52.0     6
49.0     6
37.0     6
41.0     6
43.0     5
46.0     3
32.5     2
40.5     2
28.5     2
30.5     2
45.5     2
23.5     1
36.5     1
20.5     1
53.0     1
24.5     1
34.5     1
Name: Age, dtype: int64

#### 索引（切片/单筛选）
普通的Python切片中不包含尾部，Series则不同，**可以包含尾部**。

In [134]:
###Series切片
obj = pd.Series(np.arange(4),index=['a','b','c','d'])
obj
obj[:2]     #数字切片仍不包含尾部
obj['b':'c']#索引切片可包含尾部

a    0
b    1
c    2
d    3
dtype: int32

a    0
dtype: int32

b    1
c    2
dtype: int32

#### 使用loc和iloc选择数据
可以使用轴标签loc或者*整数标签iloc*以Numpy风格从DataFrame中选出数组的行和列的子集。
- `df.loc['','']`是基于标签的索引，切片为闭包。
- `df.iloc[num,[num_list]]`是基于数字的索引，切片右开。

In [140]:
### 筛选midage数据集中的第100行的“Pclass”和“Sex”数据
midage = midage.reset_index(drop = True)
midage.head(3)
midage.loc[[100],['Pclass','Sex']]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


Unnamed: 0,Pclass,Sex
100,3,male


**注：重置索引**`reset_index()`

- 一般数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用`reset_index()`重置索引。
- `drop`默认False，即获得新的索引，原index编程数据列。
- `drop=True`，即不保留原index。

In [141]:
### iloc的应用：筛选第10,105,108行的“Pclass”,"Name","Sex"（对应2,3,4列）
midage.iloc[[100,105,108],[2,3,4]]

Unnamed: 0,Pclass,Name,Sex
100,3,"Leonard, Mr. Lionel",male
105,2,"Carbines, Mr. William",male
108,3,"Olsen, Mr. Karl Siegwart Andreas",male


### 2.4.2 重建索引
- `reindex`参数
 - `index`:新建作为索引的序列，可以是索引实例或任意其它序列Python数据结构，索引使用无需复制。
 - `method = ffill/bfill`：向前填充或向后填充。
 - `fill_value`：通过重新索引引入缺失数据时使用的替代值。
 - `limit`：当前向或后向填充时，所需填充的最大尺寸间隙（以元素数量）（查询案例发现使用较少）。
 - `tolerance`：当前向或后向填充时，所需填充的不精确匹配下的最大尺寸间隙（以绝对数字距离）
 - `level`：匹配MultiIndex级别的简单索引，否则选择子集。
 - `copy`：若为True则使新索引等于旧索引，复制底层数据；False则在索引相同时不要复制数据。 
- `reindex`是pandas对象的重要方法，该方法用于创建一个符合新索引的新对象。
- Series调用reindex方法时，会将数据按照新的索引进行排列，某个索引值之前不存在则引入缺失值。

In [111]:
obj = pd.Series([2.3,1.2,4.5,6.5],index=['a','c','b','b'])
obj

a    2.3
c    1.2
b    4.5
b    6.5
dtype: float64

顺序数据，例如时间序列，在重建索引时可能会需要进行插值或填值。Method可选参数允许使用ffill等方法重建索引时插值，将值前向填充,或bfill，将值后向填充。


In [112]:
obj = pd.Series(['blue','purple','yellow'],index=[0,3,5])
obj

0      blue
3    purple
5    yellow
dtype: object

In [114]:
obj.reindex(range(8),method = 'ffill')

0      blue
1      blue
2      blue
3    purple
4    purple
5    yellow
6    yellow
7    yellow
dtype: object

In [115]:
frame = pd.DataFrame(np.arange(9).reshape(3,3),
                    index = ['a','b','d'],
                    columns = ['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
d,6,7,8


In [117]:
#增加行
frame = frame.reindex(['a','b','c','d'])
frame

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,,,
d,6.0,7.0,8.0


In [118]:
#可以使用columns关键字重建索引：
states = ['Texas','Utah','California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,4.0,,5.0
c,,,
d,7.0,,8.0


### 2.4.3 算术和数据对齐
对于DataFrame的算术而言，有行列不对等的算术情况，这类情况的结果分为两种。一种是不对等用空值填充，即行列的并集，没有交集的数据用空值NaN填充。另一种是即使不对等用指定值填充。

In [150]:
#案例说明:无填充
df1 = pd.DataFrame(np.arange(9).reshape(3,3),columns=list('abc'),index=['y','u','i'])
df2 = pd.DataFrame(np.arange(12).reshape(4,3),columns=list('acd'),index=['y','o','u','i'])
df1
df2

Unnamed: 0,a,b,c
y,0,1,2
u,3,4,5
i,6,7,8


Unnamed: 0,a,c,d
y,0,1,2
o,3,4,5
u,6,7,8
i,9,10,11


In [151]:
df1 + df2

Unnamed: 0,a,b,c,d
i,15.0,,18.0,
o,,,,
u,9.0,,12.0,
y,0.0,,3.0,


In [154]:
#填充算术
df1.add(df2,fill_value = 0.0)
df1.add(df2, fill_value = 2.0)

Unnamed: 0,a,b,c,d
i,15.0,7.0,18.0,11.0
o,3.0,,4.0,5.0
u,9.0,4.0,12.0,8.0
y,0.0,1.0,3.0,2.0


'此处表示对于第二个DF进行空值赋值为0.0，就是增加新的一列b为0.0值，再与df1相加。而由于df1没有o行，与df2的b列的0进行运算后，还是NaN'

Unnamed: 0,a,b,c,d
i,15.0,9.0,18.0,13.0
o,5.0,,6.0,7.0
u,9.0,6.0,12.0,10.0
y,0.0,3.0,3.0,4.0


**注：**
上述对于fill_value赋值后，进行算术运算仍有NaN,此时的NaN是因为进行运算的DataFrame都是不存在的，例如df1不存在"o"行，df2不存在"b"列，则对应运算后的o行b列为NaN.
- `add`表示加法 +
- `sub`表示减法 -
- `div`表示除法 /
- `floordiv`表示整除 //
- `mul`表示乘法 *
- `pow`表示幂次方 **
- 以`r`为开头的视为反转，例如`df.rdiv(1)`意思是1除以df1.

### 2.4.4 排序和排名
根据某些准则对数据进行排序是数据分析重要的内建操作。
- 如需按行或列索引进行字典型排序，需要使用`sort_index`方法，并返回一个新的、排序好的对象。
- 按照Series的值进行排列可以用`sort_values`方法。
- 对DataFrame值进行排序时，可以选取一列或多列作为排序键，参数为`by`.

In [155]:
##案例应用：sort_index正序排列
obj = pd.Series(range(4),index = ['d','b','a','c'])
obj.sort_index()

a    2
b    1
c    3
d    0
dtype: int64

In [158]:
##sort_index降序排列
frame = pd.DataFrame(np.arange(8).reshape(2,4),index = ['two','one'],columns=['d','b','a','c'])
frame

#按照行降序排列
frame.sort_index(axis = 1, ascending = False)

Unnamed: 0,d,b,a,c
two,0,1,2,3
one,4,5,6,7


Unnamed: 0,d,c,b,a
two,0,3,1,2
one,4,7,5,6


In [167]:
##按照值排列，且包含缺失值
obj = pd.Series([4,2,1,-4,np.nan,-9,np.nan])
obj.sort_values(ascending = False)
'''对于值进行顺序排列的，缺失值会默认安排在尾部,无论正序倒序'''

0    4.0
1    2.0
2    1.0
3   -4.0
5   -9.0
4    NaN
6    NaN
dtype: float64

'对于值进行顺序排列的，缺失值会默认安排在尾部,无论正序倒序'

In [170]:
###DataFrame的值进行排序
frame = pd.DataFrame({'b':[4,0,5,-3],'a':[0,1,0,1]})
frame.sort_values(by='a',ascending=False)  #按照a列的倒序
frame.sort_values(by=['a','b'])            #先a列后b列

Unnamed: 0,b,a
1,0,1
3,-3,1
0,4,0
2,5,0


Unnamed: 0,b,a
0,4,0
2,5,0
3,-3,1
1,0,1


### 3. 探索性数据分析
前面学习了Pandas基础，利用pandas进行了读取和增删查改，后面进行**探索性数据分析**，主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用，即对上章节的基本功能进行案例应用。

In [173]:
###载入之前保存的文件test_1.csv
text = pd.read_csv('train_1.csv')
text.head().append(text.tail())

Unnamed: 0,乘客ID,是否幸存,舱位等级,姓名,性别,年龄,兄弟姐妹个数,父母子女个数,船票信息,票价,客舱,登船港口
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [178]:
### 对票价和年龄进行升序查看
text.sort_values(by=['票价','年龄'],ascending = False).head(5)

Unnamed: 0,乘客ID,是否幸存,舱位等级,姓名,性别,年龄,兄弟姐妹个数,父母子女个数,船票信息,票价,客舱,登船港口
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S
341,342,1,1,"Fortune, Miss. Alice Elizabeth",female,24.0,3,2,19950,263.0,C23 C25 C27,S


#### 小结
根据票价和年龄的排序查看乘客信息可以看到，票价排在前面的，幸存概率似乎更高，舱位等级自然高，年龄分布似乎更偏向35岁左右的中年化。

乘客信息有两列是兄弟姐妹和父母子女个数，可以后续对于这个进行幸存评估，感觉应该挺有意思。

In [179]:
###铁达尼克号上最大的家族有多少人
max(text['兄弟姐妹个数'] + text['父母子女个数'])

10

### 随堂问题：
1. 观察DataFrame数据类型，可以分为哪些类型？
2. 数据文件的NAN/NULL数据读取为DataFrame后最终会变为哪种数据？
3. 如何筛选姓名中含有"Mr."的数据出来？
4. 如何查看数据中的95%分位数？
5. 关于缺失值部分： 

   `df[df['Age']==None]=0 # 不推荐`
   
   `df[df['Age'] == np.nan] = 0 # 不推荐`
   
   `df[df['Age'].isnull()] = 0 # 还好`
   
   `df['Age'] = df['Age'].fillna(0) # 推荐`
   
   你能说说原因吗？

### 部分回答（待完善）
1. Pandas所支持的DataFrame数据类型包括以下几种: 
 float、int、bool、 datetime64[ns]、datetime64[ns, tz]、timedelta[ns]、category和object 
 
2. 思路；创建数据，再type()下数据类型。

3. 可以用isin和str.contains

4. 用pandas中的quantile(0.95) 或者numpy中的np.percentile('' ,0.95)

5. fillna(0)更稳定些（听说），用的比较多。

**注：**
对于数据集的统计探索分析，请参考第一节的“初步探索数据分析”。

### 参考文献：
pandas读取数据：https://blog.csdn.net/cindy407/article/details/90747049

pandas分块读取大文件：https://blog.csdn.net/zm714981790/article/details/51375475

其他函数应用：https://blog.csdn.net/sinat_29957455/article/details/84961936

https://blog.csdn.net/zhongjunlang/article/details/79604499

https://blog.csdn.net/houyanhua1/article/details/87874397

https://blog.csdn.net/g863402758/article/details/53488140

https://blog.csdn.net/starter_____/article/details/79184196

《利用Python进行数据分析》等……