&emsp;&emsp;最初面对数据，也许有人会茫然不知如何下手，就像面对一个心仪的异性又不知该如何鼓起勇气去交流一样。看到很多人生硬地直接拿着原始数据往模型里塞，然后拼命调参，跑出一个不知所云的结果——就像看到一个腼腆的人拿着速成的情感宝典，全然不顾一脸无语的对方，只按着书上的套路一句话一句话地搭讪，真是人间惨剧啊。    
&emsp;&emsp;所以，我希望，能够有一个课程，能够带着大家理解数据，了解数据的特性，知道什么样的数据应该使用什么样的处理方式，才能更好地分析、更好地建模，真正找出数据背后的规律。就像谈恋爱的时候，需要去理解对方的性格，知道不同性格的人要用怎样的方式去沟通，才能更加坚定愉快地走下去吧。

## 1 初步认识数据
### 1.1 简单统计（数据类型，缺失值，统计值，数据分布）

&emsp;&emsp;首先导入库文件。后面所有的数据操作，我们都默认使用pandas库的dataframe格式来进行数据的加载、查看和操作。

In [3]:
import numpy as np
import pandas as pd

&emsp;&emsp;想快速了解一个人，可能往往是从ta的统计数据（姓名、性别、年龄、学历、工作经历等等）开始。那么，对于数据也是一样。无论是使用算法进行数据挖掘，还是探索数据进行经营分析，加载一个数据集之后，我们首先需要做的，都是查看数据集的统计数据。    
&emsp;&emsp;这里我们使用经典的泰坦尼克数据集来开始数据探索之旅。

In [12]:
df = pd.read_csv('train_chinese.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   乘客ID    891 non-null    int64  
 1   是否幸存    891 non-null    int64  
 2   仓位等级    891 non-null    int64  
 3   姓名      891 non-null    object 
 4   性别      891 non-null    object 
 5   年龄      714 non-null    float64
 6   兄弟姐妹个数  891 non-null    int64  
 7   父母子女个数  891 non-null    int64  
 8   船票信息    891 non-null    object 
 9   票价      891 non-null    float64
 10  客舱      204 non-null    object 
 11  登船港口    889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


&emsp;&emsp;从info可以看出：    
+ 这个数据集共有891行12列，年龄、客舱、登船港口三列的数值有缺失。    
+ “登船港口”缺失较少，可以考虑填补；    
+ “年龄”不容易依靠其它信息来填补，可以暂时不处理缺失或者把缺失作为单独的一类；    
+ “客舱”数据较少，也许可以分类也许可以直接删去，需要等下一步继续观察。    
+ “是否幸存”是使用整型数值来表示的，可能是0和1。    
+ 其它数据的类型都正常，没有出现应该是数值却显示为object的（这通常表示数据中有异常符号）    
+ “年龄”类型为float64，因为其中有缺失值，pandas默认缺失值为浮点型。

&emsp;&emsp;info函数的官方参数详解见https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html#pandas.DataFrame.info  

|	Parameters	|	Value	|    
|	------	|	------	|    
|	verbose：bool, optional	|	“verbose”中文译为“冗长的”，该参数决定是否打印完整的摘要。如果为True，显示所有列的信息；如果为False，那么会省略一部分。**默认情况下，**遵循pandas.options.display.max_info_columns中的设置。	|    
|	buf：writable buffer, defaults to sys.stdout	|	该参数决定将输出发送到哪里。默认情况下， 输出打印到sys.stdout。如果需要进一步处理输出，请传递可写缓冲区。可将DataFrame.info()存储为变量。	|    
|	max_col：sint, optional	|	该参数使得从“详细输出”转换为“缩减输出”，如果DataFrame的列数超过max_cols，则缩减输出。默认情况下， 使用pandas.options.display.max_info_columns中的设置。	|    
|	memory_usage：bool, str, optional	|	该参数决定是否应显示DataFrame元素（包括索引）的总内存使用情况。默认情况下为True。 True始终显示内存使用情况；False永远不会显示内存使用情况。	|    
|	null_counts：bool, optional	|	该参数决定是否显示非空计数。值为True始终显示计数，而值为False则不显示计数。默认情况下， 仅当Dataframe小于pandas.options.display.max_info_rows和pandas.options.display.max_info_columns时才显示。	|