##  1. 评估数据
1. 每列是一个变量
2. 每行是一个观察值
3. 每个单元格是一个值    

- 结构
- 内容

In [None]:
import pandas as pd
pd.set_option("display.max_columns", 150) # 增加展示的列数
pd.set_option("display.max_colwidth", 500) # 增加单元格展示的字符数

df = pd.read_csv("./cell_phones_survey.csv", header=None, index_col="你想指定为列名的列")

# 查看数据
df.info()
df.head(5)
df.tail(6)
df.sample(6) # 随机

# 丢失数据
df['列名'].isnull() # 返回一个bool series
df.isnull() # 返回一个bool df
df.isnull().sum() # 返回每列 NaN 的个数

df[df['列名'].isnull()] # 返回在 ‘列名’ 下有NaN的行

# 重复数据
df.duplicated() # 返回bool series，该行完全重复出现时为False
df.duplicated(subset=["列名1", "列名2"]) # 两列同时重复

# 不一致数据
df['列名'].value_counts() # 该列每个值的出现次数

# 排序
df['列名'].sort_values() # 排序

## 2.1 Data Clean ：结构性清理

### 2.1.1 清理index&columns

In [None]:
# 重命名index&columns
df.rename(index={"old_name1":"new_name1", "old_name2":"new_name2"}, 
clolumns={"old_name1":"new_name1", "old_name2":"new_name2"}, inplace=True ) # inplace在df上修改，否则返回一个修改后的

# 传入函数
df.rename(index= str.upper, clolumns= str.upper, inplace=True ) # inplace在df上修改，否则返回一个修改后的
# 设置index
df.set_index()
df.reset_index()

# 按索引排序
df = df.sort_index()

#### 拆分合并单元格

In [None]:
# 拆分单元格
df[["新列1", "新列2" ]] = df["列名"].str.split("/", expand=True)
df.drop("旧列", axis=1)

# 合并两个单元格
df["列1"].str.cat(df["列2"], sep="-") # 不改变原列; sep : 拼接时的分隔符

#### 宽数据转为长数据  
- 列名值 -> 变量值   
<details>
<summary>实例</summary>  

![实例](./images/9.2.2.png)
</details>

In [None]:
pd.melt(df, id_vars=['保持原样的列名1', '保持原样的列名2'], var_name='新列名', value_name = '变量值新列名')

#### 拆分行   
<details>
<summary>实例</summary>    

![实例2](./images/拆分行.png)  
</details>  
  

In [None]:
df.explode('列名')

#### 删除行列 


In [None]:
df.drop([2, 4], inplace=True) # delete row
df.drop(['列1', '列2'], axis=1) # del column

### 2.2 Data Clean ：内容性清理

In [None]:
# 补充NaN
df["列"] = '填充内容'
df.loc['开始行':'结束行', '开始列':'结束列']

#  自动补充NaN
df['列名'].fillna(0)
# 传入dict按列替换
df.fillna({'列A':0, '列B':10}) 

# 丢失缺失值
df.dropna(subset=['列名'], inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True, keep='last') # 删除 全部变量重复的行; 保留最后出现的值
df.drop_duplicates(subset=['列名1','列名2']) # 删除 有两列相同的行

#  替换值
df["列"].replace(['被替换词1', '被替换词2'], '替换词1', inplace=True) 
# 字典替换
replace_dict = {'被替换词1':'替换词1', 
                '被替换词2':'替换词2'}
df.replace(replace_dict)

### 2.3 类型转换


In [None]:
series.astype(int)
series.astype("category") # pandas 自带类型

## 3. 保存数据

In [None]:
df.to_csv("path/to/data.csv", index=False) # index = false: 不保存索引

# 重新读取时
df = pd.read_csv("path/to/data.csv")
df.rename("Unnamed: 0": "新名字", inplace=True) # 读取时，索引变成Unnamed: 0
df.set_index("新名字", inplace=True)