In [1]:
import pandas as pd
import numpy as np

#### 执行以上代码后，可 shift + tab 显示帮助

In [None]:
docAddress = r"D:\Data\种植业司\全国蔬菜面积产量.xlsx"
df = pd.read_excel(docAddress, sheet_name='全国蔬菜面积与产量')

## 了解数据集概况
df.shape  
df.head() |  patients_clean.zip_code.head()
df.tail()  
df.sample()  
#### 每列的数据类型，有多少非空值：
df.info()  
#### 每列的唯一值：
df.nunique()
#### 标准差、最大最小值:
df.describe()
#### 检查null：
df[df['产量（万吨）'].isnull()]
#### 检查重复数据：
sum(df.duplicated())  
patients[patients.address.duplicated()]  
#### 检查该列各个值的分布：
df['年份'].value_counts()  
patients.surname.value_counts()  
#### 按值排序：
patients.weight.sort_values() 
patients_clean.email.sort_values().head() 确认没有邮箱以整数开头 (正则表达式不能匹配整数)
#### 获取列的数量、名称：
ncolumns = df.columns.size  
list(patients)  
#### 查看某几列：
df[['width', 'length', 'height']]
#### 根据条件查询值
patients[patients.surname == 'Zaitseva'].bmi  


## Data Wrangling
df_clean = df.copy()
#### 将0变为null
df.replace(0,np.nan)
#### 删除列 
patients_clean = patients_clean.drop('contact', axis=1)  
Note: axis=1 表明我们参考的是一列，而不是一行  
df.drop(columns = ['length', 'height'])
#### 只保留df中符合条件的数据
treatments_clean = treatments_clean[treatments_clean.dose != "-"]

### 字符串的处理
使用字符串分割，删除每个动物名称前面的 'bb'   
df_clean['Animal'] = df_clean['Animal'].str[2:]  
在体重和脑重量两列，将 ! 替换为 .   
df_clean['Body weight (kg)'] = df_clean['Body weight (kg)'].str.replace('!', '.')  
1列分为2列  
treatments_clean['dose_start'], treatments_clean['dose_end'] = treatments_clean['dose'].str.split(' - ', 1).str

#### 修改某列的值
treatments_clean.hba1c_change = (treatments_clean.hba1c_start - treatments_clean.hba1c_end)
#### 新建一列并赋值
patients_clean['phone_number'] = patients_clean.contact.str.extract('((?:\+\d{1,2}\s)?\(?\d{3}\)?[\s.-]?\d{3}[\s.-]?\d{4})', expand=True)
patients_clean['email'] = patients_clean.contact.str.extract('([a-zA-Z][a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.][a-zA-Z]+)', expand=True)

### Data Reshaping
treatments_clean = pd.melt(treatments_clean, id_vars=['given_name', 'surname', 'hba1c_start', 'hba1c_end', 'hba1c_change'],
                           var_name='treatment', value_name='dose')  
pd.pivot(columns = 'var', values = 'val')
pd.concat([df1, df2))  
pd.concat([df1, df2), axis = 1)

### 转换数据类型
转为分类数据类型  
patients_clean.assigned_sex = patients_clean.assigned_sex.astype('category')  
patients_clean.state = patients_clean.state.astype('category')

转为 datetime 类型  
patients_clean.birthdate = pd.to_datetime(patients_clean.birthdate)  

添加 u 并转为整数类型  
treatments_clean.dose_start = treatments_clean.dose_start.str.strip('u').astype(int)  
treatments_clean.dose_end = treatments_clean.dose_end.str.strip('u').astype(int)

波浪符号表示否： http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing
patients_clean = patients_clean[~((patients_clean.address.duplicated()) & patients_clean.address.notnull())]

In [None]:
增加所有的 " "、 "-"、"(", ")" 和 "+"，存储所有没有格式的数字。如果手机号只有 10 位数，在手机号前添加 1 (我们需要国家编号)。
patients_clean.phone_number = patients_clean.phone_number.str.replace(r'\D+', '').str.pad(11, fillchar='1')

In [None]:
# 从州的全称映射到简称
state_abbrev = {'California': 'CA',
                'New York': 'NY',
                'Illinois': 'IL',
                'Florida': 'FL',
                'Nebraska': 'NE'}

# 使用的函数
def abbreviate_state(patient):
    if patient['state'] in state_abbrev.keys():
        abbrev = state_abbrev[patient['state']]
        return abbrev
    else:
        return patient['state']
    
patients_clean['state'] = patients_clean.apply(abbreviate_state, axis=1)

Convert the zip code column's data type from a float to a string 使用 astype 把邮件一列的数据类型从浮点转换为字符串，使用字符串分割删除 '.0'。在四位数邮编前面加上 0。