In [1]:
import pandas as pd
import numpy as np

In [2]:
df_city = pd.read_csv('../数据/city.csv',encoding='GBK')

In [3]:
df_city.head()

Unnamed: 0,name,parent_id,region_id
0,北京,0,1
1,天津,0,2
2,河北省,0,3
3,山西省,0,4
4,内蒙古自治区,0,5


In [4]:
df_car = pd.read_csv('../数据/car_info.csv')

In [5]:
df_car.head()

Unnamed: 0,title,year_kw,total_price,original_price
0,马自达 阿特兹 2018款 2.5L 蓝天尊崇版,2018年|1.0万公里|西安,19.47万,23.50万
1,长安商用 欧力威 2013款 1.2L 手动舒适型,2013年|12.3万公里|西宁,1.95万,4.70万
2,保时捷Cayenne 2016款 Cayenne 3.0T,2015年|3.8万公里|哈尔滨,75.00万,96.40万
3,别克 凯越 2011款 1.6LE-MT,2010年|11.5万公里|成都,2.68万,11.70万
4,大众 夏朗 2016款 380TSI 舒享型 7座(进口),2017年|5.6万公里|广州,19.00万,32.10万


In [6]:
df_car.describe()

Unnamed: 0,title,year_kw,total_price,original_price
count,423434,423436,423436,417359
unique,29052,113014,3971,1285
top,哈弗H6 2014款 运动版 1.5T 手动两驱精英型,2017年|1.6万公里|重庆,8.00万,13.00万
freq,1104,94,7702,6693


In [7]:
# 删除缺失值
df_clear_car = df_car.dropna()

In [8]:
df_clear_car.count() / df_car.count()      # 删除缺失值后 数据在95%以上

title             0.985648
year_kw           0.985644
total_price       0.985644
original_price    0.999995
dtype: float64

In [9]:
# 清洗后总数
df_clear_car.count()

title             417357
year_kw           417357
total_price       417357
original_price    417357
dtype: int64

In [10]:
# 处理title列 将其分为三列 car_brand, style_year, other_info 并且存储到df_new之中

# 定义正则表达式
pattern = r'(.+?)\s(\d+款)\s(.*)'

df_new = pd.DataFrame()

# 将这新三列添加进入
df_new [['car_brand', 'style_year', 'other_info']] = df_clear_car['title'].str.extract(pattern)

In [11]:
df_new.head()

Unnamed: 0,car_brand,style_year,other_info
0,马自达 阿特兹,2018款,2.5L 蓝天尊崇版
1,长安商用 欧力威,2013款,1.2L 手动舒适型
2,保时捷Cayenne,2016款,Cayenne 3.0T
3,别克 凯越,2011款,1.6LE-MT
4,大众 夏朗,2016款,380TSI 舒享型 7座(进口)


In [12]:
# 将year_kw的信息提取出来

# 将其分为 购买年度 buy_year, 总里程 total_km 单位万，地址 location

# 使用split进行初步分割
df_new[['buy_year', 'total_km', 'location']] = df_clear_car['year_kw'].str.split('|', expand=True)

In [13]:
df_new

Unnamed: 0,car_brand,style_year,other_info,buy_year,total_km,location
0,马自达 阿特兹,2018款,2.5L 蓝天尊崇版,2018年,1.0万公里,西安
1,长安商用 欧力威,2013款,1.2L 手动舒适型,2013年,12.3万公里,西宁
2,保时捷Cayenne,2016款,Cayenne 3.0T,2015年,3.8万公里,哈尔滨
3,别克 凯越,2011款,1.6LE-MT,2010年,11.5万公里,成都
4,大众 夏朗,2016款,380TSI 舒享型 7座(进口),2017年,5.6万公里,广州
...,...,...,...,...,...,...
423431,雪铁龙C4L,2016款,1.2T 手动领先型,2016年,7.8万公里,南充
423432,日产 天籁,2015款,2.0L XL Upper欧冠科技版,2015年,8.6万公里,广州
423433,长城C30,2013款,1.5L 手动豪华型,2013年,2.2万公里,南通
423434,标致3008,2015款,1.6THP 自动经典版,2016年,1.9万公里,武汉


In [14]:
# 我们需要将 buy_year,  total_km中 不必要的中文剔除

# 使用正则表达式
# 获取数字的pattern: get_num get_float
get_num = r'([0-9]+)'
get_float = r'(\d+(\.\d+)?)'

# 处理两列
df_new['buy_year'] = df_new['buy_year'].str.extract(get_num)
df_new['total_km'] = df_new['total_km'].str.extract(get_float)[0]     # 添加[0] 索引是因为只需要选择第一列，第二列是小数部分

In [15]:
df_new      # 验证

Unnamed: 0,car_brand,style_year,other_info,buy_year,total_km,location
0,马自达 阿特兹,2018款,2.5L 蓝天尊崇版,2018,1.0,西安
1,长安商用 欧力威,2013款,1.2L 手动舒适型,2013,12.3,西宁
2,保时捷Cayenne,2016款,Cayenne 3.0T,2015,3.8,哈尔滨
3,别克 凯越,2011款,1.6LE-MT,2010,11.5,成都
4,大众 夏朗,2016款,380TSI 舒享型 7座(进口),2017,5.6,广州
...,...,...,...,...,...,...
423431,雪铁龙C4L,2016款,1.2T 手动领先型,2016,7.8,南充
423432,日产 天籁,2015款,2.0L XL Upper欧冠科技版,2015,8.6,广州
423433,长城C30,2013款,1.5L 手动豪华型,2013,2.2,南通
423434,标致3008,2015款,1.6THP 自动经典版,2016,1.9,武汉


In [16]:
# 将 total_price, original_price 两列剔除中文后添加进去

# 可以继续使用上面的正则表达式get_float
df_new['total_price'] = df_clear_car['total_price'].str.extract(get_float)[0]

df_new['original_price'] = df_clear_car['original_price'].str.extract(get_float)[0]

In [17]:
df_new

Unnamed: 0,car_brand,style_year,other_info,buy_year,total_km,location,total_price,original_price
0,马自达 阿特兹,2018款,2.5L 蓝天尊崇版,2018,1.0,西安,19.47,23.50
1,长安商用 欧力威,2013款,1.2L 手动舒适型,2013,12.3,西宁,1.95,4.70
2,保时捷Cayenne,2016款,Cayenne 3.0T,2015,3.8,哈尔滨,75.00,96.40
3,别克 凯越,2011款,1.6LE-MT,2010,11.5,成都,2.68,11.70
4,大众 夏朗,2016款,380TSI 舒享型 7座(进口),2017,5.6,广州,19.00,32.10
...,...,...,...,...,...,...,...,...
423431,雪铁龙C4L,2016款,1.2T 手动领先型,2016,7.8,南充,6.60,14.60
423432,日产 天籁,2015款,2.0L XL Upper欧冠科技版,2015,8.6,广州,13.20,21.20
423433,长城C30,2013款,1.5L 手动豪华型,2013,2.2,南通,3.00,7.30
423434,标致3008,2015款,1.6THP 自动经典版,2016,1.9,武汉,12.00,20.50


In [18]:
# 表已经清洗归并完成 将其导出至 ./datas/car_info_cleared.csv
df_new.to_csv('../数据/car_info_cleared.csv', index=False)