## 探索的问题
1. 房租的分布情况
2. 哪种户型的房源最多
3. 哪条地铁线附近的房租比较贵
4. 哪个区的房租更贵
5. 房源的面积分布情况    

## 数据说明
* house_area: 表示房间的面积
* house_toom: 表示出租房屋的户型
* house_price: 表示每月的房租
* house_name: 表示房源所处的小区
* house_located: 表示房源所处的区

## 数据清洗
### 数据预览

In [13]:
# coding: utf-8
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 使图形能够正常显示中文
%pylab inline

df_dl_rent = pd.read_csv('data_dl_rent.csv') # 加载数据
df_dl_rent.head(5) # 预览数据

Populating the interactive namespace from numpy and matplotlib


FileNotFoundError: [Errno 2] File b'rent.csv' does not exist: b'rent.csv'

In [2]:
df_dl_rent.tail(5) # 预览后5条数据

Unnamed: 0,region,tittle,street,house_room,house_area,house_price,house_located,house_name
22746,金州,光明,和平小区,2室1厅,68.0,1200.0,光明和平小区,金州光明和平小区
22747,金州,光明,整租·胜利小区,2室1厅,56.0,2200.0,光明整租·胜利小区,金州光明整租·胜利小区
22748,金州,光明,金州福佳新天地广场,1室1厅,49.0,1500.0,光明金州福佳新天地广场,金州光明金州福佳新天地广场
22749,金州,光明,和平小区,1室1厅,48.0,1000.0,光明和平小区,金州光明和平小区
22750,金州,光明,和平小区,3室1厅,121.0,1400.0,光明和平小区,金州光明和平小区


In [3]:
df_dl_rent.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22751 entries, 0 to 22750
Data columns (total 8 columns):
region           22749 non-null object
tittle           22749 non-null object
street           22749 non-null object
house_room       22749 non-null object
house_area       22713 non-null float64
house_price      22749 non-null float64
house_located    22749 non-null object
house_name       22749 non-null object
dtypes: float64(2), object(6)
memory usage: 1.4+ MB


### 需要清洗的字段
除了 house_room 字段外，剩下的字段都需要清洗，为了便于分析还需要新增字段    

**1. house_area 字段需要转换成纯数字格式。**

In [4]:
def convert_currency(value):
    """
    转换字符串数字为float类型
     - 转化为float类型
    """
    return np.float(value)

df_dl_rent['house_area'] = df_dl_rent['house_area'].apply(convert_currency)
df_dl_rent['house_area'].head()

0      NaN
1     85.0
2     59.0
3    257.0
4     40.0
Name: house_area, dtype: float64

**2. house_price 字段，要把其修改为纯数字格式**

In [5]:
def convert_currency(value):
    """
    转换字符串数字为float类型
     - 移除 ￥ ,
     - 转化为float类型
    """
    return np.float(value)

df_dl_rent['house_price'] = df_dl_rent['house_price'].apply(convert_currency)
df_dl_rent['house_price'].head()

0       NaN
1    2600.0
2    1800.0
3    4500.0
4    1200.0
Name: house_price, dtype: float64

In [6]:
df_dl_rent['street'].head()

0           NaN
1           新河街
2           新月街
3    新秀街（新起屯商圈）
4          新林东巷
Name: street, dtype: object

4.2 提取所在的区的信息

In [7]:
df_dl_rent.sort_values(by='house_area').head(5) # house_area 列有异常值

Unnamed: 0,region,tittle,street,house_room,house_area,house_price,house_located,house_name
17547,高新园区,庙岭,合租·大华锦绣华城八期,4居室,8.0,600.0,庙岭合租·大华锦绣华城八期,高新园区庙岭合租·大华锦绣华城八期
14397,甘井子,泉水龙畔金泉,合租·龙畔金泉五期K2区,4居室,8.0,750.0,泉水龙畔金泉合租·龙畔金泉五期K2区,甘井子泉水龙畔金泉合租·龙畔金泉五期K2区
172,西岗,民主广场,合租·鸿霖大厦,5居室,8.0,650.0,民主广场合租·鸿霖大厦,西岗民主广场合租·鸿霖大厦
16602,高新园区,学府,合租·弘基三期,5居室,8.0,800.0,学府合租·弘基三期,高新园区学府合租·弘基三期
13950,甘井子,泉水锦泉源,合租·锦泉源D2区,4居室,8.0,750.0,泉水锦泉源合租·锦泉源D2区,甘井子泉水锦泉源合租·锦泉源D2区


In [8]:
df_dl_rent = df_dl_rent.drop(df_dl_rent[df_dl_rent['house_area']==0.1].index)
df_dl_rent.sort_values(by='house_area').head(5)

Unnamed: 0,region,tittle,street,house_room,house_area,house_price,house_located,house_name
17547,高新园区,庙岭,合租·大华锦绣华城八期,4居室,8.0,600.0,庙岭合租·大华锦绣华城八期,高新园区庙岭合租·大华锦绣华城八期
14397,甘井子,泉水龙畔金泉,合租·龙畔金泉五期K2区,4居室,8.0,750.0,泉水龙畔金泉合租·龙畔金泉五期K2区,甘井子泉水龙畔金泉合租·龙畔金泉五期K2区
172,西岗,民主广场,合租·鸿霖大厦,5居室,8.0,650.0,民主广场合租·鸿霖大厦,西岗民主广场合租·鸿霖大厦
16602,高新园区,学府,合租·弘基三期,5居室,8.0,800.0,学府合租·弘基三期,高新园区学府合租·弘基三期
13950,甘井子,泉水锦泉源,合租·锦泉源D2区,4居室,8.0,750.0,泉水锦泉源合租·锦泉源D2区,甘井子泉水锦泉源合租·锦泉源D2区


## 数据分析

**1.1 房租分布情况**

In [9]:
df_dl_rent['house_price'].describe()

count     22749.000000
mean       3007.996747
std        3646.441582
min         450.000000
25%        1635.000000
50%        2300.000000
75%        3200.000000
max      170000.000000
Name: house_price, dtype: float64

* 最低的房租为 450 元每月，最贵的房租为 170000 元每月 
* 平均房租为 3007 元每月，75% 的房租超过 3200 元每月。         

接下来看看最高房租和最低房租的是什么房子

In [10]:
df_dl_rent[df_dl_rent['house_price'] == 170000]

Unnamed: 0,region,tittle,street,house_room,house_area,house_price,house_located,house_name
7980,开发区,红星海,红星海二期堡藏,6室2厅,980.0,170000.0,红星海红星海二期堡藏,开发区红星海红星海二期堡藏


In [11]:
df_dl_rent[df_dl_rent['house_price'] == 450]

Unnamed: 0,region,tittle,street,house_room,house_area,house_price,house_located,house_name
12368,甘井子,山东路,独栋·平台优选商家,华南广场店,30.0,450.0,山东路独栋·平台优选商家,甘井子山东路独栋·平台优选商家


* 房租最低的房子位于甘井子区。
* 房租最贵的房子位于南山西岗,有2560平，应该数据为假

**1.2 面积分布情况**

In [12]:
df_dl_rent['house_area'].describe()

count    22713.000000
mean        75.143398
std         47.482884
min          8.000000
25%         48.000000
50%         66.000000
75%         90.000000
max        980.000000
Name: house_area, dtype: float64

最小面积为 8 $m^2$，最大面积为  980 $m^2$，平均面积为 75 $m^2$。