# Data cleaning of data we get from lamudi.com

### Get the data from MongoDb instance.

#### Import the libraries that we shall need

In [1]:
import pymongo
from pymongo import MongoClient
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
pd.options.display.max_columns = 35

#### Conect to Data base in Mongo with pymongo and pandas

In [2]:
client = MongoClient()
client = MongoClient('mongodb+srv://andatti2:andatti2@cluster0.lcbrk.mongodb.net/myFirstDatabase?retryWrites=true&w=majority')
#select database
db = client['lamudi_cdmx']
#select the collection
collection = db.renta_cdmx
#Collection to pandas data frame
df = pd.DataFrame(list(collection.find()))

#### Save the data as a CSV file

In [3]:
df.to_csv('lamudi.csv', encoding='utf-8')

#### Read the CSV

In [4]:
df = pd.read_csv('lamudi.csv', encoding='utf-8')

In [5]:
df.head()

Unnamed: 0.1,Unnamed: 0,_id,title,price,address,car_boxes,rooms,bathroms,squareM,levels,date_post,description,url
0,0,62147e4d4def088bf76fa790,Bonita vista y privacidad,"$ 10,700","Ignacio Manuel Altamirano 130 San Rafael, Cuau...",1.0,1.0,1.0,50.0,,,"['\n ', 'Excelente departamento...",https://www.lamudi.com.mx/bonita-vista-y-priva...
1,1,62147e4e4def088bf76fa791,RENTA DEPARTAMENTO TRES RECAMARAS EN SENDERO A...,"$ 25,500","Santa Fe Cuajimalpa, Cuajimalpa de Morelos",,3.0,3.0,164.0,1.0,,"['\n ', 'DEPARTAMENTO EN RESIDE...",https://www.lamudi.com.mx/renta-departamento-t...
2,2,62147e4e4def088bf76fa792,RENTA DEPARTAMENTO EN LA CONDESA,"$ 17,000","ZAMORA 69 Condesa, Cuauhtémoc",1.0,2.0,1.0,107.0,7.0,19/02/22,"['\n ', 'Precioso, inmejorable ...",https://www.lamudi.com.mx/renta-departamento-e...
3,3,62147e4e4def088bf76fa793,RENTO DEPARTAMENTO CUAJIMALPA CERCA DE SANTA FE,"$ 12,000","COAHUILA 244 Cuajimalpa, Cuajimalpa de Morelos",1.0,2.0,2.0,110.0,4.0,22/02/22,"['\n ', 'Excelente departamento...",https://www.lamudi.com.mx/rento-departamento-c...
4,4,62147e4e4def088bf76fa794,RENTA DEPARTAMENTO POLANCO,"$ 35,000","Ampliación Granada, Miguel Hidalgo",2.0,3.0,2.0,125.0,1.0,,"['\n ', 'Estrena departamento e...",https://www.lamudi.com.mx/renta-departamento-p...


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2898 entries, 0 to 2897
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Unnamed: 0   2898 non-null   int64  
 1   _id          2898 non-null   object 
 2   title        2892 non-null   object 
 3   price        2801 non-null   object 
 4   address      2892 non-null   object 
 5   car_boxes    2507 non-null   float64
 6   rooms        2870 non-null   float64
 7   bathroms     2871 non-null   float64
 8   squareM      2858 non-null   float64
 9   levels       2135 non-null   object 
 10  date_post    752 non-null    object 
 11  description  2898 non-null   object 
 12  url          2898 non-null   object 
dtypes: float64(4), int64(1), object(8)
memory usage: 294.5+ KB


### Columns: 
* **id:** The ID of the place/apartment/house, given by MongoDb collection.
* **Price:** The started price of the place.
* **title:** Original title of the house advertisement.
* **address:** Address of the place. (Just CDMX)
* **car_boxes:** Number of parking spaces.
* **rooms:** Number of rooms in the place.
* **bathrooms:** Number of bathrooms in the place
* **squareM:** Place surface.
* **levels:** Number of floors.
* **date_post:** Date of announcement post
* **description:** Features house summary
* **url:** Original announcement url post.

#### Replace every empty string with Nan values

In [7]:
# ^\s*$ : regular expression that matches an empty line.
df = df.replace(r'^\s*$', np.NaN, regex=True)
df.head(3)

Unnamed: 0.1,Unnamed: 0,_id,title,price,address,car_boxes,rooms,bathroms,squareM,levels,date_post,description,url
0,0,62147e4d4def088bf76fa790,Bonita vista y privacidad,"$ 10,700","Ignacio Manuel Altamirano 130 San Rafael, Cuau...",1.0,1.0,1.0,50.0,,,"['\n ', 'Excelente departamento...",https://www.lamudi.com.mx/bonita-vista-y-priva...
1,1,62147e4e4def088bf76fa791,RENTA DEPARTAMENTO TRES RECAMARAS EN SENDERO A...,"$ 25,500","Santa Fe Cuajimalpa, Cuajimalpa de Morelos",,3.0,3.0,164.0,1.0,,"['\n ', 'DEPARTAMENTO EN RESIDE...",https://www.lamudi.com.mx/renta-departamento-t...
2,2,62147e4e4def088bf76fa792,RENTA DEPARTAMENTO EN LA CONDESA,"$ 17,000","ZAMORA 69 Condesa, Cuauhtémoc",1.0,2.0,1.0,107.0,7.0,19/02/22,"['\n ', 'Precioso, inmejorable ...",https://www.lamudi.com.mx/renta-departamento-e...


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2898 entries, 0 to 2897
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Unnamed: 0   2898 non-null   int64  
 1   _id          2898 non-null   object 
 2   title        2892 non-null   object 
 3   price        2801 non-null   object 
 4   address      2892 non-null   object 
 5   car_boxes    2507 non-null   float64
 6   rooms        2870 non-null   float64
 7   bathroms     2871 non-null   float64
 8   squareM      2858 non-null   float64
 9   levels       2135 non-null   object 
 10  date_post    752 non-null    object 
 11  description  2898 non-null   object 
 12  url          2898 non-null   object 
dtypes: float64(4), int64(1), object(8)
memory usage: 294.5+ KB


#### Dropping irrelevant columns

In [9]:
#The date_post column lost more than a half of its data, so I'm going to drop all the column
#Anoter reason is that we don't need this column to achieve our analysis purposes.
df.drop(columns = ['date_post'], inplace = True)

In [10]:
#we don't need the '_Id' column to achieve our analysis purposes.
df.drop(columns = ['_id'], inplace = True)

In [11]:
#we don't need the '_Id' column to achieve our analysis purposes.
df.drop(columns = ['Unnamed: 0'], inplace = True)

In [12]:
df.columns

Index(['title', 'price', 'address', 'car_boxes', 'rooms', 'bathroms',
       'squareM', 'levels', 'description', 'url'],
      dtype='object')

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2898 entries, 0 to 2897
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   title        2892 non-null   object 
 1   price        2801 non-null   object 
 2   address      2892 non-null   object 
 3   car_boxes    2507 non-null   float64
 4   rooms        2870 non-null   float64
 5   bathroms     2871 non-null   float64
 6   squareM      2858 non-null   float64
 7   levels       2135 non-null   object 
 8   description  2898 non-null   object 
 9   url          2898 non-null   object 
dtypes: float64(4), object(6)
memory usage: 226.5+ KB


#### Convert the price data to float

In [14]:
df.price = df.price.replace('[\$,]', '', regex=True).astype(float)

In [15]:
df.price[0:5]

0    10700.0
1    25500.0
2    17000.0
3    12000.0
4    35000.0
Name: price, dtype: float64

#### Fixing the description column

In [16]:
df.description[0]

"['\\n                ', 'Excelente departamento en una ubicacion muy centrica, a pocas cuadras de avenidas principales como Reforma, Insurgentes y circuito interior.', ' ', 'Consta de 1 recamara, 1 baño completo, estancia, sala / comedor, cocina integral, area para centro de lavado, un lugar de estacionamiento techado fijo (no se estorba con ningun vecino).', ' ', '\\xa0Ubicado en 5to piso, el edificio cuenta con 2 elevadores con acceso inteligente con huella digital o tarjeta, el departamento no comparte muros con ningun vecino y no hay vecino arriba, vigilancia las 24 horas y camaras.', ' ', 'El precio incluye mantenimiento y servicio de agua, los demas consumos son aparte y estan individualizados.', ' ', 'Se podria aceptar una mascota pequeña.', '\\n            ']"

In [17]:
df['description'] = df['description'].apply(lambda x: str(x).replace(u'\\xa0', u''))

In [18]:
df.description[0]

"['\\n                ', 'Excelente departamento en una ubicacion muy centrica, a pocas cuadras de avenidas principales como Reforma, Insurgentes y circuito interior.', ' ', 'Consta de 1 recamara, 1 baño completo, estancia, sala / comedor, cocina integral, area para centro de lavado, un lugar de estacionamiento techado fijo (no se estorba con ningun vecino).', ' ', 'Ubicado en 5to piso, el edificio cuenta con 2 elevadores con acceso inteligente con huella digital o tarjeta, el departamento no comparte muros con ningun vecino y no hay vecino arriba, vigilancia las 24 horas y camaras.', ' ', 'El precio incluye mantenimiento y servicio de agua, los demas consumos son aparte y estan individualizados.', ' ', 'Se podria aceptar una mascota pequeña.', '\\n            ']"

In [19]:
df.description.replace(to_replace=[r"\\t|\\n|\\r", "\t|\n|\r"], value=["",""], regex=True, inplace=True)

In [45]:
df.description[1]

"['                ', 'DEPARTAMENTO EN RESIDENCIAL SENDERO A 5 MIN DEL HOSPITAL ABC, Centro Comercial Santa Fe y Parque La Mexicana', '', '', '164 m2, 3 recámaras, la principal con vestidor y baño, 3 baños y medio, sala-comedor, duela laminada en pisos de sala, comedor y recámaras, desayunador, cocina integral cubierta de granito, sala de TV, cuarto de servicio con baño completo, 2 estacionamientos, bodega, patio de servicio con calentador y lavadero. Vigilancia 24 hrs.', '', '', 'Amenidades:  Piscina techada, jacuzzi, 2 gimnasios, 2 salones de jóvenes, 2 salones de adultos, salón de baile, salón de usos múltiples, ludoteca, salón de fiestas, asoleadero descubierto, vestidores, área de masaje con descanso, sauna y vapor, baños y regaderas, cancha de squash, área de juegos infantiles, 2 áreas de asadores', '', '', 'MANTENIMIENTO INCLUIDO. EasyBroker ID: EB-CV8205', '            ']"

In [21]:
import re

In [22]:
re.sub('[\W_]+', ' ', df.description[3])

' Excelente departamento en calle coahuila en cuajimalpa NO SE ACEPTAN ROOMIMGS Consta de dos recamaras dos baños un estacionamiento amplia sala comedor cocina equipada área de lavado cuarto de servicio Remodelado piso laminado nuevo persianas nuevas SE RENTA POR AÑO COMPLETO El departamento se encuentra en el cuarto piso El edificio cuenta con elevador Excelente vigilancia las 24 horas Muy buen mantenimiento Informes '

In [54]:
clean_desc = []
for i in df['description']:
    a = re.sub('[\W_]+', ' ', i)
    clean_desc.append(a)

In [56]:
len(clean_desc)

2898