In [48]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from scikitplot.metrics import plot_confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

In [49]:
df = pd.read_csv("Resultados_MercadoLivre_Barra.csv")

In [50]:
df.columns

Index(['Unnamed: 0', 'Url', 'Preço', 'Titulo Imóvel', 'Endereço', 'Área',
       'Número de Quartos'],
      dtype='object')

In [51]:
df = df.drop(['Unnamed: 0'], axis=1)

In [52]:
df.describe()

Unnamed: 0,Url,Preço,Titulo Imóvel,Endereço,Área,Número de Quartos
count,2016,2016,2016,2016,2016,2016
unique,2016,723,1978,380,413,8
top,https://apartamento.mercadolivre.com.br/MLB-21...,1.200.000,Apartamento Em Rio De Janeiro - Barra Da Tijuca,"Barra Da Tijuca, Rio De Janeiro Zona Oeste, Ri...",100 m² construídos,4 quartos
freq,1,30,3,958,38,678


In [53]:
df.duplicated(subset=['Preço', 'Titulo Imóvel', 'Endereço', 'Área',
       'Número de Quartos'])

0       False
1       False
2       False
3       False
4       False
        ...  
2011    False
2012    False
2013    False
2014    False
2015    False
Length: 2016, dtype: bool

* Verificar duplicatas e eliminar as iguais

In [54]:
df = df.drop_duplicates(subset=['Preço', 'Titulo Imóvel', 'Endereço', 'Área',
       'Número de Quartos'], keep="first")

In [55]:
df.describe()

Unnamed: 0,Url,Preço,Titulo Imóvel,Endereço,Área,Número de Quartos
count,1980,1980,1980,1980,1980,1980
unique,1980,723,1978,380,413,8
top,https://apartamento.mercadolivre.com.br/MLB-21...,1.200.000,Apartamento Em Rio De Janeiro - Barra Da Tijuca,"Barra Da Tijuca, Rio De Janeiro Zona Oeste, Ri...",100 m² construídos,4 quartos
freq,1,30,3,942,38,669


* Remover todos os m2 construidos da area

* Colocar como número o preço do imóvel

In [56]:
print(df.dtypes)

Url                  object
Preço                object
Titulo Imóvel        object
Endereço             object
Área                 object
Número de Quartos    object
dtype: object


In [57]:
df['Preço'].head()

0    1.900.000
1    1.922.800
2    4.130.000
3    1.350.000
4    3.400.000
Name: Preço, dtype: object

* Removendo o ponto de dentro da string de Preço

In [65]:
df['Preço'] = df['Preço'].replace('\.', '', regex=True)

* Forçando que a coluna Preço seja um número

In [66]:
df['Preço'] = pd.to_numeric(df['Preço'])

* Verificando o primeiro item da Coluna Numero de Quartos e identificando se só há números mesmo

In [67]:
df['Número de Quartos'].str.split(" ").str[0]

0       3
1       3
2       3
3       2
4       3
       ..
2011    0
2012    2
2013    2
2014    0
2015    4
Name: Número de Quartos, Length: 1980, dtype: object

In [68]:
df['Número de Quartos'].str.split(" ").str[0].unique()

array(['3', '2', '4', '1', '5', '0', '6', '7'], dtype=object)

* Só tem números, agora eu coloco essa primeira parte do Numero de Quartos (só o número), como a coluna. Substituindo.

In [69]:
df['Número de Quartos'] = df['Número de Quartos'].str.split(" ").str[0]

* Convertendo para número

In [82]:
df['Número de Quartos'] = (df['Número de Quartos'].astype(int))

In [83]:
df['Número de Quartos'].describe()

count    1980.000000
mean        3.058586
std         1.061334
min         0.000000
25%         2.000000
50%         3.000000
75%         4.000000
max         7.000000
Name: Número de Quartos, dtype: float64

* Convertendo área para número, primeiro separando o primeiro item da string (número) e depois corrigindo o erro da , no local do milhar

In [89]:
df['Área'] = pd.to_numeric(df['Área'].str.split(" ").str[0].replace('\,', '', regex=True))

In [91]:
df["Área"]

0       169
1       203
2       170
3        75
4       304
       ... 
2011     27
2012     77
2013     73
2014     24
2015    156
Name: Área, Length: 1980, dtype: int64

In [None]:
* Removendo duplicatas que escreveram mesmos parâmetros com título de imóvel diferente

In [92]:
df = df.drop_duplicates(subset=['Preço', 'Endereço', 'Área',
       'Número de Quartos'], keep="first")

In [96]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1882 entries, 0 to 2015
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Url                1882 non-null   object
 1   Preço              1882 non-null   int64 
 2   Titulo Imóvel      1882 non-null   object
 3   Endereço           1882 non-null   object
 4   Área               1882 non-null   int64 
 5   Número de Quartos  1882 non-null   int32 
dtypes: int32(1), int64(2), object(3)
memory usage: 95.6+ KB


In [95]:
df.to_csv('Resultados_Tratados_ML_Barra.csv')  