# Pré-Processamento dos dados

Caderno dedicado à exploração inicial dos dados:

* 1. **Primeira leitura**: Importação das bibliotecas que serão utilizadas e primeira leitura dos dados.

* 2. **Criação do dicionário de dados**: Criação de um dicionário sobre os dados importados, trazendo informações como descrição e tipo dos dados.

* 3. **Tratamento de dados incorretos**: Garantia de que os dados estarão prontos para a análise exploratória e para os modelos de Machine Learning.

* 4. **Preparação dos dados para Modelos de ML**: Preparação adicional para que os modelos de Machine Learning funcionem sem problemas.

## 1. Primeira leitura

* Bibliotecas:

In [1]:
import pandas as pd
import numpy as np

* Leitura dos dados:

In [23]:
dados = pd.read_csv("../data/teste_indicium_precificacao.csv")

In [24]:
dados.head(10)

Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
0,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
1,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
2,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
3,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0
4,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,74,2019-06-22,0.59,1,129
5,5121,BlissArtsSpace!,7356,Garon,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,Private room,60,45,49,2017-10-05,0.4,1,0
6,5178,Large Furnished Room Near B'way,8967,Shunichi,Manhattan,Hell's Kitchen,40.76489,-73.98493,Private room,79,2,430,2019-06-24,3.47,1,220
7,5203,Cozy Clean Guest Room - Family Apt,7490,MaryEllen,Manhattan,Upper West Side,40.80178,-73.96723,Private room,79,2,118,2017-07-21,0.99,1,0
8,5238,Cute & Cozy Lower East Side 1 bdrm,7549,Ben,Manhattan,Chinatown,40.71344,-73.99037,Entire home/apt,150,1,160,2019-06-09,1.33,4,188
9,5295,Beautiful 1br on Upper West Side,7702,Lena,Manhattan,Upper West Side,40.80316,-73.96545,Entire home/apt,135,5,53,2019-06-22,0.43,1,6


## 2. Dicionário de dados

In [25]:
dados_dicionario = pd.DataFrame([
    {
        'variavel':'id',
        'descricao': 'Identificador Único',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'nome',
        'descricao': 'Título do anúncio',
        'tipo':'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'host_id',
        'descricao': 'Identificador Único do anfitrião',
        'tipo': 'quantitativa',
        'subtipo':'discreta',
    },
    {
        'variavel': 'host_name',
        'descricao':  'nome do anfitrião',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'bairro_group',
        'descricao': 'grupo ou região do bairro onde o imóvel está localizado',
        'tipo': 'qualitativa',
        'subtipo':'nominal',
    },
    {
        'variavel': 'bairro',
        'descricao':  'Nome do bairro onde o imóvel está localizado',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'latitude',
        'descricao': 'coordenada geográfica de latitude do imóvel',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'longitude',
        'descricao':  'coordenada geográfica de longitude do imóvel',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',

    },
    {
        'variavel': 'room_type',
        'descricao': 'Tipo de acomodação',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'price',
        'descricao': 'Preço por noite em dólares',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'minimo_noites',
        'descricao': 'Número mínimo de noites exigido para reserva',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'numero_de_reviews',
        'descricao':'Número total de avaliações do anúncio',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'ultima_review',
        'descricao': 'Data da última avaliação recebida',
        'tipo': 'qualitativa',
        'subtipo': 'ordinal',
    },
    {
        'variavel': 'reviews_por_mes',
        'descricao': 'Média de avaliações recebidas por mês',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'calculado_host_listings_count',
        'descricao': 'quantidade de anúncios ativos do anfitrião',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'disponibilidade_365',
        'descricao': 'Número de dias disponíveis para reserva no ano',
        'tipo': 'quantitativa',
        'subtipo':'discreta',
    },

])

In [26]:
dados_dicionario.to_csv("../data/dicionario_AE.csv", index=False)

In [27]:
dados_dicionario.head()

Unnamed: 0,variavel,descricao,tipo,subtipo
0,id,Identificador Único,quantitativa,discreta
1,nome,Título do anúncio,qualitativa,nominal
2,host_id,Identificador Único do anfitrião,quantitativa,discreta
3,host_name,nome do anfitrião,qualitativa,nominal
4,bairro_group,grupo ou região do bairro onde o imóvel está l...,qualitativa,nominal


## 3. Tratamento de dados incorretos

* Descrição:

In [28]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48894 entries, 0 to 48893
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id                             48894 non-null  int64  
 1   nome                           48878 non-null  object 
 2   host_id                        48894 non-null  int64  
 3   host_name                      48873 non-null  object 
 4   bairro_group                   48894 non-null  object 
 5   bairro                         48894 non-null  object 
 6   latitude                       48894 non-null  float64
 7   longitude                      48894 non-null  float64
 8   room_type                      48894 non-null  object 
 9   price                          48894 non-null  int64  
 10  minimo_noites                  48894 non-null  int64  
 11  numero_de_reviews              48894 non-null  int64  
 12  ultima_review                  38842 non-null 

In [29]:
dados.describe()

Unnamed: 0,id,host_id,latitude,longitude,price,minimo_noites,numero_de_reviews,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
count,48894.0,48894.0,48894.0,48894.0,48894.0,48894.0,48894.0,38842.0,48894.0,48894.0
mean,19017530.0,67621390.0,40.728951,-73.952169,152.720763,7.030085,23.274758,1.373251,7.144005,112.776169
std,10982880.0,78611180.0,0.054529,0.046157,240.156625,20.510741,44.550991,1.680453,32.952855,131.618692
min,2595.0,2438.0,40.49979,-74.24442,0.0,1.0,0.0,0.01,1.0,0.0
25%,9472371.0,7822737.0,40.6901,-73.98307,69.0,1.0,1.0,0.19,1.0,0.0
50%,19677430.0,30795530.0,40.723075,-73.95568,106.0,3.0,5.0,0.72,1.0,45.0
75%,29152250.0,107434400.0,40.763117,-73.936273,175.0,5.0,24.0,2.02,2.0,227.0
max,36487240.0,274321300.0,40.91306,-73.71299,10000.0,1250.0,629.0,58.5,327.0,365.0


* Tratamento de Dados Ausentes:

In [30]:
dados_nulos = dados.isnull().values.any()

if dados_nulos:
    print('Há dados nulos no dataset')
    print(f'verificando dados nulos: \n\n{dados.isna().sum()}')
else:
    print('Não há dados nulos no dataset')

Há dados nulos no dataset
verificando dados nulos: 

id                                   0
nome                                16
host_id                              0
host_name                           21
bairro_group                         0
bairro                               0
latitude                             0
longitude                            0
room_type                            0
price                                0
minimo_noites                        0
numero_de_reviews                    0
ultima_review                    10052
reviews_por_mes                  10052
calculado_host_listings_count        0
disponibilidade_365                  0
dtype: int64


Substituição de dados nulos das colunas 'nome' e 'host_name' por 'Desconhecido':

In [31]:
dados.loc[dados['nome'].isnull(), 'nome'] = 'Desconhecido'

In [32]:
dados.loc[dados['host_name'].isnull(),'host_name'] = 'Desconhecido'

Substituição da coluna 'reviews_por_mes' pela mediana dos valores:

In [33]:
dados['reviews_por_mes'].fillna(dados['reviews_por_mes'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dados['reviews_por_mes'].fillna(dados['reviews_por_mes'].median(), inplace=True)


Substituição dos valores nulos da coluna 'ultima_review' por 'Nat':

In [34]:
dados['ultima_review'] = dados['ultima_review'].fillna(pd.NaT)

In [35]:
dados['ultima_review'] = pd.to_datetime(dados['ultima_review'], errors='coerce')

In [36]:
dados_nulos = dados.isnull().values.any()

if dados_nulos:
    print('Há dados nulos no dataset')
    print(f'verificando dados nulos: \n\n{dados.isna().sum()}')
else:
    print('Não há dados nulos no dataset')

Há dados nulos no dataset
verificando dados nulos: 

id                                   0
nome                                 0
host_id                              0
host_name                            0
bairro_group                         0
bairro                               0
latitude                             0
longitude                            0
room_type                            0
price                                0
minimo_noites                        0
numero_de_reviews                    0
ultima_review                    10052
reviews_por_mes                      0
calculado_host_listings_count        0
disponibilidade_365                  0
dtype: int64


Apesar de ter ocorrido o tratamento da coluna 'ultima_review', ela pode ser considerada nula pelo Python por não conseguir identificar o 'NaT' como parte do processamento dos dados, o que é uma prática comum para o tratamento de valores nulos de data.

In [37]:
dados.head(10)

Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
0,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
1,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,NaT,0.72,1,365
2,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
3,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0
4,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,74,2019-06-22,0.59,1,129
5,5121,BlissArtsSpace!,7356,Garon,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,Private room,60,45,49,2017-10-05,0.4,1,0
6,5178,Large Furnished Room Near B'way,8967,Shunichi,Manhattan,Hell's Kitchen,40.76489,-73.98493,Private room,79,2,430,2019-06-24,3.47,1,220
7,5203,Cozy Clean Guest Room - Family Apt,7490,MaryEllen,Manhattan,Upper West Side,40.80178,-73.96723,Private room,79,2,118,2017-07-21,0.99,1,0
8,5238,Cute & Cozy Lower East Side 1 bdrm,7549,Ben,Manhattan,Chinatown,40.71344,-73.99037,Entire home/apt,150,1,160,2019-06-09,1.33,4,188
9,5295,Beautiful 1br on Upper West Side,7702,Lena,Manhattan,Upper West Side,40.80316,-73.96545,Entire home/apt,135,5,53,2019-06-22,0.43,1,6


In [38]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48894 entries, 0 to 48893
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   id                             48894 non-null  int64         
 1   nome                           48894 non-null  object        
 2   host_id                        48894 non-null  int64         
 3   host_name                      48894 non-null  object        
 4   bairro_group                   48894 non-null  object        
 5   bairro                         48894 non-null  object        
 6   latitude                       48894 non-null  float64       
 7   longitude                      48894 non-null  float64       
 8   room_type                      48894 non-null  object        
 9   price                          48894 non-null  int64         
 10  minimo_noites                  48894 non-null  int64         
 11  numero_de_revie

* Salvando os dados atualizados:

In [39]:
dados.to_csv("../data/teste_atualizado_AE.csv", index = False)

## Preparação dos dados para Modelos de ML

* Pega apenas 50% dos dados:

In [40]:
dados = dados.sample(frac=0.5, random_state=42) 

* Jogando colunas fora:

In [41]:
dados = dados.drop(columns=['ultima_review','latitude','longitude','host_id','id','bairro'])

* Redução da Cardinalidade das Variáveis Categóricas:

In [42]:
for col in ['nome', 'host_name']:
    freq = dados[col].value_counts(normalize=True)
    dados[col] = dados[col].apply(lambda x: x if freq[x] > 0.01 else "Outros")

Redução da cardinalidade agrupando valores menos frequentes em uma categoria comum, como "Outros" para evitar problemas com muitos valores únicos nessas 2 colunas e diminuir o tamanho dos dados.

* Jogando colunas fora do dicionário conforme o dataset 'dados':

In [43]:
valores_para_remover = ['ultima_review','latitude','longitude','host_id','id','bairro']
dados_dicionario = dados_dicionario[~dados_dicionario['variavel'].isin(valores_para_remover)]

Devido a problema ao grande número de dados ao rodar os modelos, essas foram medidas necessárias.

* Salvando dados para serem usados na etapa de criação dos modelos de Machine Learning:

In [44]:
dados.to_csv("../data/teste_atualizado_ML.csv", index = False)

In [45]:
dados_dicionario.to_csv("../data/dicionario_ML.csv", index=False)