In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Análise Exploratória de Dados

Autor: Lara Esquivel de Brito Santos

Neste notebook está descreve o passo a passo da análise exploratória dos dados imobiliários contidos no arquivo  teste_indicium_precificacao.csv

In [2]:
df = pd.read_csv('teste_indicium_precificacao.csv')
df.head()

Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
0,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
1,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
2,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
3,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0
4,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,74,2019-06-22,0.59,1,129


Cada coluna possui os seguintes tipos de dados, segundo o pandas:

In [7]:
df.dtypes

id                                 int64
nome                              object
host_id                            int64
host_name                         object
bairro_group                      object
bairro                            object
latitude                         float64
longitude                        float64
room_type                         object
price                              int64
minimo_noites                      int64
numero_de_reviews                  int64
ultima_review                     object
reviews_por_mes                  float64
calculado_host_listings_count      int64
disponibilidade_365                int64
dtype: object

- **id**: Embora seja um valor `int64`, é um identificador.
- **nome**: Nome do anúncio, variável **categórica nominal**.
- **host_id**: é um identificador do anfitrião.
- **host_name**: Variável **nominal**, representando o nome do anfitrião.
- **bairro_group**: Variável **nominal**, que categoriza os grupos de bairros.
- **latitude**: Variável **contínua**, representando uma coordenada geográfica.
- **longitude**: Variável **contínua**, representando uma coordenada geográfica.
- **room_type**: Variável **nominal**, descrevendo o tipo de quarto.
- **price**: Representa o preço do aluguel. Embora devesse ser uma variável **contínua** (podendo incluir valores decimais), nesta base de dados não possui valores decimais.
- **minimo_noite**: Variável **discreta**, pois conta o número mínimo de noites para o aluguel temporário.
- **numero_de_reviews**: Variável **discreta**, que representa a contagem de avaliações.
- **ultima_review**: É uma data. Porém, o pandas não reconheceu como tal e precisa ser convertida para o formato `datetime`.
- **reviews_por_mes**: Variável **contínua**, representando a média de avaliações mensais.
- **calculated_host_listings_count**: Variável **discreta**, pois é uma contagem.
- **disponibilidade**: Variável **discreta**, que indica o número de dias em que o anúncio está disponível para reserva.





## Tratamento para análise

In [8]:
df.isnull().sum()

id                                   0
nome                                16
host_id                              0
host_name                           21
bairro_group                         0
bairro                               0
latitude                             0
longitude                            0
room_type                            0
price                                0
minimo_noites                        0
numero_de_reviews                    0
ultima_review                    10052
reviews_por_mes                  10052
calculado_host_listings_count        0
disponibilidade_365                  0
dtype: int64

id é o identificador exclusivo do anuncio