<a href="https://colab.research.google.com/github/carneiro-fernando/lighthouse/blob/main/Desafio_Lighthouse_DS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Introdução

### **1.1 Bibliotecas**

In [14]:
# Importação de pacotes
import os

import pandas as pd


###**1.2 Importação dos Dados**

In [20]:
file_path = "/content/teste_indicium_precificacao.csv"

# Baixar o arquivo caso ele não exista
if not os.path.exists(file_path):
    !wget https://raw.githubusercontent.com/carneiro-fernando/lighthouse/main/datasource/teste_indicium_precificacao.csv

# Leitura do arquivo e criação do DataFrame
df = pd.read_csv(file_path)


###**1.3 Descrição dos Dados** (*schema*)

Abaixo segue uma tabela com a descrição de cada uma das colunas do DataFrame:


| **Coluna** | **Nome**                   | **Descrição**                                                                      |
|------------|------------------------------|------------------------------------------------------------------------------------|
| 1          | id                           | Atua como uma chave exclusiva para cada anúncio nos dados do aplicativo            |
| 2          | nome                         | Representa o nome do anúncio                                                      |
| 3          | host_id                      | Representa o id do usuário que hospedou o anúncio                                 |
| 4          | host_name                    | Contém o nome do usuário que hospedou o anúncio                                   |
| 5          | bairro_group                 | Contém o nome do bairro onde o anúncio está localizado                           |
| 6          | bairro                       | Contém o nome da área onde o anúncio está localizado                              |
| 7          | latitude                     | Contém a latitude do local                                                        |
| 8          | longitude                    | Contém a longitude do local                                                       |
| 9          | room_type                    | Contém o tipo de espaço de cada anúncio                                           |
| 10         | price                        | Contém o preço por noite em dólares listado pelo anfitrião                        |
| 11         | minimo_noites                | Contém o número mínimo de noites que o usuário deve reservar                      |
| 12         | numero_de_reviews            | Contém o número de comentários dados a cada listagem                               |
| 13         | ultima_review                | Contém a data da última revisão dada à listagem                                    |
| 14         | reviews_por_mes              | Contém o número de avaliações fornecidas por mês                                   |
| 15         | calculado_host_listings_count| Contém a quantidade de listagem por host                                           |
| 16         | disponibilidade_365         | Contém o número de dias em que o anúncio está disponível para reserva             |


Verificação do *schema*

In [75]:
df.dtypes

id                                 int64
nome                              object
host_id                            int64
host_name                         object
bairro_group                      object
bairro                            object
latitude                         float64
longitude                        float64
room_type                         object
price                              int64
minimo_noites                      int64
numero_de_reviews                  int64
ultima_review                     object
reviews_por_mes                  float64
calculado_host_listings_count      int64
disponibilidade_365                int64
dtype: object

## 2. Análise Exploratória dos Dados

###**2.1 Wrangling**

Checando o número de linhas e colunas que estão presentes no DataFrame criado:

In [45]:
shape = df.shape
print(f"O DataFrame tem {shape[1]} colunas e {shape[0]} linhas.")

O DataFrame tem 16 colunas e 48894 linhas


Investigação se há dados nulos presentes:

In [38]:
df.isnull().sum()

id                                   0
nome                                16
host_id                              0
host_name                           21
bairro_group                         0
bairro                               0
latitude                             0
longitude                            0
room_type                            0
price                                0
minimo_noites                        0
numero_de_reviews                    0
ultima_review                    10052
reviews_por_mes                  10052
calculado_host_listings_count        0
disponibilidade_365                  0
dtype: int64

Analisando as linhas nulas:

In [55]:
df[df.isnull().any(axis=1)]

Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
1,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.94190,Private room,150,3,0,,,1,365
18,7750,Huge 2 BR Upper East Cental Park,17985,Sing,Manhattan,East Harlem,40.79685,-73.94872,Entire home/apt,190,7,0,,,2,249
25,8700,Magnifique Suite au N de Manhattan - vue Cloitres,26394,Claude & Sophie,Manhattan,Inwood,40.86754,-73.92639,Private room,80,4,0,,,1,0
35,11452,Clean and Quiet in Brooklyn,7355,Vt,Brooklyn,Bedford-Stuyvesant,40.68876,-73.94312,Private room,35,60,0,,,1,365
37,11943,Country space in the city,45445,Harriet,Brooklyn,Flatbush,40.63702,-73.96327,Private room,150,1,0,,,1,365
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48889,36484665,Charming one bedroom - newly renovated rowhouse,8232441,Sabrina,Brooklyn,Bedford-Stuyvesant,40.67853,-73.94995,Private room,70,2,0,,,2,9
48890,36485057,Affordable room in Bushwick/East Williamsburg,6570630,Marisol,Brooklyn,Bushwick,40.70184,-73.93317,Private room,40,4,0,,,2,36
48891,36485431,Sunny Studio at Historical Neighborhood,23492952,Ilgar & Aysel,Manhattan,Harlem,40.81475,-73.94867,Entire home/apt,115,10,0,,,1,27
48892,36485609,43rd St. Time Square-cozy single bed,30985759,Taz,Manhattan,Hell's Kitchen,40.75751,-73.99112,Shared room,55,1,0,,,6,2


Perceba que a maioria dos dados nulos são referentes à colunas de avaliação (*review* ) da propriedade. Temos três opções:

*   Excluir todas as linhas com valores nulos.
*   Preencher esses valores com uma média ou técnica estatística.
*   Preencher esses valores com zero.

A opção mais apropriada é o preenchimento com o número **zero**, pois reflete com maior precisão a verdadeira condição do dados. Isso porque a coluna *numero_de_reviews* deixa claro que os dados nulos são devido à ausência de avaliação, que corresponde corretamente à quantidade zero, essa informação está correta e não há impacto negativo na análise.



Limpeza dos dados das colunas de *reviews*.

In [60]:
df[['ultima_review', 'reviews_por_mes']] = df[['ultima_review', 'reviews_por_mes']].fillna(0)

Conferir se a limpeza foi bem sucedida e analisar os outros dados nulos:

In [57]:
df.isnull().sum()

id                                0
nome                             16
host_id                           0
host_name                        21
bairro_group                      0
bairro                            0
latitude                          0
longitude                         0
room_type                         0
price                             0
minimo_noites                     0
numero_de_reviews                 0
ultima_review                     0
reviews_por_mes                   0
calculado_host_listings_count     0
disponibilidade_365               0
dtype: int64

In [62]:
df[df.isnull().any(axis=1)]

Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
359,100184,Bienvenue,526653,,Queens,Queens Village,40.72413,-73.76133,Private room,50,1,43,2019-07-08,0.45,1,88
2699,1449546,Cozy Studio in Flatbush,7779204,,Brooklyn,Flatbush,40.64965,-73.96154,Entire home/apt,100,30,49,2017-01-02,0.69,1,342
2853,1615764,,6676776,Peter,Manhattan,Battery Park City,40.71239,-74.0162,Entire home/apt,400,1000,0,0,0.0,1,362
3702,2232600,,11395220,Anna,Manhattan,East Village,40.73215,-73.98821,Entire home/apt,200,1,28,2015-06-08,0.45,1,341
5744,4183989,SPRING in the City!! Zen-Style Tranquil Bedroom,919218,,Manhattan,Harlem,40.80606,-73.95061,Private room,86,3,34,2019-05-23,1.0,1,359
5774,4209595,,20700823,Jesse,Manhattan,Greenwich Village,40.73473,-73.99244,Entire home/apt,225,1,1,2015-01-01,0.02,1,0
5974,4370230,,22686810,Michaël,Manhattan,Nolita,40.72046,-73.9955,Entire home/apt,215,7,5,2016-01-02,0.09,1,0
6074,4446862,Charming Room in Prospect Heights!,23077718,,Brooklyn,Crown Heights,40.67512,-73.96146,Private room,50,1,0,0,0.0,1,0
6268,4581788,,21600904,Lucie,Brooklyn,Williamsburg,40.7137,-73.94378,Private room,150,1,0,0,0.0,1,0
6566,4756856,,1832442,Carolina,Brooklyn,Bushwick,40.70046,-73.92825,Private room,70,1,0,0,0.0,1,0


Os valores nulos se referem agora ao nome do anúncio e ao nome do usuário responsável pelo anúncio. Referente ao nome do usuário, faremos o seguinte tratamento: reuniremos os *ids* deles e buscaremos no restante do DataFrame se há alguma linha em que se repita esse *id* e tenha o nome do usuário.

In [69]:
#  Criando DataFrame com os nomes nulos:
null_host_names = df[df['host_name'].isnull()]['host_name']

# Criando DataFrame com os ids dos usuário com nome nulo:
host_ids = df[df['host_name'].isin(null_host_names)]['host_id']

# Buscando no DataFrame pelos nomes referentes aos ids:
df[df['host_id'].isin(host_ids)]

Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
359,100184,Bienvenue,526653,,Queens,Queens Village,40.72413,-73.76133,Private room,50,1,43,2019-07-08,0.45,1,88
2699,1449546,Cozy Studio in Flatbush,7779204,,Brooklyn,Flatbush,40.64965,-73.96154,Entire home/apt,100,30,49,2017-01-02,0.69,1,342
5744,4183989,SPRING in the City!! Zen-Style Tranquil Bedroom,919218,,Manhattan,Harlem,40.80606,-73.95061,Private room,86,3,34,2019-05-23,1.0,1,359
6074,4446862,Charming Room in Prospect Heights!,23077718,,Brooklyn,Crown Heights,40.67512,-73.96146,Private room,50,1,0,0,0.0,1,0
6581,4763327,"Luxurious, best location, spa inc'l",24576978,,Brooklyn,Greenpoint,40.72035,-73.95355,Entire home/apt,195,1,1,2015-10-20,0.02,1,0
8162,6292866,Modern Quiet Gem Near All,32722063,,Brooklyn,East Flatbush,40.65263,-73.93215,Entire home/apt,85,2,182,2019-06-19,3.59,2,318
8256,6360224,"Sunny, Private room in Bushwick",33134899,,Brooklyn,Bushwick,40.70146,-73.92792,Private room,37,1,1,2015-07-01,0.02,1,0
8851,6786181,R&S Modern Spacious Hideaway,32722063,,Brooklyn,East Flatbush,40.64345,-73.93643,Entire home/apt,100,2,157,2019-06-19,3.18,2,342
9137,6992973,1 Bedroom in Prime Williamsburg,5162530,,Brooklyn,Williamsburg,40.71838,-73.9563,Entire home/apt,145,1,0,0,0.0,1,0
9816,7556587,Sunny Room in Harlem,39608626,,Manhattan,Harlem,40.82929,-73.94182,Private room,28,1,1,2015-08-01,0.02,1,0


Infelizmente, não há nenhuma outra menção dos *host_id* ligados aos *host_names* nulos. Sendo assim, por se tratar de uma quantidade pequena de dados, irei apenas remover as linhas com esses valores nulos, juntamente com as linhas em que o título do anúncio é nulo.

In [71]:
# Removendo todos os valores nulos
df = df.dropna()

# Checando se todos os valores foram removidos
df.isnull().sum()

id                               0
nome                             0
host_id                          0
host_name                        0
bairro_group                     0
bairro                           0
latitude                         0
longitude                        0
room_type                        0
price                            0
minimo_noites                    0
numero_de_reviews                0
ultima_review                    0
reviews_por_mes                  0
calculado_host_listings_count    0
disponibilidade_365              0
dtype: int64

###**2.2 Análise**

**Dados categóricos**

Vamos ter uma visão geral dos nossos dados, começando pelos dados categóricos.

In [76]:
df.select_dtypes("object").describe().transpose()

Unnamed: 0,count,unique,top,freq
nome,48857,47883,Hillside Hotel,18
host_name,48857,11450,Michael,417
bairro_group,48857,5,Manhattan,21643
bairro,48857,221,Williamsburg,3917
room_type,48857,3,Entire home/apt,25393
ultima_review,48857,1765,0,10037


Vamos analisar brevemente os dados únicos com menor ocorrência:


In [83]:
print(f"Tipos de quarto: {df['room_type'].unique()} \n\
        Bairros: {df['bairro_group'].unique()}")

Tipos de quarto: ['Entire home/apt' 'Private room' 'Shared room'] 
        Bairros: ['Manhattan' 'Brooklyn' 'Queens' 'Staten Island' 'Bronx']


**Insights:**

* É possível observar nos dados referentes aos bairros que os dados do concorrente estão corretamente direcionados somente à cidade de Nova York, que é o maior interesse de nosso cliente.

* A quantidade de valores únicos na coluna é alta, cerca de 1000 resultados são repetidos, como por exemplo a rede (*chain*) de hotéis *Hillside Hotel* que se repete 18 vezes. Isso indica que nossos dados se tratam majoritariamente de aluguéis por aplicativo (ex: Airbnb, Vrbo, Wimdu), outra evidência são os tipos de quartos que não são opções comuns em redes de hotéis.

* Segue uma tabela para facilitar a visualização dos valores mais populares:

>| Mais popular | Valor |
|---|---|
| Anúncio | Hillside Hotel |
| Anfitrião | Michael |
| Bairro | Manhattan |
| Área | Williamsburg |
| Tipo de quarto | Casa/apartamento inteiro |
| Comodidadeses | Wifi, cozinha, itens essenciais, aquecimento, ar condicionado |
