# Introdução
 Vamos mergulhar nos dados do Booking. Nosso objetivo? Entender melhor
 o comportamento do cliente e as tendências do mercado de hospedagem. 
 Preparados?
 Vamos lá!


# 1 - Configuração do Ambiente
### Aqui, vamos importar as bibliotecas necessárias. Pandas para manipulação de dados, Matplotlib/Seaborn para visualização, etc.

In [225]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 2 - Carregamento dos Dados
### Agora, vamos carregar os dados. Normalmente, usamos Pandas para isso.

In [226]:
# utf-8 nao funcionou, foi usado ISO-8859-1 que cobre a maioria das línguas latinas e europeias
details = pd.read_csv('desafio_details.csv', encoding="ISO-8859-1", sep = ';')
ratings = pd.read_csv('desafio_ratings.csv', encoding="ISO-8859-1", sep = ';' )

# 3 - Análise Exploratória e Preparação dos Datasets
### Vamos dar uma olhada inicial nos dados, investigar padrões, anomalias e tudo mais que pareça interessante.


In [227]:
# retorna as 5 primeiras linhas do dataset
details.head()

Unnamed: 0.1,Unnamed: 0,hotel_id,room_id,hotel_name,city_name,accommodation_type,room_name,room_surface_in_m2,room_facilities
0,0,10966441,1096644102,Apto belo e com churrasqueira na varanda VIC0203,Florianópolis,apartment,Apartamento,96.0,"['Taças de vinho', 'Secadora de roupas', 'Guar..."
1,1,10966258,1096625802,Chalés encantadores em Urubici/SC - PAR,Urubici,apartment,Bangalô,65.0,"['Banheiro privativo', 'Geladeira', 'TV', 'Sec..."
2,2,10966118,1096611801,Casa em lindo cond. a 5min da praia PEV105,Ubatuba,holiday_home,Casa de 3 Quartos,220.0,"['Taças de vinho', 'Cozinha', 'Vaso sanitário'..."
3,3,10961514,1096151402,Studio a 2min da UFSC Floripa-SC SSG0304,Florianópolis,apartment,Apartamento,51.0,"['Toalhas', 'Sofá-cama', 'Fogão', 'Chuveiro', ..."
4,4,10960702,1096070202,MGI - Apartamentos proximos da praia do Tororão,Arraial d'Ajuda,apartment,Villa Deluxe,130.0,"['Guarda-roupa ou armário', 'Área para refeiçõ..."


In [228]:
# retorna as 5 primeiras linhas do dataset
ratings.head()

Unnamed: 0.1,Unnamed: 0,hotel_id,hotel_name,url,Comodidades,Limpeza,Conforto,Custo-benefício,Localização,Total,WiFi gratuito,number_of_ratings
0,2,10966118,Casa em lindo cond. a 5min da praia PEV105,https://www.booking.com/hotel/br/casa-em-lindo...,,,,,,,,0
1,5,10959776,Apartamentos no Jardim Goiás Goiânia/GO - THO,https://www.booking.com/hotel/br/apartamentos-...,,,,,,,,0
2,6,10949139,Casa triplex em condomínio Floripa-SC ALI024,https://www.booking.com/hotel/br/casa-triplex-...,,,,,,,,0
3,9,10948439,Apto com piscina no centro de Floripa PCE0406,https://www.booking.com/hotel/br/apto-com-pisc...,,,,,,,,0
4,10,10943450,Apto espaçoso na beira do lago em Ilhéus ARS0169,https://www.booking.com/hotel/br/apto-espacoso...,,,,,,,,0


In [229]:
# retorna o número de linhas e colunas
details_shp = details.shape
ratings_shp = ratings.shape

In [230]:
# quero saber se são valores unicos o hotel_id de cada dataset
details_uniq_id = details['hotel_id'].is_unique
ratings_uniq_id = ratings['hotel_id'].is_unique

In [231]:
# Imprimir os resultados
print("Detalhes do Dataset details:")
print("Número de linhas, colunas:", details_shp)
print("Mostra se são valores únicos  (hotel_id):", details_uniq_id)

print("\nDetalhes do Dataset ratings:")
print("Número de linhas, colunas:", ratings_shp)
print("Mostra se são valores únicos (hotel_id):", ratings_uniq_id)

Detalhes do Dataset details:
Número de linhas, colunas: (1317, 9)
Mostra se são valores únicos  (hotel_id): False

Detalhes do Dataset ratings:
Número de linhas, colunas: (713, 12)
Mostra se são valores únicos (hotel_id): True


In [232]:
# Realizando o merge pelo 'hotel_id',  nesse caso, garante que todas as informações dos hotéis sejam mantidas
data = pd.merge(details, ratings, on='hotel_id', how='left', suffixes=('_details', '_ratings'))

In [233]:
# Salvando o dataset resultante
data.to_csv('dataset_merge.csv', index=False)

In [234]:
data.head()

Unnamed: 0,Unnamed: 0_details,hotel_id,room_id,hotel_name_details,city_name,accommodation_type,room_name,room_surface_in_m2,room_facilities,Unnamed: 0_ratings,hotel_name_ratings,url,Comodidades,Limpeza,Conforto,Custo-benefício,Localização,Total,WiFi gratuito,number_of_ratings
0,0,10966441,1096644102,Apto belo e com churrasqueira na varanda VIC0203,Florianópolis,apartment,Apartamento,96.0,"['Taças de vinho', 'Secadora de roupas', 'Guar...",,,,,,,,,,,
1,1,10966258,1096625802,Chalés encantadores em Urubici/SC - PAR,Urubici,apartment,Bangalô,65.0,"['Banheiro privativo', 'Geladeira', 'TV', 'Sec...",,,,,,,,,,,
2,2,10966118,1096611801,Casa em lindo cond. a 5min da praia PEV105,Ubatuba,holiday_home,Casa de 3 Quartos,220.0,"['Taças de vinho', 'Cozinha', 'Vaso sanitário'...",2.0,Casa em lindo cond. a 5min da praia PEV105,https://www.booking.com/hotel/br/casa-em-lindo...,,,,,,,,0.0
3,3,10961514,1096151402,Studio a 2min da UFSC Floripa-SC SSG0304,Florianópolis,apartment,Apartamento,51.0,"['Toalhas', 'Sofá-cama', 'Fogão', 'Chuveiro', ...",,,,,,,,,,,
4,4,10960702,1096070202,MGI - Apartamentos proximos da praia do Tororão,Arraial d'Ajuda,apartment,Villa Deluxe,130.0,"['Guarda-roupa ou armário', 'Área para refeiçõ...",,,,,,,,,,,


In [235]:
# Abrindo o dataset com merge
data = pd.read_csv('dataset_merge.csv', encoding="utf-8", sep = ',')

In [236]:
data.head()

Unnamed: 0,Unnamed: 0_details,hotel_id,room_id,hotel_name_details,city_name,accommodation_type,room_name,room_surface_in_m2,room_facilities,Unnamed: 0_ratings,hotel_name_ratings,url,Comodidades,Limpeza,Conforto,Custo-benefício,Localização,Total,WiFi gratuito,number_of_ratings
0,0,10966441,1096644102,Apto belo e com churrasqueira na varanda VIC0203,Florianópolis,apartment,Apartamento,96.0,"['Taças de vinho', 'Secadora de roupas', 'Guar...",,,,,,,,,,,
1,1,10966258,1096625802,Chalés encantadores em Urubici/SC - PAR,Urubici,apartment,Bangalô,65.0,"['Banheiro privativo', 'Geladeira', 'TV', 'Sec...",,,,,,,,,,,
2,2,10966118,1096611801,Casa em lindo cond. a 5min da praia PEV105,Ubatuba,holiday_home,Casa de 3 Quartos,220.0,"['Taças de vinho', 'Cozinha', 'Vaso sanitário'...",2.0,Casa em lindo cond. a 5min da praia PEV105,https://www.booking.com/hotel/br/casa-em-lindo...,,,,,,,,0.0
3,3,10961514,1096151402,Studio a 2min da UFSC Floripa-SC SSG0304,Florianópolis,apartment,Apartamento,51.0,"['Toalhas', 'Sofá-cama', 'Fogão', 'Chuveiro', ...",,,,,,,,,,,
4,4,10960702,1096070202,MGI - Apartamentos proximos da praia do Tororão,Arraial d'Ajuda,apartment,Villa Deluxe,130.0,"['Guarda-roupa ou armário', 'Área para refeiçõ...",,,,,,,,,,,


In [237]:
data_shp = data.shape
# Imprimir os resultados
print("Detalhes do Dataset data:")
print("Número de linhas, colunas:", data_shp)

Detalhes do Dataset data:
Número de linhas, colunas: (1317, 20)


In [238]:
# Listando nome das colunas
data.columns

Index(['Unnamed: 0_details', 'hotel_id', 'room_id', 'hotel_name_details',
       'city_name', 'accommodation_type', 'room_name', 'room_surface_in_m2',
       'room_facilities', 'Unnamed: 0_ratings', 'hotel_name_ratings', 'url',
       'Comodidades', 'Limpeza', 'Conforto', 'Custo-benefício', 'Localização',
       'Total', 'WiFi gratuito', 'number_of_ratings'],
      dtype='object')

In [239]:
# Renomeando as Colunas
data.rename(columns={'Unnamed: 0_details': 'ordem', 'Unnamed: 0_ratings':'ratings'}, inplace=True)
# Renomeando as colunas para letras minúsculas e substituindo espaços por underscore
data.columns = [col.lower().replace(' ', '_').replace('-', '_') for col in data.columns]

# Exibindo as novas colunas
print(data.columns)

Index(['ordem', 'hotel_id', 'room_id', 'hotel_name_details', 'city_name',
       'accommodation_type', 'room_name', 'room_surface_in_m2',
       'room_facilities', 'ratings', 'hotel_name_ratings', 'url',
       'comodidades', 'limpeza', 'conforto', 'custo_benefício', 'localização',
       'total', 'wifi_gratuito', 'number_of_ratings'],
      dtype='object')


### Pergunta: 1 - Ordene as cidades em ordem crescente de número de listings;

In [240]:
cidade_ord_cresc_list = data['city_name'].value_counts().sort_values()
cidade_ordem = cidade_ord_cresc_list.reset_index()
cidade_ordem.columns = ['Cidade', 'Número de Listings']
print(cidade_ordem)

                 Cidade  Número de Listings
0              São José                   1
1              Camboriú                   1
2              Bertioga                   1
3            Meia Praia                   1
4           Pirenópolis                   1
5         Águas Brancas                   1
6            Taguatinga                   1
7          Caldas Novas                   1
8         Praia do Rosa                   1
9              Trancoso                   2
10               Maceió                   2
11         Águas Claras                   2
12           Petrópolis                   3
13       Angra dos Reis                   3
14              Urubici                   3
15               Ilhéus                   4
16          Hidrolândia                   4
17  Santa Cruz Cabrália                   4
18               Búzios                   5
19             Garopaba                   6
20      Poços de Caldas                   8
21             Brasília         

## 3.2 - Análise Estatística Básica
### Aqui, vamos ver algumas estatísticas. Média, mediana, essas coisas.


In [241]:
#data.describe()

## 3.3 - Análise Visual
### Vamos proceder com a criação de alguns gráficos para obter uma visão geral.

# 4 - Limpeza e Preparação dos Dados
### Vamos remover dados ruins, preencher valores faltantes, etc.

# 5 - Modelagem de Dados

# 6 - Conclusão