# Trabalho prático de EDA

O presente trabalho é atividade constituinte do treinamento de Introdução à Ciência de Dados e consiste em uma análise exploratória de dados (do inglês Exploratory Data Analisys - EDA) com o seguinte enunciado:


- Escolher uma das cidades e realizar análise exploratória de dados do AirBnb (http://insideairbnb.com/get-the-data.html)
- Usar os conjuntos de dados completos para a análise: Listings.csv.gz, calendar.csv.gz, reviews.csv.gz
- Não há um objetivo de aprendizado supervisionado
- Exercitar os diversos métodos de visualização apresentados nessa aula
- Revisão em pares: cada participante vai revisar o trabalho de ao menos dois outros colegas
- Utilizar a plataforma Kaggle
- Pesquisar sintaxe no Stackoverflow / Google :-)

Foi selecionada a cidade de Toronto para a análise em referência.

# Importação de bibliotecas e listagem de arquivos anexos

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import folium
from folium import plugins

# Input data files are available in the read-only "../input/" directory
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

## Importação de dados

In [None]:
# Leitura de tabelas para dataframes homônimos
df_listings = pd.read_csv("../input/airbnbtoronto/listings.csv")
df_calendar = pd.read_csv("../input/airbnbtoronto/calendar.csv")
df_reviews = pd.read_csv("../input/airbnbtoronto/reviews.csv")

# Análise exploratória de dados


Segue dicionário dos dados traduzido do contido na [Planilha do Google docs](https://docs.google.com/spreadsheets/d/1iWCNJcSutYqpULSQHlNyGInUvHg2BoUGoNRIGa6Szc4/edit?usp=sharing) referenciada na página [Inside Airbnb](http://insideairbnb.com/get-the-data.html), de onde os dados foram obtidos. Vale ressaltar que essa fonte de dados contém apenas o dicionário para a tabela "listings", os demais dados foram derivados desta e de conclusões tiradas a partir dos dados.

## Listings
A tabela "listings" contêm uma relação de imóveis com informações sobre estes reunidas em 74 colunas.


|	Coluna	|	Formato	|	Descrição	|
| --------- | --------- | ------------- |
|	id	|	Inteiro	|	Código identificador do imóvel	|
|	listing_url	|	Texto	|	Atalho para página do imóvel	|
|	scrape_id	|	Inteiro	|	Código interno do Airbnb para de qual "Scrape" esse registro faz parte	|
|	last_scraped	|	Data/hora	|	Data e hora (UTC) em que esse registro foi "scraped"	|
|	name	|	Texto	|	Nome do imóvel	|
|	description	|	Texto	|	Descrição detalhada do imóvel	|
|	neighborhood_overview	|	Texto	|	Descrição do bairro pelo senhorio	|
|	picture_url	|	Texto	|	Atalho (URL) de foto de tamanho regular do imóvel	|
|	host_id	|	Inteiro	|	Código do Airbnb para identificação do senhorio/usuário	|
|	host_url	|	Texto	|	Página do senhorio no Airbnb	|
|	host_name	|	Texto	|	Nome do senhorio (normalmente apenas o primeiro nome)	|
|	host_since	|	Data	|	Data em que o perfil do senhorio/usuário/convidado foi criado	|
|	host_location	|	Texto	|	Residência informada pelo senhorio	|
|	host_about	|	Texto	|	Descrição do senhorio	|
|	host_response_time	|		|	Tempo de resposta do senhorio	|
|	host_response_rate	|		|	Taixa de resposta do senhorio	|
|	host_acceptance_rate	|		|	Taixa de aceitação de reservas do senhorio	|
|	host_is_superhost	|	Booleano	|	Anfitrião é "superhost" (t=true; f=false)	|
|	host_thumbnail_url	|	Texto	|	Atalho da miniatura da foto do senhorio	|
|	host_picture_url	|	Texto	|	Atalho da foto do senhorio	|
|	host_neighbourhood	|	Texto	|	Bairro do senhorio	|
|	host_listings_count	|	Texto	|	Número de imóveis que o senhorio possui	|
|	host_total_listings_count	|	Texto	|	Número de imóveis que o senhorio possui	|
|	host_verifications	|		|	Verificações do senhorio	|
|	host_has_profile_pic	|	Booleano	|	Senhorio possui foto de perfil (t=true; f=false)	|
|	host_identity_verified	|	Booleano	|	Identidade do senhorio verificada (t=true; f=false)	|
|	neighbourhood	|	Texto	|	Bairro do imóvel	|
|	neighbourhood_cleansed	|	Texto	|	Bairro do imóvel - Limpo	|
|	neighbourhood_group_cleansed	|	Texto	|	Bairro do imóvel - Agrupado e limpo	|
|	latitude	|	Número real	|	Latitude (WGS84)	|
|	longitude	|	Número real	|	Longitude (WGS84)	|
|	property_type	|	Texto	|	Tipo de propriedade conforme senhorio	|
|	room_type	|	Texto	|	Tipo de imóvel: Entire home/apt/Private room/Shared room/Hotel	|
|	accommodates	|	Inteiro	|	Capacidade máxima do imóvel	|
|	bathrooms	|	Inteiro	|	Números de banheiros do imóvel	|
|	bathrooms_text	|	Texto	|	Números de banheiros do imóvel em texto (formato atual do site)	|
|	bedrooms	|	Inteiro	|	Número de quartos	|
|	beds	|	Inteiro	|	Número de camas	|
|	amenities	|	JSON	|	Facilidades	|
|	price	|	Número real	|	Preço da diária em moeda local	|
|	minimum_nights	|	Inteiro	|	Número mínimo de diárias	|
|	maximum_nights	|	Inteiro	|	Número máximo de diárias	|
|	minimum_minimum_nights	|	Inteiro	|	Menor diária mínima (horizonte de 1 ano)	|
|	maximum_minimum_nights	|	Inteiro	|	Maior diária mínima (horizonte de 1 ano)	|
|	minimum_maximum_nights	|	Inteiro	|	Menor diária máxima (horizonte de 1 ano)	|
|	maximum_maximum_nights	|	Inteiro	|	Maior diária máxima (horizonte de 1 ano)	|
|	minimum_nights_avg_ntm	|	Número real	|	Média da diária mínima (horizonte de 1 ano)	|
|	maximum_nights_avg_ntm	|	Número real	|	Média da diária máxima (horizonte de 1 ano)	|
|	calendar_updated	|	Data	|	Atualização do calendário (todas as linhas nulas para Toronto)	|
|	has_availability	|	Booleano	|	Está disponível (t=true; f=false)	|
|	availability_30	|	Inteiro	|	Avaliabilidade do imóvel no horizonte de 30 dias	|
|	availability_60	|	Inteiro	|	Avaliabilidade do imóvel no horizonte de 60 dias	|
|	availability_90	|	Inteiro	|	Avaliabilidade do imóvel no horizonte de 90 dias	|
|	availability_365	|	Inteiro	|	Avaliabilidade do imóvel no horizonte de 1 ano	|
|	calendar_last_scraped	|	Data	|	Data de atualização do calendário	|
|	number_of_reviews	|	Inteiro	|	Número de avaliações do imóvel	|
|	number_of_reviews_ltm	|	Inteiro	|	Número de avaliações no horizonte de 1 ano	|
|	number_of_reviews_l30d	|	Inteiro	|	Número de avaliações no horizonte de 30 dias	|
|	first_review	|	Data	|	Data da avaliação mais antiga	|
|	last_review	|	Data	|	Data da avaliação mais nova	|
|	review_scores_rating	|	Número real	|		|
|	review_scores_accuracy	|	Número real	|		|
|	review_scores_cleanliness	|	Número real	|		|
|	review_scores_checkin	|	Número real	|		|
|	review_scores_communication	|	Número real	|		|
|	review_scores_location	|	Número real	|		|
|	review_scores_value	|	Número real	|		|
|	license	|	Texto	|	Número de registro da licença	|
|	instant_bookable	|	Booleano	|	Pode agendar sem prévia autorização do senhorio (t=true; f=false)	|
|	calculated_host_listings_count	|	Inteiro	|	Número de imóveis que o senhorio possui no levantamento atual	|
|	calculated_host_listings_count_entire_homes	|	Inteiro	|	Número de casas inteiras que o senhorio possui no levantamento atual	|
|	calculated_host_listings_count_private_rooms	|	Inteiro	|	Número de quartos privados que o senhorio possui no levantamento atual	|
|	calculated_host_listings_count_shared_rooms	|	Inteiro	|	Número de quartos compartilhados que o senhorio possui no levantamento atual	|
|	reviews_per_month	|	Inteiro	|	Número de avaliações que o imóvel tem	|

Um fato relevante citado na origem dos dados [Inside Airbnb](http://insideairbnb.com/about.html#disclaimers) é de que as localizações são anonimizadas, ou seja, o imóvel está na realidade localizado dentro do raio de 150 m da posição indicada na tabela.


## Visualização de dados em imagens de satélite
Com base nos dados, serão levantadas as coordenadas dos imóveis para visualização.

In [None]:
# Localizando a cidade (latitude)
df_listings["latitude"].plot(kind = "hist")

In [None]:
# Localizando a cidade (longitude)
df_listings["longitude"].plot(kind = "hist")

Com base na latitude e longitude observadas nos histogramas foi utilizada a biblioteca folium para gerar o mapa da cidade de Toronto, sobre o qual serão exibidos os dados dos imóveis.
Vale ressaltar que os mapas gerados por esta biblioteca são interativos. Ao contrário de uma imagem estática, é possível aumentar e diminuir a aproximação, assim como mover o mapa.

In [None]:
toronto_map = folium.Map(location=[43.720, -79.400], zoom_start=10)
toronto_map

Sobre o mapa gerado, serão exibidas as localizações dos imóveis disponíveis na cidade de Toronto e, ao clicar sobre um imóvel, é exibido o atalho da página de cada imóvel.

In [None]:
toronto_map = folium.Map(location=[43.720, -79.400], zoom_start=10)

# Inserir marcadores com imóveis no mapa
for lat, lng, label in zip( df_listings["latitude"], df_listings["longitude"], df_listings["listing_url"]):
    folium.features.CircleMarker(
        [lat, lng],
        radius = 1, # define how big you want the circle markers to be
        color = 'yellow',
        fill = True,
        popup = label,
#        fill_color='blue',
#        fill_opacity=0.6
    ).add_to(toronto_map)

toronto_map

A visualização é bastante poluída pois são cerca de 15000 pontos exibidos sobre o mapa.
A biblioteca folium disponibiliza o recurso de agrupamento em "clusters", que torna a visualização mais limpa e, com a interatividade do gráfico, permite aproximar nos clusters para visualizar grupos menores e chegar até o imóvel individual.

In [None]:
toronto_map = folium.Map(location=[43.720, -79.400], zoom_start=10)

# instantiate a mark cluster object for the incidents in the dataframe
incidents = plugins.MarkerCluster().add_to(toronto_map)

# loop through the dataframe and add each data point to the mark cluster
for lat, lng, label, in zip(df_listings["latitude"], df_listings["longitude"], df_listings["listing_url"]):
    folium.Marker(
        location=[lat, lng],
        icon=None,
        popup=label,
    ).add_to(incidents)    
    
toronto_map

A seguir será realizado tratamento dos dados de preço e sua conversão de valor do tipo texto para numérico.

In [None]:
# Remove vírgulas indicadoras de milhar da coluna "price"
df_listings["price_numeric"] = df_listings["price"].replace(to_replace = r",", value = "", regex = True)
# Remove primeiro caractere do preço ($) e depois converte para numerico
df_listings["price_numeric"] = pd.to_numeric(df_listings["price_numeric"].str.slice(start=1).replace(",",""))
# VIsualização de distribuição de frequencia dos preços
df_listings["price_numeric"].plot(kind = "hist")

Com o objetivo de mostrar a distribuição espacial dos preços, foi gerada uma visualização onde os valores mais próximos ou superiores a 300 dolares canadenses foram inclusos no gráfico nem uma tonalidade mais próxima do tom vermelho.

In [None]:
#função para converter valor do aluguel até 300 em tom de vermelho hexadecimal
def valor_para_cor(valor):
    teto = 300
    if valor < teto:
        valor_normalizado = valor/teto
    else:
        valor_normalizado = 1
    valor_hexadecimal = hex(int(valor_normalizado*255))[2:]
    string_cor = "#" + valor_hexadecimal +"0000"
    return string_cor

In [None]:
toronto_map = folium.Map(location=[43.720, -79.400], zoom_start = 10)

# Inserir marcadores com imóveis no mapa
for lat, lng, label, price in zip( df_listings["latitude"], df_listings["longitude"], df_listings["listing_url"], df_listings["price_numeric"]):
    folium.features.CircleMarker(
        [lat, lng],
        radius = 1, # define how big you want the circle markers to be
#        color = '#FF0000',
        color = valor_para_cor(price),
        fill = True,
        popup = label,
    ).add_to(toronto_map)

toronto_map

Da visualização em referência é possível observar uma tendência de aumento de preços à medida em que nos aproximamos da região central da cidade, com tons mais intensos de vermelho.
A seguir, a o detalhamento das colunas da fonte de dados. É possível observar que nem todos os formatos de dadoscorrespondem ao listado no dicionário, evidenciando que diversas colunas que se encontram com tipo "object" (que no Pandas corresponde a texto).

In [None]:
df_listings.info()

De forma a identificar variávieis correlacionadas entr e si, foi gerado um mapa de calor das correlações entre elas.

In [None]:
# Gerado dataframe com correlações entre variáveis
corr = df_listings.corr()
# Definido tamanho do gráfico
plt.figure(figsize=(10,10))
# Gera gráfico de mapa de calor com base no dataframe de correlações
sns.heatmap(corr)

Nesse gráfico é possível observar correlação maior (tons mais claros) do custo unitário da diária com número máximo de hospedes, número de quarto e número de camas. Serão exploradas as correlações dessas variáveis entre si por meio de gráficos de dispersão e a distribuição de frequencia de cada variável será exibida na diagonal principal.

In [None]:
# Seleção de colunas a serem avaliadas
colunas_selecionadas = ["accommodates",
                        "bedrooms",
                        "beds",
                        "price_numeric",
                       ]

# Função da biblioteca Seaborn para gerar gráficos de dispersão e histogramas
sns.pairplot(df_listings[colunas_selecionadas])

## Calendar
A tabela "calendar" contêm uma relação de valores por data para cada imóvel, assim como a informação de disponibilidade conforme segue:

| Coluna         | Formato     | Descrição                                                       |
| -------------- | ----------- | --------------------------------------------------------------- |
| listing_id     | Inteiro     | Código de identificação do imóvel                               |
| date           | Texto       | Data do registro                                                |
| avaliable      | Texto       | Se imóvel está disponível na data indicada t = True e f = False |
| price          | Texto       | Preço da locação diária na moeda local                          |
| adjusted_price | Texto       | Preço ajustado da locação diária na moeda local                 |
| minimum_nights | Número real | Número mínimo de noites para locação                            |
| maximum_nights | Número real | Número máximo de noites para locação                            |

É possível observar que a coluna de datas pode ser convertida para datetime e as colunas de preços e quantidades máxima e mínima de diárias podem ser convertidas para números reais. No caso dos preços, será necessário remover o símbolo "$".

In [None]:
df_calendar.info(show_counts = True)

In [None]:
# Cria nova coluna no dataframe calendario com datas no formato datetime
df_calendar["datetime"] = pd.to_datetime(df_calendar["date"])
# Cria  nova coluna com informação de més da hospedagem
df_calendar["month"] = pd.DatetimeIndex(df_calendar["datetime"]).month

In [None]:
# Remove vírgulas indicadoras de milhar da coluna "price"
df_calendar["adjusted_price_numeric"] = df_calendar["adjusted_price"].replace(to_replace = r",", value = "", regex = True)
# Remove primeiro caractere do preço ($) e depois converte para numerico
df_calendar["adjusted_price_numeric"] = pd.to_numeric(df_calendar["adjusted_price_numeric"].str.slice(start=1).replace(",",""))
# Visualiza primeiras linhas do dataframe
df_calendar.head()

De forma a avaliar a hipótese de que existem meses de alta e baixa temporada, foram gerados gráficos do tipo "boxplot "para cada mês do ano com a distribuição de preços de imóveis. Para permitir melhor visualização, os outliers não estão sendo exibidos.

In [None]:
fig, ax = plt.subplots(figsize=(12,5))
sns.boxplot(x = "month", y = "adjusted_price_numeric", data = df_calendar, ax=ax, showfliers=False)

A observação dos resultados mostra, no geral, não haver variação relevante de preços ao longo dos meses, com exceção de uma pequena diminuição no mês de novembro, observável principalmente no terceiro e no quarto quartil.

## Reviews
A tabela "reviews" contém uma relação de avaliações com:

| Coluna        | Formato | Descrição                            |
| ------------- | ------- | ------------------------------------ |
| listing_id    | Inteiro | Código de identificação do imóvel    |
| id            | Inteiro | Código de identificação da avaliação |
| date          | Texto   | Data da avaliação                    |
| reviewer_id   | Inteiro | Código identificador do avaliador    |
| reviewer_name | Texto   | Nome do avaliador                    |
| comments      | Texto   | Texto longo da avaliação             |

Aparentemente essa tabela não possui dados numéricos relevantes (como nota de uma a cinco estrelas) para visualização em gráficos. Apesar de existirem campos codificados como números, estes são identificadores que podem até serem usados para plotagem de gráficos, porém sem sentido aparente.
Vale ressaltar que a coluna de data se encontra no formato de texto e demanda a conversão para o formato datetime caso se deseje o uso como série temporal.
O campo de "comments" contém texto livre que pode ser utilizado para análise de sentimento.

In [None]:
df_reviews.info()

In [None]:
df_reviews.head()