# Proposta: Projeto Final


### Escolher uma fonte de dados
- API
- Arquivo  ✅

### Objetivos:

1. Trabalhar na qualidade dos dados
   - Utilizar `ydata_profiling` para gerar relatórios de perfil dos dados. ✅
2. Implementar as expectativas com a biblioteca Great Expectations.
3. Utilizar DBT para a transformação dos dados.
4. Criar camadas de dados - Gravando no Postgres - Bronze, Silver e Gold.
5. Trabalhar na limpeza dos dados.


In [1]:
import pandas as pd
from sqlalchemy import MetaData, create_engine
from sqlalchemy.exc import OperationalError


In [8]:
from ydata_profiling import ProfileReport

In [2]:
db_url = 'postgresql://postgres:123@localhost:5432/airbnb_listings'

# Criar uma engine de conexão.
engine = create_engine(db_url)

# Testar a conexão com o banco de dados
try:
    connection = engine.connect()
    print("Conexão bem-sucedida! \n")
except OperationalError as e:
    print("Erro ao conectar ao banco de dados, verifique os parâmetros.", e)

Conexão bem-sucedida! 



In [6]:
#Deve habilitar esta célula para que ler o arquivo local! Na minha máquina configurei via Postgres. Mas para testar o projeto sem configurar o dbt, pode usar direto pelo .csv na raiz
#df = pd.read_csv('listings.csv') 
#profile = ProfileReport(df, title="Pandas Profiling Report")
#profile.to_file("resultados-1.html")

In [3]:
#Executar a consulta SQL para criar o DataFrame a partir do banco configurado com o Seeds do Data Build Tools. Assim como orientado no escopo do projeto.
consulta_sql = "SELECT * FROM airbnb_listings;"

df = pd.read_sql_query(consulta_sql, engine)
profile = ProfileReport(df, title="Pandas Profiling Report")
profile.to_file("resultados-1.html")



## Alerts gerados pelo ProfileReport

- **latitude** está altamente correlacionada com **longitude** - Alta correlação
- **longitude** está altamente correlacionada com **latitude** - Alta correlação
- **number_of_reviews** está altamente correlacionada com **number_of_reviews_ltm** e 1 outro campo - Alta correlação
- **number_of_reviews_ltm** está altamente correlacionada com **number_of_reviews** e 1 outro campo - Alta correlação
- **reviews_per_month** está altamente correlacionada com **number_of_reviews** e 1 outro campo - Alta correlação
- **room_type** está altamente desbalanceada (58.4%) - Desbalanceada
- **neighbourhood_group** possui 36,008 (100.0%) valores faltantes - Faltantes
- **price** possui 1,771 (4.9%) valores faltantes - Faltantes
- **last_review** possui 10,302 (28.6%) valores faltantes - Faltantes
- **reviews_per_month** possui 10,302 (28.6%) valores faltantes - Faltantes
- **license** possui 36,008 (100.0%) valores faltantes - Faltantes
- **price** está altamente inclinada (γ1 = 66.96707573) - Inclinada
- **minimum_nights** está altamente inclinada (γ1 = 28.22092657) - Inclinada
- **id** possui valores únicos - Únicos
- **neighbourhood_group** é um tipo não suportado, verifique se precisa de limpeza ou análise adicional - Não suportado
- **license** é um tipo não suportado, verifique se precisa de limpeza ou análise adicional - Não suportado
- **number_of_reviews** possui 10,302 (28.6%) zeros - Zeros
- **availability_365** possui 5,475 (15.2%) zeros - Zeros
- **number_of_reviews_ltm** possui 14,214 (39.5%) zeros - Zeros

#### Tendo essa visão do nosso banco de dados, vamos trabalhar com Great Expectations e Data Build Tool para levar o banco de dados até a camada Gold.




In [4]:
#df.describe()
df.dtypes

id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group                object
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                             float64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
number_of_reviews_ltm               int64
license                            object
dtype: object

In [10]:
df_cln =  df.copy()
list_int = ['id', 'host_id', 'minimum_nights', 'number_of_reviews', 'calculated_host_listings_count', 'availability_365', 'number_of_reviews_ltm'] #colunas do tipo inteiro
for column in list_int:
    #transforma a coluna para o tipo inteiro
    df_cln[column] = df_cln[column].astype("int32")

In [12]:
df_cln.dtypes

id                                  int32
name                               object
host_id                             int32
host_name                          object
neighbourhood_group               float64
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                             float64
minimum_nights                      int32
number_of_reviews                   int32
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int32
availability_365                    int32
number_of_reviews_ltm               int32
license                           float64
dtype: object