## Carregando Dados e Bibliotecas necessárias.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../raw/airbnb-dataset.csv', low_memory=False)
print("Dataset carregado com sucesso!")
df.head()

Dataset carregado com sucesso!


Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,...,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,...,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,...,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,...,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,...,$74,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,...,$41,10.0,9.0,11/19/2018,0.1,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",


# Tratamento dos Dados.

## Padronização dos Nomes das Colunas.

In [2]:
df.rename(
    columns={col: col.lower().replace(' ', '_') for col in df.columns},
    inplace=True
)
print(df.columns)

Index(['id', 'name', 'host_id', 'host_identity_verified', 'host_name',
       'neighbourhood_group', 'neighbourhood', 'lat', 'long', 'country',
       'country_code', 'instant_bookable', 'cancellation_policy', 'room_type',
       'construction_year', 'price', 'service_fee', 'minimum_nights',
       'number_of_reviews', 'last_review', 'reviews_per_month',
       'review_rate_number', 'calculated_host_listings_count',
       'availability_365', 'house_rules', 'license'],
      dtype='object')


## Remoção de Colunas Desnecessárias

Como quase todas as tuplas de **license** estavam como nulas, optamos por não trabalhar com essa coluna. Além disso, optamos por remover as colunas de **Country** e **Country_code** visto que sabemos que todas se enquadram no Estados Unidos e possuem o códido do país como "US".

In [3]:
cols_to_drop = ['country', 'country_code', 'license']
df.drop(columns=cols_to_drop, inplace=True)

for col in cols_to_drop:
    if col not in df.columns:
        print(f"Coluna {col} deletada!")

print("Colunas: ")
print(df.columns)

Coluna country deletada!
Coluna country_code deletada!
Coluna license deletada!
Colunas: 
Index(['id', 'name', 'host_id', 'host_identity_verified', 'host_name',
       'neighbourhood_group', 'neighbourhood', 'lat', 'long',
       'instant_bookable', 'cancellation_policy', 'room_type',
       'construction_year', 'price', 'service_fee', 'minimum_nights',
       'number_of_reviews', 'last_review', 'reviews_per_month',
       'review_rate_number', 'calculated_host_listings_count',
       'availability_365', 'house_rules'],
      dtype='object')


## Correções dos Tipos de Dados.

1) **price** e **service_fee** possuem o caracter especial "$" e estão como String. Com isso, iremos altera-las para o tipo númerico (Float)

In [4]:
money_columns = ['price', 'service_fee']

print("Tipos de dados antes da correção:")
print(df[money_columns].dtypes)

for col in money_columns:
    df[col] = df[col].str.replace('$', '', regex=False).str.replace(',', '', regex=False).str.strip().astype(float)

print("Tipos de dados corrigidos:")
print(df[money_columns].dtypes)

Tipos de dados antes da correção:
price          object
service_fee    object
dtype: object
Tipos de dados corrigidos:
price          float64
service_fee    float64
dtype: object


2) **construction_year**: Não faria sentido estar sendo guardado em Float já que era o ano de construção. Ou seja, nunca viria um número decimal.

In [5]:
print(f"Tipo de dado da chave construction_year antes da correção: {df['construction_year'].dtype}")

df['construction_year'] = df['construction_year'].astype('Int64')

print(f"Tipo de dado da chave construction_year após a correção: {df['construction_year'].dtype}")

Tipo de dado da chave construction_year antes da correção: float64
Tipo de dado da chave construction_year após a correção: Int64


3) **host_identity_verified**: A coluna host_identity_verified pode ser transformada em booleano (True/False), o que é mais eficiente e semanticamente correto.

In [6]:
df['host_identity_verified'] = df['host_identity_verified'].astype(str).str.lower().str.strip()

to_replace = {
    'verified': True,
    'unconfirmed': False
}

df['host_identity_verified'] = df['host_identity_verified'].replace(to_replace).astype(bool)


print("Tipo de dado da coluna APÓS o tratamento:")
print(df['host_identity_verified'].dtype)
print("\nValores únicos na coluna APÓS o tratamento:")
print(df['host_identity_verified'].unique())
print("\nContagem de valores na coluna APÓS o tratamento:")
print(df['host_identity_verified'].value_counts(dropna=False))

Tipo de dado da coluna APÓS o tratamento:
bool

Valores únicos na coluna APÓS o tratamento:
[False  True]

Contagem de valores na coluna APÓS o tratamento:
host_identity_verified
True     51399
False    51200
Name: count, dtype: int64


## Correção de Inconsistência nos Dados.

### Correção nos erros de digitação no nome dos bairros que apresentavam "brookln" e "manhatan"

In [7]:

df['neighbourhood_group'] = df['neighbourhood_group'].replace({
    'brookln': 'Brooklyn',
    'manhatan': 'Manhattan'
})


print(df['neighbourhood_group'].unique())

['Brooklyn' 'Manhattan' 'Queens' nan 'Staten Island' 'Bronx']


### Tratamento de Valores Ausentes.


1) Remoção de Anúncios sem preço.

In [8]:

df.dropna(subset=['price', 'service_fee'], inplace=True)

print(f"Valores nulos em 'price' após remoção: {df['price'].isnull().sum()}")

Valores nulos em 'price' após remoção: 0


2) Criação de Coluna booleana para house_rules: Como metade dos valores é nulo, iremos criar uma nova coluna para indicar se essa "casa" possui ou não regras definidas.

In [9]:

df['has_house_rules'] = df['house_rules'].notna()

# Podemos agora remover a coluna original se o conteúdo de texto não for usado
# df_silver.drop(columns=['house_rules'], inplace=True)


print(df['has_house_rules'].value_counts())

has_house_rules
False    51853
True     50260
Name: count, dtype: int64


3) Preenchimento dos poucos anúncios sem nome (ou sem nome de host) com "Sem nome informado"

In [10]:
for col in ['name', 'host_name']:
    df[col] = df[col].fillna('Sem nome informado')

4) Remoção dos demais **nans**

In [11]:
nans_to_drop = [
    'neighbourhood', 
    'neighbourhood_group', 
    'lat', 
    'long',
    'host_identity_verified',
    'room_type',
    'minimum_nights',
]

df.dropna(subset=nans_to_drop, inplace=True)

## Tratamentos de Valores invalidados.

Foi identificado alguns valores negativos na coluna **availability_365** que não fazem sentido com o escopo.

In [12]:
df = df[df['availability_365'] >= 0]
print(df['availability_365'].min())

0.0


## Dicionario - Silver

In [13]:
print("--- Amostra Aleatória de 20 Linhas do DataFrame 'df_silver' ---")

# O .sample(20) pega 20 linhas aleatórias do DataFrame.
# O .reset_index(drop=True) é para a visualização ficar mais limpa, sem o índice antigo.
display(df.sample(20).reset_index(drop=True))


print("\n\n--- Resumo das Informações (Info) ---")
df.info()

--- Amostra Aleatória de 20 Linhas do DataFrame 'df_silver' ---


Unnamed: 0,id,name,host_id,host_identity_verified,host_name,neighbourhood_group,neighbourhood,lat,long,instant_bookable,...,service_fee,minimum_nights,number_of_reviews,last_review,reviews_per_month,review_rate_number,calculated_host_listings_count,availability_365,house_rules,has_house_rules
0,48437278,Gorgeous- 2 Bedroom Apartment,50079216921,False,AFI Apartments,Manhattan,Upper East Side,40.77219,-73.95588,True,...,43.0,30.0,2.0,9/30/2018,0.15,5.0,29.0,4.0,"This is our primary residence, so please treat...",True
1,26857261,Cute Attic RM with Backyard/Patio/Near Metro,69322281208,False,Armando,Bronx,Fordham,40.87066,-73.89317,False,...,148.0,3.0,0.0,,,2.0,10.0,89.0,Please review the terms of this rental agreeme...,True
2,3557380,Elegant 1876 Boerum Hill Brownstone,88245045000,False,Patti,Brooklyn,Boerum Hill,40.68554,-73.98471,False,...,180.0,2.0,10.0,9/7/2016,0.18,1.0,1.0,162.0,This is a residential property and quiet is ma...,True
3,25877480,Bushwick penthouse,67511026067,True,Horacio,Brooklyn,Bushwick,40.70191,-73.91952,False,...,190.0,1.0,12.0,7/4/2019,5.9,5.0,1.0,27.0,,False
4,24970604,Sonder | Stock Exchange | Cozy 1BR + Laundry,24939312372,False,Sonder (NYC),Manhattan,Financial District,40.7071,-74.01194,False,...,10.0,2.0,6.0,6/20/2019,2.28,4.0,327.0,327.0,,False
5,55381346,Cozy cove,31261202838,False,John,Brooklyn,East New York,40.66265,-73.88735,False,...,113.0,3.0,10.0,6/10/2019,1.04,5.0,13.0,90.0,-Leave the apartment as you found it. -Quiet ...,True
6,45758071,Rainbow Guesthouse,62424019734,False,Igor,Brooklyn,Midwood,40.61359,-73.95983,True,...,76.0,1.0,8.0,6/30/2019,0.32,1.0,4.0,21.0,,False
7,19418332,"Gorgeous One-Bed in Williamsburg, BK",10293562829,True,Janie,Brooklyn,Williamsburg,40.71239,-73.96775,True,...,170.0,10.0,1.0,8/8/2018,0.09,5.0,1.0,0.0,Keep the place in the same condition as upon a...,True
8,6006279,"Brooklyn's heart,\n Ft Greene! 1day free bicycle",67268196940,False,Gabriel,Brooklyn,Fort Greene,40.68503,-73.9742,True,...,142.0,1.0,70.0,6/30/2019,1.43,5.0,1.0,303.0,"No parties, no outside visitors and no overnig...",True
9,45001972,Beautiful apt with view of GW Bridge and river,23531226118,True,Horatio,Manhattan,Washington Heights,40.84955,-73.94167,False,...,157.0,1.0,6.0,5/31/2018,0.22,1.0,1.0,0.0,"“House Rules"" Checkout is by 11am. At leas...",True




--- Resumo das Informações (Info) ---
<class 'pandas.core.frame.DataFrame'>
Index: 100817 entries, 0 to 102598
Data columns (total 24 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              100817 non-null  int64  
 1   name                            100817 non-null  object 
 2   host_id                         100817 non-null  int64  
 3   host_identity_verified          100817 non-null  bool   
 4   host_name                       100817 non-null  object 
 5   neighbourhood_group             100817 non-null  object 
 6   neighbourhood                   100817 non-null  object 
 7   lat                             100817 non-null  float64
 8   long                            100817 non-null  float64
 9   instant_bookable                100739 non-null  object 
 10  cancellation_policy             100756 non-null  object 
 11  room_type                       100817 non-

## Salvando Dataset

In [14]:

df.to_csv('airbnb-dataset-silver.csv', index=False)

print("Dataset da camada Silver salvo com sucesso!")

Dataset da camada Silver salvo com sucesso!
