In [None]:
import pandas
import os
import matplotlib.pyplot as plt
import seaborn as sns

data_directory = '../../Data/Raw/airbnb/'
output_directory='../../Data/Processed/airbnb/'

# Load Data 

In [None]:
#Colocando o caminho do arquivo csv em uma variável.
airbnb_file = data_directory + '/airbnb_queens_2019.csv'

#Importando o arquivo csv para um DataFrame.
df_airbnb = pandas.read_csv(airbnb_file)

#Retirando as colunas desnecessárias para a análise. (neighbourhood_group)
#Axis = 1 representa coluna e inplace é para retirar do datafreme original.
df_airbnb.drop(['name','id','host_name','last_review','neighbourhood_group'], axis = 1, inplace = True)


#Printando o shape do DF
print('Airbnb: ', df_airbnb.shape)

In [None]:
#Verificando quantos registros nulos existem em cada coluna.
print(df_airbnb.isna().sum())

# AIRBNB

In [None]:
df_airbnb.dtypes

# Fill NaN Values 

In [None]:
#Colocando em um dicionário as colunas que estavam com valor NaN e setando 0 para elas.
nan_rule = {'reviews_per_month': 0,}

#Percorrendo os dicionário e mudando os valores nulos das colunas por zero do DataFrame.
for cname, rule in nan_rule.items():
    df_airbnb.loc[:, cname] = df_airbnb[cname].fillna(rule)\
    
print(df_airbnb.shape)

In [None]:
df_airbnb.describe()

# Numeric Variables 

In [None]:
num_variables = ['latitude', 'longitude', 'price','minimum_nights','number_of_reviews','reviews_per_month',
                 'calculated_host_listings_count','availability_365']

for cname in num_variables:
    df_airbnb[cname] = df_airbnb[cname].astype(float, errors='ignore').fillna(0)

# Categorical Variables 

In [None]:
cat_variables = ['neighbourhood','room_type']

for cname in cat_variables:
    df_airbnb[cname] = df_airbnb[cname].astype(str)

# Prepared Data 

## Features 

In [None]:
df_airbnb.head()

# Export Data

In [None]:
help(os.makedirs)

In [None]:
os.makedirs(output_directory, exist_ok=True)

airbnb_file = output_directory + '/airbnb.parquet'

# read features
df_airbnb.to_parquet(airbnb_file)