In [None]:
import glob
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import r2_score, mean_squared_error, accuracy_score, recall_score, f1_score, confusion_matrix, \
    precision_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor

In [None]:
path = './dados/dados_airbnb'
all_files = glob.glob(path + "/*.csv")
testes = []
treinamento = []
datasets = []
for filename in all_files:
    df = pd.read_csv(filename)
    df['room_type'] = [1 if i == 'Private room' else 0.5 if i == 'Entire home/apt' else 0 for i in df['room_type']]
    df['is_weekend'] = ['weekends' in filename] * len(df)
    df['city'] = filename.split('/')[-1].split('\\')[-1].split('_')[0].upper()
    tr, te = train_test_split(df)

    treinamento.append(tr)
    testes.append(te)

    datasets.append(df)


In [None]:
# explorando os dados verificamos que existe uma corelação entre a limpeza do local e se o host é super host. quanto mais limpo, maior a nota, superhost (grande parte das vezes) significa uma média maior de nota
index = 16
plt.scatter(datasets[index]['realSum'], datasets[index]['guest_satisfaction_overall'])
plt.title(datasets[index]['city'][0] + ' ' + str(datasets[4]['is_weekend'][0]))

In [None]:
todos_treinamento = pd.concat(treinamento, ignore_index=True)
todos = pd.concat(datasets, ignore_index=True)
todos_testes = pd.concat(testes, ignore_index=True)

In [None]:
def separar(dados, y_col = ['guest_satisfaction_overall'], n_x_col = ['city', 'Unnamed: 0', 'attr_index', 'attr_index_norm', 'rest_index', 'rest_index_norm',]):

   x_col = [col for col in dados if col not in y_col and col not in n_x_col]
   x = []
   y = []
   for i in range(len(dados)):
       x.append([dados[c][i] for c in x_col])
       y.append([dados[c][i] for c in y_col])
   return x,y

In [None]:
def testar(modelo, x):
    predito = []
    for i in range(len(x)):
        p = modelo.predict([x[i]])
        predito.append(p)
    return predito
def resultados_numericos(lista):
    try:
        if len(lista) > 1:
            return [resultados_numericos(i) for i in lista]
        return resultados_numericos(lista[0])
    except TypeError:
        return lista
def estrelas(sats):
    return [(i/20).__ceil__() for i in sats ]

In [None]:
x_treinamento, y_treinamento = separar(todos_treinamento)
x_testes, y_testes = separar(todos_testes)

In [65]:
m = LinearRegression()
m.fit(x_treinamento, y_treinamento)

In [66]:
y_predito = testar(m, x_testes)
preditos = resultados_numericos(y_predito)
testes_corretos = resultados_numericos(y_testes)

In [67]:
r2_r = r2_score(testes_corretos, preditos)
menan_r = mean_squared_error(testes_corretos, preditos, squared=False)
print("LinearRegression")
print("r2 =", r2_r, "\nmenan =", menan_r)

LinearRegression
r2 = 0.5232923327413813 
menan = 6.049383361287197


In [77]:
m = (KNeighborsClassifier())
m.fit(x_treinamento, np.array(y_treinamento).ravel())

In [78]:
y_predito = testar(m, x_testes)
preditos = resultados_numericos(y_predito)
testes_corretos = resultados_numericos(y_testes)
estrelas_preditas = estrelas(preditos)
estrelas_corretas = estrelas(testes_corretos)

In [79]:
print('\nKNeighborsClassifier')
ac_k = accuracy_score(estrelas_corretas, estrelas_preditas)
print("Accuracy score =", ac_k)


KNeighborsClassifier
Accuracy score = 0.8544920364929642


In [75]:
m = (KNeighborsRegressor())
m.fit(x_treinamento, np.array(y_treinamento).ravel())

In [76]:
y_predito = testar(m, x_testes)
preditos = resultados_numericos(y_predito)
testes_corretos = resultados_numericos(y_testes)

In [70]:
r2_r = r2_score(testes_corretos, preditos)
menan_r = mean_squared_error(testes_corretos, preditos, squared=False)
print("KNeighborsRegressor")
print("r2 =", r2_r, "\nmenan =", menan_r)

KNeighborsRegressor
r2 = 0.3533466727010717 
menan = 7.04564564979997


In [81]:
m = (RandomForestClassifier())
m.fit(x_treinamento, np.array(y_treinamento).ravel())

In [84]:
y_predito = testar(m, x_testes)
preditos = resultados_numericos(y_predito)
testes_corretos = resultados_numericos(y_testes)
estrelas_preditas = estrelas(preditos)
estrelas_corretas = estrelas(testes_corretos)

In [85]:
print('\nRandomForestClassifier')
ac_k = accuracy_score(estrelas_corretas, estrelas_preditas)
print("Accuracy score =", ac_k)


RandomForestClassifier
Accuracy score = 0.9459563940003093


In [71]:
m = (RandomForestRegressor())
m.fit(x_treinamento, np.array(y_treinamento).ravel())

In [72]:
y_predito = testar(m, x_testes)
preditos = resultados_numericos(y_predito)
testes_corretos = resultados_numericos(y_testes)

In [73]:
print("\nRandomForestRegressor")
r2_rr = r2_score(testes_corretos, preditos)
menan_rr = mean_squared_error(testes_corretos, preditos, squared=False)
print(r2_rr, menan_rr)


RandomForestRegressor
0.7241975200640398 4.601337851954974
