In [172]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error
import seaborn as sns
%matplotlib inline
import datetime


In [173]:
df_calendar = pd.read_csv('seattle/calendar.csv')
df_listings = pd.read_csv('seattle/listings.csv')
df_reviews = pd.read_csv('seattle/reviews.csv')

In [174]:
columns_of_interest = ['id', 'host_since', 'host_is_superhost','host_identity_verified', 'host_verifications', 'review_scores_rating']

In [175]:
df = df_listings[columns_of_interest]

In [176]:
df = df.dropna(subset=['host_since'])

In [177]:
df['host_since'] = df['host_since'].astype(str)

In [178]:
df['host_since'] = df['host_since'].apply(lambda str_date: datetime.datetime.strptime(str_date, '%Y-%m-%d').date())

In [179]:
df['host_year'] = df['host_since'].apply(lambda date: date.year)

In [180]:
df['how_many_years'] = 2020 - df['host_year']

In [181]:
mais_que_10 = df[df['how_many_years'] >= 10]
mais_que_7 = df[(df['how_many_years'] >= 7) & (df['how_many_years'] < 10)]
mais_que_4 = df[(df['how_many_years'] >= 4) & (df['how_many_years'] < 7)]
mais_que_1 = df[(df['how_many_years'] >= 1) & (df['how_many_years'] < 5)]

In [182]:
anos = [1, 4, 7, 10]
quantidade = [len(mais_que_1), len(mais_que_4), len(mais_que_7), len(mais_que_10)]
total = sum(quantidade)

In [183]:
serie = pd.Series(quantidade)
serie = round(serie/total, 2)*100
porcentagem_anos = serie.tolist()

In [184]:
df_calendar_mais_que_10 = df_calendar[df_calendar['listing_id'].isin(mais_que_10['id'])]
df_calendar_mais_que_7 = df_calendar[df_calendar['listing_id'].isin(mais_que_7['id'])]
df_calendar_mais_que_4 = df_calendar[df_calendar['listing_id'].isin(mais_que_4['id'])]
df_calendar_mais_que_1 = df_calendar[df_calendar['listing_id'].isin(mais_que_1['id'])]

In [185]:
porcent_locacao_mais_que_10 = len(df_calendar_mais_que_10[df_calendar_mais_que_10['available'] == 'f'])/len(df_calendar_mais_que_10)

In [186]:
porcent_locacao_mais_que_7 = len(df_calendar_mais_que_7[df_calendar_mais_que_7['available'] == 'f'])/len(df_calendar_mais_que_7)

In [187]:
porcent_locacao_mais_que_4 = len(df_calendar_mais_que_4[df_calendar_mais_que_4['available'] == 'f'])/len(df_calendar_mais_que_4)

In [188]:
porcent_locacao_mais_que_1 = len(df_calendar_mais_que_1[df_calendar_mais_que_1['available'] == 'f'])/len(df_calendar_mais_que_1)

In [189]:
porcent = [porcent_locacao_mais_que_1, 
           porcent_locacao_mais_que_4,
           porcent_locacao_mais_que_7,
           porcent_locacao_mais_que_10]

In [190]:
serie = pd.Series(porcent)
serie = round(serie, 2)*100
porcentagem_reserva = serie.tolist()

In [191]:
import plotly.graph_objects as go

x = ['+1', '+4', '+7', '+10']

fig = go.Figure()
fig.add_trace(go.Bar(
    x=x,
    y=porcentagem_anos,
    name='% years as host',
    marker_color='indianred'
))
fig.add_trace(go.Bar(
    x=x,
    y=porcentagem_reserva,
    name='% booked accomodations',
    marker_color='lightsalmon'
))

# Here we modify the tickangle of the xaxis, resulting in rotated labels.
fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

In [194]:
mais_que_90 = df[df['review_scores_rating'] >= 90]
mais_que_70 = df[(df['review_scores_rating'] >= 70) & (df['review_scores_rating'] < 90)]
mais_que_50 = df[(df['review_scores_rating'] >= 50) & (df['review_scores_rating'] < 70)]
mais_que_30 = df[(df['review_scores_rating'] >= 30) & (df['review_scores_rating'] < 50)]

anos = [30, 50, 70, 90]
quantidade = [len(mais_que_30), len(mais_que_50), len(mais_que_70), len(mais_que_90)]
total = sum(quantidade)

serie = pd.Series(quantidade)
serie = round(serie/total, 2)*100
porcentagem_anos = serie.tolist()

df_calendar_mais_que_90 = df_calendar[df_calendar['listing_id'].isin(mais_que_90['id'])]
df_calendar_mais_que_70 = df_calendar[df_calendar['listing_id'].isin(mais_que_70['id'])]
df_calendar_mais_que_50 = df_calendar[df_calendar['listing_id'].isin(mais_que_50['id'])]
df_calendar_mais_que_30 = df_calendar[df_calendar['listing_id'].isin(mais_que_30['id'])]

porcent_locacao_mais_que_90 = len(df_calendar_mais_que_90[df_calendar_mais_que_90['available'] == 'f'])/len(df_calendar_mais_que_90)

porcent_locacao_mais_que_70 = len(df_calendar_mais_que_70[df_calendar_mais_que_70['available'] == 'f'])/len(df_calendar_mais_que_70)

porcent_locacao_mais_que_50 = len(df_calendar_mais_que_50[df_calendar_mais_que_50['available'] == 'f'])/len(df_calendar_mais_que_50)

porcent_locacao_mais_que_30 = len(df_calendar_mais_que_30[df_calendar_mais_que_30['available'] == 'f'])/len(df_calendar_mais_que_30)

porcent = [porcent_locacao_mais_que_90, 
           porcent_locacao_mais_que_70,
           porcent_locacao_mais_que_50,
           porcent_locacao_mais_que_30]

serie = pd.Series(porcent)
serie = round(serie, 2)*100
porcentagem_reserva = serie.tolist()

import plotly.graph_objects as go

x = ['+30', '+50', '+70', '+90']

fig = go.Figure()
fig.add_trace(go.Bar(
    x=x,
    y=porcentagem_anos,
    name='% review',
    marker_color='indianred'
))
fig.add_trace(go.Bar(
    x=x,
    y=porcentagem_reserva,
    name='% booked accomodations',
    marker_color='lightsalmon'
))

# Here we modify the tickangle of the xaxis, resulting in rotated labels.
fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()