# üìä An√°lise Estat√≠stica ‚Äî Airbnb Rio

Este notebook realiza uma an√°lise estat√≠stica em um dataset sint√©tico de an√∫ncios do Airbnb no Rio de Janeiro,
incluindo estat√≠sticas descritivas, correla√ß√£o e uma regress√£o linear simples para modelar o pre√ßo por noite.

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import os

# Configura√ß√µes gerais
plt.rcParams['figure.figsize'] = (8, 5)
plt.rcParams['figure.autolayout'] = True

# Cria pasta de relat√≥rios
os.makedirs("relatorios", exist_ok=True)


## üì• Carregando o dataset

In [None]:

# Caminho do arquivo CSV (ajuste se necess√°rio)
caminho_csv = "dados/airbnb_rio_100k.csv"

df = pd.read_csv(caminho_csv)
df.head()


## üëÄ Vis√£o geral dos dados

In [None]:

# Informa√ß√µes gerais
print("Formato do dataset:", df.shape)
print("\nTipos de dados:")
print(df.dtypes)

print("\nResumo estat√≠stico:")
display(df.describe())


## üßÆ Estat√≠sticas descritivas b√°sicas

In [None]:

colunas_numericas = ["preco_noite", "avaliacao", "ocupacao_pct"]

estatisticas = {}
for col in colunas_numericas:
    estatisticas[col] = {
        "media": df[col].mean(),
        "mediana": df[col].median(),
        "desvio_padrao": df[col].std()
    }

estatisticas_df = pd.DataFrame(estatisticas).T
estatisticas_df


## üìà Distribui√ß√£o das vari√°veis num√©ricas

In [None]:

for col in colunas_numericas:
    plt.figure()
    sns.histplot(df[col], bins=30, kde=True)
    plt.title(f"Distribui√ß√£o de {col}")
    plt.xlabel(col)
    plt.ylabel("Frequ√™ncia")
    plt.savefig(f"relatorios/hist_{col}.png")
    plt.show()


## üîó Matriz de correla√ß√£o

In [None]:

corr = df[colunas_numericas + ["quartos"]].corr()

plt.figure()
sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm")
plt.title("Matriz de Correla√ß√£o ‚Äî Airbnb Rio")
plt.savefig("relatorios/correlacao_airbnb.png")
plt.show()

corr


## üìâ Regress√£o Linear Simples
Vamos modelar o **pre√ßo por noite (`preco_noite`)** em fun√ß√£o do n√∫mero de **quartos (`quartos`)**.

In [None]:

# Vari√°vel explicativa (X) e alvo (y)
X = df[["quartos"]]
y = df["preco_noite"]

modelo = LinearRegression()
modelo.fit(X, y)

y_pred = modelo.predict(X)

coeficiente = modelo.coef_[0]
intercepto = modelo.intercept_
r2 = r2_score(y, y_pred)

print(f"Coeficiente (inclina√ß√£o): {coeficiente:.2f}")
print(f"Intercepto: {intercepto:.2f}")
print(f"R¬≤ (poder explicativo do modelo): {r2:.4f}")


In [None]:

# Gr√°fico de dispers√£o + linha de regress√£o
plt.figure()
plt.scatter(X, y, alpha=0.3, label="Observado")
plt.plot(X, y_pred, label="Regress√£o Linear", linewidth=2)
plt.xlabel("Quartos")
plt.ylabel("Pre√ßo por noite (R$)")
plt.title("Regress√£o Linear ‚Äî Pre√ßo vs Quartos")
plt.legend()
plt.savefig("relatorios/regressao_preco_quartos.png")
plt.show()


## üß† Insights iniciais
- Verifique quais bairros concentram pre√ßos mais altos.
- Analise se mais quartos realmente significam aumento proporcional no pre√ßo.
- Use o R¬≤ para avaliar se a regress√£o simples com apenas `quartos` explica bem o pre√ßo.
- Voc√™ pode estender o modelo para regress√£o m√∫ltipla incluindo `avaliacao` e `ocupacao_pct` como vari√°veis explicativas.