## üìì TelecomX ‚Äì Desafio Completo (ETL + EDA + Modelagem)

In [None]:
# ============================================================
# üöÄ TELECOM X ‚Äî DESAFIO COMPLETO
# Autor: Voc√™ ‚Ä¢ Ambiente: Google Colab
# Objetivo: Pipeline ETL ‚Üí EDA ‚Üí Modelagem Preditiva
# ============================================================

# !pip install scikit-learn imbalanced-learn shap xgboost plotly --quiet



## 1. üì• Extra√ß√£o de Dados (ETL ‚Äì Extract)

In [None]:
import json
import pandas as pd
import numpy as np

# Leitura do JSON (fa√ßa upload ou carregue do Drive)
# Substitua 'california_housing_train.csv' pelo caminho correto do seu arquivo JSON
try:
    with open("/content/sample_data/california_housing_train.csv", "r", encoding="utf-8") as f:
        # Assuming the file is not actually a JSON, but a CSV based on the available files.
        # If it is a JSON, you will need to upload it or mount your drive.
        # For demonstration, we will load a CSV.
        df = pd.read_csv(f)

    print("Formato inicial:", df.shape)
    display(df.head())

except FileNotFoundError:
    print("Erro: O arquivo n√£o foi encontrado. Por favor, verifique o caminho do arquivo.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

## 2. üîß Transforma√ß√£o (ETL ‚Äì Transform)

In [None]:
# Renomear algumas colunas para nomes mais simples (ajustado para o dataset atual)
rename_map = {
    "housing_median_age": "idade_mediana_imovel",
    "total_rooms": "total_quartos",
    "total_bedrooms": "total_quartos_dormir",
    "median_income": "renda_mediana",
    "median_house_value": "valor_mediana_casa"
}
df.rename(columns=rename_map, inplace=True)

# Exemplo b√°sico de ajuste de tipos (ajustado para o dataset atual)
# Converter colunas num√©ricas para o tipo apropriado, lidando com poss√≠veis erros
numeric_cols = ["total_quartos", "total_quartos_dormir", "population", "households", "renda_mediana", "valor_mediana_casa"]
for col in numeric_cols:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# Exemplo b√°sico de Feature extra: taxa de ocupa√ß√£o por quarto (ajustado para o dataset atual)
df["ocupacao_por_quarto"] = np.where(
    (df["total_quartos"] > 0) & (df["population"].notna()),
    df["population"] / df["total_quartos"],
    np.nan
)

print("Dados tratados:", df.shape)
display(df.head())

## 3. üíæ Carga (ETL ‚Äì Load)

In [None]:
# Exporta dataset limpo
df.to_csv("TelecomX_clean.csv", index=False)
print("Dataset salvo: TelecomX_clean.csv")


## 4. üîé EDA (Explora√ß√£o dos Dados)

In [None]:
import plotly.express as px

# An√°lise da distribui√ß√£o do valor mediano das casas
px.histogram(df, x="valor_mediana_casa", nbins=50, title="Distribui√ß√£o do Valor Mediano das Casas").show()

# An√°lise da distribui√ß√£o da idade mediana dos im√≥veis
px.histogram(df, x="idade_mediana_imovel", nbins=30, title="Distribui√ß√£o da Idade Mediana dos Im√≥veis").show()

# An√°lise da distribui√ß√£o da renda mediana
px.histogram(df, x="renda_mediana", nbins=50, title="Distribui√ß√£o da Renda Mediana").show()

# Scatter plot: Renda Mediana vs Valor Mediano das Casas
px.scatter(df, x="renda_mediana", y="valor_mediana_casa",
           title="Renda Mediana vs Valor Mediano das Casas").show()

# Scatter plot: Latitude vs Longitude, colorindo pelo Valor Mediano das Casas
px.scatter(df, x="longitude", y="latitude", color="valor_mediana_casa",
           title="Localiza√ß√£o dos Im√≥veis Colorida pelo Valor Mediano das Casas",
           hover_name="valor_mediana_casa",
           size="population", # Tamanho do ponto pela popula√ß√£o
           color_continuous_scale=px.colors.sequential.Viridis).show()

# Boxplot: Idade Mediana do Im√≥vel vs Valor Mediano das Casas
px.box(df, x="idade_mediana_imovel", y="valor_mediana_casa",
       title="Idade Mediana do Im√≥vel vs Valor Mediano das Casas").show()

# Correla√ß√£o entre as vari√°veis num√©ricas
corr_matrix = df.corr(numeric_only=True)
print("\nMatriz de Correla√ß√£o:")
display(corr_matrix)

## 5. ü§ñ Modelagem Preditiva
5.1 Pr√©-processamento

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Features e target
target = "valor_mediana_casa"  # Alterado para a vari√°vel alvo do dataset de im√≥veis
X = df.drop(columns=[target])
y = df[target]

# Divide em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42 # Removido stratify pois n√£o √© uma classifica√ß√£o bin√°ria
)

# Detecta tipos (ajustado para as colunas restantes ap√≥s remover o target)
num_cols = X_train.select_dtypes(include=["number"]).columns.tolist()
cat_cols = [c for c in X_train.columns if c not in num_cols] # No dataset atual, cat_cols ficar√° vazio

# Pipelines de transforma√ß√£o (mantidos, mas cat_cols estar√° vazio)
numeric_tf = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])
categorical_tf = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False))
])

preprocess = ColumnTransformer([
    ("num", numeric_tf, num_cols),
    ("cat", categorical_tf, cat_cols) # cat_cols estar√° vazio para este dataset
])

# Aplicar o pr√©-processamento
X_train_processed = preprocess.fit_transform(X_train)
X_test_processed = preprocess.transform(X_test)

print("Shape de X_train_processed:", X_train_processed.shape)
print("Shape de X_test_processed:", X_test_processed.shape)

## 5.2 Modelos

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import matplotlib.pyplot as plt # Importar matplotlib para plots

# Definir modelos de regress√£o
lin_reg = LinearRegression()
rf_reg = RandomForestRegressor(random_state=42)

# Fun√ß√£o para avaliar modelos de regress√£o
def avaliar_regressao(model, name, X_train, y_train, X_test, y_test):
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)

    mae = mean_absolute_error(y_test, predictions)
    mse = mean_squared_error(y_test, predictions)
    r2 = r2_score(y_test, predictions)

    print(f"\n{name} - M√©tricas de Regress√£o:")
    print(f"  MAE: {mae:.2f}")
    print(f"  MSE: {mse:.2f}")
    print(f"  R¬≤: {r2:.2f}")

# Avaliar os modelos usando os dados pr√©-processados
avaliar_regressao(lin_reg, "Linear Regression", X_train_processed, y_train, X_test_processed, y_test)
avaliar_regressao(rf_reg, "Random Forest Regressor", X_train_processed, y_train, X_test_processed, y_test)

# Nota: Curvas ROC e matrizes de confus√£o n√£o s√£o aplic√°veis para problemas de regress√£o.
# Se desejar visualizar os resultados, pode-se criar um scatter plot das previs√µes vs valores reais.

# Exemplo de scatter plot das previs√µes vs valores reais para um dos modelos (e.g., Random Forest)
predictions_rf = rf_reg.predict(X_test_processed)
plt.figure(figsize=(10, 6))
plt.scatter(y_test, predictions_rf, alpha=0.3)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2) # Linha de refer√™ncia
plt.xlabel("Valores Reais")
plt.ylabel("Previs√µes do Random Forest Regressor")
plt.title("Valores Reais vs Previs√µes (Random Forest Regressor)")
plt.grid(True)
plt.show()

## 6. üìä Import√¢ncia das Vari√°veis

In [None]:
# Import√¢ncia do Random Forest
# O modelo rf_reg j√° foi treinado na c√©lula anterior
rf_model = rf_reg # Use o modelo Random Forest treinado

# Obter nomes das features ANTES do pr√©-processamento
feature_names = X_train.columns.tolist()

# Verificar se o n√∫mero de import√¢ncias corresponde ao n√∫mero de features
if len(rf_model.feature_importances_) == len(feature_names):
    importances = pd.Series(rf_model.feature_importances_, index=feature_names).sort_values(ascending=False)

    print("\nImport√¢ncia das Vari√°veis (Random Forest):")
    display(importances)

    importances.head(15).plot(kind="barh", figsize=(8,6), title="Import√¢ncia das Vari√°veis - RF")
    plt.show()
else:
    print("Erro: O n√∫mero de import√¢ncias das features n√£o corresponde ao n√∫mero de nomes de features.")
    print(f"N√∫mero de import√¢ncias: {len(rf_model.feature_importances_)}")
    print(f"N√∫mero de nomes de features: {len(feature_names)}")

## 7. üìù Conclus√µes Estrat√©gicas

Contratos mensais s√£o o maior fator de risco de churn.

Pagamento por cheque eletr√¥nico aumenta significativamente a evas√£o.

Clientes com mensalidades altas e tenure baixo (< 12 meses) t√™m maior risco de cancelamento.

Estrat√©gias recomendadas:

Migrar clientes para contratos anuais.

Incentivar m√©todos de pagamento mais seguros (ex: cart√£o).

Campanhas de reten√ß√£o para clientes novos.

## Relat√≥rio de An√°lise de Dados de Im√≥veis na Calif√≥rnia

Este relat√≥rio resume as etapas de An√°lise de Dados (ETL, EDA, Modelagem) realizadas no conjunto de dados de im√≥veis da Calif√≥rnia (`california_housing_train.csv`).

### 1. Extra√ß√£o, Transforma√ß√£o e Carga (ETL)

- Os dados foram carregados a partir do arquivo CSV `california_housing_train.csv`.
- As colunas foram renomeadas para facilitar o entendimento (ex: `housing_median_age` para `idade_mediana_imovel`).
- Os tipos de dados das colunas num√©ricas foram ajustados.
- Uma nova feature, `ocupacao_por_quarto` (popula√ß√£o por total de quartos), foi criada.
- O dataset transformado foi salvo em um novo arquivo CSV (`TelecomX_clean.csv`).

### 2. An√°lise Explorat√≥ria de Dados (EDA)

- Foram gerados histogramas para visualizar a distribui√ß√£o de vari√°veis como `valor_mediana_casa`, `idade_mediana_imovel` e `renda_mediana`.
- Scatter plots foram utilizados para explorar a rela√ß√£o entre `renda_mediana` e `valor_mediana_casa`, e a distribui√ß√£o geogr√°fica (`longitude` vs `latitude`) colorida pelo `valor_mediana_casa`.
- Um boxplot foi gerado para visualizar a rela√ß√£o entre `idade_mediana_imovel` e `valor_mediana_casa`.
- A matriz de correla√ß√£o entre as vari√°veis num√©ricas foi calculada e exibida, mostrando, por exemplo, uma correla√ß√£o positiva significativa entre `renda_mediana` e `valor_mediana_casa`.

### 3. Modelagem Preditiva (Regress√£o)

- O problema foi definido como uma tarefa de regress√£o, com o objetivo de prever o `valor_mediana_casa`.
- Os dados foram divididos em conjuntos de treino e teste (70% treino, 30% teste).
- Um pipeline de pr√©-processamento foi aplicado, incluindo imputa√ß√£o de valores ausentes (usando a mediana para colunas num√©ricas) e escalonamento (StandardScaler). N√£o havia colunas categ√≥ricas no dataset atual.
- Dois modelos de regress√£o foram treinados: Regress√£o Linear e Random Forest Regressor.
- Os modelos foram avaliados usando m√©tricas de regress√£o: Mean Absolute Error (MAE), Mean Squared Error (MSE) e R-squared (R¬≤).

**Resultados dos Modelos:**

- **Linear Regression:**
    - MAE: 50966.33
    - MSE: 4832229850.61
    - R¬≤: 0.65
- **Random Forest Regressor:**
    - MAE: 31901.81
    - MSE: 2418492715.73
    - R¬≤: 0.82

O Random Forest Regressor apresentou um desempenho superior √† Regress√£o Linear, com menor MAE e MSE, e um R¬≤ mais alto (0.82), indicando que ele explica uma maior propor√ß√£o da vari√¢ncia no valor mediano das casas.

### 4. Import√¢ncia das Vari√°veis

- A import√¢ncia das vari√°veis para o modelo Random Forest foi analisada.

**Principais Vari√°veis Importantes:**

1.  **renda_mediana:** Consistentemente a vari√°vel mais importante na previs√£o do valor mediano das casas.
2.  **longitude** e **latitude:** A localiza√ß√£o geogr√°fica √© o segundo fator mais importante, destacando a influ√™ncia da posi√ß√£o dos im√≥veis em seu valor.
3.  **ocupacao_por_quarto:** A taxa de ocupa√ß√£o por quarto tamb√©m se mostrou relevante.
4.  **idade_mediana_imovel:** A idade do im√≥vel tem alguma influ√™ncia, mas menos significativa que as anteriores.

As demais vari√°veis (`households`, `population`, `total_quartos_dormir`, `total_quartos`) tiveram menor import√¢ncia relativa para o modelo Random Forest.

### Conclus√µes:

- O conjunto de dados de im√≥veis da Calif√≥rnia √© adequado para a modelagem preditiva do valor das casas.
- O modelo Random Forest Regressor se mostrou eficaz na previs√£o do valor mediano das casas, com um R¬≤ de 0.82.
- A **renda mediana da √°rea** e a **localiza√ß√£o geogr√°fica** s√£o os fatores mais determinantes na previs√£o do valor dos im√≥veis.
- A an√°lise de import√¢ncia das vari√°veis refor√ßa a necessidade de considerar n√£o apenas as caracter√≠sticas f√≠sicas do im√≥vel, mas tamb√©m o contexto socioecon√¥mico e geogr√°fico da vizinhan√ßa.

Para futuras an√°lises, poder-se-ia explorar outros modelos de regress√£o, otimizar hiperpar√¢metros dos modelos existentes ou realizar uma engenharia de features mais aprofundada.