In [3]:
import pandas as pd
from sqlalchemy import create_engine
# sqlalchemy connects to MySQL database using the pymysql driver

In [4]:
# 1. Configura√ß√£o da Conex√£o (A String de Conex√£o Profissional)
# Formato: mysql+driver://usuario:senha@host/banco
connection_string = "mysql+pymysql://user_analista:senha_analista@localhost/telecom_churn_db"

In [5]:
# 2. Criar a "Engine" (O Motor de Conex√£o)
# Isso gerencia conex√µes abertas/fechadas automaticamente para voc√™.
engine = create_engine(connection_string)

In [6]:
# 1. Defina a Query (A pergunta ao banco)
query = """
SELECT 
    c.id_cliente,
    c.genero,
    TIMESTAMPDIFF(YEAR, c.data_nascimento, CURDATE()) AS idade,
    c.estado,
    a.plano,
    a.valor_mensal,
    TIMESTAMPDIFF(MONTH, a.data_inicio, CURDATE()) AS meses_contrato,
    AVG(u.dados_consumidos_gb) AS media_consumo_gb,
    SUM(u.chamadas_suporte) AS total_chamadas_suporte,
    CASE WHEN a.status = 'Cancelado' THEN 1 ELSE 0 END AS churn
FROM clientes c
JOIN assinaturas a ON c.id_cliente = a.id_cliente
LEFT JOIN uso_servico u ON c.id_cliente = u.id_cliente
GROUP BY 
    c.id_cliente, c.genero, c.data_nascimento, c.estado, 
    a.plano, a.valor_mensal, a.data_inicio, a.status;
"""

print("‚è≥ Extraindo dados via SQLAlchemy...")

‚è≥ Extraindo dados via SQLAlchemy...


In [7]:
try:
    # O Pandas ama o SQLAlchemy. √â a integra√ß√£o nativa perfeita.
    df = pd.read_sql(query, engine)
    print(f"‚úÖ Sucesso Absoluto! Dataset carregado com {df.shape[0]} linhas.")
    display(df.head()) # Se der erro no display, use print(df.head())
except Exception as e:
    print(f"‚ùå Erro na conex√£o: {e}")

‚ùå Erro na conex√£o: 'cryptography' package is required for sha256_password or caching_sha2_password auth methods


In [None]:
# an√°lise explorat√≥ria r√°pida
print("üìä An√°lise Explorat√≥ria R√°pida:")
print("--- Info do DataFrame ---")
print(df.info())

print("\n--- Contagem de Valores Nulos ---")
print(df.isnull().sum())

print("\n--- Estat√≠sticas Descritivas ---")
print(df.describe())

#### Treinar e Avaliar

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 1. PREPARA√á√ÉO DOS DADOS (Feature Engineering + Pr√©-processamento)
print("üßπ Preparando os dados...")

# Garantir que o df est√° limpo e pronto para o modelo
# Selecionar apenas as colunas relevantes para o modelo
X = df.drop(columns=['id_cliente', 'churn'])
y = df['churn'].astype(int)

# Dividir Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. Definir quais colunas s√£o o que
numeric_features = ['idade', 'valor_mensal', 'meses_contrato', 'media_consumo_gb', 'total_chamadas_suporte']
categorical_features = ['genero', 'estado', 'plano']

# Criando os processadores usando make_pipeline para cada tipo de dado
numeric_transformer = make_pipeline(
    SimpleImputer(strategy='constant', fill_value=0),
    StandardScaler()
)

# Para as vari√°veis categ√≥ricas, usaremos o OneHotEncoder para criar dummies
categorical_transformer = make_pipeline(
    SimpleImputer(strategy='most_frequent'),
    OneHotEncoder(handle_unknown='ignore', sparse_output=False) # sparse_output=False facilita visualiza√ß√£o
)

# O Pr√©-processador Mestre
preprocessor = make_column_transformer(
    (numeric_transformer, numeric_features),
    (categorical_transformer, categorical_features),
    remainder='drop' # Ignora outras colunas se houver
)

# O Modelo Final (Random Forest)
model = make_pipeline(
    preprocessor,
    RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
)

# 3. TREINAMENTO E AVALIA√á√ÉO 
print("üöÄ Iniciando treinamento do modelo...")
model.fit(X_train, y_train)

print("‚úÖ Treinamento conclu√≠do! Fazendo previs√µes...")
y_pred = model.predict(X_test)

# 4. RESULTADOS 
print("\n" + "="*40)
print("üìä RELAT√ìRIO DE PERFORMANCE DO MODELO")
print("="*40)
print(classification_report(y_test, y_pred))

print("\nüîç Matriz de Confus√£o (Acertos vs Erros):")
print(confusion_matrix(y_test, y_pred))