# Insights na TechGrow

## üì¶ Contexto
Voc√™ faz parte do time de dados da TechGrow, uma empresa SaaS que oferece solu√ß√µes de gest√£o para pequenos neg√≥cios.

Nos √∫ltimos meses, a lideran√ßa percebeu um aumento preocupante na taxa de cancelamento (churn).

O time de produto quer descobrir por que isso est√° acontecendo e quais clientes est√£o em risco.

Voc√™ recebeu um conjunto de dados com informa√ß√µes de clientes, uso da plataforma e hist√≥rico de faturamento.

Sua miss√£o √© criar uma an√°lise explorat√≥ria completa, treinar modelos preditivos e interpretar os resultados para gerar insights acion√°veis.

## üß© Desafio
1. Importe e explore os dados
- Carregue o arquivo `Caso_Pratico_base_churn_saas.csv`.
- Observe o formato, colunas dispon√≠veis e tipos de vari√°veis.
- Verifique valores nulos e estat√≠sticas descritivas.
- Crie visualiza√ß√µes para entender a distribui√ß√£o das vari√°veis e o comportamento dos clientes que cancelaram (`churn == 1`).
2. Trate e prepare os dados
- Aplique encoding em vari√°veis categ√≥ricas.
- Padronize ou normalize as colunas num√©ricas, se necess√°rio.
- Verifique correla√ß√µes relevantes e elimine colunas redundantes.
3. Separe os dados em treino e teste
- Utilize 70% para treino e 30% para teste.
- Defina `churn` como vari√°vel-alvo (`target`).
4. Treine os modelos
- Comece com um modelo baseline: Regress√£o Log√≠stica.
- Em seguida, treine e compare com Random Forest e XGBoost.
5. Avalie os resultados
- Use m√©tricas de classifica√ß√£o:
  - `accuracy`
  - `precision`
  - `recall`
  - `f1-score`
  - `roc_auc_score`
- Plote a matriz de confus√£o e a curva ROC.
6. Interprete e apresente os resultados
- Quais vari√°veis mais impactam o churn?
- Seu modelo consegue identificar bem os clientes que v√£o cancelar?
- Quais a√ß√µes voc√™ recomendaria ao time de produto?

## üß† O que voc√™ vai praticar
- An√°lise explorat√≥ria e prepara√ß√£o de dados
- Cria√ß√£o de modelos supervisionados de classifica√ß√£o
- Avalia√ß√£o de performance de modelos
- Interpreta√ß√£o de resultados e storytelling com dados

## üíú Dica da Rocketseat
O foco deste desafio n√£o √© apenas encontrar o modelo com melhor acur√°cia, mas entender o porqu√™.

Explique suas decis√µes, documente suas observa√ß√µes e interprete o impacto de cada vari√°vel.

Pense como uma pessoa de dados que ajuda o time a tomar decis√µes baseadas em evid√™ncias. ‚ú®

## üìÇ Dataset
Arquivo: `Caso_Pratico_base_churn_saas.csv`

Cont√©m colunas relacionadas a:

- Perfil do cliente (tempo de contrato, localiza√ß√£o, tipo de plano)
- Comportamento de uso (n√∫mero de logins, volume de a√ß√µes, tickets de suporte)
- Hist√≥rico financeiro (valor mensal, inadimpl√™ncia, descontos aplicados)
- Vari√°vel alvo: `churn` (1 = cancelou, 0 = manteve o servi√ßo)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("Caso_Pratico_base_churn_saas.csv")

df.head()
df.info()
df.describe()

In [None]:
df.isnull().sum().sort_values(ascending=False)

In [None]:
sns.countplot(x='churn', data=df)
plt.title("Distribui√ß√£o do Churn")
plt.show()

df['churn'].value_counts(normalize=True)

In [None]:
num_cols = df.select_dtypes(include=np.number).columns

for col in num_cols:
    plt.figure(figsize=(6,3))
    sns.histplot(df[col], kde=True)
    plt.title(col)
    plt.show()

In [None]:
for col in num_cols:
    plt.figure(figsize=(6,3))
    sns.boxplot(x='churn', y=col, data=df)
    plt.title(f"{col} vs churn")
    plt.show()

In [None]:
cat_cols = df.select_dtypes(include='object').columns

for col in cat_cols:
    plt.figure(figsize=(6,3))
    sns.countplot(x=col, hue='churn', data=df)
    plt.xticks(rotation=45)
    plt.show()

In [None]:
df = pd.get_dummies(df, drop_first=True)

In [None]:
X = df.drop("churn", axis=1)
y = df["churn"]

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
from sklearn.linear_model import LogisticRegression

log_model = LogisticRegression(max_iter=1000)
log_model.fit(X_train_scaled, y_train)

y_pred_log = log_model.predict(X_test_scaled)
y_prob_log = log_model.predict_proba(X_test_scaled)[:,1]

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(
    n_estimators=200,
    random_state=42
)

rf_model.fit(X_train, y_train)

y_pred_rf = rf_model.predict(X_test)
y_prob_rf = rf_model.predict_proba(X_test)[:,1]

In [None]:
from xgboost import XGBClassifier

xgb_model = XGBClassifier(
    eval_metric="logloss",
    random_state=42
)

xgb_model.fit(X_train, y_train)

y_pred_xgb = xgb_model.predict(X_test)
y_prob_xgb = xgb_model.predict_proba(X_test)[:,1]

In [None]:
from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix, RocCurveDisplay

In [None]:
print("Logistic Regression")
print(classification_report(y_test, y_pred_log))
print("ROC AUC:", roc_auc_score(y_test, y_prob_log))

In [None]:
sns.heatmap(confusion_matrix(y_test, y_pred_xgb),
            annot=True, fmt='d')
plt.title("Matriz de Confus√£o - XGBoost")
plt.show()

In [None]:
RocCurveDisplay.from_predictions(y_test, y_prob_xgb)
plt.show()

In [None]:
importances = pd.Series(
    rf_model.feature_importances_,
    index=X.columns
).sort_values(ascending=False)

importances.head(10)

In [None]:
coef = pd.Series(
    log_model.coef_[0],
    index=X.columns
).sort_values(ascending=False)