# Revis√£o de c√≥digo 

Ol√°! 

Meu nome √© Suelen. Estou feliz em revisar seu projeto hoje!

Quando vejo um erro pela primeira vez, apenas aponto. Deixarei voc√™ encontr√°-lo e corrigi-lo sozinho. Al√©m disso, ao longo do texto, farei algumas observa√ß√µes sobre melhorias no c√≥digo e tamb√©m farei coment√°rios sobre suas percep√ß√µes sobre o assunto. Mas se voc√™ ainda n√£o consegue lidar com essa tarefa, darei uma dica mais precisa na pr√≥xima itera√ß√£o e tamb√©m alguns exemplos pr√°ticos. Estarei aberto a feedbacks e discuss√µes sobre o tema.

Voc√™ pode encontrar meus coment√°rios em caixas verdes, amarelas ou vermelhas como estas:


<div class="alert alert-block alert-success">
<b>Coment√°rio: </b> <a class="tocSkip"></a>

Sucesso. Tudo est√° correto.
</div>

<div class="alert alert-block alert-warning">
<b>Coment√°rio: </b> <a class="tocSkip"></a>

Observa√ß√µes. Algumas recomenda√ß√µes.
</div>

<div class="alert alert-block alert-danger">

<b>Coment√°rio: </b> <a class="tocSkip"></a>

O bloco requer algumas corre√ß√µes. O trabalho n√£o pode ser aceito com os coment√°rios vermelhos.
</div>

Voc√™ pode me responder usando isto:

<div class="alert alert-block alert-info">
<b>Resposta do aluno</b> <a class="tocSkip"></a>
</div>



<div class="alert alert-block alert-success">
<b>Coment√°rio geral: </b> <a class="tocSkip"></a>




**Parab√©ns pela conclus√£o do projeto, Charlys!**

Seu racioc√≠nio ao planejar a solu√ß√£o foi bem estruturado, demonstrando uma boa compreens√£o do problema e das etapas necess√°rias para resolv√™-lo. As escolhas dos modelos e das m√©tricas foram adequadas ao contexto, e a implementa√ß√£o do c√≥digo foi feita com clareza e precis√£o.

Excelente trabalho, continue evoluindo nessa jornada! üëè

</div>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA


In [None]:
personal = pd.read_csv('final_provider/personal.csv')
contract = pd.read_csv('final_provider/contract.csv')
phone = pd.read_csv('final_provider/phone.csv')
internet = pd.read_csv('final_provider/internet.csv')
df = personal.merge(contract, on='customerID') \
             .merge(phone, on='customerID', how='left') \
             .merge(internet, on='customerID', how='left')
print(df.info())
print(df.isnull().sum())
print(df.describe(include='all'))

In [None]:
df['EndDate_flag'] = df['EndDate'].apply(lambda x: 0 if x == 'No' else 1)
sns.countplot(data=df, x='EndDate_flag')
plt.title("Distribui√ß√£o da Rotatividade (Churn)")
plt.show()
df_numeric = df.select_dtypes(include=['float64', 'int64'])
sns.heatmap(df_numeric.corr(), annot=True, cmap='coolwarm')
plt.title("Mapa de Correla√ß√£o")
plt.show()


In [None]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df['TotalCharges'].fillna(df['TotalCharges'].median(), inplace=True)
df['MultipleLines'].fillna('No', inplace=True)

cat_cols = df.select_dtypes(include='object').columns.drop('customerID')
df[cat_cols] = df[cat_cols].fillna('No')
df_encoded = pd.get_dummies(df.drop(['customerID', 'BeginDate', 'EndDate'], axis=1), drop_first=True)

scaler = StandardScaler()
num_cols = ['MonthlyCharges', 'TotalCharges']
df_encoded[num_cols] = scaler.fit_transform(df_encoded[num_cols])

X = df_encoded.drop('EndDate_flag', axis=1)
y = df_encoded['EndDate_flag']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)


In [None]:
models = {
    'Logistic Regression': LogisticRegression(max_iter=1000),
    'Random Forest': RandomForestClassifier(),
    'Gradient Boosting': GradientBoostingClassifier()
}

for name, model in models.items():
    scores = cross_val_score(model, X_train, y_train, cv=5)
    print(f'{name} - Accuracy m√©dia: {scores.mean():.4f}')


In [None]:
best_model = GradientBoostingClassifier()
best_model.fit(X_train, y_train)
y_pred = best_model.predict(X_test)

print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues')
plt.title("Matriz de Confus√£o")
plt.show()

In [None]:
X_cluster = df_encoded.drop('EndDate_flag', axis=1)

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_cluster)

kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X_cluster)

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=clusters, cmap='viridis')
plt.title('Clusteriza√ß√£o de Clientes (PCA)')
plt.xlabel('Componente 1')
plt.ylabel('Componente 2')
plt.show()

Previs√£o de Rotatividade de Clientes (Churn) - Interconnect

Este projeto tem como objetivo prever a **rotatividade (churn)** dos clientes da operadora fict√≠cia **Interconnect**, com base em dados contratuais, pessoais e de uso dos servi√ßos.

---

##  Descri√ß√£o dos Dados

Os dados s√£o compostos por quatro arquivos:

- **`personal.csv`**: informa√ß√µes pessoais dos clientes
- **`contract.csv`**: dados do contrato (tipo, dura√ß√£o, cobran√ßa, churn)
- **`internet.csv`**: servi√ßos de internet contratados
- **`phone.csv`**: servi√ßos de telefonia contratados

---

##  1. An√°lise Explorat√≥ria dos Dados (EDA)

### Estrutura e Qualidade

- Verificamos os tipos de dados, formatos e exist√™ncia de **valores ausentes**.
- Algumas colunas como `TotalCharges` estavam com tipo incorreto (string) e foram convertidas.
- Valores nulos foram tratados com substitui√ß√£o pela **mediana** ou marcados como "No".

###  Distribui√ß√µes

- A vari√°vel alvo `churn` foi definida com base na coluna `EndDate` (`No` = cliente ativo, valor presente = churn).
- Visualizamos a distribui√ß√£o dos clientes por g√™nero, tipo de contrato, servi√ßos, e outras vari√°veis.

###  Outliers

- Foram verificados poss√≠veis **outliers** em `MonthlyCharges` e `TotalCharges`, mas optamos por normaliza√ß√£o ao inv√©s de remo√ß√£o.

### Correla√ß√µes

- Usamos um **heatmap** para verificar correla√ß√µes entre vari√°veis num√©ricas.
- `MonthlyCharges` e `TotalCharges` t√™m forte correla√ß√£o, como esperado.

---

## 2. Pr√©-processamento de Dados

###  Limpeza e Tratamento

- `TotalCharges` transformada para num√©rico e preenchida.
- Dados categ√≥ricos preenchidos com "No" ou "Unknown".
- Dados normalizados com **StandardScaler**.

###  Codifica√ß√£o

- Vari√°veis categ√≥ricas foram convertidas com **one-hot encoding** (dummies).
- A vari√°vel alvo foi definida como `EndDate_flag` (0 = ativo, 1 = churn).

###  Divis√£o de Dados

- Usamos **train_test_split** com estratifica√ß√£o (70% treino, 30% teste).

---

## 3. Desenvolvimento e Treinamento de Modelos

Testamos 3 algoritmos de classifica√ß√£o:

- **Regress√£o Log√≠stica**
- **Random Forest**
- **Gradient Boosting**

Usamos **valida√ß√£o cruzada (5-fold)** para comparar acur√°cia entre os modelos.

---

##  4. Avalia√ß√£o do Modelo

O **Gradient Boosting** obteve o melhor desempenho.

### M√©tricas no conjunto de teste:

- **Accuracy**
- **Precision**
- **Recall**
- **F1-Score**

Tamb√©m geramos:

- **Relat√≥rio de classifica√ß√£o**
- **Matriz de confus√£o**

---

## 5. Desafio Adicional: Agrupamento de Clientes

Aplicamos um modelo de **K-Means Clustering** para segmentar os clientes em 3 grupos com base em comportamento e perfil.

### Etapas:

- Normalizamos os dados
- Reduzimos a dimensionalidade com **PCA**
- Visualizamos os clusters em 2D

---

## Conclus√µes

- √â poss√≠vel prever a rotatividade com boa precis√£o usando dados contratuais e de servi√ßos.
- O modelo pode ser integrado a sistemas de marketing para **identificar clientes propensos ao churn** e **oferecer promo√ß√µes personalizadas**.
- A clusteriza√ß√£o pode auxiliar na **segmenta√ß√£o de mercado** para campanhas direcionadas.

---

## Pr√≥ximos Passos

- Testar t√©cnicas de **oversampling (SMOTE)** para melhorar recall de churn.
- Explorar modelos como **XGBoost** e **LightGBM**.
- Automatizar alertas com base nas previs√µes de churn.