## Análise de Dados e Modelo de Churn

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Carregar os dados
df = pd.read_json('TelecomX_Data.json')

# Conversão de variáveis categóricas para numéricas
label_encoder = LabelEncoder()
df['Churn'] = label_encoder.fit_transform(df['Churn'])
df['customer.Partner'] = df['customer.Partner'].apply(lambda x: 1 if x == 'Yes' else 0)
df['customer.Dependents'] = df['customer.Dependents'].apply(lambda x: 1 if x == 'Yes' else 0)
df['phone.PhoneService'] = df['phone.PhoneService'].apply(lambda x: 1 if x == 'Yes' else 0)
df['phone.MultipleLines'] = df['phone.MultipleLines'].apply(lambda x: 1 if x == 'Yes' else 0)
df['internet.InternetService'] = df['internet.InternetService'].apply(lambda x: 1 if x == 'Fiber optic' else 0)
df['internet.OnlineSecurity'] = df['internet.OnlineSecurity'].apply(lambda x: 1 if x == 'Yes' else 0)
df['internet.OnlineBackup'] = df['internet.OnlineBackup'].apply(lambda x: 1 if x == 'Yes' else 0)
df['internet.DeviceProtection'] = df['internet.DeviceProtection'].apply(lambda x: 1 if x == 'Yes' else 0)
df['internet.TechSupport'] = df['internet.TechSupport'].apply(lambda x: 1 if x == 'Yes' else 0)
df['internet.StreamingTV'] = df['internet.StreamingTV'].apply(lambda x: 1 if x == 'Yes' else 0)
df['internet.StreamingMovies'] = df['internet.StreamingMovies'].apply(lambda x: 1 if x == 'Yes' else 0)
df['account.Contract'] = df['account.Contract'].apply(lambda x: 1 if x == 'Month-to-month' else 0)
df['account.PaperlessBilling'] = df['account.PaperlessBilling'].apply(lambda x: 1 if x == 'Yes' else 0)
df['account.PaymentMethod'] = df['account.PaymentMethod'].apply(lambda x: 1 if x == 'Electronic check' else 0)

# Definindo as variáveis independentes e dependentes
X = df.drop('Churn', axis=1)
y = df['Churn']

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinando o modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Previsões
y_pred = model.predict(X_test)

# Resultados
classification_rep = classification_report(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

classification_rep, conf_matrix
    

### Resultados do Modelo de Random Forest

In [None]:

classification_rep
    

### Matriz de Confusão

In [None]:

conf_matrix
    


## Conclusões

- O modelo de Random Forest foi capaz de prever o churn dos clientes com razoável precisão, embora haja espaço para melhorias, especialmente para a classe de não cancelamento.
- Sugestões para melhorar a acurácia incluem o uso de técnicas de balanceamento de dados ou outro tipo de modelo.
    