# TelecomX_BR Parte 2 - Cria√ß√£o de um Modelo para identificar a evas√£o de cli√™ntes

# Tratamento dos dados


### üì• Importa√ß√£o de Bibliotecas


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

### üìÇ Carregamento e Visualiza√ß√£o Inicial dos Dados

In [None]:
# Lendo os dados
dados = pd.read_csv('G:/Meu Drive/Oracle_alura/Estatistica_ML/Challenge_3/dados/dados_tratados.csv')
print(dados.info())

### üßπ Limpeza de Dados

In [None]:
#Removendo valores nulos
dados.fillna(dados.mean(numeric_only=True), inplace=True)

#Removendo colunas inuteis
dados.drop(columns='customerID', inplace=True)

### üîÅ Encoding de Vari√°veis Bin√°rias

In [None]:
#Realizando o encoding das variaveis
print(dados.nunique())

#Convertendo as variaveis explicativas binarias
dados['Churn'].replace({'No': 0, 'Yes': 1},inplace=True)
dados['customer.gender'].replace({'Female': 0, 'Male': 1}, inplace=True)
dados['customer.Partner'].replace({'No': 0, 'Yes': 1}, inplace=True)
dados['customer.Dependents'].replace({'No': 0, 'Yes': 1}, inplace=True)
dados['phone.PhoneService'].replace({'No': 0, 'Yes': 1}, inplace=True)
dados['account.PaperlessBilling'].replace({'No': 0, 'Yes': 1}, inplace=True)

#Criando uma coluna pra quem tem ou n√£o servi√ßo se phone ou internete, transformando as originais em binarias
dados['has.PhoneService'] = dados['phone.MultipleLines'].map(lambda x: 0 if x=='No phone service' else 1)
dados['phone.MultipleLines'].replace({'No': 0, 'Yes': 1, 'No phone service': 0},inplace=True)

colunas = ['internet.OnlineSecurity','internet.OnlineBackup','internet.DeviceProtection','internet.TechSupport','internet.StreamingTV','internet.StreamingMovies']
dados[colunas]=dados[colunas].replace({'No': 0, 'Yes': 1, 'No internet service': 0})
dados['has.InternetService'] = dados[colunas].apply(lambda linha: 0 if all(valor == 0 for valor in linha) else 1, axis=1)
print(dados.info())

### üß† One-Hot Encoding para Vari√°veis N√£o Bin√°rias

In [None]:
#Convertendo as explicativas nao binarias utilizando o One hot encoder
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder

#Separando variaveis explicativas da independente
X  = dados.drop(columns='Churn')
Y  = dados['Churn']
#Salvando as colunas originais
colunas = X.columns
one_hot = make_column_transformer((OneHotEncoder(drop='if_binary'),['account.Contract','account.PaymentMethod','internet.InternetService']),remainder='passthrough',sparse_threshold=0)

#Aplicando a transforma√ß√£o nas variaveis explicativas
X = one_hot.fit_transform(X)
X = pd.DataFrame(X, columns=one_hot.get_feature_names_out(colunas))
print(Y)
print(X.info())

### üîç An√°lise de Correla√ß√£o com a Vari√°vel Churn

In [None]:
#Observando a propor√ß√£o de evas√£o da variavel dependente
print(Y.value_counts(normalize=True))
#73.5% n√£o saiu, 26.5% saiu


#Realizando a an√°lise da correla√ß√£o dos par√¢metros
correlacoes = {}
for coluna in X.columns:
    correlacoes[coluna] = pd.Series(X[coluna]).corr(Y)

# Convertendo para DataFrame para facilitar a visualiza√ß√£o
correlacoes_df = pd.DataFrame.from_dict(correlacoes, orient='index', columns=['Correla√ß√£o com Churn'])
correlacoes_df = correlacoes_df.sort_values(by='Correla√ß√£o com Churn', ascending=False)

# Plotando as correla√ß√µes
plt.figure(figsize=(10, 8))
sns.barplot(x=correlacoes_df['Correla√ß√£o com Churn'], y=correlacoes_df.index, palette='coolwarm')
plt.title('Correla√ß√£o das vari√°veis com Churn')
plt.xlabel('Correla√ß√£o')
plt.ylabel('Vari√°vel')
plt.tight_layout()
plt.show()

![Correla√ß√£o das vari√°veis com Churn](<../gr√°ficos/correla√ß√£o com churn.png>)

### ‚öñÔ∏è Normaliza√ß√£o dos Dados com MinMaxScaler

In [None]:
#Fazendo dados normalizados
from sklearn.preprocessing import MinMaxScaler
#Inicializando o objeto da normaliza√ß√£o em uma vari√°vel
normalizacao = MinMaxScaler()
colunas = X.columns

#Aplicando a transforma√ß√£o nos dados de treinamento com a fun√ß√£o .fit_transform()
X_normal = pd.DataFrame(normalizacao.fit_transform(X), columns=colunas)

#Visualizando as informa√ß√µes normalizadas
fig = px.histogram(X_normal, x='onehotencoder__account.Contract_Month-to-month', text_auto=True, color=Y, barmode='group')
fig.show()

![Dados Normalizados](<../gr√°ficos/dados normalizados.png>)

# Modelo RandomForestClassifier

### üì• Importa√ß√£o de Bibliotecas e Dados Tratados

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from Tratamento import X, Y

### üìä Divis√£o dos Dados e Balanceamento com SMOTE

In [None]:
#Realizando a divis√£o dos dados com 80% usado para treino
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.20)


#Balanceamento apenas dos dados de treino com SMOTE
from imblearn.over_sampling import SMOTE
oversample = SMOTE()
X_train, Y_train = oversample.fit_resample(X_train, Y_train)

### üå≤ Cria√ß√£o e Avalia√ß√£o Inicial do Modelo Random Forest

In [None]:
#Criando o modelo de arvore e utilizando a valida√ß√£o cruzada
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_validate, StratifiedKFold

#Criando um modelo
floresta = RandomForestClassifier(max_depth = 10, random_state=5)
#Aplicando o floresta
floresta.fit(X_train, Y_train)
print('\nDesempenho do modelo' ,floresta.score(X_test, Y_test))

### üîÅ Valida√ß√£o Cruzada com Pipeline + SMOTE

In [None]:
#Valida√ß√£o cruzada com pipeline
from imblearn.pipeline import Pipeline as imbpipeline

pipeline = imbpipeline([
    ('smote', SMOTE(random_state=5)),
    ('modelo', RandomForestClassifier(max_depth=10, random_state=5))
])
skf = StratifiedKFold(n_splits=10,shuffle=True,random_state=5)
cv_resultados = cross_validate(pipeline, X, Y, cv=skf, scoring='f1')
print('\nResultados da valida√ß√£o cruzada\n', cv_resultados)

#Criando uma fun√ß√£o para obter o intervalo de confian√ßa
def intervalo_conf(resultados):
    media = resultados['test_score'].mean()
    desvio_padrao = resultados['test_score'].std()
    print(f'\nIntervalo de confian√ßa: [{media - 2*desvio_padrao}, {min(media + 2*desvio_padrao, 1)}]')
intervalo_conf(cv_resultados)

### üß™ M√©tricas de Avalia√ß√£o do Modelo

In [None]:
#Observando as m√©tricas do modelo
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
Y_prev = floresta.predict(X_test)
print('Acur√°cia: ', accuracy_score(Y_test, Y_prev))
print('Precis√£o: ', precision_score(Y_test, Y_prev))
print('Recall: ', recall_score(Y_test, Y_prev))
print('F1 Score: ', f1_score(Y_test, Y_prev))

#Construindo a curva a partir das previs√µes feitas pelo modelo
from sklearn.metrics import RocCurveDisplay
RocCurveDisplay.from_predictions(Y_test, Y_prev, name='Arvore de decis√£o')
plt.show()

![Curva ROC](<../gr√°ficos/curva ROC.png>)

In [None]:
#Avaliando com a matriz de confus√£o
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

#Criando a matriz
matriz_confusao = confusion_matrix(Y_test, Y_prev)
#Visualizando a matriz de confus√£o
visualizacao = ConfusionMatrixDisplay(matriz_confusao, display_labels=['Deixou o servi√ßo', 'N√£o deixou o servi√ßo'])
visualizacao.plot()
plt.show()

![Matriz de confus√£o 1](<../gr√°ficos/matriz de confus√£o 1.png>)

### üß† Import√¢ncia das Features

In [None]:
#Entendendo agora as features mais importantes do modelo de floresta, as 10 primeiras
from yellowbrick.model_selection import FeatureImportances
viz =  FeatureImportances(floresta, relative=False)#O par√¢metro relative=False define a importancia absoluta
viz.fit(X_train, Y_train)
viz.show()

importances = floresta.feature_importances_
#Transformando em um data frame e ordenando os valores para melhorar a visualiza√ß√£o
feature_importances = pd.DataFrame({'Features': X.columns, 'Importances': importances})
feature_importances.sort_values('Importances', ascending=False, inplace=True)
print('Importancia de cada feature',feature_importances)

![Matriz de confus√£o 1](<../gr√°ficos/features importantes.png>)

In [None]:
# Fun√ß√£o para calcular as m√©tricas de classifica√ß√£o
def calcular_metricas_classificacao(y_test, y_pred):
    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred, zero_division=0)
    rec = recall_score(y_test, y_pred, zero_division=0)
    f1 = f1_score(y_test, y_pred, zero_division=0)
    
    metricas = {
        'Acur√°cia': round(acc, 4),
        'Precis√£o': round(prec, 4),
        'Recall': round(rec, 4),
        'F1 Score': round(f1, 4)
    }
    return metricas

# Redeterminando o modelo com base nas features mais importantes
# Criando um data frame onde os √≠ndices s√£o as m√©tricas
results_df = pd.DataFrame(index=['Acur√°cia', 'Precis√£o', 'Recall', 'F1 Score'])

# Recriando o modelo da floresta
model_selected_features = RandomForestClassifier(random_state=5, max_depth=5)

# Criando um loop, para pegar as 1 a 19 features mais importantes
for count in range(1, 20):
    # Selecionando os nomes das features com base no data frame das features mais importantes
    selected_features = feature_importances['Features'].values[:count]
    # Pegando os dados de treino e teste de acordo com as features selecionadas
    X_train_selected = X_train[selected_features]
    X_test_selected = X_test[selected_features]
    # Ajustando o modelo com esses novos dados de treino
    model_selected_features.fit(X_train_selected, Y_train)
    # Fazendo a previs√£o do modelo com base nos novos dados de teste
    Y_pred = model_selected_features.predict(X_test_selected)
    # Calculando as novas m√©tricas
    metricas = calcular_metricas_classificacao(Y_test, Y_pred)
    # Colocando o resultado das m√©tricas em um data frame
    results_df[count] = list(metricas.values())
print('\nResultados:\n', results_df)

### ‚úÖ Reavalia√ß√£o com as 17 Melhores Features

In [None]:
#Mantendo apenas as 17 primeiras features
selected_features = feature_importances['Features'].values[:17]
X_select_features = X[selected_features]


#Separando os dados de treino e teste apenas com essas features
X_train, X_test, Y_train, Y_test = train_test_split(X_select_features, Y, random_state=5, test_size=0.20)

### üîç Otimiza√ß√£o de Hiperpar√¢metros com GridSearchCV

In [None]:
#Recriando o pipeline
pipeline = imbpipeline([
    ('smote', SMOTE(random_state=5)),
    ('modelo', RandomForestClassifier(random_state=5, class_weight={0: 2, 1: 1}))
])

#Fazendo o modelo s√≥ que com os hiperpar√¢metros
#Grid dos par√¢metros do RandomForestClassifier
param_grid = {
    'modelo__n_estimators': [100, 150, 200],
    'modelo__max_depth': [5, 10, 15],
    'modelo__min_samples_split': [2, 4, 6],
    'modelo__min_samples_leaf': [1, 2, 3]
}

#Importando o GridSearchCV e criando o modelo
from sklearn.model_selection import GridSearchCV
floresta_grid = GridSearchCV(pipeline, param_grid=param_grid, scoring='f1', cv=skf)

#Treinando o modelo
floresta_grid.fit(X_train, Y_train)
#Visualizando os melhores par√¢metros com o metodo .best_params_
print(floresta_grid.best_params_)

### üìã Avalia√ß√£o Final do Modelo Otimizado

In [None]:
#Observando novamente as m√©tricas
Y_prev = floresta_grid.predict(X_test)
print('Acur√°cia: ', accuracy_score(Y_test, Y_prev))
print('Precis√£o: ', precision_score(Y_test, Y_prev))
print('Recall: ', recall_score(Y_test, Y_prev))
print('F1 Score: ', f1_score(Y_test, Y_prev))

#visualizando a matriz de confus√£o de novo
matriz_confusao = confusion_matrix(Y_test, Y_prev)
visualizacao = ConfusionMatrixDisplay(matriz_confusao, display_labels=['Deixou o servi√ßo', 'N√£o deixou o servi√ßo'])
visualizacao.plot()
plt.show()

![Matriz de confus√£o 2](<../gr√°ficos/matriz de confus√£o 2.png>)

# Modelo KNN

### üì• Importa√ß√£o de Bibliotecas e Dados

In [None]:
import matplotlib.pyplot as plt
from Tratamento import Y, X_normal

### üìä Divis√£o dos Dados Normalizados e Balanceamento com SMOTE

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X_normal, Y, test_size= 0.20)


#Balanceamento apenas dos dados de treino com SMOTE
from imblearn.over_sampling import SMOTE
oversample = SMOTE()
X_train, Y_train = oversample.fit_resample(X_train, Y_train)

### üîç Busca do Melhor K para o Modelo KNN (GridSearchCV)

In [None]:
#Utilizando o algoritimo KNN da biblioteca sklearn
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
#Procurando o melhor valor para K, e o melhor F1 desse valor
param_grid = {'n_neighbors': [3, 5, 7, 9, 11]}
grid = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='f1')
grid.fit(X_train, Y_train)

print('\nMelhor valor de K:\n', grid.best_params_)
print('\nMelhor Recall score:\n', grid.best_score_)

#Criando o modelo de fato com o melhor K descoberto pelo grid
#Inicializando o algoritimo em uma variavel
knn = grid.best_estimator_
#Ajustando o modelo aos dados
knn.fit(X_train, Y_train)

### üìã Avalia√ß√£o do Modelo KNN

In [None]:
#Observando as m√©tricas do modelo
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
Y_prev = knn.predict(X_test)
print('\nAcur√°cia: ', accuracy_score(Y_test, Y_prev))
print('Precis√£o: ', precision_score(Y_test, Y_prev))
print('Recall: ', recall_score(Y_test, Y_prev))
print('F1 Score: ', f1_score(Y_test, Y_prev))


#Construindo a curva a partir das previs√µes feitas pelo modelo
from sklearn.metrics import RocCurveDisplay
RocCurveDisplay.from_predictions(Y_test, Y_prev, name='KNN')
plt.show()


#Avaliando com a matriz de confus√£o
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

#Criando a matriz
matriz_confusao = confusion_matrix(Y_test, Y_prev)
#Visualizando a matriz de confus√£o
visualizacao = ConfusionMatrixDisplay(matriz_confusao, display_labels=['Deixou o servi√ßo', 'N√£o deixou o servi√ßo'])
visualizacao.plot()
plt.show()

#Foi considerado que esse modelo √© bem ruim, nem vale a pena ajustar hiperpar√¢metros


![Matriz de confus√£o KNN](<../gr√°ficos/matriz de confus√£o knn.png>)

# Relat√≥rio Final

## üìò Introdu√ß√£o

Este relat√≥rio apresenta os resultados da modelagem preditiva aplicada ao problema de **evas√£o de clientes da Telecom X**. O principal objetivo foi desenvolver modelos capazes de prever quais clientes t√™m maior chance de cancelar seus servi√ßos. As etapas envolvidas inclu√≠ram o tratamento e prepara√ß√£o dos dados, treinamento de diferentes modelos, an√°lise de desempenho e identifica√ß√£o dos fatores mais influentes na evas√£o.

## üõ†Ô∏è Metodologia

### Pr√©-processamento

- Tratamento de valores nulos: Substitui√ß√£o por m√©dia (para vari√°veis num√©ricas).

- Encoding de vari√°veis:
    - Bin√°rias: substitu√≠das por 0 e 1.
    - Categ√≥ricas com m√∫ltiplos valores: transformadas por One-Hot Encoding.

- Cria√ß√£o de novas vari√°veis:
    - has.PhoneService e has.InternetService: sinalizam se o cliente possui algum servi√ßo b√°sico ativo.

- Normaliza√ß√£o: Aplicada via MinMaxScaler para modelos sens√≠veis √† escala.

- Balanceamento da base de treino: Realizado com SMOTE, para lidar com a despropor√ß√£o entre classes (73,5% n√£o sa√≠ram vs. 26,5% que sa√≠ram).

### Modelos treinados

Com base na matriz de confus√£o, foi decidido que a m√©trica √† ser priorizada seria o Recall, que representa a taxa de verdadeiros positivos que foram classificados como positivos mesmo, visto que a taxa de dados que foi decidida minimizar foi a dos falsos negativos.

- Modelo 1 ‚Äì KNN (K-Nearest Neighbors)
    Melhor K: 5

    M√©tricas: Acur√°cia: 
    - **74%** / Precis√£o: **57%** / Recall: **53%** / F1 Score: **55%**

Conclus√£o: Modelo com desempenho insatisfat√≥rio, especialmente no recall (foco principal).

- Modelo 2 - Random Forest Classifier
    Par√¢metros ajustados via GridSearch: 
    - n_estimators: **150** / max_depth: **10** / min_samples_split: **2** / min_samples_leaf: **2**


    Class weight ajustado para reduzir falsos negativos: {0: 2, 1: 1}


    M√©tricas com 17 features mais importantes: Acur√°cia: 
    - **80%** / Precis√£o: **66%** / Recall: **72%** / F1 Score: **69%**

Conclus√£o: Melhor modelo para o objetivo do problema (maximizar o recall).

## üîç An√°lise de Import√¢ncia das Vari√°veis

- As 10 vari√°veis mais relevantes no modelo de Floresta foram:

| Rank | Vari√°vel                               | Descri√ß√£o                                                  |
| ---- | -------------------------------------- | ---------------------------------------------------------- |
| 1    | `account.Contract_Month-to-month`      | Contrato mensal: forte indicativo de churn                 |
| 2    | `account.tenure`                       | Tempo como cliente: quanto menor, maior o risco            |
| 3    | `account.MonthlyCharges`               | Cobran√ßa mensal: valores altos correlacionam com evas√£o    |
| 4    | `has.InternetService`                  | Clientes com internet s√£o mais sens√≠veis ao servi√ßo        |
| 5    | `internet.InternetService_Fiber optic` | Clientes de fibra √≥ptica apresentaram maior evas√£o         |
| 6    | `account.PaperlessBilling`             | Cobran√ßa sem papel aumenta risco de evas√£o                 |
| 7    | `internet.OnlineSecurity`              | Clientes com seguran√ßa online tendem a permanecer mais     |
| 8    | `customer.Partner`                     | Clientes sem parceiro t√™m maior probabilidade de sair      |
| 9    | `account.TotalCharges`                 | Menores valores totais acumulados sugerem menos fidelidade |
| 10   | `internet.TechSupport`                 | Suporte t√©cnico reduz a chance de evas√£o                   |


- Com base na an√°lise dos gr√°ficos de correla√ß√£o e nas vari√°veis mais relevantes identificadas pelo modelo preditivo, observou-se que √© fundamental priorizar a aten√ß√£o aos clientes com menor tempo de v√≠nculo com a empresa. Clientes com contratos do tipo m√™s a m√™s apresentam uma propens√£o significativamente maior √† evas√£o, uma vez que possuem maior liberdade e facilidade para cancelar o servi√ßo a qualquer momento.

- Esse padr√£o √© refor√ßado pela influ√™ncia direta do tempo total de contrato (tenure) sobre o churn: quanto menor o tempo de perman√™ncia, maior o risco de cancelamento. Isso indica que os primeiros meses da jornada do cliente s√£o cr√≠ticos e exigem a√ß√µes estrat√©gicas para aumentar o engajamento e a fideliza√ß√£o.

- Outro fator de destaque √© o valor da cobran√ßa mensal, que demonstrou forte correla√ß√£o com os contratos de curta dura√ß√£o. Cobran√ßas elevadas, especialmente em contratos mensais, podem contribuir para a insatisfa√ß√£o e impulsionar a decis√£o de cancelamento. Portanto, ofertas mais flex√≠veis e ajustadas ao perfil de consumo desses clientes podem ser uma medida eficaz para reduzir a evas√£o.


## üéØ Estrat√©gias de Reten√ß√£o com Base nos Resultado

- **Campanhas de incentivo √† migra√ß√£o para contratos de longo prazo** (trimestral ou anual), oferecendo descontos progressivos ou b√¥nus (como dados extras, meses gratuitos ou upgrades de servi√ßo).

- **Comunica√ß√£o segmentada com foco nos benef√≠cios da fidelidade**, seguran√ßa e estabilidade de pre√ßos em contratos mais longos.

- **Implantar um programa de onboarding personalizado**, com suporte t√©cnico inicial e materiais educativos sobre o uso do servi√ßo.

- **Oferecer benef√≠cios exclusivos para pagamentos antecipados ou combo de servi√ßos**, agregando valor √† experi√™ncia e diluindo a percep√ß√£o de custo elevado.

- **Realizar contato proativo nos primeiros 30 dias**, via e-mail ou liga√ß√£o, para garantir satisfa√ß√£o e resolver eventuais problemas rapidamente.
