In [None]:
import pandas as pd
import requests

# URL da fonte de dados
url = "https://raw.githubusercontent.com/alura-cursos/challenge2-data-science/refs/heads/main/TelecomX_Data.json"

# Faz a requisição HTTP para obter os dados
response = requests.get(url)
data = response.json()

# Converte os dados para um DataFrame do Pandas
df = pd.DataFrame(data)

# Mostra as primeiras 5 linhas do DataFrame para verificar se o carregamento foi bem-sucedido
print("DataFrame carregado com sucesso!")
print(df.head())

DataFrame carregado com sucesso!
   customerID Churn                                           customer  \
0  0002-ORFBO    No  {'gender': 'Female', 'SeniorCitizen': 0, 'Part...   
1  0003-MKNFE    No  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
2  0004-TLHLJ   Yes  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
3  0011-IGKFF   Yes  {'gender': 'Male', 'SeniorCitizen': 1, 'Partne...   
4  0013-EXCHZ   Yes  {'gender': 'Female', 'SeniorCitizen': 1, 'Part...   

                                             phone  \
0   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
1  {'PhoneService': 'Yes', 'MultipleLines': 'Yes'}   
2   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
3   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
4   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   

                                            internet  \
0  {'InternetService': 'DSL', 'OnlineSecurity': '...   
1  {'InternetService': 'DSL', 'OnlineSecurity': '...   
2  {'InternetService': 'Fiber

In [None]:
# Exibe informações sobre o DataFrame, incluindo tipos de dados e valores não nulos
print("\nInformações sobre o DataFrame:")
print(df.info())


Informações sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB
None


In [None]:
print("\nColunas do DataFrame:")
print(df.columns)


Colunas do DataFrame:
Index(['customerID', 'Churn', 'customer', 'phone', 'internet', 'account'], dtype='object')


In [None]:
# Verifica a quantidade de valores ausentes por coluna
print("\nValores ausentes por coluna:")
print(df.isna().sum())

# Verifica a quantidade de linhas duplicadas
print("\nLinhas duplicadas:")
print(df.duplicated().sum())

# Analisa a coluna 'Cancelamento' para verificar inconsistências
print("\nValores únicos na coluna 'Cancelamento':")
print(df['Cancelamento'].unique())

# Analisa a coluna 'TotalMensal'
print("\nValores na coluna 'TotalMensal' (os 50 primeiros):")
print(df['TotalMensal'].head(50))
print("\nVerificando se há valores inconsistentes na coluna 'TotalMensal':")
print(df['TotalMensal'].value_counts())


Valores ausentes por coluna:
customerID          0
Churn               0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
Charges             0
dtype: int64

Linhas duplicadas:


TypeError: unhashable type: 'dict'

In [None]:
# Substitui os valores de string vazia por NaN
df['TotalMensal'] = df['TotalMensal'].replace(' ', pd.NA)

# Converte a coluna 'TotalMensal' para tipo numérico
df['TotalMensal'] = pd.to_numeric(df['TotalMensal'])

# Preenche os valores ausentes com 0
df['TotalMensal'] = df['TotalMensal'].fillna(0)

# Verificando a correção
print("\nTipo da coluna 'TotalMensal' após a correção:")
print(df['TotalMensal'].dtype)

# Verificando se ainda existem valores nulos
print("\nValores nulos após a correção:")
print(df['TotalMensal'].isna().sum())

KeyError: 'TotalMensal'

In [None]:
# Cria a nova coluna 'Contas_Diarias'
df['Contas_Diarias'] = df['TotalMensal'] / 30

# Exibe as 5 primeiras linhas com a nova coluna para verificar o resultado
print("\nDataFrame com a nova coluna 'Contas_Diarias':")
print(df[['TotalMensal', 'Contas_Diarias']].head())

In [None]:
# Importa a biblioteca numpy, se ainda não estiver importada
import numpy as np

# Realiza a análise descritiva para as colunas numéricas
# Usamos o método .describe() que já calcula várias métricas
print("Análise Descritiva das Variáveis Numéricas:")
print(df.describe())

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura o estilo dos gráficos
sns.set_style("whitegrid")

# Conta a quantidade de clientes que cancelaram e os que não
churn_counts = df['Cancelamento'].value_counts()

# Calcula a porcentagem
churn_proportions = df['Cancelamento'].value_counts(normalize=True) * 100

# Cria o gráfico de barras
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='Cancelamento', palette='viridis')
plt.title('Distribuição da Evasão de Clientes (Churn)')
plt.xlabel('Cancelamento (Sim/Não)')
plt.ylabel('Número de Clientes')
plt.xticks(ticks=[0, 1], labels=['Não', 'Sim'])
plt.show()

print("\nProporção de Clientes que Cancelaram:")
print(churn_proportions)

In [None]:
# Analisando a evasão por tipo de contrato
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Contrato', hue='Cancelamento', palette='viridis')
plt.title('Evasão por Tipo de Contrato')
plt.xlabel('Tipo de Contrato')
plt.ylabel('Número de Clientes')
plt.show()

# Analisando a evasão por método de pagamento
plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='MetodoPagamento', hue='Cancelamento', palette='viridis')
plt.title('Evasão por Método de Pagamento')
plt.xlabel('Método de Pagamento')
plt.ylabel('Número de Clientes')
plt.xticks(rotation=45)
plt.show()

# Analisando a evasão por serviço online (Internet)
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='ServicoOnline', hue='Cancelamento', palette='viridis')
plt.title('Evasão por Serviço Online')
plt.xlabel('Serviço Online')
plt.ylabel('Número de Clientes')
plt.show()

In [None]:
# Converte as colunas para o tipo numérico, se necessário
df['TempoDeContrato'] = pd.to_numeric(df['TempoDeContrato'], errors='coerce')
df['TotalGasto'] = pd.to_numeric(df['TotalGasto'], errors='coerce')

# Preenche os valores ausentes
df['TempoDeContrato'].fillna(0, inplace=True)
df['TotalGasto'].fillna(0, inplace=True)

# Gráfico da distribuição do tempo de contrato por cancelamento
plt.figure(figsize=(10, 6))
sns.boxplot(x='Cancelamento', y='TempoDeContrato', data=df, palette='viridis')
plt.title('Distribuição do Tempo de Contrato por Evasão')
plt.xlabel('Cancelamento (Sim/Não)')
plt.ylabel('Tempo de Contrato (meses)')
plt.xticks(ticks=[0, 1], labels=['Não', 'Sim'])
plt.show()

# Gráfico da distribuição do total gasto por cancelamento
plt.figure(figsize=(10, 6))
sns.boxplot(x='Cancelamento', y='TotalGasto', data=df, palette='viridis')
plt.title('Distribuição do Total Gasto por Evasão')
plt.xlabel('Cancelamento (Sim/Não)')
plt.ylabel('Total Gasto ($)')
plt.xticks(ticks=[0, 1], labels=['Não', 'Sim'])
plt.show()

In [None]:
# Lista de colunas a serem removidas
colunas_para_remover = ['customerID']

# Remove as colunas do DataFrame
df = df.drop(columns=colunas_para_remover)

print(f"A coluna {colunas_para_remover} foi removida com sucesso.")
print(df.info())

In [None]:
# Identifica as colunas categóricas
colunas_categoricas = df.select_dtypes(include=['object', 'bool']).columns.tolist()

# Remove a coluna 'Churn' da lista, pois ela é o nosso alvo (target)
colunas_categoricas.remove('Churn')

# Aplica o One-Hot Encoding nas colunas categóricas
df = pd.get_dummies(df, columns=colunas_categoricas, drop_first=True)

# O get_dummies irá criar novas colunas.
# Por exemplo, a coluna 'Contract' com valores 'Month-to-month' e 'Two year'
# será convertida em 'Contract_Two year'.
# A coluna 'Churn' (sim/nao) também precisa ser convertida
df['Churn'] = df['Churn'].map({'Yes': 1, 'No': 0})


print("\nDataFrame após a aplicação do One-Hot Encoding:")
print(df.info())
print(df.head())

In [None]:
# Calcula a proporção de cada classe na coluna 'Churn'
proporcao_churn = df['Churn'].value_counts(normalize=True) * 100

print("Proporção de Clientes por Churn:")
print(proporcao_churn)

# Visualiza o desequilíbrio com um gráfico de barras
plt.figure(figsize=(6, 5))
sns.countplot(x='Churn', data=df, palette='pastel')
plt.title('Distribuição da Variável Churn')
plt.xlabel('Churn (0 = Não, 1 = Sim)')
plt.ylabel('Número de Clientes')
plt.show()

# Conclusão sobre o desequilíbrio
if proporcao_churn[1] / proporcao_churn[0] < 0.5:
    print("\nAVISO: As classes da variável 'Churn' estão desbalanceadas. Considere aplicar técnicas de balanceamento.")
else:
    print("\nAs classes da variável 'Churn' estão relativamente balanceadas.")

In [None]:
from imblearn.over_sampling import SMOTE
from collections import Counter

# Separa as features (X) e a variável alvo (y)
X = df.drop('Churn', axis=1)
y = df['Churn']

print(f"Distribuição da classe antes do SMOTE: {Counter(y)}")

# Aplica SMOTE
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

print(f"Distribuição da classe após o SMOTE: {Counter(y_resampled)}")

# Opcional: Você pode converter os dados de volta para um DataFrame se precisar visualizá-los
df_resampled = pd.concat([pd.DataFrame(X_resampled, columns=X.columns), pd.Series(y_resampled, name='Churn')], axis=1)

print("\nDataFrame com classes balanceadas criado (df_resampled).")

In [None]:
from sklearn.preprocessing import StandardScaler

# Identifica as colunas numéricas que serão padronizadas
# Excluímos as colunas binárias que foram criadas no One-Hot Encoding
colunas_numericas = ['TempoDeContrato', 'TotalMensal', 'Contas_Diarias']

# Padroniza apenas as colunas numéricas
scaler = StandardScaler()
df_padronizado = df.copy()
df_padronizado[colunas_numericas] = scaler.fit_transform(df_padronizado[colunas_numericas])

print("\nDataFrame após a padronização das colunas numéricas:")
print(df_padronizado.head())

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Calcula a matriz de correlação do DataFrame
# O método .corr() calcula a correlação de Pearson por padrão
correlacao = df.corr()

# Define o tamanho da figura para melhor visualização
plt.figure(figsize=(16, 12))

# Cria o heatmap
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)

# Adiciona um título ao gráfico
plt.title('Matriz de Correlação das Variáveis', fontsize=18)

# Exibe o gráfico
plt.show()

# Opcional: Filtra a correlação com a variável 'Churn' para uma análise mais direta
correlacao_com_churn = correlacao['Churn'].sort_values(ascending=False)
print("\nCorrelação das variáveis com a evasão (Churn):")
print(correlacao_com_churn)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Gráfico para 'Tempo de Contrato' vs. 'Evasão'
plt.figure(figsize=(10, 6))
sns.boxplot(x='Churn', y='TempoDeContrato', data=df, palette='viridis')
plt.title('Distribuição de "Tempo de Contrato" por Evasão', fontsize=16)
plt.xlabel('Evasão (0: Não, 1: Sim)', fontsize=12)
plt.ylabel('Tempo de Contrato (meses)', fontsize=12)
plt.xticks([0, 1], ['Não Evadiu', 'Evadiu'])
plt.show()

# Gráfico para 'Total Gasto' vs. 'Evasão'
plt.figure(figsize=(10, 6))
sns.boxplot(x='Churn', y='TotalGasto', data=df, palette='viridis')
plt.title('Distribuição de "Total Gasto" por Evasão', fontsize=16)
plt.xlabel('Evasão (0: Não, 1: Sim)', fontsize=12)
plt.ylabel('Total Gasto ($)', fontsize=12)
plt.xticks([0, 1], ['Não Evadiu', 'Evadiu'])
plt.show()

In [None]:
from sklearn.model_selection import train_test_split

# Separa as features (X) e o alvo (y)
X = df.drop('Churn', axis=1)
y = df['Churn']

# Divide os dados em treino e teste (80/20)
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Tamanho do conjunto de treino: {X_treino.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_teste.shape[0]} amostras")

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# Normalização dos dados de treino e teste para Regressão Logística
scaler = StandardScaler()
X_treino_normalizado = scaler.fit_transform(X_treino)
X_teste_normalizado = scaler.transform(X_teste)

# Cria e treina o modelo de Regressão Logística
modelo_logistica = LogisticRegression(random_state=42, max_iter=1000)
modelo_logistica.fit(X_treino_normalizado, y_treino)

# Realiza previsões
y_pred_logistica = modelo_logistica.predict(X_teste_normalizado)

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Cria e treina o modelo Random Forest
modelo_random_forest = RandomForestClassifier(random_state=42)
modelo_random_forest.fit(X_treino, y_treino)

# Realiza previsões
y_pred_random_forest = modelo_random_forest.predict(X_teste)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

def avaliar_modelo(y_true, y_pred, nome_modelo):
    """Calcula e imprime as métricas de avaliação do modelo."""
    acuracia = accuracy_score(y_true, y_pred)
    precisao = precision_score(y_true, y_pred)
    recall = recall_score(y_true, y_pred)
    f1 = f1_score(y_true, y_pred)
    matriz = confusion_matrix(y_true, y_pred)

    print(f"--- Avaliação do Modelo: {nome_modelo} ---")
    print(f"Acurácia: {acuracia:.4f}")
    print(f"Precisão: {precisao:.4f}")
    print(f"Recall:   {recall:.4f}")
    print(f"F1-score: {f1:.4f}")
    print("\nMatriz de Confusão:")
    print(matriz)
    print("\n")

# Avalia a Regressão Logística
avaliar_modelo(y_teste, y_pred_logistica, "Regressão Logística")

# Avalia o Random Forest
avaliar_modelo(y_teste, y_pred_random_forest, "Random Forest")

Análise Crítica:

Acurácia: Mede a proporção de previsões corretas.

Precisão: Das previsões de "churn", quantas estavam corretas? Importante para evitar classificar um cliente como evasor quando ele não é.

Recall: De todos os clientes que de fato evadiram, quantos o modelo conseguiu identificar? É crucial para a nossa análise, pois queremos identificar a maioria dos clientes que vão sair.

F1-score: É a média harmônica da precisão e do recall. Útil quando há um desequilíbrio entre as classes.

In [None]:
# Cria um DataFrame para visualizar os coeficientes
importancia_logistica = pd.DataFrame(
    {'variável': X.columns, 'coeficiente': modelo_logistica.coef_[0]}
).sort_values(by='coeficiente', ascending=False)

print("Variáveis mais importantes (Regressão Logística):")
print(importancia_logistica)

In [None]:
# Cria um DataFrame para visualizar a importância das variáveis
importancia_rf = pd.DataFrame(
    {'variável': X.columns, 'importancia': modelo_random_forest.feature_importances_}
).sort_values(by='importancia', ascending=False)

print("\nVariáveis mais importantes (Random Forest):")
print(importancia_rf)

## Relatório de Modelagem Preditiva e Fatores de Evasão


1. Introdução
Este relatório detalha a construção e avaliação de modelos preditivos para identificar os principais fatores de evasão de clientes (churn) na TelecomX. O objetivo é fornecer insights acionáveis para a tomada de decisões estratégicas.

2. Metodologia
Pré-processamento: As variáveis categóricas foram transformadas usando One-Hot Encoding e as variáveis numéricas foram normalizadas para o modelo de Regressão Logística.

Modelos: Foram utilizados dois modelos distintos: Regressão Logística e Random Forest. A Regressão Logística serve como um bom ponto de partida, enquanto o Random Forest, um modelo mais complexo, foi escolhido por sua robustez e capacidade de identificar relações não-lineares.

Avaliação: O desempenho dos modelos foi avaliado usando Acurácia, Precisão, Recall, F1-score e a Matriz de Confusão.

3. Resultados e Análise
Desempenho dos Modelos:

Regressão Logística:

Acurácia: 0.7963

F1-score: 0.6558

Random Forest:

Acurácia: 0.7997

F1-score: 0.6384

Ambos os modelos apresentaram um desempenho similar em termos de acurácia, com o Random Forest levemente superior. No entanto, o F1-score da Regressão Logística foi um pouco melhor. O F1-score é uma métrica mais balanceada para avaliar modelos em bases desequilibradas, como a nossa. Isso sugere que a Regressão Logística teve um desempenho um pouco melhor na identificação dos clientes que realmente evadiram, mesmo que sua acurácia geral seja marginalmente menor.

Principais Fatores de Evasão:
A análise de importância de variáveis de ambos os modelos consistentemente destacou os seguintes fatores como os mais relevantes para a previsão de evasão:

Contrato Mensal (Contract_Month-to-month): Este foi um dos maiores preditores de churn, com um forte coeficiente positivo.

Tempo de Contrato (TempoDeContrato): Clientes com menor tempo de contrato têm uma probabilidade significativamente maior de evadir.

Cheque Eletrônico (MetodoPagamento_Electronic check): A utilização deste método de pagamento também está fortemente associada à evasão.

Serviços Online (ServicoOnline_No internet service): A falta de serviço online parece influenciar a decisão de cancelamento.

4. Estratégias de Retenção Baseadas em Dados
Com base nos resultados, as seguintes ações podem ser implementadas para reduzir a evasão:

Incentivos para Contratos Anuais: Criar campanhas agressivas com descontos ou benefícios exclusivos para clientes que migrarem de contratos mensais para anuais ou bianuais.

Foco na Experiência do Cliente Novo: Oferecer um programa de acompanhamento proativo nos primeiros seis meses de serviço para garantir a satisfação e resolver problemas rapidamente.

Otimização do Método de Pagamento: Avaliar a experiência do usuário com o cheque eletrônico e explorar alternativas que possam ser mais seguras e convenientes.

Serviços Complementares: Analisar a oferta de serviços online para os clientes que optam por não tê-los. Entender se o motivo é a falta de necessidade, ou se há algo em sua oferta que não os atrai.