In [1]:
import pandas as pd

# Carregar o arquivo Excel
df = pd.read_excel("churn.xlsx")

# Mostrar as primeiras linhas
df.head()



Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7569-NMZYQ,Female,0,Yes,Yes,72,Yes,Yes,Fiber optic,Yes,...,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),118.75,8672.45,No
1,8984-HPEMB,Female,0,No,No,71,Yes,Yes,Fiber optic,Yes,...,Yes,Yes,Yes,Yes,Two year,Yes,Electronic check,118.65,8477.6,No
2,5989-AXPUC,Female,0,Yes,No,68,Yes,Yes,Fiber optic,Yes,...,Yes,Yes,Yes,Yes,Two year,No,Mailed check,118.6,7990.05,No
3,5734-EJKXG,Female,0,No,No,61,Yes,Yes,Fiber optic,Yes,...,Yes,Yes,Yes,Yes,One year,Yes,Electronic check,118.6,7365.7,No
4,8199-ZLLSA,Male,0,No,No,67,Yes,Yes,Fiber optic,Yes,...,Yes,Yes,Yes,Yes,One year,Yes,Bank transfer (automatic),118.35,7804.15,Yes


In [2]:
# Verificando o tamanho e o formato dos dados
print("Formato do dataset (linhas, colunas):", df.shape)

# Verificando os tipos de dados
print("\nTipos de dados por coluna:\n")
print(df.dtypes)

# Verificando se existem valores ausentes
print("\nValores nulos por coluna:\n")
print(df.isnull().sum())

# Verificando valores únicos na variável alvo
print("\nDistribuição da variável alvo (Churn):")
print(df['Churn'].value_counts())

# Percentual de churn vs não churn
print("\nPercentual:")
print(df['Churn'].value_counts(normalize=True) * 100)

# Ver algumas estatísticas numéricas (exclui colunas categóricas automaticamente)
print("\nEstatísticas descritivas:")
print(df.describe())


Formato do dataset (linhas, colunas): (7043, 21)

Tipos de dados por coluna:

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges        float64
Churn                object
dtype: object

Valores nulos por coluna:

customerID           0
gender               0
SeniorCitizen        0
Partner              0
Dependents           0
tenure               0
PhoneService         0
MultipleLines        0
InternetService      0
OnlineSecurity       0
OnlineBackup         0
DeviceProtection     0
TechSupport     

In [3]:
# Verificando valores nulos novamente
print("Valores nulos em TotalCharges:", df['TotalCharges'].isnull().sum())

# Exibindo as linhas com valores nulos em TotalCharges
print("\nLinhas com TotalCharges nulo:")
print(df[df['TotalCharges'].isnull()])

# Vamos remover essas linhas, pois são poucas (11 de 7043)
df = df.dropna(subset=['TotalCharges'])

# Resetar os índices depois da remoção
df.reset_index(drop=True, inplace=True)

# Remover colunas irrelevantes para análise
df.drop(columns=['customerID'], inplace=True)

# Verificar se ainda tem valores vazios ou nulos
print("\nValores nulos após a limpeza:")
print(df.isnull().sum())


Valores nulos em TotalCharges: 11

Linhas com TotalCharges nulo:
      customerID  gender  SeniorCitizen Partner Dependents  tenure  \
2531  5709-LVOEQ  Female              0     Yes        Yes       0   
3343  4075-WKNIU  Female              0     Yes        Yes       0   
4023  2775-SEFEE    Male              0      No        Yes       0   
4315  1371-DWPAZ  Female              0     Yes        Yes       0   
4583  4472-LVYGI  Female              0     Yes        Yes       0   
5484  4367-NUYAO    Male              0     Yes        Yes       0   
5549  3213-VVOLG    Male              0     Yes        Yes       0   
6213  3115-CZMZD    Male              0      No        Yes       0   
6429  2520-SGTTA  Female              0     Yes        Yes       0   
6562  7644-OMVMY    Male              0     Yes        Yes       0   
6682  2923-ARZLG    Male              0     Yes        Yes       0   

     PhoneService     MultipleLines InternetService       OnlineSecurity  ...  \
2531         

In [4]:
from sklearn.preprocessing import LabelEncoder

# Criar uma cópia do dataframe
df_model = df.copy()

# Codificando a variável alvo (Churn: Yes -> 1, No -> 0)
df_model['Churn'] = df_model['Churn'].map({'Yes': 1, 'No': 0})

# Codificando todas as variáveis categóricas restantes com LabelEncoder
le = LabelEncoder()
for col in df_model.select_dtypes(include=['object']).columns:
    df_model[col] = le.fit_


AttributeError: 'LabelEncoder' object has no attribute 'fit_'

In [5]:
from sklearn.preprocessing import LabelEncoder

# Criar uma cópia do dataframe
df_model = df.copy()

# Codificando a variável alvo (Churn: Yes -> 1, No -> 0)
df_model['Churn'] = df_model['Churn'].map({'Yes': 1, 'No': 0})

# Codificando todas as variáveis categóricas restantes com LabelEncoder
le = LabelEncoder()
for col in df_model.select_dtypes(include=['object']).columns:
    df_model[col] = le.fit_transform(df_model[col])

# Separando X (variáveis independentes) e y (variável alvo)
X = df_model.drop(columns=['Churn'])
y = df_model['Churn']

# Mostrando uma amostra dos dados codificados
print("Exemplo dos dados tratados:")
print(X.head())

print("\nVariável alvo:")
print(y.head())


Exemplo dos dados tratados:
   gender  SeniorCitizen  Partner  Dependents  tenure  PhoneService  \
0       0              0        1           1      72             1   
1       0              0        0           0      71             1   
2       0              0        1           0      68             1   
3       0              0        0           0      61             1   
4       1              0        0           0      67             1   

   MultipleLines  InternetService  OnlineSecurity  OnlineBackup  \
0              2                1               2             2   
1              2                1               2             2   
2              2                1               2             2   
3              2                1               2             2   
4              2                1               2             2   

   DeviceProtection  TechSupport  StreamingTV  StreamingMovies  Contract  \
0                 2            2            2                2    

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Dividindo os dados em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando e treinando o modelo de Regressão Logística
model_log = LogisticRegression(max_iter=1000)
model_log.fit(X_train, y_train)

# Fazendo previsões
y_pred_log = model_log.predict(X_test)

# Avaliando o modelo
print("🔎 Acurácia da Regressão Logística:", accuracy_score(y_test, y_pred_log))
print("\n📊 Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred_log))

print("\n📋 Relatório de Classificação:")
print(classification_report(y_test, y_pred_log))


🔎 Acurácia da Regressão Logística: 0.7860696517412935

📊 Matriz de Confusão:
[[895 132]
 [169 211]]

📋 Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.84      0.87      0.86      1027
           1       0.62      0.56      0.58       380

    accuracy                           0.79      1407
   macro avg       0.73      0.71      0.72      1407
weighted avg       0.78      0.79      0.78      1407

