In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("blastchar/telco-customer-churn")

print("Path to dataset files:", path)

Path to dataset files: C:\Users\Nichole\.cache\kagglehub\datasets\blastchar\telco-customer-churn\versions\1


In [9]:
import pandas as pd
import os

file_path = os.path.join(path, "WA_Fn-UseC_-Telco-Customer-Churn.csv")
df = pd.read_csv(file_path)
print(df.head())

   customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
2  3668-QPYBK    Male              0      No         No       2          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
4  9237-HQITU  Female              0      No         No       2          Yes   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
2                No             DSL            Yes  ...               No   
3  No phone service             DSL            Yes  ...              Yes   
4                No     Fiber optic             No  ...               No   

  TechSupport StreamingTV StreamingMovies        Contract Pape

In [None]:
# Quantidade de clientes que cancelaram o servi√ßo e que n√£o cancelaram
churn_counts = df['Churn'].value_counts()
print("Churn counts:\n", churn_counts)

# porcentagem de clientes que cancelaram o servi√ßo
churn_percentage = df['Churn'].value_counts(normalize=True) * 100
print("Churn percentage:\n", churn_percentage.round(2))

Churn counts:
 Churn
No     5174
Yes    1869
Name: count, dtype: int64
Churn percentage:
 Churn
No     73.46
Yes    26.54
Name: proportion, dtype: float64


In [None]:
# O objetivo √© analisar os poss√≠veis motivos que levam um cliente a cancelar o servi√ßo identificando padr√µes de comportamento entre os clientes que permanecem e os que cancelam.

# Primeiro, vou criar duas vari√°veis separadas: uma para os clientes que cancelaram o servi√ßo e outra para os que n√£o cancelaram.
churned_customers = df[df['Churn'] == 'Yes']
retained_customers = df[df['Churn'] == 'No']

print("Churned Customers Shape:", churned_customers.head())
print("Retained Customers Shape:", retained_customers.head())

Retained Customers Shape:    customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
6  1452-KIOVK    Male              0      No        Yes      22          Yes   
7  6713-OKOMC  Female              0      No         No      10           No   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
3  No phone service             DSL            Yes  ...              Yes   
6               Yes     Fiber optic             No  ...               No   
7  No phone service             DSL            Yes  ...               No   

  TechSupport StreamingTV StreamingM

In [None]:
# Agora, vou analisar separadamente as caracter√≠sticas de cada grupo para identificar diferen√ßas significativas que possam indicar os motivos do cancelamento.
# Por exemplo, a coluna "tenure" (tempo de perman√™ncia) pode ser um fator importante. Vou calcular a m√©dia do tempo de perman√™ncia para ambos os grupos.
avg_tenure_churned = churned_customers['tenure'].mean()
print("Average Tenure of Churned Customers:", avg_tenure_churned.round(2))
avg_tenure_retained = retained_customers['tenure'].mean()
print("Average Tenure of Retained Customers:", avg_tenure_retained.round(2))

# O resultado foi que os clientes que cancelaram o servi√ßo t√™m, em m√©dia, um tempo de perman√™ncia significativamente menor do que os clientes que permaneceram.
# Isso sugere que o tempo de perman√™ncia pode ser um fator importante no cancelamento do servi√ßo.

# ü§® Mas por qual motivo os clientes novatos cancelaram o contrato? O que poderia fazer com que eles fiquem mais tempo na empresa?

Average Tenure of Churned Customers: 17.98
Average Tenure of Retained Customers: 37.57


In [None]:
# Qual g√™nero mais cancela o servi√ßo?

sum_churned_women = churned_customers[churned_customers['gender']
                                      == 'Female'].shape[0]
print("Total de mulheres que cancelaram o servi√ßo:", sum_churned_women)

sum_churned_man = churned_customers[churned_customers['gender']
                                    == 'Male'].shape[0]
print("Total de homens que cancelaram o servi√ßo:", sum_churned_man)

# O resultado n√£o parece interferir muito, mas as mulheres cancelaram um pouco mais o servi√ßo do que os homens.
# √â necess√°rio analisar cada coluna dentro do dataset para entender quais fatores influenciam no cancelamento do servi√ßo.
# Fonte de livro:
# ‚ÄúPractical Statistics for Data Scientists‚Äù, O‚ÄôReilly (Bruce et al., 2020), cap. 2‚Äì3
# ‚Üí Apresenta a necessidade de an√°lises univariadas estratificadas por classe como primeira etapa explorat√≥ria.

Total de mulheres que cancelaram o servi√ßo: 939
Total de homens que cancelaram o servi√ßo: 930


In [41]:
# Agora vou analisar a coluna "SeniorCitizen" para ver se h√° alguma diferen√ßa entre os clientes idosos e n√£o idosos em rela√ß√£o ao cancelamento do servi√ßo.

sum_churned_senior = churned_customers[churned_customers['SeniorCitizen'] == 1].shape[0]
print("Total de idosos que cancelaram o servi√ßo:", sum_churned_senior)
sum_churned_not_senior = churned_customers[churned_customers['SeniorCitizen'] == 0].shape[0]
print("Total de n√£o idosos que cancelaram o servi√ßo:", sum_churned_not_senior)

# O resultado mostra que os clientes n√£o idosos cancelaram o servi√ßo mais vezes do que os idosos.
# Mas isso n√£o diz nada.

# Vou descobrir quantos idosos e n√£o idosos existem no dataset para entender melhor esses n√∫meros.
total_senior = df[df['SeniorCitizen'] == 1].shape[0]
print("Total de idosos no dataset:", total_senior)
total_not_senior = df[df['SeniorCitizen'] == 0].shape[0]
print("Total de n√£o idosos no dataset:", total_not_senior)

# C√°lculo de taxas de cancelamento dos idosos e n√£o idosos
churn_rate_senior = (sum_churned_senior / total_senior) * 100
print("Taxa de cancelamento dos idosos: {:.2f}%".format(churn_rate_senior))
churn_rate_not_senior = (sum_churned_not_senior / total_not_senior) * 100
print("Taxa de cancelamento dos n√£o idosos: {:.2f}%".format(
    churn_rate_not_senior))

# Podemos ver que os idosos t√™m uma taxa de cancelamento maior do que os n√£o idosos.
# Isso sugere que ser idoso pode ser um fator que influencia no cancelamento do servi√ßo
# Relative Risk (RR) Risk Ratio raz√£o de riscos

rr = churn_rate_senior / churn_rate_not_senior
print(
    "Relative Risk (RR) de idosos em rela√ß√£o aos n√£o idosos: {:.2f}".format(rr))

Total de idosos que cancelaram o servi√ßo: 476
Total de n√£o idosos que cancelaram o servi√ßo: 1393
Total de idosos no dataset: 1142
Total de n√£o idosos no dataset: 5901
Taxa de cancelamento dos idosos: 41.68%
Taxa de cancelamento dos n√£o idosos: 23.61%
Relative Risk (RR) de idosos em rela√ß√£o aos n√£o idosos: 1.77
