In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("blastchar/telco-customer-churn")

print("Path to dataset files:", path)

Path to dataset files: C:\Users\Nichole\.cache\kagglehub\datasets\blastchar\telco-customer-churn\versions\1


In [9]:
import pandas as pd
import os

file_path = os.path.join(path, "WA_Fn-UseC_-Telco-Customer-Churn.csv")
df = pd.read_csv(file_path)
print(df.head())

   customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
2  3668-QPYBK    Male              0      No         No       2          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
4  9237-HQITU  Female              0      No         No       2          Yes   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
2                No             DSL            Yes  ...               No   
3  No phone service             DSL            Yes  ...              Yes   
4                No     Fiber optic             No  ...               No   

  TechSupport StreamingTV StreamingMovies        Contract Pape

In [None]:
# Quantidade de clientes que cancelaram o servi√ßo e que n√£o cancelaram
churn_counts = df['Churn'].value_counts()
print("Churn counts:\n", churn_counts)

# porcentagem de clientes que cancelaram o servi√ßo
churn_percentage = df['Churn'].value_counts(normalize=True) * 100
print("Churn percentage:\n", churn_percentage.round(2))

Churn counts:
 Churn
No     5174
Yes    1869
Name: count, dtype: int64
Churn percentage:
 Churn
No     73.46
Yes    26.54
Name: proportion, dtype: float64


In [43]:
# O objetivo √© analisar os poss√≠veis motivos que levam um cliente a cancelar o servi√ßo identificando padr√µes de comportamento entre os clientes que permanecem e os que cancelam.

# Primeiro, vou criar duas vari√°veis separadas: uma para os clientes que cancelaram o servi√ßo e outra para os que n√£o cancelaram.
churned_customers = df[df['Churn'] == 'Yes']

# Somar a quantidade de clientes que cancelaram o servi√ßo
sum_churned = churned_customers.shape[0]
print("Total de clientes que cancelaram o servi√ßo:", sum_churned)

retained_customers = df[df['Churn'] == 'No']
# Somar a quantidade de clientes que n√£o cancelaram o servi√ßo
sum_retained = retained_customers.shape[0]
print("Total de clientes que n√£o cancelaram o servi√ßo:", sum_retained)

print("Churned Customers Shape:", churned_customers.head())

print("Retained Customers Shape:", retained_customers.head())

Total de clientes que cancelaram o servi√ßo: 1869
Total de clientes que n√£o cancelaram o servi√ßo: 5174
Churned Customers Shape:     customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
2   3668-QPYBK    Male              0      No         No       2          Yes   
4   9237-HQITU  Female              0      No         No       2          Yes   
5   9305-CDSKC  Female              0      No         No       8          Yes   
8   7892-POOKP  Female              0     Yes         No      28          Yes   
13  0280-XJGEX    Male              0      No         No      49          Yes   

   MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
2             No             DSL            Yes  ...               No   
4             No     Fiber optic             No  ...               No   
5            Yes     Fiber optic             No  ...              Yes   
8            Yes     Fiber optic             No  ...              Yes   
13           Yes  

In [None]:
# Agora, vou analisar separadamente as caracter√≠sticas de cada grupo para identificar diferen√ßas significativas que possam indicar os motivos do cancelamento.
# Por exemplo, a coluna "tenure" (tempo de perman√™ncia) pode ser um fator importante. Vou calcular a m√©dia do tempo de perman√™ncia para ambos os grupos.
avg_tenure_churned = churned_customers['tenure'].mean()
print("Average Tenure of Churned Customers:", avg_tenure_churned.round(2))
avg_tenure_retained = retained_customers['tenure'].mean()
print("Average Tenure of Retained Customers:", avg_tenure_retained.round(2))

# O resultado foi que os clientes que cancelaram o servi√ßo t√™m, em m√©dia, um tempo de perman√™ncia significativamente menor do que os clientes que permaneceram.
# Isso sugere que o tempo de perman√™ncia pode ser um fator importante no cancelamento do servi√ßo.

# ü§® Mas por qual motivo os clientes novatos cancelaram o contrato? O que poderia fazer com que eles fiquem mais tempo na empresa?

Average Tenure of Churned Customers: 17.98
Average Tenure of Retained Customers: 37.57


In [None]:
# Qual g√™nero mais cancela o servi√ßo?

sum_churned_women = churned_customers[churned_customers['gender']
                                      == 'Female'].shape[0]
print("Total de mulheres que cancelaram o servi√ßo:", sum_churned_women)

sum_churned_man = churned_customers[churned_customers['gender']
                                    == 'Male'].shape[0]
print("Total de homens que cancelaram o servi√ßo:", sum_churned_man)

# O resultado n√£o parece interferir muito, mas as mulheres cancelaram um pouco mais o servi√ßo do que os homens.
# √â necess√°rio analisar cada coluna dentro do dataset para entender quais fatores influenciam no cancelamento do servi√ßo.
# Fonte de livro:
# ‚ÄúPractical Statistics for Data Scientists‚Äù, O‚ÄôReilly (Bruce et al., 2020), cap. 2‚Äì3
# ‚Üí Apresenta a necessidade de an√°lises univariadas estratificadas por classe como primeira etapa explorat√≥ria.

Total de mulheres que cancelaram o servi√ßo: 939
Total de homens que cancelaram o servi√ßo: 930


In [None]:
# Agora vou analisar a coluna "SeniorCitizen" para ver se h√° alguma diferen√ßa entre os clientes idosos e n√£o idosos em rela√ß√£o ao cancelamento do servi√ßo.

sum_churned_senior = churned_customers[churned_customers['SeniorCitizen'] == 1].shape[0]
print("Total de idosos que cancelaram o servi√ßo:", sum_churned_senior)
sum_churned_not_senior = churned_customers[churned_customers['SeniorCitizen'] == 0].shape[0]
print("Total de n√£o idosos que cancelaram o servi√ßo:", sum_churned_not_senior)

# O resultado mostra que os clientes n√£o idosos cancelaram o servi√ßo mais vezes do que os idosos.
# Mas isso n√£o diz nada.

# Vou descobrir quantos idosos e n√£o idosos existem no dataset para entender melhor esses n√∫meros.
total_senior = df[df['SeniorCitizen'] == 1].shape[0]
print("Total de idosos no dataset:", total_senior)
total_not_senior = df[df['SeniorCitizen'] == 0].shape[0]
print("Total de n√£o idosos no dataset:", total_not_senior)

# C√°lculo de taxas de cancelamento dos idosos e n√£o idosos
churn_rate_senior = (sum_churned_senior / total_senior) * 100
print("Taxa de cancelamento dos idosos: {:.2f}%".format(churn_rate_senior))
churn_rate_not_senior = (sum_churned_not_senior / total_not_senior) * 100
print("Taxa de cancelamento dos n√£o idosos: {:.2f}%".format(
    churn_rate_not_senior))

# Podemos ver que os idosos t√™m uma taxa de cancelamento maior do que os n√£o idosos.
# Isso sugere que ser idoso pode ser um fator que influencia no cancelamento do servi√ßo
# Relative Risk (RR) Risk Ratio raz√£o de riscos

rr = churn_rate_senior / churn_rate_not_senior
print(
    "Relative Risk (RR) de idosos em rela√ß√£o aos n√£o idosos: {:.2f}".format(rr))

Total de idosos que cancelaram o servi√ßo: 476
Total de n√£o idosos que cancelaram o servi√ßo: 1393
Total de idosos no dataset: 1142
Total de n√£o idosos no dataset: 5901
Taxa de cancelamento dos idosos: 41.68%
Taxa de cancelamento dos n√£o idosos: 23.61%
Relative Risk (RR) de idosos em rela√ß√£o aos n√£o idosos: 1.77


In [None]:
# Agora vou analisar a coluna 'Partner' para ver se h√° alguma diferen√ßa entre os clientes que t√™m parceiro e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.

import pandas as pd
import scipy
from scipy.stats import chi2_contingency

sum_churned_partner = churned_customers[churned_customers['Partner']
                                        == 'Yes'].shape[0]
print("Total de clientes com parceiro que cancelaram o servi√ßo:", sum_churned_partner)
sum_churned_no_partner = churned_customers[churned_customers['Partner']
                                           == 'No'].shape[0]
print("Total de clientes sem parceiro que cancelaram o servi√ßo:",
      sum_churned_no_partner)

# Vou descobrir quantos clientes com parceiro e sem parceiro existem no dataset para entender melhor esses n√∫meros.
total_partner = df[df['Partner'] == 'Yes'].shape[0]
total_no_partner = df[df['Partner'] == 'No'].shape[0]
print("Total de clientes com parceiro:", total_partner)
print("Total de clientes sem parceiro:", total_no_partner)

# C√°lculo de taxas de cancelamento dos clientes com parceiro e sem parceiro
churn_rate_partner = (sum_churned_partner / total_partner) * 100
churn_rate_no_partner = (sum_churned_no_partner / total_no_partner) * 100
print("Taxa de cancelamento dos clientes com parceiro:",
      churn_rate_partner)
print("Taxa de cancelamento dos clientes sem parceiro:",
      churn_rate_no_partner)

# √â poss√≠vel ver que os clientes sem parceiro t√™m uma taxa de cancelamento maior do que os clientes com parceiro.
# Isso sugere que n√£o ter um parceiro pode ser um fator que influencia no cancelamento do servi√ßo.
# Relative Risk (RR) Risk Ratio raz√£o de riscos
rr_partner = churn_rate_no_partner / churn_rate_partner
print("Relative Risk (RR) de clientes sem parceiro em rela√ß√£o aos com parceiro: {:.2f}".format(
    rr_partner))


# Tabela de conting√™ncia
data = [
    [669, 2733],   # Partner = Yes
    [1200, 2441]   # Partner = No
]

# Rodando o teste qui-quadrado
chi2, p_value, dof, expected = chi2_contingency(data)

print("Chi-square:", chi2)
print("p-valor:", p_value)
print("Graus de liberdade:", dof)
print("Valores esperados:", expected)

# Com essas interpreta√ß√µes de  p-valor e chi-square, podemos concluir que h√° uma associa√ß√£o significativa entre ter um parceiro e o cancelamento do servi√ßo.
# No caso, clientes sem parceiro t√™m uma taxa de cancelamento maior do que clientes com parceiro.

Total de clientes com parceiro que cancelaram o servi√ßo: 669
Total de clientes sem parceiro que cancelaram o servi√ßo: 1200
Total de clientes com parceiro: 3402
Total de clientes sem parceiro: 3641
Taxa de cancelamento dos clientes com parceiro: 19.66490299823633
Taxa de cancelamento dos clientes sem parceiro: 32.95797857731392
Relative Risk (RR) de clientes sem parceiro em rela√ß√£o aos com parceiro: 1.68
Chi-square: 158.7333820309922
p-valor: 2.1399113440759935e-36
Graus de liberdade: 1
Valores esperados: [[ 902.78830044 2499.21169956]
 [ 966.21169956 2674.78830044]]


In [None]:
# Agora, vou fazer a mesma an√°lise para a coluna 'Dependents', que indica se o cliente tem dependentes ou n√£o.
sum_churned_dependents = churned_customers[churned_customers['Dependents']
                                           == 'Yes'].shape[0]
print("Total de clientes com dependentes que cancelaram o servi√ßo:",
      sum_churned_dependents)
sum_churned_no_dependents = churned_customers[churned_customers['Dependents']
                                              == 'No'].shape[0]
print("Total de clientes sem dependentes que cancelaram o servi√ßo:",
      sum_churned_no_dependents)

# Taxa de cancelamento dos clientes com dependentes e sem dependentes
total_dependents = df[df['Dependents'] == 'Yes'].shape[0]
total_no_dependents = df[df['Dependents'] == 'No'].shape[0]
print("Total de clientes com dependentes:", total_dependents)
print("Total de clientes sem dependentes:", total_no_dependents)

# C√°lculo de taxas de cancelamento dos clientes com dependentes e sem dependentes
churn_rate_dependents = (sum_churned_dependents / total_dependents) * 100
churn_rate_no_dependents = (
    sum_churned_no_dependents / total_no_dependents) * 100
print("Taxa de cancelamento dos clientes com dependentes:", churn_rate_dependents)
print("Taxa de cancelamento dos clientes sem dependentes:", churn_rate_no_dependents)

# √â poss√≠vel ver que os clientes sem dependentes t√™m uma taxa de cancelamento maior do que os clientes com dependentes.
# Isso sugere que n√£o ter dependentes pode ser um fator que influencia no cancelamento do servi√ßo.
# Relative Risk (RR) Risk Ratio raz√£o de riscos
rr_dependents = churn_rate_no_dependents / churn_rate_dependents
print("Relative Risk (RR) de clientes sem dependentes em rela√ß√£o aos com dependentes: {:.2f}".format(
    rr_dependents))

Total de clientes com dependentes que cancelaram o servi√ßo: 326
Total de clientes sem dependentes que cancelaram o servi√ßo: 1543
Total de clientes com dependentes: 2110
Total de clientes sem dependentes: 4933
Taxa de cancelamento dos clientes com dependentes: 15.450236966824646
Taxa de cancelamento dos clientes sem dependentes: 31.279140482465028
Relative Risk (RR) de clientes sem dependentes em rela√ß√£o aos com dependentes: 2.02


In [None]:
# Agora vou analisar a coluna 'PhoneService' para ver se h√° alguma diferen√ßa entre os clientes que t√™m servi√ßo de telefone e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_phone_service = churned_customers[churned_customers['PhoneService']
                                              == 'Yes'].shape[0]
print("Total de clientes com servi√ßo de telefone que cancelaram o servi√ßo:",
      sum_churned_phone_service)
sum_churned_no_phone_service = churned_customers[churned_customers['PhoneService']
                                                 == 'No'].shape[0]
print("Total de clientes sem servi√ßo de telefone que cancelaram o servi√ßo:",
      sum_churned_no_phone_service)

# Vou descobrir quantos clientes com servi√ßo de telefone e sem servi√ßo de telefone existem no dataset para entender melhor esses n√∫meros.
total_phone_service = df[df['PhoneService'] == 'Yes'].shape[0]
total_no_phone_service = df[df['PhoneService'] == 'No'].shape[0]
print("Total de clientes com servi√ßo de telefone:", total_phone_service)
print("Total de clientes sem servi√ßo de telefone:", total_no_phone_service)

# C√°lculo de taxas de cancelamento dos clientes com servi√ßo de telefone e sem servi√ßo de telefone
churn_rate_phone_service = (
    sum_churned_phone_service / total_phone_service) * 100
churn_rate_no_phone_service = (
    sum_churned_no_phone_service / total_no_phone_service) * 100
print("Taxa de cancelamento dos clientes com servi√ßo de telefone:",
      churn_rate_phone_service)
print("Taxa de cancelamento dos clientes sem servi√ßo de telefone:",
      churn_rate_no_phone_service)

# Podemos concluir que a coluna 'PhoneService' n√£o parece influenciar significativamente no cancelamento do servi√ßo, j√° que as taxas de cancelamento s√£o bastante semelhantes entre os dois grupos.

Total de clientes com servi√ßo de telefone que cancelaram o servi√ßo: 1699
Total de clientes sem servi√ßo de telefone que cancelaram o servi√ßo: 170
Total de clientes com servi√ßo de telefone: 6361
Total de clientes sem servi√ßo de telefone: 682
Taxa de cancelamento dos clientes com servi√ßo de telefone: 26.70963684955196
Taxa de cancelamento dos clientes sem servi√ßo de telefone: 24.926686217008797


In [None]:
# Agora vou analisar a coluna 'MultipleLines' para ver se h√° alguma diferen√ßa entre os clientes que t√™m m√∫ltiplas linhas e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_multiple_lines = churned_customers[churned_customers['MultipleLines']
                                               == 'Yes'].shape[0]
print("Total de clientes com m√∫ltiplas linhas que cancelaram o servi√ßo:",
      sum_churned_multiple_lines)
sum_churned_no_multiple_lines = churned_customers[churned_customers['MultipleLines']
                                                  == 'No'].shape[0]
print("Total de clientes sem m√∫ltiplas linhas que cancelaram o servi√ßo:",
      sum_churned_no_multiple_lines)

# Vou descobrir quantos clientes com m√∫ltiplas linhas e sem m√∫ltiplas linhas existem no dataset para entender melhor esses n√∫meros.
total_multiple_lines = df[df['MultipleLines'] == 'Yes'].shape[0]
total_no_multiple_lines = df[df['MultipleLines'] == 'No'].shape[0]
print("Total de clientes com m√∫ltiplas linhas:", total_multiple_lines)
print("Total de clientes sem m√∫ltiplas linhas:", total_no_multiple_lines)

# C√°lculo de taxas de cancelamento dos clientes com m√∫ltiplas linhas e sem m√∫ltiplas linhas
churn_rate_multiple_lines = (
    sum_churned_multiple_lines / total_multiple_lines) * 100
churn_rate_no_multiple_lines = (
    sum_churned_no_multiple_lines / total_no_multiple_lines) * 100
print("Taxa de cancelamento dos clientes com m√∫ltiplas linhas:",
      churn_rate_multiple_lines)
print("Taxa de cancelamento dos clientes sem m√∫ltiplas linhas:",
      churn_rate_no_multiple_lines)

# Podemos concluir que a coluna 'MultipleLines' n√£o parece influenciar significativamente no cancelamento do servi√ßo, j√° que as taxas de cancelamento s√£o bastante semelhantes entre os dois grupos.

Total de clientes com m√∫ltiplas linhas que cancelaram o servi√ßo: 850
Total de clientes sem m√∫ltiplas linhas que cancelaram o servi√ßo: 849
Total de clientes com m√∫ltiplas linhas: 2971
Total de clientes sem m√∫ltiplas linhas: 3390
Taxa de cancelamento dos clientes com m√∫ltiplas linhas: 28.6098956580276
Taxa de cancelamento dos clientes sem m√∫ltiplas linhas: 25.04424778761062


In [None]:
# Agora vamos analisar a coluna 'InternetService' para ver se h√° alguma diferen√ßa entre os clientes que t√™m servi√ßo de internet e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.

import pandas as pd
from scipy.stats import chi2_contingency

# Tabela de conting√™ncia
contingency = pd.crosstab(df['InternetService'], df['Churn'])
print("Tabela de conting√™ncia:\n", contingency)

# Teste qui-quadrado
chi2, p, dof, expected = chi2_contingency(contingency)

print("\nChi-square:", chi2)
print("p-valor:", p)
print("Graus de liberdade:", dof)
print("Valores esperados:\n", expected)

# Taxas de churn por categoria
churn_rates = df.groupby('InternetService')['Churn'].value_counts(
    normalize=True).unstack()['Yes'] * 100
print("\nTaxa de churn por tipo de InternetService:\n", churn_rates)

# Podemos concluir que a coluna 'InternetService' influencia significativamente no cancelamento do servi√ßo, j√° que as taxas de cancelamento variam bastante entre os diferentes tipos de servi√ßo de internet.
# Clientes com servi√ßo de internet do tipo 'Fiber optic' t√™m uma taxa de cancelamento muito maior do que os clientes com outros tipos de servi√ßo de internet.

Tabela de conting√™ncia:
 Churn              No   Yes
InternetService            
DSL              1962   459
Fiber optic      1799  1297
No               1413   113

Chi-square: 732.309589667794
p-valor: 9.571788222840544e-160
Graus de liberdade: 2
Valores esperados:
 [[1778.53954281  642.46045719]
 [2274.41488002  821.58511998]
 [1121.04557717  404.95442283]]

Taxa de churn por tipo de InternetService:
 InternetService
DSL            18.959108
Fiber optic    41.892765
No              7.404980
Name: Yes, dtype: float64


In [None]:
# Agora vamos analisar a coluna 'OnlineSecurity' para ver se h√° alguma diferen√ßa entre os clientes que t√™m seguran√ßa online e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.

sum_churned_online_security = churned_customers[churned_customers['OnlineSecurity']
                                                == 'Yes'].shape[0]
print("Total de clientes com seguran√ßa online que cancelaram o servi√ßo:",
      sum_churned_online_security)
sum_churned_no_online_security = churned_customers[churned_customers['OnlineSecurity']
                                                   == 'No'].shape[0]
print("Total de clientes sem seguran√ßa online que cancelaram o servi√ßo:",
      sum_churned_no_online_security)

# Vou descobrir quantos clientes com seguran√ßa online e sem seguran√ßa online existem no dataset para entender melhor esses n√∫meros.
total_online_security = df[df['OnlineSecurity'] == 'Yes'].shape[0]
total_no_online_security = df[df['OnlineSecurity'] == 'No'].shape[0]
print("Total de clientes com seguran√ßa online:", total_online_security)
print("Total de clientes sem seguran√ßa online:", total_no_online_security)

# Taxa de cancelamento dos clientes com seguran√ßa online e sem seguran√ßa online
churn_rate_online_security = (
    sum_churned_online_security / total_online_security) * 100
churn_rate_no_online_security = (
    sum_churned_no_online_security / total_no_online_security) * 100
print("Taxa de cancelamento dos clientes com seguran√ßa online:",
      churn_rate_online_security)
print("Taxa de cancelamento dos clientes sem seguran√ßa online:",
      churn_rate_no_online_security)

# Podemos concluir que a coluna 'OnlineSecurity' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem seguran√ßa online t√™m uma taxa de cancelamento muito maior do que os clientes com seguran√ßa online.

Total de clientes com seguran√ßa online que cancelaram o servi√ßo: 295
Total de clientes sem seguran√ßa online que cancelaram o servi√ßo: 1461
Total de clientes com seguran√ßa online: 2019
Total de clientes sem seguran√ßa online: 3498
Taxa de cancelamento dos clientes com seguran√ßa online: 14.611193660227837
Taxa de cancelamento dos clientes sem seguran√ßa online: 41.76672384219554


In [None]:
# Agora vou analisar a coluna 'OnlineBackup' para ver se h√° alguma diferen√ßa entre os clientes que t√™m backup online e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_online_backup = churned_customers[churned_customers['OnlineBackup']
                                              == 'Yes'].shape[0]
print("Total de clientes com backup online que cancelaram o servi√ßo:",
      sum_churned_online_backup)
sum_churned_no_online_backup = churned_customers[churned_customers['OnlineBackup']
                                                 == 'No'].shape[0]
print("Total de clientes sem backup online que cancelaram o servi√ßo:",
      sum_churned_no_online_backup)

# Vou descobrir quantos clientes com backup online e sem backup online existem no dataset para entender melhor esses n√∫meros.
total_online_backup = df[df['OnlineBackup'] == 'Yes'].shape[0]
total_no_online_backup = df[df['OnlineBackup'] == 'No'].shape[0]
print("Total de clientes com backup online:", total_online_backup)
print("Total de clientes sem backup online:", total_no_online_backup)

# C√°lculo de taxas de cancelamento dos clientes com backup online e sem backup online
churn_rate_online_backup = (
    sum_churned_online_backup / total_online_backup) * 100
churn_rate_no_online_backup = (
    sum_churned_no_online_backup / total_no_online_backup) * 100
print("Taxa de cancelamento dos clientes com backup online:",
      churn_rate_online_backup)
print("Taxa de cancelamento dos clientes sem backup online:",
      churn_rate_no_online_backup)

# Podemos concluir que a coluna 'OnlineBackup' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem backup online t√™m uma taxa de cancelamento maior do que os clientes com backup online.

Total de clientes com backup online que cancelaram o servi√ßo: 523
Total de clientes sem backup online que cancelaram o servi√ßo: 1233
Total de clientes com backup online: 2429
Total de clientes sem backup online: 3088
Taxa de cancelamento dos clientes com backup online: 21.531494442157268
Taxa de cancelamento dos clientes sem backup online: 39.92875647668394


In [None]:
# Agora vou analisar a coluna de 'DeviceProtection' para ver se h√° alguma diferen√ßa entre os clientes que t√™m prote√ß√£o de dispositivo e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_device_protection = churned_customers[churned_customers['DeviceProtection']
                                                  == 'Yes'].shape[0]
print("Total de clientes com prote√ß√£o de dispositivo que cancelaram o servi√ßo:",
      sum_churned_device_protection)
sum_churned_no_device_protection = churned_customers[churned_customers['DeviceProtection']
                                                     == 'No'].shape[0]
print("Total de clientes sem prote√ß√£o de dispositivo que cancelaram o servi√ßo:",
      sum_churned_no_device_protection)

# Vou descobrir quantos clientes com prote√ß√£o de dispositivo e sem prote√ß√£o de dispositivo existem no dataset para entender melhor esses n√∫meros.
total_device_protection = df[df['DeviceProtection'] == 'Yes'].shape[0]
total_no_device_protection = df[df['DeviceProtection'] == 'No'].shape[0]
print("Total de clientes com prote√ß√£o de dispositivo:", total_device_protection)
print("Total de clientes sem prote√ß√£o de dispositivo:", total_no_device_protection)

# C√°lculo de taxas de cancelamento dos clientes com prote√ß√£o de dispositivo e sem prote√ß√£o de dispositivo
churn_rate_device_protection = (
    sum_churned_device_protection / total_device_protection) * 100
churn_rate_no_device_protection = (
    sum_churned_no_device_protection / total_no_device_protection) * 100
print("Taxa de cancelamento dos clientes com prote√ß√£o de dispositivo:",
      churn_rate_device_protection)
print("Taxa de cancelamento dos clientes sem prote√ß√£o de dispositivo:",
      churn_rate_no_device_protection)

# Podemos concluir que a coluna 'DeviceProtection' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem prote√ß√£o de dispositivo t√™m uma taxa de cancelamento maior do que os clientes com prote√ß√£o de dispositivo.

Total de clientes com prote√ß√£o de dispositivo que cancelaram o servi√ßo: 545
Total de clientes sem prote√ß√£o de dispositivo que cancelaram o servi√ßo: 1211
Total de clientes com prote√ß√£o de dispositivo: 2422
Total de clientes sem prote√ß√£o de dispositivo: 3095
Taxa de cancelamento dos clientes com prote√ß√£o de dispositivo: 22.50206440957886
Taxa de cancelamento dos clientes sem prote√ß√£o de dispositivo: 39.127625201938606


In [None]:
# Agora, vou analisar a coluna 'TechSupport' para ver se h√° alguma diferen√ßa entre os clientes que t√™m suporte t√©cnico e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_tech_support = churned_customers[churned_customers['TechSupport']
                                             == 'Yes'].shape[0]
print("Total de clientes com suporte t√©cnico que cancelaram o servi√ßo:",
      sum_churned_tech_support)
sum_churned_no_tech_support = churned_customers[churned_customers['TechSupport']
                                                == 'No'].shape[0]
print("Total de clientes sem suporte t√©cnico que cancelaram o servi√ßo:",
      sum_churned_no_tech_support)

# Vou descobrir quantos clientes com suporte t√©cnico e sem suporte t√©cnico existem no dataset para entender melhor esses n√∫meros.
total_tech_support = df[df['TechSupport'] == 'Yes'].shape[0]
total_no_tech_support = df[df['TechSupport'] == 'No'].shape[0]
print("Total de clientes com suporte t√©cnico:", total_tech_support)
print("Total de clientes sem suporte t√©cnico:", total_no_tech_support)

# C√°lculo de taxas de cancelamento dos clientes com suporte t√©cnico e sem suporte t√©cnico
churn_rate_tech_support = (
    sum_churned_tech_support / total_tech_support) * 100
churn_rate_no_tech_support = (
    sum_churned_no_tech_support / total_no_tech_support) * 100
print("Taxa de cancelamento dos clientes com suporte t√©cnico:",
      churn_rate_tech_support)
print("Taxa de cancelamento dos clientes sem suporte t√©cnico:",
      churn_rate_no_tech_support)

# Podemos concluir que a coluna 'TechSupport' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem suporte t√©cnico t√™m uma taxa de cancelamento maior do que os clientes com suporte t√©cnico.

Total de clientes com suporte t√©cnico que cancelaram o servi√ßo: 310
Total de clientes sem suporte t√©cnico que cancelaram o servi√ßo: 1446
Total de clientes com suporte t√©cnico: 2044
Total de clientes sem suporte t√©cnico: 3473
Taxa de cancelamento dos clientes com suporte t√©cnico: 15.166340508806261
Taxa de cancelamento dos clientes sem suporte t√©cnico: 41.63547365390153


In [None]:
# Agora vou analisar a coluna 'StreamingTV' para ver se h√° alguma diferen√ßa entre os clientes que t√™m streaming de TV e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_streaming_tv = churned_customers[churned_customers['StreamingTV']
                                             == 'Yes'].shape[0]
print("Total de clientes com streaming de TV que cancelaram o servi√ßo:",
      sum_churned_streaming_tv)
sum_churned_no_streaming_tv = churned_customers[churned_customers['StreamingTV']
                                                == 'No'].shape[0]
print("Total de clientes sem streaming de TV que cancelaram o servi√ßo:",
      sum_churned_no_streaming_tv)

# Vou descobrir quantos clientes com streaming de TV e sem streaming de TV existem no dataset para entender melhor esses n√∫meros.
total_streaming_tv = df[df['StreamingTV'] == 'Yes'].shape[0]
total_no_streaming_tv = df[df['StreamingTV'] == 'No'].shape[0
                                                            ]
print("Total de clientes com streaming de TV:", total_streaming_tv)
print("Total de clientes sem streaming de TV:", total_no_streaming_tv)

# C√°lculo de taxas de cancelamento dos clientes com streaming de TV e sem streaming de TV
churn_rate_streaming_tv = (
    sum_churned_streaming_tv / total_streaming_tv) * 100
churn_rate_no_streaming_tv = (
    sum_churned_no_streaming_tv / total_no_streaming_tv) * 100
print("Taxa de cancelamento dos clientes com streaming de TV:",
      churn_rate_streaming_tv)
print("Taxa de cancelamento dos clientes sem streaming de TV:",
      churn_rate_no_streaming_tv)

# Podemos concluir que a coluna 'StreamingTV' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem streaming de TV t√™m uma taxa de cancelamento maior do que os clientes com streaming de TV.


# Tabela de conting√™ncia
contingency_table = pd.crosstab(df['StreamingTV'], df['Churn'])

print("Tabela de conting√™ncia:\n", contingency_table)

# Teste qui-quadrado
chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)

print("\nChi-square:", chi2)
print("p-valor:", p_value)
print("Graus de liberdade:", dof)
print("Valores esperados:\n", expected)

# Interpreta√ß√£o simples
if p_value < 0.0001:
    print("\nüìå Conclus√£o: p < 0.0001 ‚Üí A associa√ß√£o entre StreamingTV e Churn √© estatisticamente MUITO significativa.")
else:
    print("\nüìå Conclus√£o: p >= 0.0001 ‚Üí N√£o h√° evid√™ncia estat√≠stica forte de associa√ß√£o.")

Total de clientes com streaming de TV que cancelaram o servi√ßo: 814
Total de clientes sem streaming de TV que cancelaram o servi√ßo: 942
Total de clientes com streaming de TV: 2707
Total de clientes sem streaming de TV: 2810
Taxa de cancelamento dos clientes com streaming de TV: 30.070188400443293
Taxa de cancelamento dos clientes sem streaming de TV: 33.52313167259787
Tabela de conting√™ncia:
 Churn                  No  Yes
StreamingTV                   
No                   1868  942
No internet service  1413  113
Yes                  1893  814

Chi-square: 374.2039433109813
p-valor: 5.528994485739183e-82
Graus de liberdade: 2
Valores esperados:
 [[2064.31066307  745.68933693]
 [1121.04557717  404.95442283]
 [1988.64375976  718.35624024]]

üìå Conclus√£o: p < 0.0001 ‚Üí A associa√ß√£o entre StreamingTV e Churn √© estatisticamente MUITO significativa.


In [None]:
# Agora vou analisar a coluna 'StreamingMovies' para ver se h√° alguma diferen√ßa entre os clientes que t√™m streaming de filmes e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_streaming_movies = churned_customers[churned_customers['StreamingMovies']
                                                 == 'Yes'].shape[0]
print("Total de clientes com streaming de filmes que cancelaram o servi√ßo:",
      sum_churned_streaming_movies)
sum_churned_no_streaming_movies = churned_customers[churned_customers['StreamingMovies']
                                                    == 'No'].shape[0]
print("Total de clientes sem streaming de filmes que cancelaram o servi√ßo:",
      sum_churned_no_streaming_movies)
# Vou descobrir quantos clientes com streaming de filmes e sem streaming de filmes existem no dataset para entender melhor esses n√∫meros.
total_streaming_movies = df[df['StreamingMovies'] == 'Yes'].shape[0]
total_no_streaming_movies = df[df['StreamingMovies'] == 'No'].shape[0]
print("Total de clientes com streaming de filmes:", total_streaming_movies)
print("Total de clientes sem streaming de filmes:", total_no_streaming_movies)
# C√°lculo de taxas de cancelamento dos clientes com streaming de filmes e sem streaming de filmes
churn_rate_streaming_movies = (
    sum_churned_streaming_movies / total_streaming_movies) * 100
churn_rate_no_streaming_movies = (
    sum_churned_no_streaming_movies / total_no_streaming_movies) * 100
print("Taxa de cancelamento dos clientes com streaming de filmes:",
      churn_rate_streaming_movies)
print("Taxa de cancelamento dos clientes sem streaming de filmes:",
      churn_rate_no_streaming_movies)

# Podemos concluir que a coluna 'StreamingMovies' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem streaming de filmes t√™m uma taxa de cancelamento maior do que os clientes com streaming de filmes.

Total de clientes com streaming de filmes que cancelaram o servi√ßo: 818
Total de clientes sem streaming de filmes que cancelaram o servi√ßo: 938
Total de clientes com streaming de filmes: 2732
Total de clientes sem streaming de filmes: 2785
Taxa de cancelamento dos clientes com streaming de filmes: 29.941434846266475
Taxa de cancelamento dos clientes sem streaming de filmes: 33.680430879712745


In [None]:
# Agora vou analisar a coluna 'Contract' para ver se h√° alguma diferen√ßa entre os clientes que t√™m contrato mensal, anual ou bienal em rela√ß√£o ao cancelamento do servi√ßo.

import pandas as pd
import scipy.stats as stats
sum_churned_month_to_month = churned_customers[churned_customers['Contract']
                                               == 'Month-to-month'].shape[0]
print("Total de clientes com contrato mensal que cancelaram o servi√ßo:",
      sum_churned_month_to_month)
sum_churned_one_year = churned_customers[churned_customers['Contract']
                                         == 'One year'].shape[0]
print("Total de clientes com contrato anual que cancelaram o servi√ßo:",
      sum_churned_one_year)
sum_churned_two_year = churned_customers[churned_customers['Contract']
                                         == 'Two year'].shape[0]
print("Total de clientes com contrato bienal que cancelaram o servi√ßo:",
      sum_churned_two_year)
# Vou descobrir quantos clientes com cada tipo de contrato existem no dataset para entender melhor esses n√∫meros.
total_month_to_month = df[df['Contract'] == 'Month-to-month'].shape[0]
total_one_year = df[df['Contract'] == 'One year'].shape[0]
total_two_year = df[df['Contract'] == 'Two year'].shape[0]
print("Total de clientes com contrato mensal:", total_month_to_month)
print("Total de clientes com contrato anual:", total_one_year)
print("Total de clientes com contrato bienal:", total_two_year)

# C√°lculo de taxas de cancelamento dos clientes com cada tipo de contrato
churn_rate_month_to_month = (
    sum_churned_month_to_month / total_month_to_month) * 100
churn_rate_one_year = (sum_churned_one_year / total_one_year) * 100
churn_rate_two_year = (sum_churned_two_year / total_two_year) * 100
print("Taxa de cancelamento dos clientes com contrato mensal:",
      churn_rate_month_to_month)
print("Taxa de cancelamento dos clientes com contrato anual:", churn_rate_one_year)
print("Taxa de cancelamento dos clientes com contrato bienal:", churn_rate_two_year)

# Podemos concluir que a coluna 'Contract' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes com contrato mensal t√™m uma taxa de cancelamento muito maior do que os clientes com contratos anuais ou bienais.

Total de clientes com contrato mensal que cancelaram o servi√ßo: 1655
Total de clientes com contrato anual que cancelaram o servi√ßo: 166
Total de clientes com contrato bienal que cancelaram o servi√ßo: 48
Total de clientes com contrato mensal: 3875
Total de clientes com contrato anual: 1473
Total de clientes com contrato bienal: 1695
Taxa de cancelamento dos clientes com contrato mensal: 42.70967741935484
Taxa de cancelamento dos clientes com contrato anual: 11.269517990495586
Taxa de cancelamento dos clientes com contrato bienal: 2.831858407079646


In [None]:
# Agora vou analisar a coluna 'PaperlessBilling' para ver se h√° alguma diferen√ßa entre os clientes que t√™m faturamento sem papel e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_paperless_billing = churned_customers[churned_customers['PaperlessBilling']
                                                  == 'Yes'].shape[0]
print("Total de clientes com faturamento sem papel que cancelaram o servi√ßo:",
      sum_churned_paperless_billing)
sum_churned_no_paperless_billing = churned_customers[churned_customers['PaperlessBilling']
                                                     == 'No'].shape[0]
print("Total de clientes com faturamento com papel que cancelaram o servi√ßo:",
      sum_churned_no_paperless_billing)
# Vou descobrir quantos clientes com faturamento sem papel e com papel existem no dataset para entender melhor esses n√∫meros.
total_paperless_billing = df[df['PaperlessBilling'] == 'Yes'].shape[0]
total_no_paperless_billing = df[df['PaperlessBilling'] == 'No'].shape[0]
print("Total de clientes com faturamento sem papel:", total_paperless_billing)
print("Total de clientes com faturamento com papel:", total_no_paperless_billing)

# C√°lculo de taxas de cancelamento dos clientes com faturamento sem papel e com papel
churn_rate_paperless_billing = (
    sum_churned_paperless_billing / total_paperless_billing) * 100
churn_rate_no_paperless_billing = (
    sum_churned_no_paperless_billing / total_no_paperless_billing) * 100
print("Taxa de cancelamento dos clientes com faturamento sem papel:",
      churn_rate_paperless_billing)
print("Taxa de cancelamento dos clientes com faturamento com papel:",
      churn_rate_no_paperless_billing)

# Podemos concluir que a coluna 'PaperlessBilling' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes com faturamento sem papel t√™m uma taxa de cancelamento maior do que os clientes com faturamento com papel.

Total de clientes com faturamento sem papel que cancelaram o servi√ßo: 1400
Total de clientes com faturamento com papel que cancelaram o servi√ßo: 469
Total de clientes com faturamento sem papel: 4171
Total de clientes com faturamento com papel: 2872
Taxa de cancelamento dos clientes com faturamento sem papel: 33.565092304003834
Taxa de cancelamento dos clientes com faturamento com papel: 16.33008356545961


In [None]:
# Agora vou analisar a coluna 'PaymentMethod' para ver se h√° alguma diferen√ßa entre os clientes que utilizam diferentes m√©todos de pagamento em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_electronic_check = churned_customers[churned_customers['PaymentMethod']
                                                 == 'Electronic check'].shape[0]
print("Total de clientes que pagam por cheque eletr√¥nico que cancelaram o servi√ßo:",
      sum_churned_electronic_check)
sum_churned_mailed_check = churned_customers[churned_customers['PaymentMethod']
                                             == 'Mailed check'].shape[0]
print("Total de clientes que pagam por cheque enviado pelo correio que cancelaram o servi√ßo:",
      sum_churned_mailed_check)
sum_churned_bank_transfer = churned_customers[churned_customers['PaymentMethod']
                                              == 'Bank transfer (automatic)'].shape[0]
print("Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica que cancelaram o servi√ßo:",
      sum_churned_bank_transfer)
sum_churned_credit_card = churned_customers[churned_customers['PaymentMethod']
                                            == 'Credit card (automatic)'].shape[0]
print("Total de clientes que pagam por cart√£o de cr√©dito autom√°tico que cancelaram o servi√ßo:",
      sum_churned_credit_card)
# Vou descobrir quantos clientes com cada m√©todo de pagamento existem no dataset para entender melhor esses n√∫meros.
total_electronic_check = df[df['PaymentMethod'] == 'Electronic check'].shape[0]
total_mailed_check = df[df['PaymentMethod'] == 'Mailed check'].shape[0]
total_bank_transfer = df[df['PaymentMethod']
                         == 'Bank transfer (automatic)'].shape[0]
total_credit_card = df[df['PaymentMethod']
                       == 'Credit card (automatic)'].shape[0]
print("Total de clientes que pagam por cheque eletr√¥nico:", total_electronic_check)
print("Total de clientes que pagam por cheque enviado pelo correio:", total_mailed_check)
print("Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica:",
      total_bank_transfer)
print("Total de clientes que pagam por cart√£o de cr√©dito autom√°tico:", total_credit_card)
# C√°lculo de taxas de cancelamento dos clientes com cada m√©todo de pagamento
churn_rate_electronic_check = (
    sum_churned_electronic_check / total_electronic_check) * 100
churn_rate_mailed_check = (
    sum_churned_mailed_check / total_mailed_check) * 100
churn_rate_bank_transfer = (
    sum_churned_bank_transfer / total_bank_transfer) * 100
churn_rate_credit_card = (
    sum_churned_credit_card / total_credit_card) * 100
print("Taxa de cancelamento dos clientes que pagam por cheque eletr√¥nico:",
      churn_rate_electronic_check)
print("Taxa de cancelamento dos clientes que pagam por cheque enviado pelo correio:",
      churn_rate_mailed_check)
print("Taxa de cancelamento dos clientes que pagam por transfer√™ncia banc√°ria autom√°tica:",
      churn_rate_bank_transfer)
print("Taxa de cancelamento dos clientes que pagam por cart√£o de cr√©dito autom√°tico:",
      churn_rate_credit_card)
# Podemos concluir que a coluna 'PaymentMethod' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes que pagam por cheque eletr√¥nico t√™m uma taxa de cancelamento muito maior do que os clientes que utilizam outros m√©todos de pagamento.

Total de clientes que pagam por cheque eletr√¥nico que cancelaram o servi√ßo: 1071
Total de clientes que pagam por cheque enviado pelo correio que cancelaram o servi√ßo: 308
Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica que cancelaram o servi√ßo: 258
Total de clientes que pagam por cart√£o de cr√©dito autom√°tico que cancelaram o servi√ßo: 232
Total de clientes que pagam por cheque eletr√¥nico: 2365
Total de clientes que pagam por cheque enviado pelo correio: 1612
Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica: 1544
Total de clientes que pagam por cart√£o de cr√©dito autom√°tico: 1522
Taxa de cancelamento dos clientes que pagam por cheque eletr√¥nico: 45.28541226215645
Taxa de cancelamento dos clientes que pagam por cheque enviado pelo correio: 19.106699751861044
Taxa de cancelamento dos clientes que pagam por transfer√™ncia banc√°ria autom√°tica: 16.709844559585495
Taxa de cancelamento dos clientes que pagam por cart√£o de cr√©dito autom√°t

In [None]:
# Agora vou analisar a coluna 'MonthlyCharges' para ver se h√° alguma diferen√ßa nas cobran√ßas mensais entre os clientes que cancelaram o servi√ßo e os que n√£o cancelaram.
import pandas as pd

churned_customers = df[df['Churn'] == 'Yes']
not_churned_customers = df[df['Churn'] == 'No']

avg_monthly_charges_churned = churned_customers['MonthlyCharges'].mean()
print("M√©dia das cobran√ßas mensais dos clientes que cancelaram o servi√ßo: R${:.2f}".format(
    avg_monthly_charges_churned))
avg_monthly_charges_not_churned = not_churned_customers['MonthlyCharges'].mean(
)
print("M√©dia das cobran√ßas mensais dos clientes que n√£o cancelaram o servi√ßo: R${:.2f}".format(
    avg_monthly_charges_not_churned))


# Podemos ver que os clientes que cancelaram o servi√ßo t√™m uma m√©dia de cobran√ßas mensais maior do que os clientes que n√£o cancelaram.
# Isso sugere que cobran√ßas mensais mais altas podem ser um fator que influencia no cancelamento do servi√ßo.

M√©dia das cobran√ßas mensais dos clientes que cancelaram o servi√ßo: R$74.44
M√©dia das cobran√ßas mensais dos clientes que n√£o cancelaram o servi√ßo: R$61.27


In [None]:
# Agora vou analisar a coluna 'TotalCharges'  para ver se h√° alguma diferen√ßa nas cobran√ßas totais entre os clientes que cancelaram o servi√ßo e os que n√£o cancelaram.
import pandas as pd
churned_customers = df[df['Churn'] == 'Yes']
not_churned_customers = df[df['Churn'] == 'No']

avg_total_charges_churned_total = churned_customers['TotalCharges'].mean()
print("M√©dia das cobran√ßas totais dos clientes que cancelaram o servi√ßo: R${:.2f}".format(
    avg_total_charges_churned_total))


avg_total_charges_not_churned_total = not_churned_customers['TotalCharges'].mean(
)
print("M√©dia das cobran√ßas totais dos clientes que n√£o cancelaram o servi√ßo: R${:.2f}".format(
    avg_total_charges_not_churned_total))

In [None]:
# Agora eu vou criar um modelo
# Apenas lembrando que a an√°lise de cada coluna foi feita de forma isolada, sem considerar poss√≠veis intera√ß√µes entre as vari√°veis.
# Por√©m, na pr√°tica, essas vari√°veis podem interagir entre si e influenciar o comportamento de cancelamento dos clientes de maneiras mais complexas.
# Portanto, farei uma an√°lise estat√≠stica mais avan√ßada utilizando um modelo de regress√£o log√≠stica para entender melhor esses fatores e suas intera√ß√µes.