In [2]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("blastchar/telco-customer-churn")

print("Path to dataset files:", path)

  from .autonotebook import tqdm as notebook_tqdm


Path to dataset files: C:\Users\Nichole\.cache\kagglehub\datasets\blastchar\telco-customer-churn\versions\1


In [3]:
import pandas as pd
import os

file_path = os.path.join(path, "WA_Fn-UseC_-Telco-Customer-Churn.csv")
df = pd.read_csv(file_path)
print(df.head())

   customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
2  3668-QPYBK    Male              0      No         No       2          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
4  9237-HQITU  Female              0      No         No       2          Yes   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
2                No             DSL            Yes  ...               No   
3  No phone service             DSL            Yes  ...              Yes   
4                No     Fiber optic             No  ...               No   

  TechSupport StreamingTV StreamingMovies        Contract Pape

In [25]:
# Quantidade de clientes que cancelaram o servi√ßo e que n√£o cancelaram
churn_counts = df['Churn'].value_counts()
print("Cancelados:\n", churn_counts)

# porcentagem de clientes que cancelaram o servi√ßo
churn_percentage = df['Churn'].value_counts(normalize=True) * 100
print("Porcentagem de cancelados:\n", churn_percentage.round(2))

Cancelados:
 Churn
No     5174
Yes    1869
Name: count, dtype: int64
Porcentagem de cancelados:
 Churn
No     73.46
Yes    26.54
Name: proportion, dtype: float64


In [30]:
# O objetivo √© analisar os poss√≠veis motivos que levam um cliente a cancelar o servi√ßo identificando padr√µes de comportamento entre os clientes que permanecem e os que cancelam.

# Primeiro, vou criar duas vari√°veis separadas: uma para os clientes que cancelaram o servi√ßo e outra para os que n√£o cancelaram.
churned_customers = df[df['Churn'] == 'Yes']

# Somar a quantidade de clientes que cancelaram o servi√ßo
sum_churned = churned_customers.shape[0]
print("Total de clientes que cancelaram o servi√ßo:", sum_churned)

retained_customers = df[df['Churn'] == 'No']
# Somar a quantidade de clientes que n√£o cancelaram o servi√ßo
sum_retained = retained_customers.shape[0]
print("Total de clientes que n√£o cancelaram o servi√ßo:", sum_retained)

print("Churned Customers Shape:\n", churned_customers.head(2))

print("Retained Customers Shape:\n", retained_customers.head(2))

Total de clientes que cancelaram o servi√ßo: 1869
Total de clientes que n√£o cancelaram o servi√ßo: 5174
Churned Customers Shape:
    customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
2  3668-QPYBK    Male              0      No         No       2          Yes   
4  9237-HQITU  Female              0      No         No       2          Yes   

  MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
2            No             DSL            Yes  ...               No   
4            No     Fiber optic             No  ...               No   

  TechSupport StreamingTV StreamingMovies        Contract PaperlessBilling  \
2          No          No              No  Month-to-month              Yes   
4          No          No              No  Month-to-month              Yes   

      PaymentMethod MonthlyCharges  TotalCharges Churn  
2      Mailed check          53.85        108.15   Yes  
4  Electronic check          70.70        151.65   Yes  

[2 r

In [32]:
# Agora, vou analisar separadamente as caracter√≠sticas de cada grupo para identificar diferen√ßas significativas que possam indicar os motivos do cancelamento.
# Por exemplo, a coluna "tenure" (tempo de perman√™ncia) pode ser um fator importante. Vou calcular a m√©dia do tempo de perman√™ncia para ambos os grupos.
from scipy.stats import ttest_ind
avg_tenure_churned = churned_customers['tenure'].mean()
print("Average Tenure of Churned Customers:", avg_tenure_churned.round(2))
avg_tenure_retained = retained_customers['tenure'].mean()
print("Average Tenure of Retained Customers:", avg_tenure_retained.round(2))

# O resultado foi que os clientes que cancelaram o servi√ßo t√™m, em m√©dia, um tempo de perman√™ncia significativamente menor do que os clientes que permaneceram.
# Isso sugere que o tempo de perman√™ncia pode ser um fator importante no cancelamento do servi√ßo.

# ü§® Mas por qual motivo os clientes novatos cancelaram o contrato? O que poderia fazer com que eles fiquem mais tempo na empresa?
# Eu vou usar o teste t-teste para verificar se a diferen√ßa entre as m√©dias √© estatisticamente significativa.


tenure_churn = churned_customers['tenure']
tenure_no_churn = retained_customers['tenure']

t_stat, p_value = ttest_ind(tenure_churn, tenure_no_churn, equal_var=False)

print("t-statistic:", t_stat)
print("p-value:", p_value)

Average Tenure of Churned Customers: 17.98
Average Tenure of Retained Customers: 37.57
t-statistic: -34.823818696312976
p-value: 1.1954945472607151e-232


In [7]:
# Qual g√™nero mais cancela o servi√ßo?

sum_churned_women = churned_customers[churned_customers['gender']
                                      == 'Female'].shape[0]
print("Total de mulheres que cancelaram o servi√ßo:", sum_churned_women)

sum_churned_man = churned_customers[churned_customers['gender']
                                    == 'Male'].shape[0]
print("Total de homens que cancelaram o servi√ßo:", sum_churned_man)

# O resultado n√£o parece interferir muito, mas as mulheres cancelaram um pouco mais o servi√ßo do que os homens.
# √â necess√°rio analisar cada coluna dentro do dataset para entender quais fatores influenciam no cancelamento do servi√ßo.
# Fonte de livro:
# ‚ÄúPractical Statistics for Data Scientists‚Äù, O‚ÄôReilly (Bruce et al., 2020), cap. 2‚Äì3
# ‚Üí Apresenta a necessidade de an√°lises univariadas estratificadas por classe como primeira etapa explorat√≥ria.

Total de mulheres que cancelaram o servi√ßo: 939
Total de homens que cancelaram o servi√ßo: 930


In [8]:
# Agora vou analisar a coluna "SeniorCitizen" para ver se h√° alguma diferen√ßa entre os clientes idosos e n√£o idosos em rela√ß√£o ao cancelamento do servi√ßo.

sum_churned_senior = churned_customers[churned_customers['SeniorCitizen'] == 1].shape[0]
print("Total de idosos que cancelaram o servi√ßo:", sum_churned_senior)
sum_churned_not_senior = churned_customers[churned_customers['SeniorCitizen'] == 0].shape[0]
print("Total de n√£o idosos que cancelaram o servi√ßo:", sum_churned_not_senior)

# O resultado mostra que os clientes n√£o idosos cancelaram o servi√ßo mais vezes do que os idosos.
# Mas isso n√£o diz nada.

# Vou descobrir quantos idosos e n√£o idosos existem no dataset para entender melhor esses n√∫meros.
total_senior = df[df['SeniorCitizen'] == 1].shape[0]
print("Total de idosos no dataset:", total_senior)
total_not_senior = df[df['SeniorCitizen'] == 0].shape[0]
print("Total de n√£o idosos no dataset:", total_not_senior)

# C√°lculo de taxas de cancelamento dos idosos e n√£o idosos
churn_rate_senior = (sum_churned_senior / total_senior) * 100
print("Taxa de cancelamento dos idosos: {:.2f}%".format(churn_rate_senior))
churn_rate_not_senior = (sum_churned_not_senior / total_not_senior) * 100
print("Taxa de cancelamento dos n√£o idosos: {:.2f}%".format(
    churn_rate_not_senior))

# Podemos ver que os idosos t√™m uma taxa de cancelamento maior do que os n√£o idosos.
# Isso sugere que ser idoso pode ser um fator que influencia no cancelamento do servi√ßo
# Relative Risk (RR) Risk Ratio raz√£o de riscos

rr = churn_rate_senior / churn_rate_not_senior
print(
    "Relative Risk (RR) de idosos em rela√ß√£o aos n√£o idosos: {:.2f}".format(rr))

Total de idosos que cancelaram o servi√ßo: 476
Total de n√£o idosos que cancelaram o servi√ßo: 1393
Total de idosos no dataset: 1142
Total de n√£o idosos no dataset: 5901
Taxa de cancelamento dos idosos: 41.68%
Taxa de cancelamento dos n√£o idosos: 23.61%
Relative Risk (RR) de idosos em rela√ß√£o aos n√£o idosos: 1.77


In [9]:
# Agora vou analisar a coluna 'Partner' para ver se h√° alguma diferen√ßa entre os clientes que t√™m parceiro e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.

import pandas as pd
import scipy
from scipy.stats import chi2_contingency

sum_churned_partner = churned_customers[churned_customers['Partner']
                                        == 'Yes'].shape[0]
print("Total de clientes com parceiro que cancelaram o servi√ßo:", sum_churned_partner)
sum_churned_no_partner = churned_customers[churned_customers['Partner']
                                           == 'No'].shape[0]
print("Total de clientes sem parceiro que cancelaram o servi√ßo:",
      sum_churned_no_partner)

# Vou descobrir quantos clientes com parceiro e sem parceiro existem no dataset para entender melhor esses n√∫meros.
total_partner = df[df['Partner'] == 'Yes'].shape[0]
total_no_partner = df[df['Partner'] == 'No'].shape[0]
print("Total de clientes com parceiro:", total_partner)
print("Total de clientes sem parceiro:", total_no_partner)

# C√°lculo de taxas de cancelamento dos clientes com parceiro e sem parceiro
churn_rate_partner = (sum_churned_partner / total_partner) * 100
churn_rate_no_partner = (sum_churned_no_partner / total_no_partner) * 100
print("Taxa de cancelamento dos clientes com parceiro:",
      churn_rate_partner)
print("Taxa de cancelamento dos clientes sem parceiro:",
      churn_rate_no_partner)

# √â poss√≠vel ver que os clientes sem parceiro t√™m uma taxa de cancelamento maior do que os clientes com parceiro.
# Isso sugere que n√£o ter um parceiro pode ser um fator que influencia no cancelamento do servi√ßo.
# Relative Risk (RR) Risk Ratio raz√£o de riscos
rr_partner = churn_rate_no_partner / churn_rate_partner
print("Relative Risk (RR) de clientes sem parceiro em rela√ß√£o aos com parceiro: {:.2f}".format(
    rr_partner))


# Tabela de conting√™ncia
data = [
    [669, 2733],   # Partner = Yes
    [1200, 2441]   # Partner = No
]

# Rodando o teste qui-quadrado
chi2, p_value, dof, expected = chi2_contingency(data)

print("Chi-square:", chi2)
print("p-valor:", p_value)
print("Graus de liberdade:", dof)
print("Valores esperados:", expected)

# Com essas interpreta√ß√µes de  p-valor e chi-square, podemos concluir que h√° uma associa√ß√£o significativa entre ter um parceiro e o cancelamento do servi√ßo.
# No caso, clientes sem parceiro t√™m uma taxa de cancelamento maior do que clientes com parceiro.

Total de clientes com parceiro que cancelaram o servi√ßo: 669
Total de clientes sem parceiro que cancelaram o servi√ßo: 1200
Total de clientes com parceiro: 3402
Total de clientes sem parceiro: 3641
Taxa de cancelamento dos clientes com parceiro: 19.66490299823633
Taxa de cancelamento dos clientes sem parceiro: 32.95797857731392
Relative Risk (RR) de clientes sem parceiro em rela√ß√£o aos com parceiro: 1.68
Chi-square: 158.7333820309922
p-valor: 2.1399113440759935e-36
Graus de liberdade: 1
Valores esperados: [[ 902.78830044 2499.21169956]
 [ 966.21169956 2674.78830044]]


In [10]:
# Agora, vou fazer a mesma an√°lise para a coluna 'Dependents', que indica se o cliente tem dependentes ou n√£o.
sum_churned_dependents = churned_customers[churned_customers['Dependents']
                                           == 'Yes'].shape[0]
print("Total de clientes com dependentes que cancelaram o servi√ßo:",
      sum_churned_dependents)
sum_churned_no_dependents = churned_customers[churned_customers['Dependents']
                                              == 'No'].shape[0]
print("Total de clientes sem dependentes que cancelaram o servi√ßo:",
      sum_churned_no_dependents)

# Taxa de cancelamento dos clientes com dependentes e sem dependentes
total_dependents = df[df['Dependents'] == 'Yes'].shape[0]
total_no_dependents = df[df['Dependents'] == 'No'].shape[0]
print("Total de clientes com dependentes:", total_dependents)
print("Total de clientes sem dependentes:", total_no_dependents)

# C√°lculo de taxas de cancelamento dos clientes com dependentes e sem dependentes
churn_rate_dependents = (sum_churned_dependents / total_dependents) * 100
churn_rate_no_dependents = (
    sum_churned_no_dependents / total_no_dependents) * 100
print("Taxa de cancelamento dos clientes com dependentes:", churn_rate_dependents)
print("Taxa de cancelamento dos clientes sem dependentes:", churn_rate_no_dependents)

# √â poss√≠vel ver que os clientes sem dependentes t√™m uma taxa de cancelamento maior do que os clientes com dependentes.
# Isso sugere que n√£o ter dependentes pode ser um fator que influencia no cancelamento do servi√ßo.
# Relative Risk (RR) Risk Ratio raz√£o de riscos
rr_dependents = churn_rate_no_dependents / churn_rate_dependents
print("Relative Risk (RR) de clientes sem dependentes em rela√ß√£o aos com dependentes: {:.2f}".format(
    rr_dependents))

Total de clientes com dependentes que cancelaram o servi√ßo: 326
Total de clientes sem dependentes que cancelaram o servi√ßo: 1543
Total de clientes com dependentes: 2110
Total de clientes sem dependentes: 4933
Taxa de cancelamento dos clientes com dependentes: 15.450236966824646
Taxa de cancelamento dos clientes sem dependentes: 31.279140482465028
Relative Risk (RR) de clientes sem dependentes em rela√ß√£o aos com dependentes: 2.02


In [11]:
# Agora vou analisar a coluna 'PhoneService' para ver se h√° alguma diferen√ßa entre os clientes que t√™m servi√ßo de telefone e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_phone_service = churned_customers[churned_customers['PhoneService']
                                              == 'Yes'].shape[0]
print("Total de clientes com servi√ßo de telefone que cancelaram o servi√ßo:",
      sum_churned_phone_service)
sum_churned_no_phone_service = churned_customers[churned_customers['PhoneService']
                                                 == 'No'].shape[0]
print("Total de clientes sem servi√ßo de telefone que cancelaram o servi√ßo:",
      sum_churned_no_phone_service)

# Vou descobrir quantos clientes com servi√ßo de telefone e sem servi√ßo de telefone existem no dataset para entender melhor esses n√∫meros.
total_phone_service = df[df['PhoneService'] == 'Yes'].shape[0]
total_no_phone_service = df[df['PhoneService'] == 'No'].shape[0]
print("Total de clientes com servi√ßo de telefone:", total_phone_service)
print("Total de clientes sem servi√ßo de telefone:", total_no_phone_service)

# C√°lculo de taxas de cancelamento dos clientes com servi√ßo de telefone e sem servi√ßo de telefone
churn_rate_phone_service = (
    sum_churned_phone_service / total_phone_service) * 100
churn_rate_no_phone_service = (
    sum_churned_no_phone_service / total_no_phone_service) * 100
print("Taxa de cancelamento dos clientes com servi√ßo de telefone:",
      churn_rate_phone_service)
print("Taxa de cancelamento dos clientes sem servi√ßo de telefone:",
      churn_rate_no_phone_service)

# Podemos concluir que a coluna 'PhoneService' n√£o parece influenciar significativamente no cancelamento do servi√ßo, j√° que as taxas de cancelamento s√£o bastante semelhantes entre os dois grupos.

Total de clientes com servi√ßo de telefone que cancelaram o servi√ßo: 1699
Total de clientes sem servi√ßo de telefone que cancelaram o servi√ßo: 170
Total de clientes com servi√ßo de telefone: 6361
Total de clientes sem servi√ßo de telefone: 682
Taxa de cancelamento dos clientes com servi√ßo de telefone: 26.70963684955196
Taxa de cancelamento dos clientes sem servi√ßo de telefone: 24.926686217008797


In [12]:
# Agora vou analisar a coluna 'MultipleLines' para ver se h√° alguma diferen√ßa entre os clientes que t√™m m√∫ltiplas linhas e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_multiple_lines = churned_customers[churned_customers['MultipleLines']
                                               == 'Yes'].shape[0]
print("Total de clientes com m√∫ltiplas linhas que cancelaram o servi√ßo:",
      sum_churned_multiple_lines)
sum_churned_no_multiple_lines = churned_customers[churned_customers['MultipleLines']
                                                  == 'No'].shape[0]
print("Total de clientes sem m√∫ltiplas linhas que cancelaram o servi√ßo:",
      sum_churned_no_multiple_lines)

# Vou descobrir quantos clientes com m√∫ltiplas linhas e sem m√∫ltiplas linhas existem no dataset para entender melhor esses n√∫meros.
total_multiple_lines = df[df['MultipleLines'] == 'Yes'].shape[0]
total_no_multiple_lines = df[df['MultipleLines'] == 'No'].shape[0]
print("Total de clientes com m√∫ltiplas linhas:", total_multiple_lines)
print("Total de clientes sem m√∫ltiplas linhas:", total_no_multiple_lines)

# C√°lculo de taxas de cancelamento dos clientes com m√∫ltiplas linhas e sem m√∫ltiplas linhas
churn_rate_multiple_lines = (
    sum_churned_multiple_lines / total_multiple_lines) * 100
churn_rate_no_multiple_lines = (
    sum_churned_no_multiple_lines / total_no_multiple_lines) * 100
print("Taxa de cancelamento dos clientes com m√∫ltiplas linhas:",
      churn_rate_multiple_lines)
print("Taxa de cancelamento dos clientes sem m√∫ltiplas linhas:",
      churn_rate_no_multiple_lines)

# Podemos concluir que a coluna 'MultipleLines' n√£o parece influenciar significativamente no cancelamento do servi√ßo, j√° que as taxas de cancelamento s√£o bastante semelhantes entre os dois grupos.

Total de clientes com m√∫ltiplas linhas que cancelaram o servi√ßo: 850
Total de clientes sem m√∫ltiplas linhas que cancelaram o servi√ßo: 849
Total de clientes com m√∫ltiplas linhas: 2971
Total de clientes sem m√∫ltiplas linhas: 3390
Taxa de cancelamento dos clientes com m√∫ltiplas linhas: 28.6098956580276
Taxa de cancelamento dos clientes sem m√∫ltiplas linhas: 25.04424778761062


In [13]:
# Agora vamos analisar a coluna 'InternetService' para ver se h√° alguma diferen√ßa entre os clientes que t√™m servi√ßo de internet e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.

import pandas as pd
from scipy.stats import chi2_contingency

# Tabela de conting√™ncia
contingency = pd.crosstab(df['InternetService'], df['Churn'])
print("Tabela de conting√™ncia:\n", contingency)

# Teste qui-quadrado
chi2, p, dof, expected = chi2_contingency(contingency)

print("\nChi-square:", chi2)
print("p-valor:", p)
print("Graus de liberdade:", dof)
print("Valores esperados:\n", expected)

# Taxas de churn por categoria
churn_rates = df.groupby('InternetService')['Churn'].value_counts(
    normalize=True).unstack()['Yes'] * 100
print("\nTaxa de churn por tipo de InternetService:\n", churn_rates)

# Podemos concluir que a coluna 'InternetService' influencia significativamente no cancelamento do servi√ßo, j√° que as taxas de cancelamento variam bastante entre os diferentes tipos de servi√ßo de internet.
# Clientes com servi√ßo de internet do tipo 'Fiber optic' t√™m uma taxa de cancelamento muito maior do que os clientes com outros tipos de servi√ßo de internet.

Tabela de conting√™ncia:
 Churn              No   Yes
InternetService            
DSL              1962   459
Fiber optic      1799  1297
No               1413   113

Chi-square: 732.309589667794
p-valor: 9.571788222840544e-160
Graus de liberdade: 2
Valores esperados:
 [[1778.53954281  642.46045719]
 [2274.41488002  821.58511998]
 [1121.04557717  404.95442283]]

Taxa de churn por tipo de InternetService:
 InternetService
DSL            18.959108
Fiber optic    41.892765
No              7.404980
Name: Yes, dtype: float64


In [14]:
# Agora vamos analisar a coluna 'OnlineSecurity' para ver se h√° alguma diferen√ßa entre os clientes que t√™m seguran√ßa online e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.

sum_churned_online_security = churned_customers[churned_customers['OnlineSecurity']
                                                == 'Yes'].shape[0]
print("Total de clientes com seguran√ßa online que cancelaram o servi√ßo:",
      sum_churned_online_security)
sum_churned_no_online_security = churned_customers[churned_customers['OnlineSecurity']
                                                   == 'No'].shape[0]
print("Total de clientes sem seguran√ßa online que cancelaram o servi√ßo:",
      sum_churned_no_online_security)

# Vou descobrir quantos clientes com seguran√ßa online e sem seguran√ßa online existem no dataset para entender melhor esses n√∫meros.
total_online_security = df[df['OnlineSecurity'] == 'Yes'].shape[0]
total_no_online_security = df[df['OnlineSecurity'] == 'No'].shape[0]
print("Total de clientes com seguran√ßa online:", total_online_security)
print("Total de clientes sem seguran√ßa online:", total_no_online_security)

# Taxa de cancelamento dos clientes com seguran√ßa online e sem seguran√ßa online
churn_rate_online_security = (
    sum_churned_online_security / total_online_security) * 100
churn_rate_no_online_security = (
    sum_churned_no_online_security / total_no_online_security) * 100
print("Taxa de cancelamento dos clientes com seguran√ßa online:",
      churn_rate_online_security)
print("Taxa de cancelamento dos clientes sem seguran√ßa online:",
      churn_rate_no_online_security)

# Podemos concluir que a coluna 'OnlineSecurity' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem seguran√ßa online t√™m uma taxa de cancelamento muito maior do que os clientes com seguran√ßa online.

Total de clientes com seguran√ßa online que cancelaram o servi√ßo: 295
Total de clientes sem seguran√ßa online que cancelaram o servi√ßo: 1461
Total de clientes com seguran√ßa online: 2019
Total de clientes sem seguran√ßa online: 3498
Taxa de cancelamento dos clientes com seguran√ßa online: 14.611193660227837
Taxa de cancelamento dos clientes sem seguran√ßa online: 41.76672384219554


In [15]:
# Agora vou analisar a coluna 'OnlineBackup' para ver se h√° alguma diferen√ßa entre os clientes que t√™m backup online e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_online_backup = churned_customers[churned_customers['OnlineBackup']
                                              == 'Yes'].shape[0]
print("Total de clientes com backup online que cancelaram o servi√ßo:",
      sum_churned_online_backup)
sum_churned_no_online_backup = churned_customers[churned_customers['OnlineBackup']
                                                 == 'No'].shape[0]
print("Total de clientes sem backup online que cancelaram o servi√ßo:",
      sum_churned_no_online_backup)

# Vou descobrir quantos clientes com backup online e sem backup online existem no dataset para entender melhor esses n√∫meros.
total_online_backup = df[df['OnlineBackup'] == 'Yes'].shape[0]
total_no_online_backup = df[df['OnlineBackup'] == 'No'].shape[0]
print("Total de clientes com backup online:", total_online_backup)
print("Total de clientes sem backup online:", total_no_online_backup)

# C√°lculo de taxas de cancelamento dos clientes com backup online e sem backup online
churn_rate_online_backup = (
    sum_churned_online_backup / total_online_backup) * 100
churn_rate_no_online_backup = (
    sum_churned_no_online_backup / total_no_online_backup) * 100
print("Taxa de cancelamento dos clientes com backup online:",
      churn_rate_online_backup)
print("Taxa de cancelamento dos clientes sem backup online:",
      churn_rate_no_online_backup)

# Podemos concluir que a coluna 'OnlineBackup' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem backup online t√™m uma taxa de cancelamento maior do que os clientes com backup online.

Total de clientes com backup online que cancelaram o servi√ßo: 523
Total de clientes sem backup online que cancelaram o servi√ßo: 1233
Total de clientes com backup online: 2429
Total de clientes sem backup online: 3088
Taxa de cancelamento dos clientes com backup online: 21.531494442157268
Taxa de cancelamento dos clientes sem backup online: 39.92875647668394


In [16]:
# Agora vou analisar a coluna de 'DeviceProtection' para ver se h√° alguma diferen√ßa entre os clientes que t√™m prote√ß√£o de dispositivo e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_device_protection = churned_customers[churned_customers['DeviceProtection']
                                                  == 'Yes'].shape[0]
print("Total de clientes com prote√ß√£o de dispositivo que cancelaram o servi√ßo:",
      sum_churned_device_protection)
sum_churned_no_device_protection = churned_customers[churned_customers['DeviceProtection']
                                                     == 'No'].shape[0]
print("Total de clientes sem prote√ß√£o de dispositivo que cancelaram o servi√ßo:",
      sum_churned_no_device_protection)

# Vou descobrir quantos clientes com prote√ß√£o de dispositivo e sem prote√ß√£o de dispositivo existem no dataset para entender melhor esses n√∫meros.
total_device_protection = df[df['DeviceProtection'] == 'Yes'].shape[0]
total_no_device_protection = df[df['DeviceProtection'] == 'No'].shape[0]
print("Total de clientes com prote√ß√£o de dispositivo:", total_device_protection)
print("Total de clientes sem prote√ß√£o de dispositivo:", total_no_device_protection)

# C√°lculo de taxas de cancelamento dos clientes com prote√ß√£o de dispositivo e sem prote√ß√£o de dispositivo
churn_rate_device_protection = (
    sum_churned_device_protection / total_device_protection) * 100
churn_rate_no_device_protection = (
    sum_churned_no_device_protection / total_no_device_protection) * 100
print("Taxa de cancelamento dos clientes com prote√ß√£o de dispositivo:",
      churn_rate_device_protection)
print("Taxa de cancelamento dos clientes sem prote√ß√£o de dispositivo:",
      churn_rate_no_device_protection)

# Podemos concluir que a coluna 'DeviceProtection' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem prote√ß√£o de dispositivo t√™m uma taxa de cancelamento maior do que os clientes com prote√ß√£o de dispositivo.

Total de clientes com prote√ß√£o de dispositivo que cancelaram o servi√ßo: 545
Total de clientes sem prote√ß√£o de dispositivo que cancelaram o servi√ßo: 1211
Total de clientes com prote√ß√£o de dispositivo: 2422
Total de clientes sem prote√ß√£o de dispositivo: 3095
Taxa de cancelamento dos clientes com prote√ß√£o de dispositivo: 22.50206440957886
Taxa de cancelamento dos clientes sem prote√ß√£o de dispositivo: 39.127625201938606


In [17]:
# Agora, vou analisar a coluna 'TechSupport' para ver se h√° alguma diferen√ßa entre os clientes que t√™m suporte t√©cnico e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
sum_churned_tech_support = churned_customers[churned_customers['TechSupport']
                                             == 'Yes'].shape[0]
print("Total de clientes com suporte t√©cnico que cancelaram o servi√ßo:",
      sum_churned_tech_support)
sum_churned_no_tech_support = churned_customers[churned_customers['TechSupport']
                                                == 'No'].shape[0]
print("Total de clientes sem suporte t√©cnico que cancelaram o servi√ßo:",
      sum_churned_no_tech_support)

# Vou descobrir quantos clientes com suporte t√©cnico e sem suporte t√©cnico existem no dataset para entender melhor esses n√∫meros.
total_tech_support = df[df['TechSupport'] == 'Yes'].shape[0]
total_no_tech_support = df[df['TechSupport'] == 'No'].shape[0]
print("Total de clientes com suporte t√©cnico:", total_tech_support)
print("Total de clientes sem suporte t√©cnico:", total_no_tech_support)

# C√°lculo de taxas de cancelamento dos clientes com suporte t√©cnico e sem suporte t√©cnico
churn_rate_tech_support = (
    sum_churned_tech_support / total_tech_support) * 100
churn_rate_no_tech_support = (
    sum_churned_no_tech_support / total_no_tech_support) * 100
print("Taxa de cancelamento dos clientes com suporte t√©cnico:",
      churn_rate_tech_support)
print("Taxa de cancelamento dos clientes sem suporte t√©cnico:",
      churn_rate_no_tech_support)

# Podemos concluir que a coluna 'TechSupport' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem suporte t√©cnico t√™m uma taxa de cancelamento maior do que os clientes com suporte t√©cnico.

Total de clientes com suporte t√©cnico que cancelaram o servi√ßo: 310
Total de clientes sem suporte t√©cnico que cancelaram o servi√ßo: 1446
Total de clientes com suporte t√©cnico: 2044
Total de clientes sem suporte t√©cnico: 3473
Taxa de cancelamento dos clientes com suporte t√©cnico: 15.166340508806261
Taxa de cancelamento dos clientes sem suporte t√©cnico: 41.63547365390153


In [18]:
# Agora vou analisar a coluna 'StreamingTV' para ver se h√° alguma diferen√ßa entre os clientes que t√™m streaming de TV e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_streaming_tv = churned_customers[churned_customers['StreamingTV']
                                             == 'Yes'].shape[0]
print("Total de clientes com streaming de TV que cancelaram o servi√ßo:",
      sum_churned_streaming_tv)
sum_churned_no_streaming_tv = churned_customers[churned_customers['StreamingTV']
                                                == 'No'].shape[0]
print("Total de clientes sem streaming de TV que cancelaram o servi√ßo:",
      sum_churned_no_streaming_tv)

# Vou descobrir quantos clientes com streaming de TV e sem streaming de TV existem no dataset para entender melhor esses n√∫meros.
total_streaming_tv = df[df['StreamingTV'] == 'Yes'].shape[0]
total_no_streaming_tv = df[df['StreamingTV'] == 'No'].shape[0
                                                            ]
print("Total de clientes com streaming de TV:", total_streaming_tv)
print("Total de clientes sem streaming de TV:", total_no_streaming_tv)

# C√°lculo de taxas de cancelamento dos clientes com streaming de TV e sem streaming de TV
churn_rate_streaming_tv = (
    sum_churned_streaming_tv / total_streaming_tv) * 100
churn_rate_no_streaming_tv = (
    sum_churned_no_streaming_tv / total_no_streaming_tv) * 100
print("Taxa de cancelamento dos clientes com streaming de TV:",
      churn_rate_streaming_tv)
print("Taxa de cancelamento dos clientes sem streaming de TV:",
      churn_rate_no_streaming_tv)

# Podemos concluir que a coluna 'StreamingTV' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem streaming de TV t√™m uma taxa de cancelamento maior do que os clientes com streaming de TV.


# Tabela de conting√™ncia
contingency_table = pd.crosstab(df['StreamingTV'], df['Churn'])

print("Tabela de conting√™ncia:\n", contingency_table)

# Teste qui-quadrado
chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)

print("\nChi-square:", chi2)
print("p-valor:", p_value)
print("Graus de liberdade:", dof)
print("Valores esperados:\n", expected)

# Interpreta√ß√£o simples
if p_value < 0.0001:
    print("\nüìå Conclus√£o: p < 0.0001 ‚Üí A associa√ß√£o entre StreamingTV e Churn √© estatisticamente MUITO significativa.")
else:
    print("\nüìå Conclus√£o: p >= 0.0001 ‚Üí N√£o h√° evid√™ncia estat√≠stica forte de associa√ß√£o.")

Total de clientes com streaming de TV que cancelaram o servi√ßo: 814
Total de clientes sem streaming de TV que cancelaram o servi√ßo: 942
Total de clientes com streaming de TV: 2707
Total de clientes sem streaming de TV: 2810
Taxa de cancelamento dos clientes com streaming de TV: 30.070188400443293
Taxa de cancelamento dos clientes sem streaming de TV: 33.52313167259787
Tabela de conting√™ncia:
 Churn                  No  Yes
StreamingTV                   
No                   1868  942
No internet service  1413  113
Yes                  1893  814

Chi-square: 374.2039433109813
p-valor: 5.528994485739183e-82
Graus de liberdade: 2
Valores esperados:
 [[2064.31066307  745.68933693]
 [1121.04557717  404.95442283]
 [1988.64375976  718.35624024]]

üìå Conclus√£o: p < 0.0001 ‚Üí A associa√ß√£o entre StreamingTV e Churn √© estatisticamente MUITO significativa.


In [19]:
# Agora vou analisar a coluna 'StreamingMovies' para ver se h√° alguma diferen√ßa entre os clientes que t√™m streaming de filmes e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_streaming_movies = churned_customers[churned_customers['StreamingMovies']
                                                 == 'Yes'].shape[0]
print("Total de clientes com streaming de filmes que cancelaram o servi√ßo:",
      sum_churned_streaming_movies)
sum_churned_no_streaming_movies = churned_customers[churned_customers['StreamingMovies']
                                                    == 'No'].shape[0]
print("Total de clientes sem streaming de filmes que cancelaram o servi√ßo:",
      sum_churned_no_streaming_movies)
# Vou descobrir quantos clientes com streaming de filmes e sem streaming de filmes existem no dataset para entender melhor esses n√∫meros.
total_streaming_movies = df[df['StreamingMovies'] == 'Yes'].shape[0]
total_no_streaming_movies = df[df['StreamingMovies'] == 'No'].shape[0]
print("Total de clientes com streaming de filmes:", total_streaming_movies)
print("Total de clientes sem streaming de filmes:", total_no_streaming_movies)
# C√°lculo de taxas de cancelamento dos clientes com streaming de filmes e sem streaming de filmes
churn_rate_streaming_movies = (
    sum_churned_streaming_movies / total_streaming_movies) * 100
churn_rate_no_streaming_movies = (
    sum_churned_no_streaming_movies / total_no_streaming_movies) * 100
print("Taxa de cancelamento dos clientes com streaming de filmes:",
      churn_rate_streaming_movies)
print("Taxa de cancelamento dos clientes sem streaming de filmes:",
      churn_rate_no_streaming_movies)

# Podemos concluir que a coluna 'StreamingMovies' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes sem streaming de filmes t√™m uma taxa de cancelamento maior do que os clientes com streaming de filmes.

Total de clientes com streaming de filmes que cancelaram o servi√ßo: 818
Total de clientes sem streaming de filmes que cancelaram o servi√ßo: 938
Total de clientes com streaming de filmes: 2732
Total de clientes sem streaming de filmes: 2785
Taxa de cancelamento dos clientes com streaming de filmes: 29.941434846266475
Taxa de cancelamento dos clientes sem streaming de filmes: 33.680430879712745


In [20]:
# Agora vou analisar a coluna 'Contract' para ver se h√° alguma diferen√ßa entre os clientes que t√™m contrato mensal, anual ou bienal em rela√ß√£o ao cancelamento do servi√ßo.

import pandas as pd
import scipy.stats as stats
sum_churned_month_to_month = churned_customers[churned_customers['Contract']
                                               == 'Month-to-month'].shape[0]
print("Total de clientes com contrato mensal que cancelaram o servi√ßo:",
      sum_churned_month_to_month)
sum_churned_one_year = churned_customers[churned_customers['Contract']
                                         == 'One year'].shape[0]
print("Total de clientes com contrato anual que cancelaram o servi√ßo:",
      sum_churned_one_year)
sum_churned_two_year = churned_customers[churned_customers['Contract']
                                         == 'Two year'].shape[0]
print("Total de clientes com contrato bienal que cancelaram o servi√ßo:",
      sum_churned_two_year)
# Vou descobrir quantos clientes com cada tipo de contrato existem no dataset para entender melhor esses n√∫meros.
total_month_to_month = df[df['Contract'] == 'Month-to-month'].shape[0]
total_one_year = df[df['Contract'] == 'One year'].shape[0]
total_two_year = df[df['Contract'] == 'Two year'].shape[0]
print("Total de clientes com contrato mensal:", total_month_to_month)
print("Total de clientes com contrato anual:", total_one_year)
print("Total de clientes com contrato bienal:", total_two_year)

# C√°lculo de taxas de cancelamento dos clientes com cada tipo de contrato
churn_rate_month_to_month = (
    sum_churned_month_to_month / total_month_to_month) * 100
churn_rate_one_year = (sum_churned_one_year / total_one_year) * 100
churn_rate_two_year = (sum_churned_two_year / total_two_year) * 100
print("Taxa de cancelamento dos clientes com contrato mensal:",
      churn_rate_month_to_month)
print("Taxa de cancelamento dos clientes com contrato anual:", churn_rate_one_year)
print("Taxa de cancelamento dos clientes com contrato bienal:", churn_rate_two_year)

# Podemos concluir que a coluna 'Contract' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes com contrato mensal t√™m uma taxa de cancelamento muito maior do que os clientes com contratos anuais ou bienais.

Total de clientes com contrato mensal que cancelaram o servi√ßo: 1655
Total de clientes com contrato anual que cancelaram o servi√ßo: 166
Total de clientes com contrato bienal que cancelaram o servi√ßo: 48
Total de clientes com contrato mensal: 3875
Total de clientes com contrato anual: 1473
Total de clientes com contrato bienal: 1695
Taxa de cancelamento dos clientes com contrato mensal: 42.70967741935484
Taxa de cancelamento dos clientes com contrato anual: 11.269517990495586
Taxa de cancelamento dos clientes com contrato bienal: 2.831858407079646


In [21]:
# Agora vou analisar a coluna 'PaperlessBilling' para ver se h√° alguma diferen√ßa entre os clientes que t√™m faturamento sem papel e os que n√£o t√™m em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_paperless_billing = churned_customers[churned_customers['PaperlessBilling']
                                                  == 'Yes'].shape[0]
print("Total de clientes com faturamento sem papel que cancelaram o servi√ßo:",
      sum_churned_paperless_billing)
sum_churned_no_paperless_billing = churned_customers[churned_customers['PaperlessBilling']
                                                     == 'No'].shape[0]
print("Total de clientes com faturamento com papel que cancelaram o servi√ßo:",
      sum_churned_no_paperless_billing)
# Vou descobrir quantos clientes com faturamento sem papel e com papel existem no dataset para entender melhor esses n√∫meros.
total_paperless_billing = df[df['PaperlessBilling'] == 'Yes'].shape[0]
total_no_paperless_billing = df[df['PaperlessBilling'] == 'No'].shape[0]
print("Total de clientes com faturamento sem papel:", total_paperless_billing)
print("Total de clientes com faturamento com papel:", total_no_paperless_billing)

# C√°lculo de taxas de cancelamento dos clientes com faturamento sem papel e com papel
churn_rate_paperless_billing = (
    sum_churned_paperless_billing / total_paperless_billing) * 100
churn_rate_no_paperless_billing = (
    sum_churned_no_paperless_billing / total_no_paperless_billing) * 100
print("Taxa de cancelamento dos clientes com faturamento sem papel:",
      churn_rate_paperless_billing)
print("Taxa de cancelamento dos clientes com faturamento com papel:",
      churn_rate_no_paperless_billing)

# Podemos concluir que a coluna 'PaperlessBilling' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes com faturamento sem papel t√™m uma taxa de cancelamento maior do que os clientes com faturamento com papel.

Total de clientes com faturamento sem papel que cancelaram o servi√ßo: 1400
Total de clientes com faturamento com papel que cancelaram o servi√ßo: 469
Total de clientes com faturamento sem papel: 4171
Total de clientes com faturamento com papel: 2872
Taxa de cancelamento dos clientes com faturamento sem papel: 33.565092304003834
Taxa de cancelamento dos clientes com faturamento com papel: 16.33008356545961


In [22]:
# Agora vou analisar a coluna 'PaymentMethod' para ver se h√° alguma diferen√ßa entre os clientes que utilizam diferentes m√©todos de pagamento em rela√ß√£o ao cancelamento do servi√ßo.
import pandas as pd
import scipy.stats as stats
sum_churned_electronic_check = churned_customers[churned_customers['PaymentMethod']
                                                 == 'Electronic check'].shape[0]
print("Total de clientes que pagam por cheque eletr√¥nico que cancelaram o servi√ßo:",
      sum_churned_electronic_check)
sum_churned_mailed_check = churned_customers[churned_customers['PaymentMethod']
                                             == 'Mailed check'].shape[0]
print("Total de clientes que pagam por cheque enviado pelo correio que cancelaram o servi√ßo:",
      sum_churned_mailed_check)
sum_churned_bank_transfer = churned_customers[churned_customers['PaymentMethod']
                                              == 'Bank transfer (automatic)'].shape[0]
print("Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica que cancelaram o servi√ßo:",
      sum_churned_bank_transfer)
sum_churned_credit_card = churned_customers[churned_customers['PaymentMethod']
                                            == 'Credit card (automatic)'].shape[0]
print("Total de clientes que pagam por cart√£o de cr√©dito autom√°tico que cancelaram o servi√ßo:",
      sum_churned_credit_card)
# Vou descobrir quantos clientes com cada m√©todo de pagamento existem no dataset para entender melhor esses n√∫meros.
total_electronic_check = df[df['PaymentMethod'] == 'Electronic check'].shape[0]
total_mailed_check = df[df['PaymentMethod'] == 'Mailed check'].shape[0]
total_bank_transfer = df[df['PaymentMethod']
                         == 'Bank transfer (automatic)'].shape[0]
total_credit_card = df[df['PaymentMethod']
                       == 'Credit card (automatic)'].shape[0]
print("Total de clientes que pagam por cheque eletr√¥nico:", total_electronic_check)
print("Total de clientes que pagam por cheque enviado pelo correio:", total_mailed_check)
print("Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica:",
      total_bank_transfer)
print("Total de clientes que pagam por cart√£o de cr√©dito autom√°tico:", total_credit_card)
# C√°lculo de taxas de cancelamento dos clientes com cada m√©todo de pagamento
churn_rate_electronic_check = (
    sum_churned_electronic_check / total_electronic_check) * 100
churn_rate_mailed_check = (
    sum_churned_mailed_check / total_mailed_check) * 100
churn_rate_bank_transfer = (
    sum_churned_bank_transfer / total_bank_transfer) * 100
churn_rate_credit_card = (
    sum_churned_credit_card / total_credit_card) * 100
print("Taxa de cancelamento dos clientes que pagam por cheque eletr√¥nico:",
      churn_rate_electronic_check)
print("Taxa de cancelamento dos clientes que pagam por cheque enviado pelo correio:",
      churn_rate_mailed_check)
print("Taxa de cancelamento dos clientes que pagam por transfer√™ncia banc√°ria autom√°tica:",
      churn_rate_bank_transfer)
print("Taxa de cancelamento dos clientes que pagam por cart√£o de cr√©dito autom√°tico:",
      churn_rate_credit_card)
# Podemos concluir que a coluna 'PaymentMethod' influencia significativamente no cancelamento do servi√ßo, j√° que os clientes que pagam por cheque eletr√¥nico t√™m uma taxa de cancelamento muito maior do que os clientes que utilizam outros m√©todos de pagamento.

Total de clientes que pagam por cheque eletr√¥nico que cancelaram o servi√ßo: 1071
Total de clientes que pagam por cheque enviado pelo correio que cancelaram o servi√ßo: 308
Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica que cancelaram o servi√ßo: 258
Total de clientes que pagam por cart√£o de cr√©dito autom√°tico que cancelaram o servi√ßo: 232
Total de clientes que pagam por cheque eletr√¥nico: 2365
Total de clientes que pagam por cheque enviado pelo correio: 1612
Total de clientes que pagam por transfer√™ncia banc√°ria autom√°tica: 1544
Total de clientes que pagam por cart√£o de cr√©dito autom√°tico: 1522
Taxa de cancelamento dos clientes que pagam por cheque eletr√¥nico: 45.28541226215645
Taxa de cancelamento dos clientes que pagam por cheque enviado pelo correio: 19.106699751861044
Taxa de cancelamento dos clientes que pagam por transfer√™ncia banc√°ria autom√°tica: 16.709844559585495
Taxa de cancelamento dos clientes que pagam por cart√£o de cr√©dito autom√°t

In [23]:
# Agora vou analisar a coluna 'MonthlyCharges' para ver se h√° alguma diferen√ßa nas cobran√ßas mensais entre os clientes que cancelaram o servi√ßo e os que n√£o cancelaram.
import pandas as pd

churned_customers = df[df['Churn'] == 'Yes']
not_churned_customers = df[df['Churn'] == 'No']

avg_monthly_charges_churned = churned_customers['MonthlyCharges'].mean()
print("M√©dia das cobran√ßas mensais dos clientes que cancelaram o servi√ßo: R${:.2f}".format(
    avg_monthly_charges_churned))
avg_monthly_charges_not_churned = not_churned_customers['MonthlyCharges'].mean(
)
print("M√©dia das cobran√ßas mensais dos clientes que n√£o cancelaram o servi√ßo: R${:.2f}".format(
    avg_monthly_charges_not_churned))


# Podemos ver que os clientes que cancelaram o servi√ßo t√™m uma m√©dia de cobran√ßas mensais maior do que os clientes que n√£o cancelaram.
# Isso sugere que cobran√ßas mensais mais altas podem ser um fator que influencia no cancelamento do servi√ßo.

M√©dia das cobran√ßas mensais dos clientes que cancelaram o servi√ßo: R$74.44
M√©dia das cobran√ßas mensais dos clientes que n√£o cancelaram o servi√ßo: R$61.27


In [24]:
# Agora vou analisar a coluna 'TotalCharges'  para ver se h√° alguma diferen√ßa nas cobran√ßas totais entre os clientes que cancelaram o servi√ßo e os que n√£o cancelaram.
import pandas as pd
churned_customers = df[df['Churn'] == 'Yes']
not_churned_customers = df[df['Churn'] == 'No']

avg_total_charges_churned_total = churned_customers['TotalCharges'].mean()
print("M√©dia das cobran√ßas totais dos clientes que cancelaram o servi√ßo: R${:.2f}".format(
    avg_total_charges_churned_total))


avg_total_charges_not_churned_total = not_churned_customers['TotalCharges'].mean(
)
print("M√©dia das cobran√ßas totais dos clientes que n√£o cancelaram o servi√ßo: R${:.2f}".format(
    avg_total_charges_not_churned_total))

TypeError: Could not convert string '108.15151.65820.53046.055036.3528.3539.6520.154749.1530.21093.1316.93549.251105.4144.151426.4633.31752.55857.2579.35496.9927.35113.852514.57611.855238.92868.151064.65229.552135.51502.6535.4581.2570.45563.6545.65655.51592.352732651.2242.85000.21145.7503.629.95662.651111.6524.853179.91934.4584.5268.35179.3555.284.6114.11120.31074.348.55147.1540.280.55132.21364.31099.61511.224.870.6401.15624.851779.9570606.55435.41712.773.6396.12303.35415.553058.652231.054350.1139.05511.25155.85293.954759.856603168.2371.9840.1846805.1492.55181.52566.550.6590.85214.754874.72524.457007.619.919.6233.71845.975.31182.55518.96396.4569.552227.1385.9673.25734.355574.71861.5453.4994.82145680.0574.35139.4903.6131.051238.451782.4167.5502.85334.84131.951929.351758.6348085834.159732662596.153527.65614.45233.5575.3346.285.7713.756786.4248.95663.05137.64547.254687.96985.655794.65855.32499.389.551899.6545.7161.5222.374.6164.335.996.05145.15191.0575.052550.962.258091.1270.7168.152015.3519.55381.3141.53105.552758.153941.71008.551842.81269.551907.85208.851444.6519.9454.153036.75184.6589.552.24874.86125.41058.25489.454113.169.556017.657250.15178.72317.11430.25644.355453.45610.7292.844.45509.3229.689.96413.6550.81463.5307.42104.55319.155084.653027.41582.751043.3497.556215.355017.924.61120.95923.51625.65918.6688.6573.55205.05952.3360.1434.5215.83395.885.1544.745.7832.35112.3174.890.551359.77532.1569.96383.3586.62656.52917.52416.1424.45660.91893.951612.75119.753204.65990.85696.35819.42070.6273.75729.953013.051266.12347.919.65526.95210.753706.95412.5832.05185.551943.22169.84853.75144.5591.17134527.45171.15940.351047.71622.452178.6168.15387.22839.65893.554284.8544.559411133.6535.55196.91162.85224.0531.351052.45610.2519.85669.451553.951236.1560.15593.454867.9574.980.251149.65740.81532.45250.052282.55143.3545.85810.22564.3228.41529.245.3289.3987.9545.0575.8523.1559.054424.26127.66448.05676.7632.95270.95483.71345.558127.612811553.93207.555124.553474.4519.4576.3569.255961.125.296.4520.157133.25169.451258.6857.21639.3889.91290330.05237.952452.7813.8579.2347.449.9515543217.553001.26254.2442.8555376170.851308.4732.51504.0550.451132.75193.6349.65332.451534.7520.55424.152813475.55896.752407.36547.74346.42082.95102.751775.81451146.6574.71313.5525.872.41970.5190.051025.95819.55330.156873.7545.855769.7591.71555.6574.95898.35127.16710.51704.95415.95950.23384165.488.82755.35994.551169.355918.82293.63029.15508.35655.91463.455082.8770.63587.253541.35868.585.879.1134.55341.8324.64812.754399.550.154594.952384.151616.1534.7264.86615.152200.2599.75299.7639.6559.8569.6418.819.569.9183.75264.851178.44689.51201.15143.65390.8571.6577.53264.5947.31761.05973.2576.351676.952642.052661.12697.41424.52572.9545.12122.4520.056937.95402.668.7546.245.1543.32250.651441.14338.645.95247.2570.05165.453653.351194.32145.11527.5378.45124.63862.5550.94872.455118.95658.95246.5215.2159.455940.8575.3575.451210.45356.45576.65825.793.555885.41259309.12257.756287.251350.1545.769.9597.11710.455464.652165.054941.8223.15181.1341.45357.754533.7830.8545.37040.85371.656056.151390.620.22361.81730.352030.34065106.551742.75340.2595.62934.34600.771.3520.1569.7529311400.85137.8579.9519.33754.6627.424254.35100.41716.4575.34837.670.552745.72624.25184.1160.753004.151233.65527.92555.9179.251338.1591.379.5467.557482.15427.05587.1100.81180.952625.551233.47402088.75102.45217.55146.05567.451384.7570.9220.952331.374.56941.21043.356822.1571.555029.27318.2633.4321.651253.925.155893.155037.5592.452933.21258.31214.055510.651973.7545.9570.1585.552416.553520.75346788.35777.3512.45141.451445.33640.45646535.93777.1547.5847.3546.953186.651527.351531.42847.41133.9461.777.1535.252015149.55574.754541.210721715.65706.852636.05189.274.252187.551581.269.53132.7519.4803.3679.32791.5676.351230.254154.82655.251425.455742.92866.4554.753759.0594.62911.3231.869.75279.256281.451131.3738.280.26341.45260.819.63655.45140.7665.4584.85426.851127.354045.652757.856002238.590.75365.6590.3519.751789.252317.1266.9301.4206.6604.71471.75412.1583.4550.1151.8293.651308.12598.95765.5793.55462.8169.844.4477.786.05174.31077.595.6520.95329.8297.31515.13229.651178.25758.61863.8396.35551.15622.9329.951048.853351.55259.86890262.052649.1574.43326.2560.851060.220.5347.6581.95451.1455.31235.552362.11873.76010.057101.545.05713309.2579.71254.72896.469.251767.351820.451742.9573.5829.12602.9824.751029.752854.554259.32239.65480.75635.6209595.054242.35331.96283.32659.4298.456143.151059.552180.5589.151036.752276.95196.151206.051378.252191067.1579.553444.8584.57690.91380.178.6545.42585.9558.85425.93678.3937.52483.5556.35389.1187.45261.25299.2323.25762.153.525.12365.15308.2519.457372.651058.62628.61023.9856.353734.251144.545.375.6180.2519.8333.6465.05431878.352448.751329.24348.6593.725.05365.552342.21498.25278.1593.8550.45521.11046.15763.320.11900.25159.15856.654056.752435.152874.151974.81218.5581.72171.15317.253474.051875.5569.169.63066.45305.5578.45255.25146.9762.5338.92497.354913.346.34443.451095.65446.05811.81056.9544.15834.1585.45239.5559.21060.654.92254.2180.3158.4104.295.1438325.451148.1355.2151.3188.75549.45685.850.6863.169.84750.952391.81687.957689.95229.5590.552274.35602.55449.754512.7196.95131.05415.05754.6575.353198.620.9123.657534.65906.854888.7237.2574.6342.4892.654822.85438.43019.53183.479.61734.52088.8502.650.751208.352498.4651.4223.45919.4181.6545.65551.35115.95165.24146.05813017.651164.32710.25810.736.5585.549.55178.5115.12745.225.25416.454116.1575.13715.654273.4545.820.1328.954680.0569.1999.451888.6571.151240.257156.2270.8374.51520.93605.21145.3538.770.81448.6291.95921.35249.95219.6566968.95196.75318.924.45631.85307.455.879.059525.24187.755154.63496.3914.36110.228.32351.8679.551994.31505.855638.371.652542.45210.374.24388.4420.22177.453913.3443.93436.170.853110.1280.856144.552983.81565.7298.354534.91157.0545.75815.580.158109.8108.9578.85127.95874.869.11776.55536.480.854029.9551.15149.5578.6542.9139.35539.854718.25434.1545.21284.2646.85692.11727.586.62979.524.25837.95362.25373.12068.55131.6524.0550.551415.5520.5321.9482.89141172.95155.353303.05134.3570.5953.4519.75937.65812.61544.0569.64059.356851.6578.05520706.620.22264.0556.352510.22111.4520.25300.885.4561372043.452576.23515.25469.81457.25185.6973.5541.852862.75343.952890.651222.055743.052496.790.6288.05368.1256.668.5791.7569.95346.4773.651422.052467.1989.454830.2559.7594.556871.96529.251454.151327.152404.15114.76975.25257.0540.12217.151129.12568.553580.3293.32440.1579.552781.8589.11607.21490.9592.65606.2519.180.374.9751.6566.954515.851653046.41808.77446.925.11880.85477.551496.970.453563.824.752012.7242.0563.75260.92967.35939.71037.7550.453624.3100.251422.169.85858.6324.3399.63273.5520.969.4541.153229.470.1909.255283.951617.584.36440.251131.2585.9519.952186.43201.55661.251111.853046.1569.35272.25293.450.5580.55916.91855.65116.652287.25830.7201054.685.052110.15547.658684.84370.25251.75740.3452.719.45166.3704820.153409.61270.21561.531.55321.75147.152387.752660.24211.55990.9193.8790.152467.7572621914.95688.055265.11772.2544.453067.220.2574.3562.053182.95541.9971.3162.45216.9245.2302.7560.178.9598.5244.652375.42431.351451.971.16979.81021.8941424.95193.6620.551993.82597.61052.3553.95829.551312.1569.8545.15494.052841.55486.85204.72995.45137.9537623233.65438.91081.45221.974.958.9333.553171.1574.7455.53152.52530.43186.735.75181.61539.4558.15225.6340.852515.3305.95365.490.8569.4742.9520.154816.71834.95305.1155.65108.744.1712.7564051637.46145.851740.7552.9593.71046.5834.24134.85899.8108.0570.3851.75575.451375.15152.7195.05166020.26981.353615.62184.351852.8577.15338.13030.63124.5930.45673.1208.7237.75221.3575.34062.24042.3164.8570.4331.31147.451078.97804.15226.454364.12433.91217.251743.569.65713.1526.73021.6191.352718.336.452001.53825.85933.33184.25764.95145.4156.251604.54533.91587.55842.91761.45164.52724.6318.54990.253744.057220.352139.2521.3608577.6292.85198609.979.652812.280.052698.351465.75146.351.2545.6267.35288.05853934.11222.85293.274.452345.22335.31115.15291.4453.751597.25235.55639.05799.6550.8144.552447.953050.154517.2519.91200.1570.6389.6523.52277.6524.86903.11008.7853.1794.25160.81174.35741.73019.254759.7519.6584.6569.55347.25354.0544.35586.053092.65415.5573.652405.054458.15474.9668.4926.252541.25461156.11167.83912.9221.7201.12838.770.15296.181.120.556428.46252.9240.45315.355.7973.45669.85267.469.8553.556579.0578562169.75896.919.349.652460.15370.651910.6890.6529.548.62109.352265.25220.620.2229.52470.11244.520.053994.4519.9667.719.9579.675.976.219.253588.4522.9570.25865.55409.960649.6520.852011.46205.5503.61152.77674.552157.957548.175.71951384.53432.9463.052867.7571.351132.3520.61931.75818.05916.7570.156581.93692.8569.6589.33078.11426.75474.8446.1416.335.851451.671746.544.470.379.35809.751470.953264.45246.31389.21474.751460.65153.052119.51351400.5569.651060.2865785.579.452816.654783.5470.647401448.84254.851101.8520.23969.351237.85498.1294.452381.55613.4442.284.85654.853160.55740.32806.91422.654138.05102.5872.65757.1608.81139.2279.551483.254653.854400.75460.255485.5404.27176.55242.95866.452076.27299.652291.27491.757723.9103270.75130.752653.653457.945.3178.1480.623.4529.76039.9151.355.490.6156.352952.855916.45113.3513591777.94504.55259.85568.352203.652369.05672.551573.7126.0564.553243.4579.2544.9659.65118.53365.85195.3997.655275.880.5305.55900.53856.7516253959.353969.4470.95560.625.7506.980.3576.4514880.269.9593.3169.0535.05732716.370.1142.3533.2287.42254.27752.36585.3519.7413.65714.152497.25643.4197.779.15655.85303.151574.456441.449.91358.852869.8549.255071.055769.620.3700.85181.74016.8574.344.651095.3788.8364.5520.44213.357723.7154.657348.82954.53807.353937.45418.450.574.42587.76219.64871.054398.15167.394.455101.45350.369.518.8569.269.654086.382.3267.61115.25435.64186.325.05712.8548.9545.3167.3930.45069.65324.25156.43626.17968.85152.451130.854323.45703.5556.252249.95159.468.65327.451369.81107.2570.85134.72978.3450.81215.691.77432.054026.425.31193.0520.169.9452880.8118.376.451094.5573.752274.974.51068.85762.25582.52122.0569.15723.44627.85289.1172.8585.51096.252285746.15209.14481154.85593.753233.851062.15440.9235.1853014.65184.42010.5569.22354.83473.4220.16876.0550120.2733.351334113.551348.9308.7438.2550.353147.570.35617.751776.952483.055224.35620.35519.151301.71129.75865.879.556014.852368.43545.351301372.4577.7595.451135.72319.869.7573.399.75871.4780.5365.35334.6543.9545.12868.05449.754414.33361.0569.354092.85216.7569.638530.56859.55121.31127.21747.852754.452196.151692.620.5265.351836.256418.9679.852804.45778.14367.352728.6106.85130.14036.85256.251917.174.45272.1570.65727.8403.3575.756886.25306.6' to numeric

In [None]:
# Agora eu vou criar um modelo
# Apenas lembrando que a an√°lise de cada coluna foi feita de forma isolada, sem considerar poss√≠veis intera√ß√µes entre as vari√°veis.
# Por√©m, na pr√°tica, essas vari√°veis podem interagir entre si e influenciar o comportamento de cancelamento dos clientes de maneiras mais complexas.
# Portanto, farei uma an√°lise estat√≠stica mais avan√ßada utilizando um modelo de regress√£o log√≠stica para entender melhor esses fatores e suas intera√ß√µes.