Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone. 
O problema é que, analisando o histórico dos clientes nos últimos anos, você percebeu que a empresa está com um Chum de mais de 26% dos clientes.

Isso representa perda de milhões para a empresa.

O que a empresa precisa fazer para revisar isso?
base de dados: https://drive.google.com/drive/u/0/folders/1ROKKvbXw6GmHiaFLbg07GsWIRxEOHxag 

Passo 1 - importar as bases de dado (importe os arquivos do link da base de dados e coloque na sua pasta do jupiter)

In [1]:
# pd é o apelido que o panda vai receber
import pandas as pd 

# vai ler o arquivo csv, não precisa passar o caminho porque os arquivos estão no mesmo local
tabela_clientes = pd.read_csv("telecom_users.csv")

Passo 2 - Visualizar a base de dados para entender o que temos disponível

In [2]:
# vai excluir a coluna 1 (Unnamed: 0)
tabela_clientes = tabela_clientes.drop("Unnamed: 0", axis=1)

# o displey exibe as informações armazenadas
display(tabela_clientes)

# vai mostrar as colunas das tabelas dos clientes
display(tabela_clientes.columns)

Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao,
1,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,...,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,...,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,...,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.5,Nao,
4,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,...,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,0684-AOSIH,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,Sim,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95,Sim,
5982,5982-PSMKW,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,Sim,...,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.3,Nao,
5983,8044-BGWPI,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao,
5984,7450-NWRTR,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,Nao,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim,


Index(['IDCliente', 'Genero', 'Aposentado', 'Casado', 'Dependentes',
       'MesesComoCliente', 'ServicoTelefone', 'MultiplasLinhas',
       'ServicoInternet', 'ServicoSegurancaOnline', 'ServicoBackupOnline',
       'ProtecaoEquipamento', 'ServicoSuporteTecnico', 'ServicoStreamingTV',
       'ServicoFilmes', 'TipoContrato', 'FaturaDigital', 'FormaPagamento',
       'ValorMensal', 'TotalGasto', 'Churn', 'Codigo'],
      dtype='object')

Passo 3 - Tratamento de dados

In [3]:
# problemas de tipos de informações
# vai tratar a coluna "TotalGasto", vai transformar o texto em numérico (que guarda a coluna que quer editar e o errors)
# errors: se der um erro, vai deixar o erro vazio
tabela_clientes["TotalGasto"] = pd.to_numeric(tabela_clientes["TotalGasto"], errors="coerce")

# problemas de valores vazios
# .dropna: exclui valores vazios
# how="all": vai olhar todas as colunas com valores vazios que tem todos os valores vazios da tabela
tabela_clientes = tabela_clientes.dropna(how="all", axis=1)

# vai excluir todas as linhas que tenham valores vazios, as colunas ficam com a mesma quantidade de valores
tabela_clientes = tabela_clientes.dropna()
print(tabela_clientes.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5974 entries, 0 to 5985
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   IDCliente               5974 non-null   object 
 1   Genero                  5974 non-null   object 
 2   Aposentado              5974 non-null   int64  
 3   Casado                  5974 non-null   object 
 4   Dependentes             5974 non-null   object 
 5   MesesComoCliente        5974 non-null   int64  
 6   ServicoTelefone         5974 non-null   object 
 7   MultiplasLinhas         5974 non-null   object 
 8   ServicoInternet         5974 non-null   object 
 9   ServicoSegurancaOnline  5974 non-null   object 
 10  ServicoBackupOnline     5974 non-null   object 
 11  ProtecaoEquipamento     5974 non-null   object 
 12  ServicoSuporteTecnico   5974 non-null   object 
 13  ServicoStreamingTV      5974 non-null   object 
 14  ServicoFilmes           5974 non-null   

Passo 4 - Olhar como que estão distribuidos os Churns/Cancelamentos

In [4]:
# vai mostrar a coluna Churn da tabela clientes e vai contar os valores da mesma
display(tabela_clientes["Churn"].value_counts())

# exibir essa coluna e contas os valores em percentual, o map vai aplicar uma formatação
# dois pontos diz que está formatando, um ponto com para dizer que vai ter um ponto, o 1 que é uma casa decimal, e o % que é o percentual
display(tabela_clientes["Churn"].value_counts(normalize=True).map("{:.1%}".format))

Nao    4387
Sim    1587
Name: Churn, dtype: int64

Nao    73.4%
Sim    26.6%
Name: Churn, dtype: object

Passo 5 - Fazer uma análise das causas dos cancelamentos

In [6]:
import plotly.express as px

for coluna in tabela_clientes:
    grafico = px.histogram(tabela_clientes, x=coluna, color="Churn")
    grafico.show()

ModuleNotFoundError: No module named 'plotly.validators.surface.colorbar'

- Me parece que pessoas que tem outros familiares com a nossa empresa, tendem a cancelar menos

- Temos um problema sério de retenção de clientes nos primeiros meses
    - Primeiro palpite: estamos trazendo muitos clientes desqualificados
    - Segundo palpite: temos um problema de reter os clientes, o serviço de início não parece bom
    
- Temos um problema no nosso serviço de fibra, os clientes de fibra cancelam MUITO mais do que os clientes dos outros serviços de internet

- Clientes que têm vários serviços tem MUITO menos chance de cancelar
    - a gente pode criar algum plano/promoção pra incentivar ele a contratar serviços adicionais
    
- Quem tem contrato mensal, vai ter MUITO mais chance de cancelar
    - vamos criar um plano de incentivo para a pessoa pegar contrato anual