<a href="https://colab.research.google.com/github/leofalves/PythonHashTag/blob/main/Gabarito_Aula_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1w3TmCcQPoc7ew1CXmwwEUpWeHJzJQqGZ?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

### Passo a Passo:

- Passo 1: Importar base de dados
- Passo 2: Visualizar a base de dados
- Passo 3: Ajeitar Problemas da Base de Dados
    - Valores de "tipo" errado
    - Valores vazios
- Passo 4: Visão geral da distribuição do churn
- Passo 5: Analisar como cada característica do cliente impacta no indicador de churn

#### Passo 1 e 2

In [None]:
import pandas as pd

df = pd.read_csv("telecom_users.csv")
df = df.drop(["Unnamed: 0"], axis=1)
display(df)

Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao,
1,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,...,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,...,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,...,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.5,Nao,
4,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,...,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,0684-AOSIH,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,Sim,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95,Sim,
5982,5982-PSMKW,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,Sim,...,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.3,Nao,
5983,8044-BGWPI,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao,
5984,7450-NWRTR,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,Nao,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim,


#### Passo 3

In [None]:
# obrigatoriamente nessa ordem
# transformar coluna que deveria ser número e está como texto em número
df["TotalGasto"] = pd.to_numeric(df["TotalGasto"], errors="coerce")
# remover a coluna que está 100% vazia
df = df.dropna(how='all', axis=1)
# remover a linha que tem um item vazio
df = df.dropna()

print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5974 entries, 0 to 5985
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   IDCliente               5974 non-null   object 
 1   Genero                  5974 non-null   object 
 2   Aposentado              5974 non-null   int64  
 3   Casado                  5974 non-null   object 
 4   Dependentes             5974 non-null   object 
 5   MesesComoCliente        5974 non-null   int64  
 6   ServicoTelefone         5974 non-null   object 
 7   MultiplasLinhas         5974 non-null   object 
 8   ServicoInternet         5974 non-null   object 
 9   ServicoSegurancaOnline  5974 non-null   object 
 10  ServicoBackupOnline     5974 non-null   object 
 11  ProtecaoEquipamento     5974 non-null   object 
 12  ServicoSuporteTecnico   5974 non-null   object 
 13  ServicoStreamingTV      5974 non-null   object 
 14  ServicoFilmes           5974 non-null   

#### Passo 4

In [None]:
display(df['Churn'].value_counts())
display(df['Churn'].value_counts(normalize=True).map('{:.1%}'.format))

Nao    4387
Sim    1587
Name: Churn, dtype: int64

Nao    73.4%
Sim    26.6%
Name: Churn, dtype: object

#### Passo 5

In [None]:
import plotly.express as px

# para edições nos gráficos: https://plotly.com/python/histograms/

for coluna in df:
    if coluna != "IDCliente":
        # criar a figura
        fig = px.histogram(df, x=coluna, color="Churn")
        # exibir a figura
        fig.show()
        display(df.pivot_table(index="Churn", columns=coluna, aggfunc='count')["IDCliente"])
    

Genero,Feminino,Masculino
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,2140,2247
Sim,791,796


Aposentado,0,1
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,3823,564
Sim,1185,402


Casado,Nao,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,2069,2318
Sim,1011,576


Dependentes,Nao,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,2888,1499
Sim,1306,281


MesesComoCliente,1,2,3,4,5,6,7,8,9,10,...,63,64,65,66,67,68,69,70,71,72
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Nao,192,90,87,81,59,62,70,73,60,63,...,60,68,56,63,73,81,69,80,147,304
Sim,318,104,82,73,52,36,41,37,37,39,...,2,3,9,11,8,8,6,10,5,4


ServicoTelefone,Nao,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,439,3948
Sim,149,1438


MultiplasLinhas,Nao,SemTelefone,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,2127,439,1821
Sim,715,149,723


ServicoInternet,DSL,Fibra,Nao
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1666,1536,1185
Sim,397,1091,99


ServicoSegurancaOnline,Nao,SemInternet,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1740,1185,1462
Sim,1242,99,246


ServicoBackupOnline,Nao,SemInternet,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1566,1185,1636
Sim,1038,99,450


ProtecaoEquipamento,Nao,SemInternet,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1608,1185,1594
Sim,1031,99,457


ServicoSuporteTecnico,Nao,SemInternet,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1737,1185,1465
Sim,1222,99,266


ServicoStreamingTV,Nao,SemInternet,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1589,1185,1613
Sim,799,99,689


ServicoFilmes,Nao,SemInternet,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1561,1185,1641
Sim,792,99,696


TipoContrato,2 anos,Anual,Mensal
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nao,1389,1127,1871
Sim,41,148,1398


FaturaDigital,Nao,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,2045,2342
Sim,406,1181


FormaPagamento,BoletoEletronico,BoletoImpresso,CartaoCredito,DebitoAutomatico
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Nao,1104,1098,1104,1081
Sim,902,263,198,224


ValorMensal,18.25,18.40,18.55,18.70,18.75,18.80,18.85,18.90,18.95,19.00,...,117.15,117.35,117.45,117.60,117.80,118.20,118.35,118.60,118.65,118.75
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Nao,1.0,1.0,1.0,1.0,1.0,6.0,3.0,2.0,4.0,6.0,...,1.0,1.0,,1.0,,1.0,,2.0,1.0,1.0
Sim,,,,,,,1.0,,1.0,1.0,...,,,1.0,,1.0,,1.0,,,


TotalGasto,18.80,18.85,18.90,19.00,19.05,19.10,19.15,19.20,19.25,19.30,...,8477.60,8477.70,8496.70,8529.50,8543.25,8547.15,8564.75,8594.40,8672.45,8684.80
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Nao,1.0,1.0,1.0,1.0,1.0,2.0,1.0,4.0,2.0,2.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,
Sim,,1.0,,,,1.0,,,1.0,2.0,...,,,,,,,,,,1.0


Churn,Nao,Sim
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
Nao,4387.0,
Sim,,1587.0


### Conclusões e Ações

- MesesComoCliente baixo em MUITO cancelamento -> retenção de clientes é horrível:
    - Ou o pós venda é péssimo/1as experiências do cliente
    - Ou a captação de clientes traz muitos clientes desqualificados

- Métodos de pagamento:
    - Os métodos automáticos tem uma taxa de churn menor
    - O Boleto Eletronico é horrível, se puder, vamos evitar -> ideia: oferecer benefícios caso a pessoa escolha um método automático (débito automático, cartao de credito) -> eu mesmo, Lira, estou nesse cenário automático
    
- Tipo de contrato é bizarra a diferença
    - Contratos mensais tendem a ser MUITO mais cancelados do que contratos anuais
    - Quase 90% dos cancelamentos estão em contratos mensais
    
- Pessoas que não têm os serviços extras (Tech Support, Device Protection, Online Security) tendem a cancelar muito mais do que o normal
    - Quase 80% dos cancelamentos não usam esses serviços
    
- Ponto de Atenção:
    - Fibra Ótica -> taxa de cancelamento bem maior do que os outros serviços (o triplo de cancelamentos em relação a DSL, mesmo com menos clientes)