# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

In [2]:
import pandas as pd
# pandas numpy e openpyxl se nao usar jupter
# Passo 1 - Importar a base de dados para o Python

tabela = pd.read_csv("telecom_users.csv")

# Passo 2 - visualizar essa base de dados
# Entender as informações que você tem disponivel
# Descobrir as cagadas da base de dados
# axts - e -> Linha
# axis - 1 -> coluna
tabela = tabela.drop("Unnamed: 0", axis=1)
display(tabela)

Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao,
1,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,...,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,...,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,...,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.5,Nao,
4,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,...,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,0684-AOSIH,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,Sim,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95,Sim,
5982,5982-PSMKW,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,Sim,...,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.3,Nao,
5983,8044-BGWPI,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao,
5984,7450-NWRTR,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,Nao,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim,


In [12]:
# Passo 3 - Tratamento de Dados
# analisar se o python tá Lendo as informações no formato correto
tabela["TotalGasto"] = pd.to_numeric(tabela["TotalGasto"], errors="coerce")

# será que existe alguma coluna completamente vazia?
# axis = 0 -> Linha; axis = 1 -> coluna
tabela = tabela.dropna(how="all", axis=1) 

# será que existe alguma informação em alguma Linha vazia?
tabela = tabela.dropna(how="any", axis=0)
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5974 entries, 0 to 5985
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   IDCliente               5974 non-null   object 
 1   Genero                  5974 non-null   object 
 2   Aposentado              5974 non-null   int64  
 3   Casado                  5974 non-null   object 
 4   Dependentes             5974 non-null   object 
 5   MesesComoCliente        5974 non-null   int64  
 6   ServicoTelefone         5974 non-null   object 
 7   MultiplasLinhas         5974 non-null   object 
 8   ServicoInternet         5974 non-null   object 
 9   ServicoSegurancaOnline  5974 non-null   object 
 10  ServicoBackupOnline     5974 non-null   object 
 11  ProtecaoEquipamento     5974 non-null   object 
 12  ServicoSuporteTecnico   5974 non-null   object 
 13  ServicoStreamingTV      5974 non-null   object 
 14  ServicoFilmes           5974 non-null   

In [13]:
# Passo 4 - Análise INicial / Análise GLobal
# quantos clientes cancelaram e quantos não cancelLaram
print(tabela["Churn"].value_counts())

#o % de cleintes que cancelaram e que não cancelaram
print(tabela["Churn"].value_counts(normalize=True).map("{:.1%}".format))

Nao    4387
Sim    1587
Name: Churn, dtype: int64
Nao    73.4%
Sim    26.6%
Name: Churn, dtype: object


In [21]:
# Passo 5 - Análise detalhada (buscar a causa/ a solução dos cancelamentos)
import plotly.express as px

# criar o grafico
# edições no gráfico: https://plotly.com/python/histograms/
for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna,color="Churn")
    # exibir o grafico
    grafico.show()

In [15]:
!pip install plotly

Collecting plotly
  Downloading plotly-5.6.0-py2.py3-none-any.whl (27.7 MB)
Collecting tenacity>=6.2.0
  Downloading tenacity-8.0.1-py3-none-any.whl (24 kB)
Installing collected packages: tenacity, plotly
Successfully installed plotly-5.6.0 tenacity-8.0.1


### Conclusões e Ações

Escreva aqui suas conclusões:

- Clientes tem muita chance de cancelar nos primeiros meses
   - A gente pode ta fazendo alguma ação que ta trazendo clientes desqualificados
   - A gente tá com algum problem de retenção dos clientes
   
- Pessoas com familias na mesma operadora tem menos chance de cancelar
   - Vamos fazer un 20 numero gratuito para esse cliente (ou com desnconto)
   
- Quanto mais servicos o cliente ten, menor a chance dele cancelar
    - Eu posso dar um serviço por 1 real a mais ou até de graça
    
- Ten algun problena no serviço de fibra
  - A taxa de cancelamento de fibra tá MUITO maior
    -Vamos olhar mais a fundo o que tá acontecendo no serviço de fibra
    
- Contrato mensal tem MUITO mais cancelamento
   - Dar desconto para o cara mudar pro pagamento anual ou de 2 anos I
   
- Taxa de cancelamento do boleto é MUITO maior
    - Vamos dar desconto nas outras formas de pagamento