# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

# Passo a Passo
- Importar a Base de dados
- Visualizar a Base de dados
    - Entender as informações
    - Descobrir as cagadas
- Tratamento dos dados
- Analise inicial
- Analise detalhada

In [34]:
# Importando as bibliotecas necessárias
import pandas as pd

# Importando o data frame
df = pd.read_csv('telecom_users.csv')

# Visualizando e limpando
df['TotalGasto'] = pd.to_numeric(df['TotalGasto'], errors ='coerce') ## Convertendo os dados da linha 19 para um tipo numerico
df = df.drop(columns = ['Unnamed: 0','IDCliente']) ## Removendo coluna não relevante
df = df.dropna(how ='all', axis = 1) ## Removendo todas as colunas que estão vazias
df = df.dropna(how ='any', axis = 0) ## Removendo todas as linhas que possuem algum valor vazio

display(df)
df.info()

Unnamed: 0,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,ServicoBackupOnline,ProtecaoEquipamento,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn
0,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao
1,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,Sim,Sim,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.20,Nao
2,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,Nao,Nao,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim
3,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,Nao,Nao,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.50,Nao
4,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,Nao,Sim,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.50,Nao
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,Sim,Nao,Nao,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95.00,Sim
5982,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,Sim,Sim,Sim,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.30,Nao
5983,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao
5984,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,Nao,Nao,Sim,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim


<class 'pandas.core.frame.DataFrame'>
Int64Index: 5974 entries, 0 to 5985
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Genero                  5974 non-null   object 
 1   Aposentado              5974 non-null   int64  
 2   Casado                  5974 non-null   object 
 3   Dependentes             5974 non-null   object 
 4   MesesComoCliente        5974 non-null   int64  
 5   ServicoTelefone         5974 non-null   object 
 6   MultiplasLinhas         5974 non-null   object 
 7   ServicoInternet         5974 non-null   object 
 8   ServicoSegurancaOnline  5974 non-null   object 
 9   ServicoBackupOnline     5974 non-null   object 
 10  ProtecaoEquipamento     5974 non-null   object 
 11  ServicoSuporteTecnico   5974 non-null   object 
 12  ServicoStreamingTV      5974 non-null   object 
 13  ServicoFilmes           5974 non-null   object 
 14  TipoContrato            5974 non-null   

In [35]:
# Analise Inicial
print(df['Churn'].value_counts())
print(df['Churn'].value_counts(normalize = True).map('{:.2%}'.format))

Nao    4387
Sim    1587
Name: Churn, dtype: int64
Nao    73.43%
Sim    26.57%
Name: Churn, dtype: object


In [None]:
# Analise Detalhada — Comparar cada coluna da base de dados com a coluna Churn
import plotly.express as px

# Cria o gráfico
for column in df.columns:
    grafico = px.histogram(df, x = column, color ='Churn', text_auto = True)
    grafico.show()

# Exibe o gráfico

# Conclusões e Ações

### Escreva aqui suas conclusões:
- Clientes com famílias maiores tendem a cancelar menos
    - Promoções diferenciadas para mais pessoas da mesma família
- Os clientes nos primeiros meses tem uma tendência MUITO maior a cancelar
    - Pode ser que o ‘marketing’ esteja muito agressivo
    - Pode ser que a experiência nos primeiros meses seja ruim
    - Talvez seja interessante fazer uma promoção no primeiro ano de contrato
- Tem algum problema no serviço de Fibra
- Pessoas com mais serviços contratados tem menor tendencia de cancelamento
    - Promover mais os serviços
    - Baratear os serviços
- Pessoas com contratos mensais têm uma ALTA taxa de cancelamento
    - Promover mais os planos anuais
- Pagamentos no boleto geram mais cancelamentos
    - Promover mais o pagamento no cartão de crédito
