# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

In [8]:
# Passo 1: Importar a base de dados 
import pandas as pd

df = pd.read_csv("telecom_users.csv")
display(df)

# Passo 2: Visualizar a base de dados
# - Entender quais informações estão disponíveis
# - Descobrir os erros/faltas da base de dados

# axis = 0, exclui linha
# axis = 1, exclui coluna
df = df.drop(columns=["Unnamed: 0", "IDCliente"], axis=1)

Unnamed: 0.1,Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,...,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,1869,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,...,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao,
1,4528,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,...,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,6344,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,...,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6739,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,...,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.5,Nao,
4,432,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,...,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,3772,0684-AOSIH,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95,Sim,
5982,5191,5982-PSMKW,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,...,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.3,Nao,
5983,5226,8044-BGWPI,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,...,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao,
5984,5390,7450-NWRTR,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim,


In [11]:
# Passo 3: Tratamento de dados
# - Valores que estão reconhecidos de forma errada
df["TotalGasto"] = pd.to_numeric(df["TotalGasto"], errors="coerce")

# - valores vazios
# deletando as colunas vazias
df = df.dropna(how="all", axis=1)

# deletando as linhas que tem algum atributo vazio
df = df.dropna(how="any", axis=0)

print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5974 entries, 0 to 5985
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Genero                  5974 non-null   object 
 1   Aposentado              5974 non-null   int64  
 2   Casado                  5974 non-null   object 
 3   Dependentes             5974 non-null   object 
 4   MesesComoCliente        5974 non-null   int64  
 5   ServicoTelefone         5974 non-null   object 
 6   MultiplasLinhas         5974 non-null   object 
 7   ServicoInternet         5974 non-null   object 
 8   ServicoSegurancaOnline  5974 non-null   object 
 9   ServicoBackupOnline     5974 non-null   object 
 10  ProtecaoEquipamento     5974 non-null   object 
 11  ServicoSuporteTecnico   5974 non-null   object 
 12  ServicoStreamingTV      5974 non-null   object 
 13  ServicoFilmes           5974 non-null   object 
 14  TipoContrato            5974 non-null   

In [16]:
# Passo 4: Análise inicial
# Como estão os nossos cancelamentos?

print(df["Churn"].value_counts())            # Para formatar para percentual:
print(df["Churn"].value_counts(normalize=True).map("{:.1%}".format))

Nao    4387
Sim    1587
Name: Churn, dtype: int64
Nao    73.4%
Sim    26.6%
Name: Churn, dtype: object


In [24]:
# Passo 5: Análise mais completa 
# Comparar cada coluna da minha tabela com a coluna Cancelamento (Churn)

# Comando para instalar ployly:
# !pip install plotly

import plotly.express as px

# Etapa 1: Criar gráfico
for coluna in df.columns:
    # Para edições nos gráficos: https://plotly.com/python/histograms/
    grafico1 = px.histogram(df, x="Dependentes", color="Churn", color_discrete_sequence=["blue", "red"])
    # Etapa 2: Exibir gráfico
    grafico1.show()

### Conclusões e Ações

Escreva aqui suas conclusões:

- Cliente com contrato mensal tem MUITO mais chance de cancelar 
    - Podemos fazer promoções para o cliente ir para o contrato anual 

- Famílias maiores tendem a cancelar MENOS que famílias menores 
    - Podemos fazer promoções para o cliente pegar uma linha adicional de telefone 

- MesesComoCliente baixos tem MUITO cancelamento, clientes com pouco tempo como clientes tendem a cancelar MUITO 
    - A primeira experiência na operadora pode ser ruim
    - Talvez a capitação de clientes tá trazendo clientes desclassificados
    - Ideia: Podemos criar um incentivo para o cliente ficar mais tempo como cliente

- Quanto MAIS serviçõs o cliente tem, MENOR é a chance de ele cancelar
    - Podemos fazer promoções com mais serviços para os clientes
    
- Tem alguma coisa no nosso serviço de fibra que está fazendo os nossos clientes cancelarem 
    - Agir sobre a fibra
    
- Cliente com boleto tem MUITO mais chance de cancelar, então temos que fazer alguma ação para eles irem para alguma das outras formas de pagamento  