## Análise de Dados com Python
#### Desafio:
Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

# Importando Bibliotecas

In [5]:
import pandas as pd
import numpy as np
import plotly.express as px

# Importando base de dados

In [32]:
df = pd.read_csv('telecom_users.csv')
pd.set_option('display.max_columns', None)
df.head()

Unnamed: 0.1,Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,ServicoBackupOnline,ProtecaoEquipamento,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,1869,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.1,1734.65,Nao,
1,4528,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,Sim,Sim,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,6344,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,Nao,Nao,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6739,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,Nao,Nao,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.9,238.5,Nao,
4,432,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,Nao,Sim,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,


## Visualizando os tipos de dados

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5986 entries, 0 to 5985
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Unnamed: 0              5986 non-null   int64  
 1   IDCliente               5986 non-null   object 
 2   Genero                  5986 non-null   object 
 3   Aposentado              5986 non-null   int64  
 4   Casado                  5986 non-null   object 
 5   Dependentes             5985 non-null   object 
 6   MesesComoCliente        5986 non-null   int64  
 7   ServicoTelefone         5986 non-null   object 
 8   MultiplasLinhas         5986 non-null   object 
 9   ServicoInternet         5986 non-null   object 
 10  ServicoSegurancaOnline  5986 non-null   object 
 11  ServicoBackupOnline     5986 non-null   object 
 12  ProtecaoEquipamento     5986 non-null   object 
 13  ServicoSuporteTecnico   5986 non-null   object 
 14  ServicoStreamingTV      5986 non-null   

In [36]:
# Percentual de entradas vazias em cada coluna
(df.isnull().sum()/df['IDCliente'].count())*100

IDCliente                 0.0
Genero                    0.0
Aposentado                0.0
Casado                    0.0
Dependentes               0.0
MesesComoCliente          0.0
ServicoTelefone           0.0
MultiplasLinhas           0.0
ServicoInternet           0.0
ServicoSegurancaOnline    0.0
ServicoBackupOnline       0.0
ProtecaoEquipamento       0.0
ServicoSuporteTecnico     0.0
ServicoStreamingTV        0.0
ServicoFilmes             0.0
TipoContrato              0.0
FaturaDigital             0.0
FormaPagamento            0.0
ValorMensal               0.0
TotalGasto                0.0
Churn                     0.0
dtype: float64

## Tratando dados

**1)Ajustar os tipos de dados**

A coluna TotalGasto, por exemplo, está como object porém é uma coluna com valores float64

**2)Colunas vazias**

É possível observar acima que a coluna Codigo tem 100% dos dados missing

**3)Linhas com valores varios**

Tanto a coluna Churn quanto a Dependentes possuem um valor faltante.

In [34]:
#1)
df['TotalGasto'] = pd.to_numeric(df['TotalGasto'], errors = 'coerce')

#2)
df = df.drop(['Unnamed: 0', 'Codigo'], axis = 1)

#3)Temos muito poucas entradas vazias. Dessa forma excluir uma linha de 5986 não causará impacto algum.
df = df.dropna(how = 'any', axis = 0)


## Análise Inicial

In [42]:
df['Churn'].value_counts()

Nao    4387
Sim    1587
Name: Churn, dtype: int64

In [43]:
df['Churn'].value_counts(normalize =  True).map("{:.1%}".format)

Nao    73.4%
Sim    26.6%
Name: Churn, dtype: object

**De fato aproximadamente 27% dos 5985 clientes cancelaram os serviços da empresa nos últimos anos.**

## Análise Gráfica 

In [51]:
grafico = px.histogram(df, x = 'Genero', color = 'Churn')
grafico.show()

In [53]:
grafico = px.histogram(df, x = 'Casado', color = 'Churn')
grafico.show()

In [52]:
grafico = px.histogram(df, x = 'Dependentes', color = 'Churn')
grafico.show()

In [54]:
grafico = px.histogram(df, x = 'MesesComoCliente', color = 'Churn')
grafico.show()

In [56]:
grafico = px.histogram(df, x = 'ServicoSegurancaOnline', color = 'Churn')
grafico.show()

In [57]:
grafico = px.histogram(df, x = 'ServicoSuporteTecnico', color = 'Churn')
grafico.show()

In [58]:
grafico = px.histogram(df, x = 'TipoContrato', color = 'Churn')
grafico.show()

In [59]:
grafico = px.histogram(df, x = 'FormaPagamento', color = 'Churn')
grafico.show()

# Conclusões e Ações

**1)O gênero do cliente não influencia no cancelamento do produto.**

**2)Com base na análise dos gráficos de dependentes e casados, podemos observar que famílias maiores tendem a cancelar menos.**

    -Oferecer mais planos família
    
**3)A coluna MesesComoCliente mostra que quanto maior o tempo de desão do cliente menor a probabilidade dele cancelar**

    -Talvez seja importante criar incentivos para novos clientes para que fiquem mais tempo com a empresa
    -Verificar como está sendo a experiência incial do cliente na empresa, ela pode não estar sendo satisfatória
    -Verificar se estamos captando os clientes com o perfil adequado ao da empresa.(Ações de Marketing como o não pagamento do primeiro mês pode atrair uma quantidade grande de clientes que no segundo mês saem, pois não desejam pagar).
    
**4)Clientes que aderem ao serviço de Fibra tem um cancelamento muito alto**

    -É necessário verificar qual é a relação
    
**5)Clientes que não possuem serviço de suporte técnico tendem a cancelar mais.**

    -Criar alguma ação que incentive a adesão a serviços de suporte técnico
    
**6)Tipos de contrato mais longos tendem a ter baixo churn**

    -Promover ações que incentivem a migração de clientes de contratos do tipo mensal pra anuais.
    
**7)Clientes que optam por pagar através de boleto eletrônico tendem a cancelarmais.**

    -Criar estratégias para migrar esses clientes para as demais formas ofertadas
    

