# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

In [4]:
import pandas as pd
# passo 1 = Importar a base de dados 
tabela = pd.read_csv("telecom_users.csv")


tabela = tabela.drop("Unnamed: 0", axis=1)

display(tabela) # usa-se display somente em Jupyter
#se tiver usando vscode deve-se utilizar print(tabela)

# passo 2 = Visualizar base de dados 


Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao,
1,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,...,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,...,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,...,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.5,Nao,
4,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,...,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,0684-AOSIH,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,Sim,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95,Sim,
5982,5982-PSMKW,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,Sim,...,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.3,Nao,
5983,8044-BGWPI,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,SemInternet,...,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao,
5984,7450-NWRTR,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,Nao,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim,


In [9]:
# passo 3 = Tratamento de Dados 

# Resolver os valores que estão sendo reconhecidos de forma errada
tabela["TotalGasto"] = pd.to_numeric(tabela["TotalGasto"], errors="coerce")

# Resolvido valores vazios

#NaN significa vazio 
# counas em que todos os valores são vazios foram excluidas 
# axis = 0 --> Linha, axis=1 --> coluna 
# Foi utilizado comando how="all" para deletar todos os valores vazios. 
# Se for excluir apenas alguns valores deve se usar comando how="any"
tabela = tabela.dropna(how="all", axis=1)


# Linha que tem pelo mneos 1 valor vazio também foram excluidas.
tabela = tabela.dropna(how="any", axis=1)

print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5986 entries, 0 to 5985
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   IDCliente               5986 non-null   object 
 1   Genero                  5986 non-null   object 
 2   Aposentado              5986 non-null   int64  
 3   Casado                  5986 non-null   object 
 4   MesesComoCliente        5986 non-null   int64  
 5   ServicoTelefone         5986 non-null   object 
 6   MultiplasLinhas         5986 non-null   object 
 7   ServicoInternet         5986 non-null   object 
 8   ServicoSegurancaOnline  5986 non-null   object 
 9   ServicoBackupOnline     5986 non-null   object 
 10  ProtecaoEquipamento     5986 non-null   object 
 11  ServicoSuporteTecnico   5986 non-null   object 
 12  ServicoStreamingTV      5986 non-null   object 
 13  ServicoFilmes           5986 non-null   object 
 14  TipoContrato            5986 non-null   

In [22]:
print(tabela["ValorMensal"].value_counts())
print(tabela["ValorMensal"].value_counts(normalize=True))

20.05    50
19.85    40
19.70    39
19.55    37
19.95    36
         ..
73.70     1
52.00     1
42.40     1
96.70     1
21.15     1
Name: ValorMensal, Length: 1526, dtype: int64
20.05    0.008353
19.85    0.006682
19.70    0.006515
19.55    0.006181
19.95    0.006014
           ...   
73.70    0.000167
52.00    0.000167
42.40    0.000167
96.70    0.000167
21.15    0.000167
Name: ValorMensal, Length: 1526, dtype: float64


In [27]:
import plotly.express as px

# cria o grádico 
coluna = "TipoContrato" 
grafico = px.histogram(tabela, x=colena, color="Churn")

# exibir gráfico 

grafico.show()


NameError: name 'colena' is not defined

In [24]:

# passo 4 = Análise Inicial 
# passo 5 = Análise Detalhada

### Conclusões e Ações

Escreva aqui suas conclusões: