# CARREGANDO BIBLIOTECAS E ARQUIVOS
-------------------------------------------------------------
-------------------------------------------------------------


In [22]:
#Importando bibliotecas
import numpy as np		
import pandas as pd		
import plotly.express as px		
import seaborn as sns		
import pickle		
from sklearn.preprocessing import StandardScaler		
from sklearn.preprocessing import LabelEncoder		
from sklearn.preprocessing import OneHotEncoder		
from sklearn.compose import ColumnTransformer		
from sklearn.decomposition import PCA		
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis		
from sklearn.model_selection import train_test_split		

## Importando os dados e fazendo verificações iniciais
-------------------------------------------------------------

In [23]:
dados = pd.read_excel("/content/drive/MyDrive/MACHINE_LEARNNING/telecom_users.xlsx")		

In [24]:
dados.head()

Unnamed: 0,IDCliente,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ValorServiçoStreaming,ServicoFilmes,ValorServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,0002-ORFBO,Feminino,Sim,9,Sim,54.9,Nao,DSL,94.9,Nao,...,Sim,Sim,39.9,Nao,0.0,Anual,Sim,BoletoImpresso,199.6,Nao
1,0003-MKNFE,Masculino,Nao,9,Sim,54.9,Sim,DSL,94.9,Nao,...,Nao,Nao,0.0,Sim,19.9,Mensal,Nao,BoletoImpresso,169.7,Nao
2,0004-TLHLJ,Masculino,Nao,4,Sim,54.9,Nao,Fibra,129.9,Nao,...,Nao,Nao,0.0,Nao,0.0,Mensal,Sim,BoletoEletronico,184.8,Sim
3,0011-IGKFF,Masculino,Nao,13,Sim,54.9,Nao,Fibra,129.9,Nao,...,Nao,Sim,39.9,Sim,19.9,Mensal,Sim,BoletoEletronico,254.5,Sim
4,0013-EXCHZ,Feminino,Nao,3,Sim,54.9,Nao,Fibra,129.9,Nao,...,Sim,Sim,39.9,Nao,0.0,Mensal,Sim,BoletoImpresso,224.7,Sim


In [25]:
dados=dados.drop(["IDCliente"],axis=1 )		# Eliminando a coluna IDCliente

## Analise de variáveis
--------------------------------------------------------------------------------


In [26]:
dados.dtypes  # Visualizando o tipo de dado por coluna

Genero                     object
Dependentes                object
MesesComoCliente            int64
ServicoTelefone            object
ValorTelefone             float64
MultiplasLinhas            object
ServicoInternet            object
ValorInternet             float64
ServicoSegurancaOnline     object
ValorSegurancaOnline      float64
ServicoBackupOnline        object
ValorBackupOnline         float64
ProtecaoEquipamento        object
ServicoSuporteTecnico      object
ServicoStreamingTV         object
ValorServiçoStreaming     float64
ServicoFilmes              object
ValorServicoFilmes        float64
TipoContrato               object
FaturaDigital              object
FormaPagamento             object
ValorMensal               float64
Churn                      object
dtype: object

In [27]:
dados["Genero"].value_counts()  # Contabilizando clientes masculinos e femininos

Masculino    3050
Feminino     2936
Name: Genero, dtype: int64

In [28]:
# Contabilizando cancelamentos
display(dados["Churn"].value_counts(normalize=True).map("{:.1%}".format))

Nao    73.5%
Sim    26.5%
Name: Churn, dtype: object

In [29]:
#Contabilizando dependentes
display(dados["Dependentes"].value_counts(normalize=True).map("{:.1%}".format))

Nao    70.1%
Sim    29.9%
Name: Dependentes, dtype: object

In [30]:
# Contabilizando formas de pagamento
display(dados["FormaPagamento"].value_counts(normalize=True).map("{:.1%}".format))

BoletoEletronico    33.5%
BoletoImpresso      22.9%
DebitoAutomatico    21.9%
CartaoCredito       21.8%
Name: FormaPagamento, dtype: object

In [31]:
display(dados["FaturaDigital"].value_counts(normalize=True).map("{:.1%}".format))

Sim    58.9%
Nao    41.1%
Name: FaturaDigital, dtype: object

# VERIFICANDO VALORES MISSING
-------------------------------------------------------------
-------------------------------------------------------------


In [35]:
# Relação de quantidade
dados.isnull().sum()  # Soma por categoria ( coluna ) todos os valores nulos ( NAN )

Genero                    0
Dependentes               1
MesesComoCliente          0
ServicoTelefone           0
ValorTelefone             0
MultiplasLinhas           0
ServicoInternet           0
ValorInternet             0
ServicoSegurancaOnline    0
ValorSegurancaOnline      0
ServicoBackupOnline       0
ValorBackupOnline         0
ProtecaoEquipamento       0
ServicoSuporteTecnico     0
ServicoStreamingTV        0
ValorServiçoStreaming     0
ServicoFilmes             0
ValorServicoFilmes        0
TipoContrato              0
FaturaDigital             0
FormaPagamento            0
ValorMensal               0
Churn                     1
dtype: int64

In [36]:
# Eliminando dados NAN ( quantidade:2, insignificante para o modelo)
dados2 = dados.dropna() # Criando novo dataframe para mantar a integridade do dataframe original

In [37]:
dados2.isnull().sum() 

Genero                    0
Dependentes               0
MesesComoCliente          0
ServicoTelefone           0
ValorTelefone             0
MultiplasLinhas           0
ServicoInternet           0
ValorInternet             0
ServicoSegurancaOnline    0
ValorSegurancaOnline      0
ServicoBackupOnline       0
ValorBackupOnline         0
ProtecaoEquipamento       0
ServicoSuporteTecnico     0
ServicoStreamingTV        0
ValorServiçoStreaming     0
ServicoFilmes             0
ValorServicoFilmes        0
TipoContrato              0
FaturaDigital             0
FormaPagamento            0
ValorMensal               0
Churn                     0
dtype: int64

# CRIANDO GRÁFICO COM CATEGORIAS
-------------------------------------------------------------
-------------------------------------------------------------


In [38]:
# Criando histogramas com Plotly para verificar a relação entre as categorias e o cancelamento ( CHURN )
for coluna in dados2:      
        fig = px.histogram(dados2, x=coluna,nbins=60, color="Churn")
        fig.show()

# ANÁLISE ESTATÍSTICA DESCRITIVA
-------------------------------------------------------------
-------------------------------------------------------------


In [39]:
# resumo estatistico descritivo usando apenas as colunas com dados numéricos
dados2.describe()   

Unnamed: 0,MesesComoCliente,ValorTelefone,ValorInternet,ValorSegurancaOnline,ValorBackupOnline,ValorServiçoStreaming,ValorServicoFilmes,ValorMensal
count,5984.0,5984.0,5984.0,5984.0,5984.0,5984.0,5984.0,5984.0
mean,32.456551,99.65752,128.135963,2.832353,3.456066,15.369235,7.7751,257.226237
std,24.511387,68.38464,104.312756,4.47453,4.719575,19.418602,9.710204,146.260736
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,44.9
25%,9.0,54.9,94.9,0.0,0.0,0.0,0.0,149.9
50%,29.0,74.9,94.9,0.0,0.0,0.0,0.0,229.4
75%,56.0,149.9,149.9,9.9,9.9,39.9,19.9,344.6
max,72.0,299.9,319.9,9.9,9.9,39.9,19.9,699.4


In [40]:
# moda dos elementos por categoria ( coluna )
dados2.mode() 

Unnamed: 0,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,ValorSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ValorServiçoStreaming,ServicoFilmes,ValorServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,Masculino,Nao,1,Sim,74.9,Nao,Fibra,94.9,Nao,0.0,...,Nao,Nao,0.0,Nao,0.0,Mensal,Sim,BoletoEletronico,74.9,Nao


# ANÁLISE DE OUTLIERS
-------------------------------------------------------------
-------------------------------------------------------------

In [41]:
dados2.dtypes

Genero                     object
Dependentes                object
MesesComoCliente            int64
ServicoTelefone            object
ValorTelefone             float64
MultiplasLinhas            object
ServicoInternet            object
ValorInternet             float64
ServicoSegurancaOnline     object
ValorSegurancaOnline      float64
ServicoBackupOnline        object
ValorBackupOnline         float64
ProtecaoEquipamento        object
ServicoSuporteTecnico      object
ServicoStreamingTV         object
ValorServiçoStreaming     float64
ServicoFilmes              object
ValorServicoFilmes        float64
TipoContrato               object
FaturaDigital              object
FormaPagamento             object
ValorMensal               float64
Churn                      object
dtype: object

In [42]:
px.box ( dados2, y = "MesesComoCliente")

In [43]:
px.box ( dados2, y = "ValorTelefone")

In [44]:
px.box ( dados2, y = "ValorInternet")

In [45]:
px.box ( dados2, y = "ValorSegurancaOnline")

In [46]:
px.box ( dados2, y = "ValorBackupOnline")

In [47]:
px.box ( dados2, y = "ValorServiçoStreaming")

In [48]:
px.box ( dados2, y = "ValorServicoFilmes")

In [49]:
px.box ( dados2, y = "ValorMensal")

# TRANSFORMANDO AS VARIAVEIS CATEGORICAS NOMINAIS EM VARIAVEIS CATEGORICAS ORDINAIS
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------

In [50]:
dados2 ["Genero"].replace({"Feminino":0,"Masculino":1},inplace=True)
dados2 ["Dependentes"].replace({"Nao":0,"Sim":1},inplace=True)
dados2 ["ServicoTelefone"].replace({"Nao":0,"Sim":1},inplace=True)
dados2 ["MultiplasLinhas"].replace({"Nao":0,"Sim":1,"SemTelefone":2},inplace=True)
dados2 ["ServicoInternet"].replace({"Nao":0,"DSL":1,"Fibra":2},inplace=True)
dados2 ["ServicoSegurancaOnline"].replace({"Nao":0,"Sim":1,"SemInternet":2},inplace=True)
dados2 ["ServicoBackupOnline"].replace({"Nao":0,"Sim":1,"SemInternet":2},inplace=True)
dados2 ["ProtecaoEquipamento"].replace({"Nao":0,"Sim":1,"SemInternet":2},inplace=True)
dados2 ["ServicoSuporteTecnico"].replace({"Nao":0,"Sim":1,"SemInternet":2},inplace=True)
dados2 ["ServicoStreamingTV"].replace({"Nao":0,"Sim":1,"SemInternet":2},inplace=True)
dados2 ["ServicoFilmes"].replace({"Nao":0,"Sim":1,"SemInternet":2},inplace=True)
dados2 ["TipoContrato"].replace({"Anual":0,"Mensal":1,"2 anos":2},inplace=True)
dados2 ["FaturaDigital"].replace({"Nao":0,"Sim":1},inplace=True)
dados2 ["FormaPagamento"].replace({"BoletoImpresso":0,"BoletoEletronico":1,"CartaoCredito":2,"DebitoAutomatico":3},inplace=True)
dados2 ["Churn"].replace({"Nao":0,"Sim":1},inplace=True)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [51]:
dados2.dtypes

Genero                      int64
Dependentes                 int64
MesesComoCliente            int64
ServicoTelefone             int64
ValorTelefone             float64
MultiplasLinhas             int64
ServicoInternet             int64
ValorInternet             float64
ServicoSegurancaOnline      int64
ValorSegurancaOnline      float64
ServicoBackupOnline         int64
ValorBackupOnline         float64
ProtecaoEquipamento         int64
ServicoSuporteTecnico       int64
ServicoStreamingTV          int64
ValorServiçoStreaming     float64
ServicoFilmes               int64
ValorServicoFilmes        float64
TipoContrato                int64
FaturaDigital               int64
FormaPagamento              int64
ValorMensal               float64
Churn                       int64
dtype: object

# ATRIBUTOS PREVISORES E ALVO
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------


In [52]:
dados2.shape

(5984, 23)

In [55]:
'''criando um array somente com os valores previsores ( dados relacionados aos serviços habilitados ) 
menos a ultima coluna, que indica se o cliente cancelou ou não'''
previsores=dados2.iloc[:,0:22].values

In [56]:
previsores

array([[  0. ,   1. ,   9. , ...,   1. ,   0. , 199.6],
       [  1. ,   0. ,   9. , ...,   0. ,   0. , 169.7],
       [  1. ,   0. ,   4. , ...,   1. ,   1. , 184.8],
       ...,
       [  1. ,   0. ,  22. , ...,   1. ,   1. , 214.7],
       [  1. ,   0. ,   2. , ...,   1. ,   0. , 149.7],
       [  1. ,   1. ,  67. , ...,   0. ,   0. , 169.6]])

In [58]:
# criando um array com os resultados alvo ( cliente cancelou ou não )
alvo = dados2.iloc[:,22].values 

In [60]:
alvo

array([0, 0, 1, ..., 1, 0, 0])

In [61]:
# Verificando a quantidade de linhas e colunas de previsores
previsores.shape 

(5984, 22)

In [62]:
# Verificando a quantidade de linhas de alvo ( só tem uma coluna que indica se o cliente cancelou ou não)
alvo.shape 

(5984,)