# CARREGANDO BIBLIOTECAS E ARQUIVOS
-------------------------------------------------------------
-------------------------------------------------------------


In [2]:
#Importando bibliotecas
import numpy as np		
import pandas as pd		
import plotly.express as px		
import seaborn as sns		
import pickle		
from sklearn.preprocessing import StandardScaler		
from sklearn.preprocessing import LabelEncoder		
from sklearn.preprocessing import OneHotEncoder		
from sklearn.compose import ColumnTransformer		
from sklearn.decomposition import PCA		
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis		
from sklearn.model_selection import train_test_split		

## Importando os dados e fazendo verificações iniciais
-------------------------------------------------------------

In [3]:
dados = pd.read_excel("/content/drive/MyDrive/MACHINE_LEARNNING/telecom_users.xlsx")		

In [4]:
dados.head()

Unnamed: 0,IDCliente,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ValorServiçoStreaming,ServicoFilmes,ValorServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,0002-ORFBO,Feminino,Sim,9,Sim,54.9,Nao,DSL,94.9,Nao,...,Sim,Sim,39.9,Nao,0.0,Anual,Sim,BoletoImpresso,199.6,Nao
1,0003-MKNFE,Masculino,Nao,9,Sim,54.9,Sim,DSL,94.9,Nao,...,Nao,Nao,0.0,Sim,19.9,Mensal,Nao,BoletoImpresso,169.7,Nao
2,0004-TLHLJ,Masculino,Nao,4,Sim,54.9,Nao,Fibra,129.9,Nao,...,Nao,Nao,0.0,Nao,0.0,Mensal,Sim,BoletoEletronico,184.8,Sim
3,0011-IGKFF,Masculino,Nao,13,Sim,54.9,Nao,Fibra,129.9,Nao,...,Nao,Sim,39.9,Sim,19.9,Mensal,Sim,BoletoEletronico,254.5,Sim
4,0013-EXCHZ,Feminino,Nao,3,Sim,54.9,Nao,Fibra,129.9,Nao,...,Sim,Sim,39.9,Nao,0.0,Mensal,Sim,BoletoImpresso,224.7,Sim


In [5]:
dados=dados.drop(["IDCliente"],axis=1 )		# Eliminando a coluna IDCliente

## Analise de variáveis
--------------------------------------------------------------------------------


In [6]:
dados.dtypes  # Visualizando o tipo de dado por coluna

Genero                     object
Dependentes                object
MesesComoCliente            int64
ServicoTelefone            object
ValorTelefone             float64
MultiplasLinhas            object
ServicoInternet            object
ValorInternet             float64
ServicoSegurancaOnline     object
ValorSegurancaOnline      float64
ServicoBackupOnline        object
ValorBackupOnline         float64
ProtecaoEquipamento        object
ServicoSuporteTecnico      object
ServicoStreamingTV         object
ValorServiçoStreaming     float64
ServicoFilmes              object
ValorServicoFilmes        float64
TipoContrato               object
FaturaDigital              object
FormaPagamento             object
ValorMensal               float64
Churn                      object
dtype: object

In [7]:
dados["Genero"].value_counts()  # Contabilizando clientes masculinos e femininos

Masculino    3050
Feminino     2936
Name: Genero, dtype: int64

In [8]:
# Contabilizando cancelamentos
display(dados["Churn"].value_counts(normalize=True).map("{:.1%}".format))

Nao    73.5%
Sim    26.5%
Name: Churn, dtype: object

In [9]:
#Contabilizando dependentes
display(dados["Dependentes"].value_counts(normalize=True).map("{:.1%}".format))

Nao    70.1%
Sim    29.9%
Name: Dependentes, dtype: object

In [10]:
# Contabilizando formas de pagamento
display(dados["FormaPagamento"].value_counts(normalize=True).map("{:.1%}".format))

BoletoEletronico    33.5%
BoletoImpresso      22.9%
DebitoAutomatico    21.9%
CartaoCredito       21.8%
Name: FormaPagamento, dtype: object

In [11]:
display(dados["FaturaDigital"].value_counts(normalize=True).map("{:.1%}".format))

Sim    58.9%
Nao    41.1%
Name: FaturaDigital, dtype: object

# VERIFICANDO VALORES MISSING
-------------------------------------------------------------
-------------------------------------------------------------


In [12]:
# Relação de quantidade
dados.isnull().sum()  # Soma por categoria ( coluna ) todos os valores nulos ( NAN )

Genero                    0
Dependentes               1
MesesComoCliente          0
ServicoTelefone           0
ValorTelefone             0
MultiplasLinhas           0
ServicoInternet           0
ValorInternet             0
ServicoSegurancaOnline    0
ValorSegurancaOnline      0
ServicoBackupOnline       0
ValorBackupOnline         0
ProtecaoEquipamento       0
ServicoSuporteTecnico     0
ServicoStreamingTV        0
ValorServiçoStreaming     0
ServicoFilmes             0
ValorServicoFilmes        0
TipoContrato              0
FaturaDigital             0
FormaPagamento            0
ValorMensal               0
Churn                     1
dtype: int64

In [13]:
# Eliminando dados NAN ( quantidade:2, insignificante para o modelo)
dados2 = dados.dropna() # Criando novo dataframe para mantar a integridade do dataframe original

In [14]:
dados2.isnull().sum() 

Genero                    0
Dependentes               0
MesesComoCliente          0
ServicoTelefone           0
ValorTelefone             0
MultiplasLinhas           0
ServicoInternet           0
ValorInternet             0
ServicoSegurancaOnline    0
ValorSegurancaOnline      0
ServicoBackupOnline       0
ValorBackupOnline         0
ProtecaoEquipamento       0
ServicoSuporteTecnico     0
ServicoStreamingTV        0
ValorServiçoStreaming     0
ServicoFilmes             0
ValorServicoFilmes        0
TipoContrato              0
FaturaDigital             0
FormaPagamento            0
ValorMensal               0
Churn                     0
dtype: int64

# CRIANDO GRÁFICO COM CATEGORIAS
-------------------------------------------------------------
-------------------------------------------------------------


In [22]:
# Criando histogramas com Plotly para verificar a relação entre as categorias e o cancelamento ( CHURN )
for coluna in dados2:      
        fig = px.histogram(dados2, x=coluna,nbins=60, color="Churn")
        fig.show()