# **1 - Carregamento dos dados tratados**

In [1]:
import pandas as pd
df = pd.read_csv('dados_tratados_num.csv')
df.head()

Unnamed: 0,Status_Cliente,Sexo,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Telefone,Assinatura_MultiTelefone,Assinatura_Internet,Assinatura_Seguro_online,...,Assinatura_Seguro_dispositivo,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Diario,Valor_Mensal,Valor_Total
0,0,0,0,0,0,9,0,0,0,0,...,0,0,0,0,0,0,0,2.186667,65.6,593.3
1,0,1,0,1,1,9,0,1,0,0,...,0,1,1,1,1,1,0,1.996667,59.9,542.4
2,1,1,0,1,1,4,0,0,1,0,...,1,1,1,0,1,0,1,2.463333,73.9,280.85
3,1,1,1,0,1,13,0,0,1,0,...,1,1,0,1,1,0,1,3.266667,98.0,1237.85
4,1,0,1,0,1,3,0,0,1,0,...,0,0,0,0,1,0,0,2.796667,83.9,267.4


# **2 - Pré-processamento dos dados**

## **2.1 - Ajuste no Dataframe**

Para evitar quaisquer confusão na interpretação dos dados, a coluna ***Status_Cliente*** será invertida de forma a indicar que:
- 1 = Cliente ativo
- 0 = Cliente inativo

In [2]:
df.Status_Cliente = df.Status_Cliente.replace({0:1,1:0})
df.head()

Unnamed: 0,Status_Cliente,Sexo,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Telefone,Assinatura_MultiTelefone,Assinatura_Internet,Assinatura_Seguro_online,...,Assinatura_Seguro_dispositivo,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Diario,Valor_Mensal,Valor_Total
0,1,0,0,0,0,9,0,0,0,0,...,0,0,0,0,0,0,0,2.186667,65.6,593.3
1,1,1,0,1,1,9,0,1,0,0,...,0,1,1,1,1,1,0,1.996667,59.9,542.4
2,0,1,0,1,1,4,0,0,1,0,...,1,1,1,0,1,0,1,2.463333,73.9,280.85
3,0,1,1,0,1,13,0,0,1,0,...,1,1,0,1,1,0,1,3.266667,98.0,1237.85
4,0,0,1,0,1,3,0,0,1,0,...,0,0,0,0,1,0,0,2.796667,83.9,267.4


## **2.2 - Eliminação das variáveis não úteis**

Pelo o que foi observado do arquivo de análise gráfica (*Challenge_DS_Alura_Semana02.ipynb*), é possível ter uma noção de quais variáveis não apresentam influência significativa. Assim, a lista de variáveis que não possuem influência na variável ***Status_Cliente*** são:

1. ***Sexo***: O gênero não apresenta influência alguma com a variável de estudo.
2. ***Assinatura_Telefone***: O serviço de assinatura de telefone não apresenta influência na taxa de cancelamento dos clientes. 
3. ***Assinatura_MultiTelefone***: De forma semelhante, o serviço de assinatura multi linha também não paresenta influência na taxa de cancelamento dos clientes.

In [3]:
df.drop(['Sexo','Assinatura_Telefone','Assinatura_MultiTelefone'], axis=1, inplace=True)
df.head()

Unnamed: 0,Status_Cliente,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Internet,Assinatura_Seguro_online,Assinatura_Backup,Assinatura_Seguro_dispositivo,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Diario,Valor_Mensal,Valor_Total
0,1,0,0,0,9,0,0,0,0,0,0,0,0,0,0,2.186667,65.6,593.3
1,1,0,1,1,9,0,0,1,0,1,1,1,1,1,0,1.996667,59.9,542.4
2,0,0,1,1,4,1,0,1,1,1,1,0,1,0,1,2.463333,73.9,280.85
3,0,1,0,1,13,1,0,0,1,1,0,1,1,0,1,3.266667,98.0,1237.85
4,0,1,0,1,3,1,0,1,0,0,0,0,1,0,0,2.796667,83.9,267.4


## **2.3 - Identificação e eliminação das variáveis altamente correlacionadas**

Variáveis altamente correlacionadas podem influenciar negativamente na eficiência no modelo por torna-lo enviesado. Para isto, a tabela de correlação é útil para verificar quais variáveis tem alta correlação (negativa ou positiva) entre si. Assim, observa-se que:

1. ***Valor_Total***: Esta variável possui alta correlação com a variável ***Valor_Mensal***. 
2. ***Valor_Diario***: Esta variável também possui alta correlação com a variável ***Valor_Mensal***. 
3. ***Assinatura_Backup***: Esta variável possui alta correlação com a variável ***Assinatura_Suporte_Tecnico***.
4. ***Assinatura_Seguro_Dispositivo***: Esta variável possui alta correlação com a variável ***Assinatura_Seguro_Online***.

Assim, é possível reduzir estas variáveis em 3 sem perda significativa de informação para o modelo. A saber: ***Valor_Mensal***, ***Assinatura_Suporte*** e ***Assinatura_Segurança***.

In [5]:
# Excluindo as variável Valor_Total, Valor_Diario, Assinatura_Backup, Assinatura_Seguro_Dispositivo
df.drop(['Valor_Total', 'Valor_Diario', 'Assinatura_Backup', 'Assinatura_Seguro_dispositivo'], axis=1, inplace=True)
df.head()

Unnamed: 0,Status_Cliente,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Internet,Assinatura_Seguro_online,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Mensal
0,1,0,0,0,9,0,0,0,0,0,0,0,0,65.6
1,1,0,1,1,9,0,0,1,1,1,1,1,0,59.9
2,0,0,1,1,4,1,0,1,1,0,1,0,1,73.9
3,0,1,0,1,13,1,0,1,0,1,1,0,1,98.0
4,0,1,0,1,3,1,0,0,0,0,1,0,0,83.9


In [6]:
# Renomeando as as variáveis correlacionadas
trad = {'Assinatura_Suporte_tecnico':'Assinatura_Suporte', 'Assinatura_Seguro_online':'Assinatura_Seguro'}
df.rename( columns=trad, inplace=True )
df.head()

Unnamed: 0,Status_Cliente,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Internet,Assinatura_Seguro,Assinatura_Suporte,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Mensal
0,1,0,0,0,9,0,0,0,0,0,0,0,0,65.6
1,1,0,1,1,9,0,0,1,1,1,1,1,0,59.9
2,0,0,1,1,4,1,0,1,1,0,1,0,1,73.9
3,0,1,0,1,13,1,0,1,0,1,1,0,1,98.0
4,0,1,0,1,3,1,0,0,0,0,1,0,0,83.9


# **3. Análise do balanceamento da variável de estudo *Status_Cliente***

## **3.1 - Proporção de clientes ativos e inativos**

Relembrando a análise quantitativa do relatório anterior, obtém-se a seguinte proporção de clientes ativos e inativos:

In [9]:
print('----------------------------------')
print('Quantidade de clientes ativos (1) e inativos (0)')
print(df.Status_Cliente.value_counts())
print('----------------------------------')
print('Quantidade percentual de clientes ativos (1) e inativos (0)')
print(df.Status_Cliente.value_counts(normalize=True).map("{:.1%}".format))
print('----------------------------------')

----------------------------------
Quantidade de clientes ativos (0) e inativos (1)
1    5163
0    1869
Name: Status_Cliente, dtype: int64
----------------------------------
Quantidade percentual de clientes ativos (0) e inativos (1)
1    73.4%
0    26.6%
Name: Status_Cliente, dtype: object
----------------------------------


## **3.2 - Técnica de balanceamento para distribuições desbalanceadas**