# Agenda

1. Redução de Dimensionalidade
- Seleção de features
- Aplicação Prática

# 1. Redução de Dimensionalidade

<p> Refere-se ao processo de conversão de um conjunto de dados que têm vastas dimensões em dados com dimensões menores</p>

# 2. Seleção de Features:

- Identificar e selecionar features relevantes

## Como:

- Valores Nulos
- Baixa Variância
- Arvores de decisão
- Random Forest
- Alta correlação
- PCA
- Recursive Feature Elimination
- Algoritmo de Minimum Redundancy Maximum Relevance (mRMR);

## Benefícios


 - Isso ajuda a comprimir dados e a reduzir o espaço de armazenamento requerido.
 - Acelera o tempo necessário para a realização de cálculos dos mesmos. Menos dimensões conduz a uma menor computação, menos dimensões também pode permitir o uso de algoritmos que não se aplicariam para o caso de um número de dimensões muito grande.
 - Ela cuida da multi-colinearidade que melhora o desempenho do modelo. Remove recursos redundantes. Por exemplo: não há lógica em armazenar um valor em duas unidades diferentes (em metros e polegadas).
 - Reduzir as dimensões de dados para 2D ou 3D pode nos permitir traçar e visualizar com precisão. Você pode, então, observar padrões mais claramente. Abaixo, você pode ver isso, como um dado 3D é convertida em 2D. Primeiro ele identificou o plano 2D, e então representou os pontos sobre estes dois novos eixos z1 e z2.

# Exemplo Valores Nulos

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

## Base de apoio com os ids das empresas e portfolio referência

In [2]:
companies_ids = pd.read_csv('../../csvs/all_companies_ids.csv')

## Base do mercado incluindo a informação do portfolio referência 

In [3]:
df = pd.read_csv('../../csvs/estaticos_market.csv')

In [4]:
df_merged = df.merge(companies_ids, left_on='id', right_on='id')
df_merged

Unnamed: 0.1,Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,...,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais,empresa
0,369,dabe79bec87c88ae04e869bf6bd321ee5e1893cecf6625...,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,COMERCIO VAREJISTA,COMERCIO,0.646575,<= 1,...,,,,,,,,,0,Port_1
1,604,32e5f4e10932153a7ba869cb0386e7e02d49d2461046b8...,False,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,6.586301,5 a 10,...,,,0.0,0.0,2.0,,-100.000000,0.000000,4,Port_1
2,1646,09e95c1a84049001d086470a8f320a19b076f955a89122...,True,AUTARQUIA ESTADUAL OU DO DISTRITO FEDERAL,AC,ADMINISTRACAO PUBLICA,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,11.243836,10 a 15,...,357.066667,25.533333,1361.0,1361.0,1383.0,0.000000,-1.590745,0.000000,0,Port_2
3,1703,a95d6f30bba445bd3d6b0c5b36f865b38ec01d17336090...,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,8.010959,5 a 10,...,,,,,,,,,0,Port_1
4,2521,6cb309685cea0b6d2988818792ec2e6fcb2bd02e0afa9e...,True,EMPRESARIO INDIVIDUAL,RN,OUTROS,COMERCIO VAREJISTA,COMERCIO,20.863014,> 20,...,,,,,,,,,0,Port_1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1381,461443,31438f752b4a846638c0acd98c3078d7e1ee83204e0388...,True,SERVICO SOCIAL AUTONOMO,RO,ENTIDADES SEM FINS LUCRATIVOS,SERVICOS DE EDUCACAO,SERVIÇO,18.580822,15 a 20,...,300.466667,2.066667,92.0,118.0,132.0,-22.033898,-30.303030,28.708134,10,Port_2
1382,461483,4fbebb5a4ea9d2c5da87f446aff48403f0409e2e8fe381...,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,COMERCIO VAREJISTA,COMERCIO,31.868493,> 20,...,,,,,,,,,0,Port_1
1383,461834,8a226339b331b5aec24877a69edc40070b9dd7e71b2194...,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,41.164384,> 20,...,258.033333,4.866667,137.0,128.0,511.0,7.031250,-73.189824,3.773585,6,Port_2
1384,461978,8bbff0a749bceb9749c5edd90373270ff9109f069ef27c...,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,0.969863,<= 1,...,,,,,,,,,0,Port_1


## % De Dados faltantes por variável

In [5]:
aux = pd.DataFrame({'variables': df_merged.columns,
                    'data_types': df_merged.dtypes,
                    'missing_percentage': df_merged.isna().sum() / df_merged.shape[0]})
aux

Unnamed: 0,variables,data_types,missing_percentage
Unnamed: 0,Unnamed: 0,int64,0.000000
id,id,object,0.000000
fl_matriz,fl_matriz,bool,0.000000
de_natureza_juridica,de_natureza_juridica,object,0.000000
sg_uf,sg_uf,object,0.000000
...,...,...,...
tx_crescimento_12meses,tx_crescimento_12meses,float64,0.331169
tx_crescimento_24meses,tx_crescimento_24meses,float64,0.336219
tx_rotatividade,tx_rotatividade,float64,0.305916
qt_filiais,qt_filiais,int64,0.000000


In [6]:
data_missing_zero = aux[aux['missing_percentage']==0]
variables_missing_zero = [variable for variable in data_missing_zero['variables']]

### Das 183 colunas identificamos 32 variaveis com nenhum dado faltante

In [7]:
len(variables_missing_zero)

32

In [8]:
new_data = df_merged[variables_missing_zero]
new_data

Unnamed: 0.1,Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,...,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,sg_uf_matriz,fl_simples_irregular,fl_passivel_iss,qt_filiais,empresa
0,369,dabe79bec87c88ae04e869bf6bd321ee5e1893cecf6625...,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,COMERCIO VAREJISTA,COMERCIO,0.646575,<= 1,...,False,False,False,0.0,0.0,PI,False,False,0,Port_1
1,604,32e5f4e10932153a7ba869cb0386e7e02d49d2461046b8...,False,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,6.586301,5 a 10,...,False,False,False,0.0,0.0,MA,False,False,4,Port_1
2,1646,09e95c1a84049001d086470a8f320a19b076f955a89122...,True,AUTARQUIA ESTADUAL OU DO DISTRITO FEDERAL,AC,ADMINISTRACAO PUBLICA,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,11.243836,10 a 15,...,False,False,True,0.0,4.0,AC,False,True,0,Port_2
3,1703,a95d6f30bba445bd3d6b0c5b36f865b38ec01d17336090...,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,8.010959,5 a 10,...,False,False,False,0.0,0.0,MA,False,False,0,Port_1
4,2521,6cb309685cea0b6d2988818792ec2e6fcb2bd02e0afa9e...,True,EMPRESARIO INDIVIDUAL,RN,OUTROS,COMERCIO VAREJISTA,COMERCIO,20.863014,> 20,...,False,False,False,0.0,0.0,RN,False,False,0,Port_1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1381,461443,31438f752b4a846638c0acd98c3078d7e1ee83204e0388...,True,SERVICO SOCIAL AUTONOMO,RO,ENTIDADES SEM FINS LUCRATIVOS,SERVICOS DE EDUCACAO,SERVIÇO,18.580822,15 a 20,...,False,False,True,2.0,19.0,RO,False,True,10,Port_2
1382,461483,4fbebb5a4ea9d2c5da87f446aff48403f0409e2e8fe381...,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,COMERCIO VAREJISTA,COMERCIO,31.868493,> 20,...,False,False,False,0.0,0.0,PI,False,False,0,Port_1
1383,461834,8a226339b331b5aec24877a69edc40070b9dd7e71b2194...,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,41.164384,> 20,...,False,False,True,0.0,1.0,PI,False,True,6,Port_2
1384,461978,8bbff0a749bceb9749c5edd90373270ff9109f069ef27c...,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,0.969863,<= 1,...,False,False,False,0.0,0.0,MA,False,True,0,Port_1


# Variaveis por tipo em ordem decrescente em % de dados faltantes

In [9]:
pd.set_option("max_rows", None)
aux = pd.DataFrame({'variables': new_data.columns,
                    'var_types': new_data.dtypes,
                    'missing_percentages': new_data.isna().sum() / new_data.shape[0]})
pivot = pd.pivot_table(aux, index=['var_types', 'variables'])
pivot.sort_values(by=['var_types','missing_percentages'],  ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,missing_percentages
var_types,variables,Unnamed: 2_level_1
object,de_natureza_juridica,0.0
object,de_ramo,0.0
object,dt_situacao,0.0
object,empresa,0.0
object,fl_antt,0.0
object,fl_passivel_iss,0.0
object,fl_rm,0.0
object,fl_simples_irregular,0.0
object,fl_spa,0.0
object,fl_veiculo,0.0


## Referências

* [Guia para redução de dimensionalidade](https://www.vooo.pro/insights/guia-de-aprendizado-para-iniciantes-em-tecnicas-de-reducao-de-dimensoes-dimension-reduction/)