# 
# Utilização de Algorítmos de Machine Learning para Identificação de Empresas "de Fachada" em Operações de Importação
TCC PUC Minas - LUCIANA MACEDO RODRIGUES

### NOTEBOOK 3 - ANÁLISE EXPLORATÓRIA DOS DADOS

### 1 - Configurações iniciais

In [None]:
# Importando os pacotes necessários
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt 
import seaborn as sns

### 2 - Leitura do dataframe final

In [None]:
df_final = pd.read_csv('arquivos/df_final.csv', sep = ',')
df_final.head()

In [None]:
# Dimensões do dataframe final
df_final.shape

### 3 - Classificação das Variáveis

In [None]:
df_final.info()

In [None]:
# Corrigindo o tipo da variável alvo
df_final = df_final.astype({'TARGET': 'object'})

### 3.1 - Variáveis Qualitativas ou Categóricas

     - UF_EMP                 Qualitativa Nominal (Dtype: object)
     - EMP_PORTE              Qualitativa Ordinal (Dtype: object)

### 3.2 - Variáveis Quantitativas ou Numéricas
 
     - EMP_CS_MAX             Quantitativa Discreta (Dtype: int64) 
     - IMP_VOL                Quantitativa Discreta (Dtype: int64) 
     - IMP_VAL                Quantitativa Discreta (Dtype: int64) 
     - IMP_PESO               Quantitativa Contínua (Dtype: int64)
     - IMP_CUSTO              Quantitativa Discreta (Dtype: int64)
     - EMP_EMPREG             Quantitativa Discreta (Dtype: int64)
     - EMP_REC                Quantitativa Discreta (Dtype: int64)
     - ANOS_ATIVA             Quantitativa Discreta (Dtype: int64)

### 3.3 - Variável "alvo", a ser separada

    - TARGET                  Qualitativa Nominal (Dtype: object) 

### 4 - Análise Exploratória dos Dados

Os "missign values", valores duplicados e alguns outros problemas foram identificados e tratados nas etapas de coleta e tratamento dos dados conforme demonstrado nos NOTEBOOKs 01 e 02, resultando no dataframe final composto por 20397 observações únicas e 11 variáveis, das quais 3 são qualitativas/categóricas e 8 são quantitativas/numéricas. 

In [None]:
# Quantidade de valores únicos
df_final.nunique()

### 4 - 1 Variáveis Qualitativas

In [None]:
# Distribuição de frequências das classes da variável 'UF_EMP'
sns.set(rc={'figure.figsize':(15,5)})
plt.title('Distribuição das matrizes das empresas por UF')
sns.countplot(x=df_final.UF_EMP, data=df_final, palette='tab10')
plt.show()

In [None]:
# Verificando as classes da variável categórica 'UF_MATRIZ_EMP'
freq_df_final = df_final.groupby(['UF_EMP']).size()
freq_df_final

O Porto de Santos é o maior do Brasil e, portanto, rota de entrada principal ou eventual das importações de empresas com matrizes em todo país, justificando a alta cardinalidade observada para a variável categórica acima.

SP e MG ocupam respectivamente o primeiro e segundo lugar no ranking de concentração de empresas do país. Isso aliado a questões econômicas e de logística pode ter influenciado a maior frequência da nossa amostra nos dois estados.

In [None]:
# # Distribuição de frequências das classes da variável 'EMP_PORTE'
plt.title('Porte das empresas')
sns.countplot(x ='EMP_PORTE', data=df_final, palette='tab10')
plt.show()

In [None]:
# Demonstrando o desbalanceamento das classes de 'TARGET'
plt.title('Distribuição das classes da variável alvo')
sns.countplot(x='TARGET', data=df_final, palette='tab10')
plt.show()

### 4 - 2 Variáveis Quantitativas

In [None]:
# Boxplot geral de todas as variáveis quantitativas 
df_qual = df_final[['EMP_CS_MAX', 'IMP_VOL', 'IMP_VAL', 'IMP_PESO', 'IMP_CUSTO', 'EMP_EMPREG', 'EMP_REC', 'ANOS_ATIVA']]
sns.boxplot(data=df_qual, orient="h", palette='deep')
plt.title('Boxplot das variáveis quantitativas')
plt.show()

In [None]:
# Estatística básica das variáveis quantitativas
pd.set_option ('float_format','{:.2f}'.format)
df_final.describe()

Os dados e gráfico acima, revelam que as variáveis quantitativas selecionadas para o estudo apresentam forte assimetria à esquerda, acentuada pela presença de valores muito extremos nos limites máximos da distribuição (outliers).

Para facilitar a análise dos nossos dados antes de qualquer transformação, optamos por utilizar a seguir gráficos de distribuição gerados com Plotly.js que possibilitam a visualização com zoom interativo. 

Optamos também por trazer as proporções da TARGET nos gráficos para melhor compreensão do perfil das empresas alvo. 

In [None]:
# Gerando visualização gráfica de EMP_CS_MAX
px.histogram(df_final, x='EMP_CS_MAX', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável EMP_CS_MAX', labels={'EMP_CS_MAX': 'Capital Social'},
             template='plotly_white', color_discrete_sequence=px.colors.qualitative.T10)

In [None]:
# Gerando visualização gráfica boxplot de CS_MAX (limite superior Q4 da Classe 0)
px.box(df_final, x='EMP_CS_MAX', color = 'TARGET', title = 'Boxplot da variável EMP_CS_MAX - Corte no 4Q', 
       labels={'EMP_CS_MAX': 'Capital Social'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,8650000))

In [None]:
# Gerando visualização gráfica de IMP_VOL
px.histogram(df_final, x='IMP_VOL', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável IMP_VOL', labels={'IMP_VOL': 'Importação - Volume'}, template='plotly_white', 
             color_discrete_sequence=px.colors.qualitative.T10, orientation = 'v')

In [None]:
# Gerando visualização gráfica boxplot de IMP_VOL (limite superior Q4 da Classe 0)
px.box(df_final, x='IMP_VOL', color = 'TARGET', title = 'Boxplot da variável IMP_VOL - Corte no 4Q', 
       labels={'IMP_VOL': 'Importação - Volume'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,42))

In [None]:
# Gerando visualização gráfica de IMP_VAL
px.histogram(df_final, x='IMP_VAL', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável IMP_VAL', labels={'IMP_VAL': 'Importação - Valores em R$'}, template='plotly_white', 
             color_discrete_sequence=px.colors.qualitative.T10)

In [None]:
# Gerando visualização gráfica boxplot de IMP_VAL (limite superior Q4 da Classe 0)
px.box(df_final, x='IMP_VAL', color = 'TARGET', title = 'Boxplot da variável IMP_VAL - Corte no 4Q', 
       labels={'IMP_VAL': 'Importação - Valores em R$'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,7350000))

In [None]:
# Gerando visualização gráfica de IMP_PESO
px.histogram(df_final, x='IMP_PESO', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável IMP_PESO', labels={'IMP_PESO': 'Importação - Peso em Toneladas'}, template='plotly_white', 
             color_discrete_sequence=px.colors.qualitative.T10)

In [None]:
# Gerando visualização gráfica boxplot de IMP_PESO (limite superior Q4 da Classe 0)
px.box(df_final, x='IMP_PESO', color = 'TARGET', title = 'Boxplot da variável IMP_PESO - Corte no 4Q', 
       labels={'IMP_PESO': 'Importação - Valores em R$'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,360))

In [None]:
# Gerando visualização gráfica de IMP_CUSTO
px.histogram(df_final, x='IMP_CUSTO', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável IMP_CUSTO', labels={'IMP_CUSTO': 'Importação - Valores em R$ acrescidos de tributos'}, template='plotly_white', 
             color_discrete_sequence=px.colors.qualitative.T10)

In [None]:
# Gerando visualização gráfica boxplot de IMP_CUSTO (limite superior Q4 da Classe 0)
px.box(df_final, x='IMP_CUSTO', color = 'TARGET', title = 'Boxplot da variável IMP_CUSTO - Corte no 4Q', 
       labels={'IMP_CUSTO': 'Importação - Valores em R$ acrescidos de tributos'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,9291900))

In [None]:
# Gerando visualização gráfica de EMP_EMPREG
px.histogram(df_final, x='EMP_EMPREG', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável EMP_EMPREG', labels={'EMP_EMPREG': 'Quantidade de Empregados'}, template='plotly_white', 
             color_discrete_sequence=px.colors.qualitative.T10)

In [None]:
# Gerando visualização gráfica boxplot de EMP_EMPREG (limite superior Q4 da Classe 0)
px.box(df_final, x='EMP_EMPREG', color = 'TARGET', title = 'Boxplot da variável EMP_EMPREG - Corte no 4Q', 
       labels={'EMP_EMPREG': 'Quantidade de Empregados'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,510))

In [None]:
# Gerando visualização gráfica de EMP_REC
px.histogram(df_final, x='EMP_REC', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável EMP_REC', labels={'EMP_REC': 'Receita estimada em R$'}, 
             template='plotly_white', color_discrete_sequence=px.colors.qualitative.T10)

In [None]:
# Gerando visualização gráfica boxplot de EMP_REC (limite superior Q4 da Classe 0)
px.box(df_final, x='EMP_REC', color = 'TARGET', title = 'Boxplot da variável EMP_REC - Corte no 4Q', 
       labels={'EMP_REC': 'Receita estimada em R$'}, template='plotly_white', 
       color_discrete_sequence=px.colors.qualitative.T10, range_x= (0,282000000))

In [None]:
# Gerando visualização gráfica de ANOS_ATIVA
px.histogram(df_final, x='ANOS_ATIVA', color = 'TARGET', nbins=40, marginal='box', 
             title = 'Histograma e Boxplot da variável ANOS_ATIVA', labels={'ANOS_ATIVA': 'Tempo de atividade da empresa em anos'}, template='plotly_white', 
             color_discrete_sequence=px.colors.qualitative.T10)

O desbalanceamento das classes da variável TARGET e a grande amplitude da maior parte das variáveis quantitativas são características inerentes ao problema que nos propusemos a resolver e, portanto, esperadas para a amostra de empresas que trouxemos para estudo.

Tentaremos ajustar nosso modelo para corrigir esses problemas.

### 4 - 3  Matriz de Correlação

In [None]:
# Matriz de correlação das variáveis quantitativas
upp_mat = np.triu(df_final.corr())
plt.title('Matriz de Correlação')
sns.heatmap(df_final.corr(),vmin = -1, vmax=+1, annot= True, cmap = "coolwarm", mask = upp_mat)
plt.show()

In [None]:
# Ordenando por índice de correlação
df_corr = df_final.corr()
(df_corr.pipe(lambda df: pd.DataFrame(np.where(np.triu(np.ones(df.shape, dtype=int), k=1), df, np.nan),index=df.index, columns=df.columns)).stack().dropna().sort_values(ascending=False))

Como esperado, observamos maior correlação entre variáveis interdependentes como valor de importação (IMP_VAL) e custo de importação ('IMP_CUSTO') - que representa valor de importações acrescidos dos tributos aduaneiros. A alta correlação sugere a baixa incidência de importações sem tributação ou cobertura cambial e demonstra que uma das variáveis pode ser descartada para o modelo de ML.

Mesmo váriáveis que não tem uma interdepenência tão direta apresentaram alguma de correlação, como custo ou valor de importação e volume de importação ou volume de importação e receita - o que faz sentido para empresas e operações reais.

A correlação entre as demais variáveis se mostra fraca.