# Cápitulo 02 - Arquivo 04 - Estudo de Caso

In [1]:
# Importando bibliotecas e imprimir versão:
from platform import python_version
print('Versão Python:', python_version(), '\n')

import numpy as np
import warnings
warnings.filterwarnings("ignore") # Ignorar mensagens de aviso

%reload_ext watermark
%watermark -a "gustavogzr" --iversions

Versão Python: 3.11.1 

Author: gustavogzr

numpy: 1.25.2



In [2]:
np.set_printoptions(suppress=True, linewidth=200, precision=2) 
# Configuração de impressão dos arrays. Suprimir notação científica, aumentar largura de impressão e precisão de casas decimais

Para maiores detalhes sobre o np.set_printoptions, acesse o link: https://numpy.org/doc/stable/reference/generated/numpy.set_printoptions.html

## Carregando o Dataset

Para maiores detalhes, acessar o link: https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html

In [3]:
dados = np.genfromtxt('.arquivos_DSA/dados/dataset1.csv',
                      delimiter=';',
                      skip_header=1,
                      autostrip=True,
                      encoding='cp1252')
# skip_header=1 pula a primeira linha do arquivo
# autostrip=True remove espaços em branco no início e no final dos dados

In [4]:
type(dados) # Tipo do objeto. ndarray = n-dimensional array

numpy.ndarray

In [5]:
dados.shape # Formato do array. 

(10000, 14)

In [6]:
dados.view() # Visualização dos dados

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

Várias colunas estão apresentando dados nan. O NumPy definiu erroneamente o tipo de dados das colunas e considerou colunas com strings como float. Iremos corrigir isso.

## Verificando valores ausentes

In [7]:
np.isnan(dados).sum() # Contagem de valores ausentes

88005

In [10]:
valor_coringa = np.nanmax(dados) + 1 # Valor coringa para substituir os valores ausentes. A função np.nanmax() retorna o maior valor do array ignorando os valores ausentes
print(valor_coringa)

68616520.0


In [11]:
media_ignorando_nan = np.nanmean(dados, axis=0) # Cálculo da média ignorando os valores ausentes. axis=0 indica que a média será calculada ao longo das colunas
print(media_ignorando_nan)

[54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]


In [19]:
colunas_string = np.argwhere(np.isnan(media_ignorando_nan)).squeeze() # Identificação das colunas que possuem valores ausentes
# argwhere() retorna os índices dos elementos que são True
# squeeze() converte para um array unidimensional
colunas_string # Visualização das colunas de string

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

In [18]:
colunas_numericas = np.argwhere(np.isnan(media_ignorando_nan) == False).squeeze() # Identificação das colunas que não possuem valores ausentes
colunas_numericas # Visualização das colunas numéricas

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Agora iremos importar novamente o dataset, separando colunas do tipo string de colunas numéricas.

In [20]:
# Carregamento das colunas tipo string:
arr_strings = np.genfromtxt('.arquivos_DSA/dados/dataset1.csv',
                            delimiter=';',
                            skip_header=1,
                            autostrip=True,
                            usecols=colunas_string,
                            dtype=str,
                            encoding='cp1252')
# usecols=colunas_string indica que apenas as colunas identificadas como string serão carregadas
# dtype=str indica que os dados carregados serão do tipo string
arr_strings # Visualização dos dados

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [25]:
# Carregamento das colunas tipo numérico:
arr_numericos = np.genfromtxt('.arquivos_DSA/dados/dataset1.csv',
                              delimiter=';',
                              skip_header=1,
                              autostrip=True,
                              usecols=colunas_numericas,
                              filling_values=valor_coringa,
                              encoding='cp1252')
# filling_values=valor_coringa substitui os valores ausentes pelo valor coringa
arr_numericos # Visualização dos dados

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

Agora iremos extrair os cabeçalhos das colunas.

In [27]:
arr_nome_colunas = np.genfromtxt('.arquivos_DSA/dados/dataset1.csv',
                                delimiter=';',
                                autostrip=True,
                                skip_footer=dados.shape[0],
                                dtype=str,
                                encoding='cp1252')
# skip_footer=dados.shape[0] pula o rodapé do arquivo
arr_nome_colunas # Visualização dos dados

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [28]:
# Separar os cabeçalhos das colunas numéricas e de string:
header_strings = arr_nome_colunas[colunas_string] # Cabeçalhos das colunas de string
header_strings # Visualização dos dados

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [29]:
header_numeric = arr_nome_colunas[colunas_numericas] # Cabeçalhos das colunas numéricas
header_numeric # Visualização dos dados

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

## Função de CheckPoint