# Estudo de Caso 01
Limpeza e Pré-processamento de Dados com NumPy

In [2]:
# Versão da linguagem Pyhton utilizada
from platform import python_version
print('Versão python utilizada: ', python_version())

Versão python utilizada:  3.11.5


# Setup

In [3]:
# Import
import numpy as np

In [4]:
# utilizado para evitar poluição visual
# o objetivo desse notebbok é apenas estudo
import warnings
warnings.filterwarnings('ignore')

In [5]:
# Config de impressão do Numpy
np.set_printoptions(suppress=True, linewidth=200, precision=2)

# Carregando o dataset

In [6]:
dados = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    encoding = 'cp1252'
)

In [22]:
type(dados)

numpy.ndarray

In [23]:
dados.shape

(10000, 14)

In [7]:
dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

Observa-se que a importaçao gerou um comportamento inesperado com as colunas do tipo string

## Verificando valores ausentes

In [8]:
# Quantidade de valores nan
np.isnan(dados).sum()

88005

## Tratando importação

Para tratar a importação de colunas com string o dataset original será dividido em dois:
- Um dataset apenas com as colunas numéricas
- Um dataset apenas com as colunas string

### Identificando colunas numéricas / string

In [9]:
# Cria-se um valor definido para preenchimento no lugar de valores ausentes
valor_coringa = np.nanmax(dados) +1
valor_coringa

68616520.0

Crio um array com a média das colunas. As colunas string serão retornadas como "nan"

In [10]:
media_colunas_ignorando_nan = np.nanmean(dados, axis = 0)
media_colunas_ignorando_nan

array([54015809.19,         nan,    15273.46,         nan,    15311.04,         nan,       16.62,      440.92,         nan,         nan,         nan,         nan,         nan,     3143.85])

In [11]:
# separo as colunas do tipo string
colunas_string = np.argwhere(np.isnan(media_colunas_ignorando_nan)).squeeze()
colunas_string

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

In [24]:
# separo as colunas numéricas
colunas_numericas = np.argwhere(np.isnan(media_colunas_ignorando_nan) == False).squeeze()
colunas_numericas

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Carrego o dataset novamente, mas utilizando apenas as colunas string

In [28]:
arr_string = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    usecols = colunas_string,
    dtype= str,
    encoding = 'cp1252'
)
arr_string

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

Carrego o dataset novamente, mas utilizando apenas as colunas string

In [30]:
arr_numeric = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    usecols= colunas_numericas,
    filling_values=valor_coringa,
    encoding = 'cp1252'
)

arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [34]:
arr_nomes_colunas = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter= ";",
    autostrip=True,
    skip_footer=dados.shape[0],
    dtype=str,
    encoding='cp1252'
)
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [36]:
# Carrega apenas o cabeçalho do arquivo - opção melhor segundo o chatGPT
arr_nomes_colunas = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter=';',
    dtype=str,
    max_rows=1,
    encoding='cp1252'
)
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [37]:
# separo o cabeçalho das colunas numericas e das colunas string
header_strin, header_numeric = arr_nomes_colunas[colunas_string], arr_nomes_colunas[colunas_numericas]

In [38]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [39]:
header_strin

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

# Função de Chackpoint
Vamos criar uma função de checkpoint para salvar em disco os resultados intermediários

In [40]:
def checkpoint (file_name, checkpoint_header, checkpoint_data):
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + '.npz')
    return(checkpoint_variable)

In [41]:
checkpoint_inicial = checkpoint('./DSA_Files/45-Cap02/dados/checkpoint_inicial', header_strin, arr_string)

In [44]:
checkpoint_inicial['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [45]:
np.array_equal(checkpoint_inicial['data'], arr_string)

True

# Manipulando as colunas String