## Como vou carregar um DataSet sem "estourar" a memória do meu computador

In [3]:
# Importando os pacotes a serem utilizados
# Set_option max_columns e max_rows serve para que ele mostre de fato todas as linhas e colunas. Quando acontece de um DF ter muitas linhas ou 
# muitas colunas, o que ele faz é não mostrar tudo. Assim, ele colocará uma rolagem para que apareça tudo.

import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
# Carregando o arquivo

# df = pd.read_csv('dados.csv', sep=';')

In [None]:
# Quantidade de Variáveis e Observações do DataFrame

# df.shape

In [None]:
# Visualizando o DataFrame

# df.head()

In [None]:
# Avaliando o consumo de memória

# df.info(memory_usage='deep')

In [13]:
# Vou carregar somente 5 linhas para avaliar o arquivo
# O ideal é carregar até 1000 linhas pelo menos para não ter tanto peso dentro da memória.

df = pd.read_csv('dados.csv', sep=';', nrows = 5)

In [7]:
# quantidade de observações e variáveis

df.shape

(5, 31)

In [15]:
# Avaliando as variavei que temos 

df.head(1)

Unnamed: 0,ID_CLIENTE,NRO_CONTRATO,PRAZO,VL_EMPRESTIMO,VL_PARCELA,QT_PC_ATRASO,QT_PC_PAGAS,VL_PAGO,NOME,SEXO,IDADE,ENDERECO,COMPLEMENTO,BAIRRO,CIDADE,CEP,ESTADO,UF,FONE_RES,FONE_COM,FONE_CEL,VL_RENDA,QT_IMOVEIS,QT_FILHOS,ESTADO_CIVIL,NOME_CONJUTE,NOME_MAE,NIVEL_ESCOLARIDADE,E_MAIL,E_MAIL_ALTERNATIVO,CHAVE_AUTENTICACAO
0,1,QRY12345689705,120,120000.0,1000.0,4,12,35000.0,NERD DOS DADOS - TUDO SOBRE CIENCA DE DADOS,MASCULINO,43,AVENIDA NERD DOS DADOS TUDO SOBRE CIENCIA DE D...,CASA 20,BAIRRO NERD,CIDADE NERD,12356-000,SÃO PAULO,SP,(11) 2323-2323,(11) 2424-2424,(11) 98888-8888,1000.0,1,1,CASADO,ESPOSA DO NERD DOS DADOS,NOME DA MAE DO NERD DOS DADOS,PÓS GRADUÇÃO COMPLETO / MBA,comercial@nerddosdados.com.br,comercial@nerddosdados.com.br,xzdfaiydiagssfdljadsoiayfdiuoagifduahusfdaiudy...


Essas primeiras 5 linhas na verdade é para avaliarmos o que temos no dataset, por exemplo, podemos perceber que tem muitas informações que em um modelo de machine learning, nós não vamos utilizar como por exemplo: nome da mae, email, email alternativo, telefone, endereço.
Tem muitos dados que nós não vamos utilizar.

In [18]:
# Extraindo o nome das colunas

df.columns

Index(['ID_CLIENTE', 'NRO_CONTRATO', 'PRAZO', 'VL_EMPRESTIMO', 'VL_PARCELA',
       'QT_PC_ATRASO', 'QT_PC_PAGAS', 'VL_PAGO', 'NOME', 'SEXO', 'IDADE',
       'ENDERECO', 'COMPLEMENTO', 'BAIRRO', 'CIDADE', 'CEP', 'ESTADO', 'UF',
       'FONE_RES', 'FONE_COM', 'FONE_CEL', 'VL_RENDA', 'QT_IMOVEIS',
       'QT_FILHOS', 'ESTADO_CIVIL', 'NOME_CONJUTE', 'NOME_MAE',
       'NIVEL_ESCOLARIDADE', 'E_MAIL', 'E_MAIL_ALTERNATIVO',
       'CHAVE_AUTENTICACAO'],
      dtype='object')

In [20]:
# Selecionando as colunas a serem utilizadas

colunas = ['NRO_CONTRATO', 'PRAZO', 'VL_EMPRESTIMO', 'VL_PARCELA',
           'QT_PC_ATRASO', 'QT_PC_PAGAS', 'VL_PAGO', 'SEXO', 'IDADE','VL_RENDA']

In [22]:
# Visualizando as colunas

colunas

['NRO_CONTRATO',
 'PRAZO',
 'VL_EMPRESTIMO',
 'VL_PARCELA',
 'QT_PC_ATRASO',
 'QT_PC_PAGAS',
 'VL_PAGO',
 'SEXO',
 'IDADE',
 'VL_RENDA']

In [24]:
# Carregando o DataSet somente com a coluna que precisamos

df = pd.read_csv('dados.csv', sep=';', usecols = colunas)

In [26]:
# Visualizando o DataFrame

df.head()

Unnamed: 0,NRO_CONTRATO,PRAZO,VL_EMPRESTIMO,VL_PARCELA,QT_PC_ATRASO,QT_PC_PAGAS,VL_PAGO,SEXO,IDADE,VL_RENDA
0,QRY12345689705,120,120000.0,1000.0,4,12,35000.0,MASCULINO,43,1000.0
1,QRY12345689705,120,120000.0,1000.0,4,12,35000.0,MASCULINO,43,1000.0
2,QRY12345689705,120,120000.0,1000.0,4,12,35000.0,MASCULINO,43,1000.0
3,QRY12345689705,120,120000.0,1000.0,4,12,35000.0,MASCULINO,43,1000.0
4,QRY12345689705,120,120000.0,1000.0,4,12,35000.0,MASCULINO,43,1000.0


In [28]:
# Verificando a quantidade de variaveis e observações

df.shape

(7136809, 10)

In [30]:
# Avaliando o consumo de memória

df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7136809 entries, 0 to 7136808
Data columns (total 10 columns):
 #   Column         Dtype  
---  ------         -----  
 0   NRO_CONTRATO   object 
 1   PRAZO          int64  
 2   VL_EMPRESTIMO  float64
 3   VL_PARCELA     float64
 4   QT_PC_ATRASO   int64  
 5   QT_PC_PAGAS    int64  
 6   VL_PAGO        float64
 7   SEXO           object 
 8   IDADE          int64  
 9   VL_RENDA       float64
dtypes: float64(4), int64(4), object(2)
memory usage: 1.2 GB
