In [1]:
# Importando as bibliotecas
import pandas as pd 
import numpy as np
import sys
import os

sys.path.append("D:\\videos\\Pandas\\arquivos\\funcoes_curso")
from funcoes import importar_base 
dados_alugueis = importar_base("houses_to_rent.csv")

In [2]:
# Verificando os dados das colunas
dados_alugueis.head(2)

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total
0,1,240,3,3,4,-,acept,furnished,R$0,"R$8,000","R$1,000",R$121,"R$9,121"
1,0,64,2,1,1,10,acept,not furnished,R$540,R$820,R$122,R$11,"R$1,493"


In [3]:
# Verificando os tipos de dados usando o atributo .dtypes
dados_alugueis.dtypes

city               int64
area               int64
rooms              int64
bathroom           int64
parking spaces     int64
floor             object
animal            object
furniture         object
hoa               object
rent amount       object
property tax      object
fire insurance    object
total             object
dtype: object

In [4]:
# Verificando o consumo de memória usando o método .memory_usage(deep=true)
# Salvaremos o valor atual para comparação no final
dados_alugueis.memory_usage(deep = True)

Index             212480
city               48640
area               48640
rooms              48640
bathroom           48640
parking spaces     48640
floor             354071
animal            382616
furniture         419272
hoa               379216
rent amount       389125
property tax      374694
fire insurance    371753
total             389956
dtype: int64

In [5]:
consumo_memoria_old = dados_alugueis.memory_usage(deep = True)

In [6]:
# Podemos converter os dados usando o método .astype(tipo de dado) na coluna específica
# Lembremos agora o que eu vivia dizendo: criar uma cópia dos dados, pois pode ser que caguemos em alguma parte
dados_alugueis_copia = dados_alugueis.copy(deep = True)

In [11]:
# Alteraremos para valores menores (np.int8)
dados_alugueis_copia["area"] = dados_alugueis_copia["area"].astype(np.int8)
dados_alugueis_copia["rooms"] = dados_alugueis_copia["rooms"].astype(np.int8)
dados_alugueis_copia["bathroom"] = dados_alugueis_copia["bathroom"].astype(np.int8)
dados_alugueis_copia["parking spaces"] = dados_alugueis_copia["parking spaces"].astype(np.int8)

In [10]:
# Verificando o novo tamanho da base (.memory_usage) e quais os tipos de dados (.dtypes)
dados_alugueis_copia.memory_usage(deep = True)

Index             212480
city               48640
area                6080
rooms               6080
bathroom            6080
parking spaces     48640
floor             354071
animal            382616
furniture         419272
hoa               379216
rent amount       389125
property tax      374694
fire insurance    371753
total             389956
dtype: int64

In [16]:
# Usando o método nunique para saber a quantidade de valores únicos 
# Selecionar com include=["object"]
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nunique.html?highlight=nunique#pandas.DataFrame.nunique 

dados_alugueis_copia.select_dtypes(include = ["object", "int64"]).nunique()

city                 2
floor               37
animal               2
furniture            2
hoa               1292
rent amount       1032
property tax      1036
fire insurance     190
total             4069
dtype: int64

In [17]:
dados_alugueis_copia["city"] = dados_alugueis_copia["city"].astype("category")
dados_alugueis_copia["animal"] = dados_alugueis_copia["animal"].astype("category")
dados_alugueis_copia["furniture"] = dados_alugueis_copia["furniture"].astype("category")

In [19]:
# Comparação o consumo de memória atual e o do começo
consumo_atual = dados_alugueis_copia.memory_usage(deep = True)

In [20]:
consumo_atual / consumo_memoria_old

Index             1.000000
city              0.126974
area              0.125000
rooms             0.125000
bathroom          0.125000
parking spaces    0.125000
floor             1.000000
animal            0.016434
furniture         0.015017
hoa               1.000000
rent amount       1.000000
property tax      1.000000
fire insurance    1.000000
total             1.000000
dtype: float64