# **astype Method II**

In [2]:
import pandas as pd

In [4]:
nba = pd.read_csv("nba.csv").dropna(how = "all") # dropa rows onde todos os valores estão ausentes
nba.tail()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


Identificar colunas como categóricas diminui consideravelmente o consumo de memória do dataframe

O que o pandas faz por de baixo dos panos é invés de replicar ou duplicar esses valores para cada linha do dataframe, ele cria cópias desses valores únicos e apenas reutiliza esses valores;

In [5]:
# É importante verificar os tipos de dados do dataframe que estamos lidando para identificar bons candidatos para serem identificados como colunas categóricas
nba.dtypes 

Name         object
Team         object
Number      float64
Position     object
Age         float64
Height       object
Weight      float64
College      object
Salary      float64
dtype: object

In [6]:
len(nba)

457

In [8]:
# Com o método abaixo podemos identificar informações valiosas sobre o nosso dataset como por exemplo:
# quantidade de valores não nulos em cada coluna;
# data type de cada coluna;
# Uso de memória atual do dataset --> podemos comparar depois para ver a variação percentual da queda do uso de memória após algumas transformações que vizam otimizar esse processo;

nba.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   373 non-null    object 
 8   Salary    446 non-null    float64
dtypes: float64(4), object(5)
memory usage: 35.7+ KB


In [7]:
nba['Position'].nunique()

5

In [10]:
nba['Position'] = nba['Position'].astype("category")

In [11]:
nba.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   Name      457 non-null    object  
 1   Team      457 non-null    object  
 2   Number    457 non-null    float64 
 3   Position  457 non-null    category
 4   Age       457 non-null    float64 
 5   Height    457 non-null    object  
 6   Weight    457 non-null    float64 
 7   College   373 non-null    object  
 8   Salary    446 non-null    float64 
dtypes: category(1), float64(4), object(4)
memory usage: 32.8+ KB


In [16]:
 print(f"variação percentual relativa de redução de {round(((32.8 / 35.7) - 1) * 100, 2)}% no uso da memória.")

variação percentual relativa de redução de -8.12% no uso da memória.


In [17]:
nba['Team'].hasnans

False

In [18]:
nba['Team'].nunique()

30

In [19]:
nba['Team'] = nba['Team'].astype("category")

In [20]:
nba.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   Name      457 non-null    object  
 1   Team      457 non-null    category
 2   Number    457 non-null    float64 
 3   Position  457 non-null    category
 4   Age       457 non-null    float64 
 5   Height    457 non-null    object  
 6   Weight    457 non-null    float64 
 7   College   373 non-null    object  
 8   Salary    446 non-null    float64 
dtypes: category(2), float64(4), object(3)
memory usage: 30.9+ KB


In [21]:
 print(f"variação percentual relativa de redução de {round(((30.9 / 32.8) - 1) * 100, 2)}% no uso da memória.")

variação percentual relativa de redução de -5.79% no uso da memória.


In [22]:
 print(f"variação percentual relativa de redução final é de {round(((30.9 / 35.7) - 1) * 100, 2)}% no uso da memória.")

variação percentual relativa de redução final é de -13.45% no uso da memória.
