In [3]:
import pandas as pd
pd.__version__

'0.25.1'

In [4]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry')

In [5]:
# Dados avançados do dataframe com o parametro de uso de memoria exato
drinks.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
country                         193 non-null object
beer_servings                   193 non-null int64
spirit_servings                 193 non-null int64
wine_servings                   193 non-null int64
total_litres_of_pure_alcohol    193 non-null float64
continent                       193 non-null object
dtypes: float64(1), int64(3), object(2)
memory usage: 30.5 KB


# Economia de memória
<blockquote><li> Observe que o memory usage é mais de 30KB, isso se deve a ao tipo object (que guarda strings inteiras) ser mais pesado que os tipos floats e integers</li> <br><li> A ideia a seguir é transformar as strings da coluna continent em inteiros de 0 a 4, representando os 5 continentes existentes.</li> <br> <li>E para isso contamos com o <code>dtype</code> category para essa solução</li>
   

In [6]:
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa


In [7]:
drinks.memory_usage()

Index                            128
country                         1544
beer_servings                   1544
spirit_servings                 1544
wine_servings                   1544
total_litres_of_pure_alcohol    1544
continent                       1544
dtype: int64

In [8]:
sorted(drinks.continent.unique())

['Africa', 'Asia', 'Europe', 'North America', 'Oceania', 'South America']

In [9]:
# Alterando o tipo objeto para categoria
drinks['continent'] = drinks.continent.astype('category')

In [10]:
# Perceba a economia de memória utilizada com essa alteração
drinks.memory_usage()

Index                            128
country                         1544
beer_servings                   1544
spirit_servings                 1544
wine_servings                   1544
total_litres_of_pure_alcohol    1544
continent                        401
dtype: int64

In [11]:
# Confirmando a mudança do tipo
drinks.continent.head()

0      Asia
1    Europe
2    Africa
3    Europe
4    Africa
Name: continent, dtype: category
Categories (6, object): [Africa, Asia, Europe, North America, Oceania, South America]

In [12]:
# Observando a Series continent pelos codigos do tipo category 
drinks.continent.cat.codes.head()

0    1
1    2
2    0
3    2
4    0
dtype: int8

# Outros usos para a <code>category</code> no pandas

In [13]:
# Criando um dataframe
df = pd.DataFrame({'ID':[100, 101, 102, 103], 'qualidade':['good', 'very good', 'good', 'excellent']})
df

Unnamed: 0,ID,qualidade
0,100,good
1,101,very good
2,102,good
3,103,excellent


In [14]:
# Importando o tipo CategoricalDType
from pandas.api.types import CategoricalDtype

# Criando a categoria ordenada da coluna
qualidade_cat = CategoricalDtype(['good', 'very good', 'excellent'], ordered = True)

# Atribuindo esse tipo a coluna
df['qualidade'] = df.qualidade.astype(qualidade_cat)
df.qualidade

0         good
1    very good
2         good
3    excellent
Name: qualidade, dtype: category
Categories (3, object): [good < very good < excellent]

In [18]:
# Observe que que a ordenação está ligada a indicação feita anteriormente
df.sort_values(by='qualidade')

Unnamed: 0,ID,qualidade
0,100,good
2,102,good
1,101,very good
3,103,excellent


In [19]:
# Agora é possivel aplicar uma mask com essa nova categoria
df[df['qualidade'] > 'good']

Unnamed: 0,ID,qualidade
1,101,very good
3,103,excellent
