CAPÍTULO 7 - Tipos de dados
-


Este capítulo mostra os diversos tipos de dados que você pode encontrar no Pandas e formas de como converter um tipo em outro

7.2 Tipos de Dados

Neste capítulo usaremos o conjunto de dados "tips" do seaborn

In [1]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")

Usamos o atributo dtypes apra ver os tipos de dados armazenados em uma variável (coluna)

In [2]:
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object


O número após o tipo do dado representa a quantidade de bits de informação que será armazenada para aquele número em particular

O tipo category representa variáveis categorizadas e difere do tipo object genérico que armazena strings arbitrárias. Mas ainda exploraremos melhor essas diferenças depois

7.3 Convertendo tipos

O tipo de dado armazenado em uma coluna determina as funções e cálculos que podem ser realizados com os dados da coluna.  
Por isso é importante saber converter esse tipos de dados

7.3.1 Convertendo para objetos string

Para converter valores em strigs usamos o métdo astype na coluna. astype aceita uma parâmetro dtype que será o novo valor tipo de dado assumido pela coluna

In [3]:
tips['sex_str'] = tips['sex'].astype(str)

print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


Python tem tipos embutidos como str, float, int, complex e bool, mas podemos especificar qualquer tipo de dtype da biblioteca numpy

7.3.2 Convertendo para valores númericos

In [4]:
#converte total_bill para uma string

tips['total_bill'] = tips['total_bill'].astype(str)

print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [5]:
#converte de volta para flaot
tips['total_bill'] = tips['total_bill'].astype(float)

print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


7.3.2.1 to_numeric

Ao converter variáveis em valores númericos, podemos usar a função to_numeric do pandas que trata melhor com valores não númericos

In [6]:
#cria um subconjunto de tips
tips_sub_miss = tips.head(10)

#atribui alguns valores ausentes ('missing')
tips_sub_miss.loc[[1,3,5,7], 'total_bill'] = 'missing'

print(tips_sub_miss)

  total_bill   tip     sex smoker  day    time  size sex_str
0      16.99  1.01  Female     No  Sun  Dinner     2  Female
1    missing  1.66    Male     No  Sun  Dinner     3    Male
2      21.01  3.50    Male     No  Sun  Dinner     3    Male
3    missing  3.31    Male     No  Sun  Dinner     2    Male
4      24.59  3.61  Female     No  Sun  Dinner     4  Female
5    missing  4.71    Male     No  Sun  Dinner     4    Male
6       8.77  2.00    Male     No  Sun  Dinner     2    Male
7    missing  3.12    Male     No  Sun  Dinner     4    Male
8      15.04  1.96    Male     No  Sun  Dinner     2    Male
9      14.78  3.23    Male     No  Sun  Dinner     2    Male


  tips_sub_miss.loc[[1,3,5,7], 'total_bill'] = 'missing'


In [7]:
print(tips_sub_miss.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


Ao colocar alguns valores 'missing' ao invés de NaN converte o tipo de dado da variável para string, mas dá um alerta de erro dizendo para converter para um tipo compativel

In [8]:
print(tips_sub_miss)

  total_bill   tip     sex smoker  day    time  size sex_str
0      16.99  1.01  Female     No  Sun  Dinner     2  Female
1    missing  1.66    Male     No  Sun  Dinner     3    Male
2      21.01  3.50    Male     No  Sun  Dinner     3    Male
3    missing  3.31    Male     No  Sun  Dinner     2    Male
4      24.59  3.61  Female     No  Sun  Dinner     4  Female
5    missing  4.71    Male     No  Sun  Dinner     4    Male
6       8.77  2.00    Male     No  Sun  Dinner     2    Male
7    missing  3.12    Male     No  Sun  Dinner     4    Male
8      15.04  1.96    Male     No  Sun  Dinner     2    Male
9      14.78  3.23    Male     No  Sun  Dinner     2    Male


Se tentarmos converter total_bill para flaot novamente dará em um erro pois o pandas não consegue converter 'missing' em um float

In [9]:
"""
tips_sub_miss['total_bill'] = tips_sub_miss['total_bill'].astype(float)
"""

"\ntips_sub_miss['total_bill'] = tips_sub_miss['total_bill'].astype(float)\n"

Se usarmos to_numeric vemos um erro semelhante

In [10]:
"""
pd.to_numeric(tips_sub_miss['total_bill'])
"""

"\npd.to_numeric(tips_sub_miss['total_bill'])\n"

Porém to_numeric possui um parâmetro chamado errors que determina o que acontece quando um valor que não pode ser convertido é detectado  

 - 'raise' (default) gerará um erro
 - 'coerce' develverá NaN para os valores que não puderem ser convertidos
 - 'ignore' devolverá o vetor sem converter, ou seja, não vai fazer nada

In [11]:
#sinaliza que estamos modificando uma cópia do dataframe original para evitar mensagens de alerta 
tips_sub_miss = tips_sub_miss.copy()
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce')

print(tips_sub_miss['total_bill'], '\n')
print(tips_sub_miss.dtypes)

0    16.99
1      NaN
2    21.01
3      NaN
4    24.59
5      NaN
6     8.77
7      NaN
8    15.04
9    14.78
Name: total_bill, dtype: float64 

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


7.3.2.2 Parâmetro downcast de to_numeric

A função to_numeric tem outro parâmetro, chamado downcast, que permite alterar o dtype numérico para o menor dtype numérico possível (fazer um downcast).  
Por padrão o valor definido é None mas podemos passar 'integer', 'signed', 'unsigned' e 'float'.

In [12]:

tips_sub_miss['total_bill'] = pd.to_numeric(
    tips_sub_miss['total_bill'],
      errors='coerce',
      downcast='float'
      )

print(tips_sub_miss['total_bill'], '\n')
print(tips_sub_miss.dtypes)

0    16.99
1      NaN
2    21.01
3      NaN
4    24.59
5      NaN
6     8.77
7      NaN
8    15.04
9    14.78
Name: total_bill, dtype: float32 

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


7.4 Dados categorizados

Nem todos os valorews são númericos. O Pandas tem um dtype category, em que codifica valores de categorias.

Alguns casos onde usamos category:
 - Armazenar dados neste formato pode ser melhor para a memórias e velociade, princiálmente se um conjunto de dados incluir muitos valores repetidos de string
 - Dados categorizados podem ser últil quando uma coluna tem valores em ordem (exemplo, uma escala de Likert)
 - Algumas bibliotecas python sabem lidar com dados categorizados (por exemplo, na adequação de modelos estatísticos)

7.4.1 Conversão de categoria

In [13]:
tips['sex'] = tips['sex'].astype('str')

print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.8+ KB
None


In [14]:
#converte sex de volta para dados categorizados
tips['sex'] = tips['sex'].astype('category')

print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.3+ KB
None


7.4.2 Manipulando dados categorizados

No livro tem uma tabelas com operações que são possíveis de realizar com dados categorizados

In [15]:
print(tips['sex'].cat.categories, '\n')
print(tips['sex'].cat.ordered, '\n')
print(tips['sex'].cat.codes, '\n')

Index(['Female', 'Male'], dtype='object') 

False 

0      0
1      1
2      1
3      1
4      0
      ..
239    1
240    0
241    1
242    1
243    0
Length: 244, dtype: int8 



In [16]:
tips_sub_miss['sex_cat'] = tips_sub_miss['sex']
tips_sub_miss.drop(columns=['sex'], inplace=True)

print(tips_sub_miss)

   total_bill   tip smoker  day    time  size sex_str sex_cat
0       16.99  1.01     No  Sun  Dinner     2  Female  Female
1         NaN  1.66     No  Sun  Dinner     3    Male    Male
2       21.01  3.50     No  Sun  Dinner     3    Male    Male
3         NaN  3.31     No  Sun  Dinner     2    Male    Male
4       24.59  3.61     No  Sun  Dinner     4  Female  Female
5         NaN  4.71     No  Sun  Dinner     4    Male    Male
6        8.77  2.00     No  Sun  Dinner     2    Male    Male
7         NaN  3.12     No  Sun  Dinner     4    Male    Male
8       15.04  1.96     No  Sun  Dinner     2    Male    Male
9       14.78  3.23     No  Sun  Dinner     2    Male    Male


Renomeando as categorias

In [17]:
tips_sub_miss['sex_cat'] = tips_sub_miss['sex_cat'].cat.rename_categories({'Female': 'Mulher', 'Male': 'Homem'})

print(tips_sub_miss)

   total_bill   tip smoker  day    time  size sex_str sex_cat
0       16.99  1.01     No  Sun  Dinner     2  Female  Mulher
1         NaN  1.66     No  Sun  Dinner     3    Male   Homem
2       21.01  3.50     No  Sun  Dinner     3    Male   Homem
3         NaN  3.31     No  Sun  Dinner     2    Male   Homem
4       24.59  3.61     No  Sun  Dinner     4  Female  Mulher
5         NaN  4.71     No  Sun  Dinner     4    Male   Homem
6        8.77  2.00     No  Sun  Dinner     2    Male   Homem
7         NaN  3.12     No  Sun  Dinner     4    Male   Homem
8       15.04  1.96     No  Sun  Dinner     2    Male   Homem
9       14.78  3.23     No  Sun  Dinner     2    Male   Homem
