# Capítulo 7 - Tipos de dados

## Seção 7.2 - Tipos de dados

Para obter uma lista dos tipos de dados de cada coluna do dataframe podemos consultar o atributo **dtypes**. Se for um objeto do tipo series, o atributo é **dtype** (no singular):

In [1]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

print('tips.dtypes: ')
print(tips.dtypes)
print('-----------------------')
print("tips['sex'].dtype: ")
print(tips['sex'].dtype)

tips.dtypes: 
total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object
-----------------------
tips['sex'].dtype: 
category


## Seção 7.3 - Convertendo tipos

Podemos converter os dados de um objeto do tipo Series chamando o método astype na série e passando o tipo que queremos converter.

### convertendo para o tipo string

É necessário passar str como parâmetro para astype:


In [2]:
tips['sex_str'] = tips['sex'].astype(str)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


### convertendo para valores numéricos

Passamos para astype o tipo float (ou o tipo int). Como exemplo, vamos converter total_bill para string e depois de string para float novamente imprimir o tipo dele:

In [3]:
print(tips['total_bill'].astype(str).dtype)
print(tips['total_bill'].astype(str).astype(float).dtype)

object
float64


A conversão para o tipo numérico pdoe ser feita também usando a função to_numeric, que dá mais flexibilidade na hora de realizar a conversão.

Para ilustrar, vamos pegar um subconjunto da base tips (os 10 primeiros registros) e alterar a variável total_bill em algumas observações para a string 'missing'. O dtype dessa coluna vai mudar para object.

In [4]:
tips_subconjunto = tips.head(10)

tips_subconjunto.loc[[1, 3, 5, 6], 'total_bill'] = 'missing'

print(tips_subconjunto)

print(tips_subconjunto.dtypes)

  total_bill   tip     sex smoker  day    time  size sex_str
0      16.99  1.01  Female     No  Sun  Dinner     2  Female
1    missing  1.66    Male     No  Sun  Dinner     3    Male
2      21.01  3.50    Male     No  Sun  Dinner     3    Male
3    missing  3.31    Male     No  Sun  Dinner     2    Male
4      24.59  3.61  Female     No  Sun  Dinner     4  Female
5    missing  4.71    Male     No  Sun  Dinner     4    Male
6    missing  2.00    Male     No  Sun  Dinner     2    Male
7      26.88  3.12    Male     No  Sun  Dinner     4    Male
8      15.04  1.96    Male     No  Sun  Dinner     2    Male
9      14.78  3.23    Male     No  Sun  Dinner     2    Male
total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)


Ao tentar fazer a conversão dessa coluna para o tipo float usando astype(float), o pandar irá apresentar um erro informando que não consegue convertera string 'missing' para float:

In [5]:
tips_subconjunto['total_bill'].astype(float)

ValueError: could not convert string to float: 'missing'

Para transformar esses valores em NaN, podemos usar a função to_numeric. Ela tem um parâmetro errors que indica o que fazer caso dê problema na conversão. São três possibilidades:

- 'raise' (default): gera um erro na conversão
- 'coerce': converte em NaN o que não conseguir converter
- 'ignore': não dá erro e não converte a coluna

O código abaixo converte transformando os erros em NaN:

In [6]:
tips_subconjunto['total_bill'] = pd.to_numeric(tips_subconjunto['total_bill'], errors='coerce')

print(tips_subconjunto)

print(tips_subconjunto.dtypes)

   total_bill   tip     sex smoker  day    time  size sex_str
0       16.99  1.01  Female     No  Sun  Dinner     2  Female
1         NaN  1.66    Male     No  Sun  Dinner     3    Male
2       21.01  3.50    Male     No  Sun  Dinner     3    Male
3         NaN  3.31    Male     No  Sun  Dinner     2    Male
4       24.59  3.61  Female     No  Sun  Dinner     4  Female
5         NaN  4.71    Male     No  Sun  Dinner     4    Male
6         NaN  2.00    Male     No  Sun  Dinner     2    Male
7       26.88  3.12    Male     No  Sun  Dinner     4    Male
8       15.04  1.96    Male     No  Sun  Dinner     2    Male
9       14.78  3.23    Male     No  Sun  Dinner     2    Male
total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_subconjunto['total_bill'] = pd.to_numeric(tips_subconjunto['total_bill'], errors='coerce')


## Seção 7.4 - Dados categorizados

A conversão é igual para string, mas usamos a string 'category' em vez de category. Por exemplo:

In [7]:
print(tips['sex'].astype('str').dtype)
print(tips['sex'].astype('str').astype('category').dtype)

print(tips['sex'].head())

object
category
0    Female
1      Male
2      Male
3      Male
4    Female
Name: sex, dtype: category
Categories (2, object): ['Male', 'Female']
