# Capítulo 9: Tipos de dados

[Referência](https://riptutorial.com/pandas)

### Observações

**dtypes** não são nativos de pandas. 

o **dtype** de uma coluna não precisa, de forma alguma, se correlacionar com o tipo python do objeto contido na coluna.

Aqui temos uma **pd.Series** com flutuadores. O **dtype** será flutuante.

Em seguida, usamos **astype** para "lançá-lo" em um objeto.

In [1]:
import pandas as pd

In [2]:
pd.Series([1.,2.,3.,4.,5.]).astype(object)

0    1
1    2
2    3
3    4
4    5
dtype: object

O **dtype** agora é objeto, mas os objetos na lista ainda estão flutuando. Lógico se você souber que em python, tudo é um objeto e pode ser convertido em objeto.

In [3]:
type(pd.Series([1.,2.,3.,4.,5.]).astype(object)[0])

float

Aqui, tentamos "converter" os flutuadores em strings.

In [4]:
pd.Series([1.,2.,3.,4.,5.]).astype(str)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: object

O **dtype** agora é objeto, mas o tipo das entradas na lista são strings. Isso ocorre porque numpy não lida com strings e, portanto, age como se fossem apenas objetos e sem importância.

In [6]:
type(pd.Series([1.,2.,3.,4.,5.]).astype(str)[0])


str

Não confie em **dtypes**, eles são um artefato de uma falha arquitetônica nos pandas. Especifique-os como você deve, mas não confie em qual **dtype** está definido em uma coluna.

### Examples

#### Verificando os tipos de colunas

Tipos de colunas podem ser verificados pelo atributo **.dtypes** de DataFrames.

In [7]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [1.0, 2.0, 3.0], 'C': [True, False, True]})

df

Unnamed: 0,A,B,C
0,1,1.0,True
1,2,2.0,False
2,3,3.0,True


Para uma única série, você pode usar o atributo **.dtype**.

In [8]:
df['A'].dtype

dtype('int64')

### Alterando tipos dtype

O método **astype()** altera o **dtype** de uma série e retorna uma nova série.

In [9]:
df = pd.DataFrame({'A': [1, 2, 3], 
                   'B': [1.0, 2.0, 3.0],
                   'C': ['1.1.2010', '2.1.2011', '3.1.2011'],
                   'D': ['1 days', '2 days', '3 days'],
                   'E': ['1', '2', '3']})

df

Unnamed: 0,A,B,C,D,E
0,1,1.0,1.1.2010,1 days,1
1,2,2.0,2.1.2011,2 days,2
2,3,3.0,3.1.2011,3 days,3


In [10]:
df.dtypes

A      int64
B    float64
C     object
D     object
E     object
dtype: object

Altere o tipo da coluna A para **float** e o tipo da coluna B para **int**:

In [11]:
df['A'].astype('float')

0    1.0
1    2.0
2    3.0
Name: A, dtype: float64

In [12]:
df['B'].astype('int')

0    1
1    2
2    3
Name: B, dtype: int32

o método **astype()** é para conversão de tipo específico (ou seja, você pode especificar **.astype (float64')**, **.astype(float32)** ou **.astype(float16))**. Para conversão geral, você pode usar **pd.to_numeric***, **pd.to_datetime** e **pd.to_timedelta**.

### Mudando o tipo para numérico

**pd.to_numeric** altera os valores para um tipo numérico.

In [13]:
pd.to_numeric(df['E'])

0    1
1    2
2    3
Name: E, dtype: int64

Por padrão, **pd.to_numeric** gerará um erro se uma entrada não puder ser convertida em um número. Você pode alterar esse comportamento usando o parâmetro de erros.

In [14]:
pd.to_numeric(pd.Series(['1', '2', 'a']), errors='ignore')

0    1
1    2
2    a
dtype: object

In [15]:
pd.to_numeric(pd.Series(['1', '2', 'a']), errors='coerce')

0    1.0
1    2.0
2    NaN
dtype: float64

Se necessário, verifique se todas as linhas com entrada não podem ser convertidas em numérico, use a **indexação booleana** com **isnull**:

In [16]:
df = pd.DataFrame({'A': [1, 'x', 'z'],
                   'B': [1.0, 2.0, 3.0],
                   'C': [True, False, True]})

df

Unnamed: 0,A,B,C
0,1,1.0,True
1,x,2.0,False
2,z,3.0,True


In [17]:
pd.to_numeric(df.A, errors='coerce').isnull()

0    False
1     True
2     True
Name: A, dtype: bool

In [18]:
df[pd.to_numeric(df.A, errors='coerce').isnull()]

Unnamed: 0,A,B,C
1,x,2.0,False
2,z,3.0,True


### Mudando o tipo para datetime

In [28]:
# import datetime

pd.to_datetime(df['C'])

ValueError: Given date string not likely a datetime.

### Seleção de colunas com base no dtype

O método **select_dtypes** pode ser usado para selecionar colunas com base no **dtype**.

In [20]:
df = pd.DataFrame({'A': [1, 2, 3], 
                   'B': [1.0, 2.0, 3.0], 
                   'C': ['a', 'b', 'c'],
                   'D': [True, False, True]})

df

Unnamed: 0,A,B,C,D
0,1,1.0,a,True
1,2,2.0,b,False
2,3,3.0,c,True


Com os parâmetros de **inclusão** e **exclusão**, você pode especificar quais tipos deseja:

In [21]:
# Selecione os números

df.select_dtypes(include=['number']) # Você precisa usar uma lista

Unnamed: 0,A,B
0,1,1.0
1,2,2.0
2,3,3.0


In [22]:
# Selecione números e booleanos

df.select_dtypes(include=['number', 'bool'])

Unnamed: 0,A,B,D
0,1,1.0,True
1,2,2.0,False
2,3,3.0,True


In [24]:
# Selecione números e booleanos, mas exclua int64

df.select_dtypes(include=['number', 'bool'], exclude=['int64'])

Unnamed: 0,B,D
0,1.0,True
1,2.0,False
2,3.0,True


### Resumindo dtipos

O método **get_dtype_counts** pode ser usado para ver uma divisão dos **dtypes**.

In [25]:
df = pd.DataFrame({'A': [1, 2, 3], 
                   'B': [1.0, 2.0, 3.0], 
                   'C': ['a', 'b', 'c'],
                   'D': [True, False, True]})

df

Unnamed: 0,A,B,C,D
0,1,1.0,a,True
1,2,2.0,b,False
2,3,3.0,c,True


In [27]:
df.dtypes.value_counts()

object     1
float64    1
int64      1
bool       1
dtype: int64

Leia os [tipos de dados](https://riptutorial.com/pandas/topic/2959/data-types)  online