# Tipos de dados

Os tipos de dados determinam o que pode e o que não pode ser feito com uma variável (isto é, coluna). Por exemplo, quando tipos de dados numéricos são somados, o resultado será uma soma dos valores; por outro lado, se uma strings( no pandas, elas sao chamadas de *object*) forem somadas, elas serão concatenadas. 

## Estrutura dos estudos
### 1) Como encontrar os tipos de dados das colunas em um dataframe
### 2) Conversão entre diversos tipos de dados
### 3) Como trabalhar com dados categorizados

## Tipos de dados

In [1]:
#para este estudo, usaremos  o conjunto de dados embutio tips do seaborn

import pandas as pd
import seaborn as sns

In [2]:
tips = sns.load_dataset("tips")

In [3]:
# Para obter uma lista do tipos de dados armazenados em cada coluna de nosso dataframe, chamamos o atributo dtypes.

print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object


O nosso conjunto de dados inclui os tipos de dados com e sem casas decimais, respectivamente. O número após o tipo de dado numérico representa a quantidade de bits de informação que será armazenada para aquele numero em particular.

O tipo de dado *Category* representa as variáveis categorizadas. 

## Convertendo tipos

O tipo de dado armazenado em uma coluna nos determinará os tipos de funções e cálculos que podemos realizar nos dados que se encontram nessa coluna. Então é muito importante saber como fazer conversões entre tipos de dados.

Em nosso dataset as variáveis **sex**, **smoke**, **day** e **time** estão armazenadas como category. em geral é muito mais fácil trabalhar com tipos de objetct para string quandoa  variável não é um numéro. 

Alguns datasets podem ter uma colna id na qual esse dado é armazenado como um numero, mas que nçao terá sgnificado se você fizer um cálculo nesse valor (média por exemplo)

Para converter valores em strings, usamos o médoto astype na coluna. astué aceita um parâmetro dtupe que será p novo tipo de dado assumido pela coluna

#### Convertendo objetos para string

In [4]:
# Convertendo a coluna sex em um object para string, str.
tips['sex_str'] = tips['sex'].astype(str)

In [5]:
tips['criado'] = tips['smoker'].astype(str)

Python tem tipos de dados embutidos str, float, int , complex e bool. No entanto é possível especificar qualquer dtype da biblioteca numpy.

#### Convertendo para valores numéricos 

Convertendo a coluna **total_bill** em um object para string primeiro, e então de volta para o seu *float64* original, poderíamos passar str e float para astype, respectivamente.

In [6]:
# Converte total_bill em uma string
tips['total_bill'] = tips['total_bill'].astype(str)
print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
criado          object
dtype: object


In [7]:
# Converte total_bill de volta para float
tips['total_bill'] = tips['total_bill'].astype(float)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
criado          object
dtype: object


#### To_numeric
Ao converter variáveis em valores numéricos (por exemplo, int, float), a função to_numeric do Pandas, a qual trata melhor os valores não numéricos, tamb pode ser usada.

Como uma coluna em um dataframe deve ter o mesmo dtupe, haverá ocasiões em que uma coluna numérica conterá strings como alguns de seus valores. Por exemplo, em ve do valor NaN que presenta  uma valor ausente no Pandas, uma coluna num´rica poderia usar a strig 'missing' ou 'null' para essa finalidade. 

Isso faria com que toda a coluna fosse uma string do tipo object em ve de ser um tipo numérico.

Vamos ober um subconjunto de nosso datagrame tips e colocar tamb um valor 'missing' na coluna total_bill para mostrar como a funão to_numeric atua.

In [8]:
# Obterm um subconjunto de tips
tips_sub_miss = tips.head(10)

In [9]:
#Atribui alguns valores ausentes ('Missing')
tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'
print(tips_sub_miss)

  total_bill   tip     sex smoker  day    time  size sex_str criado
0      16.99  1.01  Female     No  Sun  Dinner     2  Female     No
1    missing  1.66    Male     No  Sun  Dinner     3    Male     No
2      21.01  3.50    Male     No  Sun  Dinner     3    Male     No
3    missing  3.31    Male     No  Sun  Dinner     2    Male     No
4      24.59  3.61  Female     No  Sun  Dinner     4  Female     No
5    missing  4.71    Male     No  Sun  Dinner     4    Male     No
6       8.77  2.00    Male     No  Sun  Dinner     2    Male     No
7    missing  3.12    Male     No  Sun  Dinner     4    Male     No
8      15.04  1.96    Male     No  Sun  Dinner     2    Male     No
9      14.78  3.23    Male     No  Sun  Dinner     2    Male     No


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


Observe que **total_bill** agora é um objeto, e caso queira retornar o tipo para float, isso retornará um erro, pandas não sabe converter 'missing' em float, o mesmo erro ocorrerá para o uso de to_numeric.

To_numeric tem um parametro chamado errors que determina o que acontece quando a função encontra um valor que ela não consiga converter pra um valor numérico. Por padrao esse erro é definido com o 'raise', ou seja, erros de transformações de dados.

1) **raise** (default) gerará um erro se a conversão para um valor numérico não pode ser feita.<br>
2) **coerce** devolverá NaN para valores que nçao puderem ser convertidos para valores numéricos.<br>
3) **ignore** develverá o vetor sem converter a coluna em um valor numérico. (não fará nada)<br>

Observa-se que  se passarmos o valor **'ignore'** para errors, nada mudará em nossa colina. No entanto, não veremos tampouco uma menssagem de erro.



In [11]:
tips_sub_miss['total_bill'] = pd.to_numeric(
    tips_sub_miss['total_bill'], errors='ignore')

print(tips_sub_miss)

  total_bill   tip     sex smoker  day    time  size sex_str criado
0      16.99  1.01  Female     No  Sun  Dinner     2  Female     No
1    missing  1.66    Male     No  Sun  Dinner     3    Male     No
2      21.01  3.50    Male     No  Sun  Dinner     3    Male     No
3    missing  3.31    Male     No  Sun  Dinner     2    Male     No
4      24.59  3.61  Female     No  Sun  Dinner     4  Female     No
5    missing  4.71    Male     No  Sun  Dinner     4    Male     No
6       8.77  2.00    Male     No  Sun  Dinner     2    Male     No
7    missing  3.12    Male     No  Sun  Dinner     4    Male     No
8      15.04  1.96    Male     No  Sun  Dinner     2    Male     No
9      14.78  3.23    Male     No  Sun  Dinner     2    Male     No


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [13]:
# Em cmparação, se passarmos o valor 'coerce', teremos vamores NaN para a string 'missing'

tips_sub_miss['total_bill'] = pd.to_numeric(
    tips_sub_miss['total_bill'], errors='coece')

print(tips_sub_miss)

   total_bill   tip     sex smoker  day    time  size sex_str criado
0       16.99  1.01  Female     No  Sun  Dinner     2  Female     No
1         NaN  1.66    Male     No  Sun  Dinner     3    Male     No
2       21.01  3.50    Male     No  Sun  Dinner     3    Male     No
3         NaN  3.31    Male     No  Sun  Dinner     2    Male     No
4       24.59  3.61  Female     No  Sun  Dinner     4  Female     No
5         NaN  4.71    Male     No  Sun  Dinner     4    Male     No
6        8.77  2.00    Male     No  Sun  Dinner     2    Male     No
7         NaN  3.12    Male     No  Sun  Dinner     4    Male     No
8       15.04  1.96    Male     No  Sun  Dinner     2    Male     No
9       14.78  3.23    Male     No  Sun  Dinner     2    Male     No


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


#### Parametro downcast de to_numeric
A Função to_numeric tem outro parâmetro chamado downcast, que permite algerar o dtype numerico para o nome dtype numérico possível(isto é, fazer um downcast) depois que uma coluna (ou vetor) tiver sido convertida com sucesso em um vetor numérico. Por padrão, o valor é definido como None, mas outros valores possíveis são 'integer', 'signed', 'unsiged' e 'float'.

In [14]:
# Compare os dtypes depois de termos especificado o arguimento downcast.
tips_sub_miss['total_bill'] = pd.to_numeric(
    tips_sub_miss['total_bill'],
    errors='coece',
    downcast='float')
print(tips_sub_miss)

   total_bill   tip     sex smoker  day    time  size sex_str criado
0       16.99  1.01  Female     No  Sun  Dinner     2  Female     No
1         NaN  1.66    Male     No  Sun  Dinner     3    Male     No
2       21.01  3.50    Male     No  Sun  Dinner     3    Male     No
3         NaN  3.31    Male     No  Sun  Dinner     2    Male     No
4       24.59  3.61  Female     No  Sun  Dinner     4  Female     No
5         NaN  4.71    Male     No  Sun  Dinner     4    Male     No
6        8.77  2.00    Male     No  Sun  Dinner     2    Male     No
7         NaN  3.12    Male     No  Sun  Dinner     4    Male     No
8       15.04  1.96    Male     No  Sun  Dinner     2    Male     No
9       14.78  3.23    Male     No  Sun  Dinner     2    Male     No


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


In [15]:
import re 
print(tips_sub_miss.dtypes)

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
criado          object
dtype: object


Veja que o tipo de dados em 'total_bill' foi alterado de float64 para float32

#### Dados Categorizados
Nem todos os valores são numéricos. O Pandas tem um **dtype category** capaz de codificar valores de categorias. Eis alguns casos de uso para dados categorizados

1) Armazenar dados desse modo pode ser mais eficaz quanto à memória e à velocidade, particularmente se o conjunto de dados incluir muitos valores repedidos de string.

2) Dados categorizados podem ser aproproados quando uma coluna de valroes tiver uma ordem (por exemplo, uma escala de Likert).

3) Algumas bibliotecas Puthon sabem lidar com dados categorizados (por exemplo, na adequação de modelos estatisticos).

In [16]:
# Conversão para categoria
# Para converter uma coluna em um tipo categoria, passamos category ao método astupe.
# Converte uma coluna em um tipo categoria, passamos categoru ao mpedoto astype.
# Converte a coluna sex em uma stringo object antes

tips['sex'] = tips['sex'].astype('str')
print(tips.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 9 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null object
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
criado        244 non-null object
dtypes: category(3), float64(2), int64(1), object(3)
memory usage: 12.6+ KB
None


In [17]:
# converte a coluna sex de volta para dados categorizados

tips['sex'] = tips['sex'].astype('category')
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 9 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
criado        244 non-null object
dtypes: category(4), float64(2), int64(1), object(2)
memory usage: 11.0+ KB
None
