<a href="https://colab.research.google.com/github/hmarinoo/chess-system-java/blob/master/mba_tipos_variaveis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

#Tipos de dados em Python

Tipos de dados em Python são mais apropriados para representar cada tipo de variável estatística.
Apenas uma sugestão, já que há outras possibilidades.

## Variáveis categóricas ou qualitativas

### Binárias ou booleanas

In [None]:
# Booleanos (bool)
ativo = True
tem_carro = False
print(f"Ativo: {ativo}, Tipo: {type(ativo)}")
print(f"Tem carro: {tem_carro}, Tipo: {type(tem_carro)}")

Ativo: True, Tipo: <class 'bool'>


### Variáveis nominais

Pandas tem um tipo categórico.
https://pandas.pydata.org/docs/user_guide/categorical.html

Muitas vezes, em algoritmos de ML, tipos categóricos são representados como um conjunto de colunas do tipo booleano ou numérico, já que os algoritmos não conseguem lidar com campos do tipo texto.

In [None]:
cor_olhos = pd.Series(["preto", "castanho", "azul", "verde", "azul"], dtype="category")

cor_olhos

Unnamed: 0,0
0,preto
1,castanho
2,azul
3,verde
4,azul


In [None]:
cor_olhos.cat.categories

Index(['azul', 'castanho', 'preto', 'verde'], dtype='object')

In [None]:
cor_olhos[5] = "amarelo"
cor_olhos

Unnamed: 0,0
0,preto
1,castanho
2,azul
3,verde
4,azul
5,amarelo


In [None]:
cor_olhos = pd.Categorical(["preto", "castanho", "azul", "verde", "azul", "amarelo"],
                         categories=['azul', 'castanho', 'preto', 'verde'], ordered=False)
cor_olhos

['preto', 'castanho', 'azul', 'verde', 'azul', NaN]
Categories (4, object): ['azul', 'castanho', 'preto', 'verde']

In [None]:
cor_olhos[6] = "cinza"
cor_olhos

TypeError: Cannot setitem on a Categorical with a new category (cinza), set the categories first

In [None]:
data = {'nome': ['João', 'André', 'Maria', 'Ana', 'Marcela', 'Joana', 'Paulo'],
        'cor_olho': ['preto', 'azul', 'preto', 'castanho', 'verde', 'castanho', 'preto']}

df = pd.DataFrame(data)
df

Unnamed: 0,nome,cor_olho
0,João,preto
1,André,azul
2,Maria,preto
3,Ana,castanho
4,Marcela,verde
5,Joana,castanho
6,Paulo,preto


In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['cor_olho_encoded'] = le.fit_transform(df['cor_olho'])
print(df)


      nome  cor_olho  cor_olho_encoded
0     João     preto                 2
1    André      azul                 0
2    Maria     preto                 2
3      Ana  castanho                 1
4  Marcela     verde                 3
5    Joana  castanho                 1
6    Paulo     preto                 2


In [None]:
from sklearn.preprocessing import OneHotEncoder

df2 = pd.DataFrame(data)

enc = OneHotEncoder(handle_unknown='ignore')

encoded_features = enc.fit_transform(df2[['cor_olho']]).toarray()

encoded_df = pd.DataFrame(encoded_features, columns=enc.get_feature_names_out(['cor_olho']))

df2 = pd.concat([df2, encoded_df], axis=1)

print(df2)


      nome  cor_olho  cor_olho_azul  cor_olho_castanho  cor_olho_preto  \
0     João     preto            0.0                0.0             1.0   
1    André      azul            1.0                0.0             0.0   
2    Maria     preto            0.0                0.0             1.0   
3      Ana  castanho            0.0                1.0             0.0   
4  Marcela     verde            0.0                0.0             0.0   
5    Joana  castanho            0.0                1.0             0.0   
6    Paulo     preto            0.0                0.0             1.0   

   cor_olho_verde  
0             0.0  
1             0.0  
2             0.0  
3             0.0  
4             1.0  
5             0.0  
6             0.0  


### Variáveis ordinais

In [None]:
mapper = {'péssimo': 0, 'ruim': 1, 'regular': 2, 'bom': 3, 'ótimo': 4}

In [None]:
data = {'nome': ['João', 'André', 'Maria', 'Ana', 'Marcela', 'Joana', 'Paulo'],
        'classificacao': ['péssimo', 'bom', 'ótimo', 'ótimo', 'regular', 'ruim', 'ótimo']}

df = pd.DataFrame(data)
df

Unnamed: 0,nome,classificacao
0,João,péssimo
1,André,bom
2,Maria,ótimo
3,Ana,ótimo
4,Marcela,regular
5,Joana,ruim
6,Paulo,ótimo


In [None]:
df_ord = df.replace(mapper)

  df_ord = df.replace(mapper)


In [None]:
df_ord

Unnamed: 0,nome,classificacao
0,João,0
1,André,3
2,Maria,4
3,Ana,4
4,Marcela,2
5,Joana,1
6,Paulo,4


In [None]:
from sklearn.preprocessing import OrdinalEncoder

order = ['péssimo', 'ruim', 'regular', 'bom', 'ótimo']

ordinal_encoder = OrdinalEncoder(categories=[order], dtype=int)

df['classificacao_encoded'] = ordinal_encoder.fit_transform(df[['classificacao']])

print(df)


      nome classificacao  classificacao_encoded
0     João       péssimo                      0
1    André           bom                      3
2    Maria         ótimo                      4
3      Ana         ótimo                      4
4  Marcela       regular                      2
5    Joana          ruim                      1
6    Paulo         ótimo                      4


## Variáveis numéricas


### Discretas

In [None]:
n_filhos = 5
print(f"Idade: {n_filhos}, Tipo: {type(n_filhos)}")

Idade: 5, Tipo: <class 'int'>


### Contínuas

In [None]:
preco_acao = 30.54
print(f"Preço da ação: {preco_acao}, Tipo: {type(preco_acao)}")

Preço da ação: 30.54, Tipo: <class 'float'>


In [None]:
temperatura = 40.56789
print(f"Temperatura: {temperatura}, Tipo: {type(temperatura)}")

Temperatura: 40.56789, Tipo: <class 'float'>


# Exercícios

Onehotencode a variável 'cut' na base diamonds

In [None]:
!pip install pydataset

from pydataset import data
diamonds = data('diamonds')
diamonds



Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53936,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53937,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53938,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53939,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


In [None]:
diamonds.reset_index(drop=False, inplace=True)

enc = OneHotEncoder()

encoded_features = enc.fit_transform(diamonds[['cut']]).toarray()

encoded_df = pd.DataFrame(encoded_features, columns=enc.get_feature_names_out(['cut']))

diamonds = pd.concat([diamonds, encoded_df], axis=1)


print(diamonds)


       index  carat        cut color clarity  depth  table  price     x     y     z  cut_Fair  \
0          1   0.23      Ideal     E     SI2   61.5   55.0    326  3.95  3.98  2.43       0.0   
1          2   0.21    Premium     E     SI1   59.8   61.0    326  3.89  3.84  2.31       0.0   
2          3   0.23       Good     E     VS1   56.9   65.0    327  4.05  4.07  2.31       0.0   
3          4   0.29    Premium     I     VS2   62.4   58.0    334  4.20  4.23  2.63       0.0   
4          5   0.31       Good     J     SI2   63.3   58.0    335  4.34  4.35  2.75       0.0   
...      ...    ...        ...   ...     ...    ...    ...    ...   ...   ...   ...       ...   
53935  53936   0.72      Ideal     D     SI1   60.8   57.0   2757  5.75  5.76  3.50       0.0   
53936  53937   0.72       Good     D     SI1   63.1   55.0   2757  5.69  5.75  3.61       0.0   
53937  53938   0.70  Very Good     D     SI1   62.8   60.0   2757  5.66  5.68  3.56       0.0   
53938  53939   0.86    Premium