## Atributos categóricos

Atributos categóricos são aqueles que apresentam valores discretos numéricos (`int`, `float`, etc.) ou não (`strings`) para representar categorias. Como os modelos trabalham (em sua grande maioria) apenas com valores numéricos, os atributos com valores do tipo `strings` precisam passar por um processo de codificação ou conversão para valores numéricos.

- Exemplos: sexo, perguntas de sim/não, cidade/estado/país, etc.

Vamos utilizar dados sobre provas de vestibular, similar ao nosso ENEM. O conjunto de dados é uma amostra dos dados de uma base de dados do Kaggle, presente neste [link](https://www.kaggle.com/sonukumari47/students-performance-in-exams).

## A intenção aqui é tratar os dados categoricos de forma correta para analisar os dados de uma forma mais precisa.

In [None]:
pip install sklearn.preprocessing

In [119]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

In [120]:
df = pd.read_csv('exame.csv')
df

Unnamed: 0.1,Unnamed: 0,race/ethnicity,parental level of education,lunch,test preparation course,math percentage,reading score percentage,writing score percentage,sex
0,0,group B,bachelor's degree,standard,none,0.72,0.72,0.74,F
1,1,group C,some college,standard,completed,0.69,0.90,0.88,F
2,2,group B,master's degree,standard,none,0.90,0.95,0.93,F
3,3,group A,associate's degree,free/reduced,none,0.47,0.57,0.44,M
4,4,group C,some college,standard,none,0.76,0.78,0.75,M
...,...,...,...,...,...,...,...,...,...
995,995,group E,master's degree,standard,completed,0.88,0.99,0.95,F
996,996,group C,high school,free/reduced,none,0.62,0.55,0.55,M
997,997,group C,high school,free/reduced,completed,0.59,0.71,0.65,F
998,998,group D,some college,standard,completed,0.68,0.78,0.77,F


In [121]:
colunas = {
    'Unnamed: 0': 'ID',
    'race/ethnicity': 'etnia',
    'parental level of education': 'nível educacional dos pais',
    'lunch': 'almoço',
    'test preparation course': 'curso de preparação',
    'math percentage': 'percentual de matemática',
    'reading score percentage': 'percentual de leitura',
    'writing score percentage': 'percentual de escrita',
    'sex': 'sexo'
}

In [122]:
df.rename(columns=colunas, inplace=True)


### Nominal 

Atributos categóricos nominais são aqueles em que os valores **não apresentem relação de ordem**. As operações matemáticas definidas sobre estes atributos são as de igualdade e diferença. Assim a sua codificação ou conversão para valores quantitativos **não deve inserir uma ordem**. No exemplo, as seguintes colunas são categóricas nominais: 

In [None]:
df[['etnia', 'almoço', 'sexo']].head()

A técnica de codificação mais utilizada é a chamada **one hot encoding** em que as categorias de uma coluna são transformadas em colunas de zeros e uns. Exemplo para a coluna **sex**:

In [None]:
df['sexo_m'] = df['sexo'].apply(lambda sexo: 1 if sexo == 'M' else 0)
df['sexo_f'] = df['sexo'].apply(lambda sexo: 1 if sexo == 'F' else 0)



In [123]:
sexo_encoded= pd.get_dummies(df['sexo'], prefix='sexo')
etnia_encoded= pd.get_dummies(df['etnia'], prefix='etnia')
almoco_encoded= pd.get_dummies(df['almoço'], prefix='almoço')

In [124]:
df= pd.concat([df, etnia_encoded, almoco_encoded, sexo_encoded], axis=1)
df= df.drop(['etnia','sexo','almoço'], axis=1)

In [125]:
df

Unnamed: 0,ID,nível educacional dos pais,curso de preparação,percentual de matemática,percentual de leitura,percentual de escrita,etnia_group A,etnia_group B,etnia_group C,etnia_group D,etnia_group E,almoço_free/reduced,almoço_standard,sexo_F,sexo_M
0,0,bachelor's degree,none,0.72,0.72,0.74,False,True,False,False,False,False,True,True,False
1,1,some college,completed,0.69,0.90,0.88,False,False,True,False,False,False,True,True,False
2,2,master's degree,none,0.90,0.95,0.93,False,True,False,False,False,False,True,True,False
3,3,associate's degree,none,0.47,0.57,0.44,True,False,False,False,False,True,False,False,True
4,4,some college,none,0.76,0.78,0.75,False,False,True,False,False,False,True,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,master's degree,completed,0.88,0.99,0.95,False,False,False,False,True,False,True,True,False
996,996,high school,none,0.62,0.55,0.55,False,False,True,False,False,True,False,False,True
997,997,high school,completed,0.59,0.71,0.65,False,False,True,False,False,True,False,True,False
998,998,some college,completed,0.68,0.78,0.77,False,False,False,True,False,False,True,True,False


### Ordinal

Atributos categóricos ordinais são aqueles em que os valores **apresentem relação de ordem**. As operações definidas sobre estes atributos são as de igualdade/diferença e maior/menor. Assim a sua codificação ou conversão para valores quantitativos **deve manter a ordem**. No exemplo, as seguintes colunas são categóricas ordinais: 

In [None]:
df[['nível educacional dos pais', 'curso de preparação']].head()

A técnica de codificação mais utilizada é aquele em que transformamos cada categoria da coluna em um número inteiro, mantendo a ordem. Exemplo para a coluna **parental level of education**:

In [None]:
df['nível educacional dos pais'].drop_duplicates()

In [None]:
# colocar na orden 
categorias_educacao = ["some high school", "high school", "some college", "associate's degree", "bachelor's degree", "master's degree"]

In [None]:
ordinal_encoder = OrdinalEncoder(categories=[categorias_educacao])

In [None]:
df[['nível educacional dos pais']]= ordinal_encoder.fit_transform(df[['nível educacional dos pais']])

In [None]:
df['curso de preparação'].drop_duplicates()

In [None]:
curso_map= {'nome': -1, 'completed': 0}
df['curso de preparação']= df['curso de preparação'].map(curso_map)

In [None]:
df

### COLUMNS NUMERICS

In [None]:
df[['percentual de matemática','percentual de leitura','percentual de escrita']]

Normalização

In [None]:
min= df['percentual de matemática'].min()
max= df['percentual de matemática'].max()

df['percentual de matemática_norm']= df['percentual de matemática'].apply(lambda grade: (grade-min)/(max-min))

min_1= df['percentual de leitura'].min()
max_1= df['percentual de leitura'].max()

df['percentual de escrita_norm']= df['percentual de leitura'].apply(lambda grade: (grade-min_1)/(max_1-min_1))

min_2= df['percentual de escrita'].min()
max_2= df['percentual de escrita'].max()

df['percentual de escrita_norm']= df['percentual de escrita'].apply(lambda grade: (grade-min_2)/(max_2-min_2))

In [None]:
df