## Atributos categóricos

Atributos categóricos são aqueles que apresentam valores discretos numéricos (`int`, `float`, etc.) ou não (`strings`) para representar categorias. Como os modelos trabalham (em sua grande maioria) apenas com valores numéricos, os atributos com valores do tipo `strings` precisam passar por um processo de codificação ou conversão para valores numéricos.

- Exemplos: sexo, perguntas de sim/não, cidade/estado/país, etc.

Vamos utilizar dados sobre provas de vestibular, similar ao nosso ENEM. O conjunto de dados é uma amostra dos dados de uma base de dados do Kaggle, presente neste [link](https://www.kaggle.com/sonukumari47/students-performance-in-exams).

## A intenção aqui é tratar os dados categoricos de forma correta para analisar os dados de uma forma mais precisa.

In [1]:
import pandas as pd

In [None]:
data = pd.read_csv('exam.csv')
display(data)

### Nominal 

Atributos categóricos nominais são aqueles em que os valores **não apresentem relação de ordem**. As operações matemáticas definidas sobre estes atributos são as de igualdade e diferença. Assim a sua codificação ou conversão para valores quantitativos **não deve inserir uma ordem**. No exemplo, as seguintes colunas são categóricas nominais: 

In [None]:
data[['ethnicity', 'lunch', 'sex']].head()

A técnica de codificação mais utilizada é a chamada **one hot encoding** em que as categorias de uma coluna são transformadas em colunas de zeros e uns. Exemplo para a coluna **sex**:

In [None]:
data['sex_m'] = data['sex'].apply(lambda sex: 1 if sex == 'M' else 0)
data['sex_f'] = data['sex'].apply(lambda sex: 1 if sex == 'F' else 0)

data.head()

### Ordinal

Atributos categóricos ordinais são aqueles em que os valores **apresentem relação de ordem**. As operações definidas sobre estes atributos são as de igualdade/diferença e maior/menor. Assim a sua codificação ou conversão para valores quantitativos **deve manter a ordem**. No exemplo, as seguintes colunas são categóricas ordinais: 

In [None]:
data[['parental_education', 'preparation_course']].head()

A técnica de codificação mais utilizada é aquele em que transformamos cada categoria da coluna em um número inteiro, mantendo a ordem. Exemplo para a coluna **parental level of education**:

In [None]:
data['parental_education'].drop_duplicates()

In [None]:
parental_education_mapper = {
    "master's degree": 6,
    "bachelor's degree": 5,
    "associate's degree": 4,
    "some college": 3,
    "high school": 2,
    "some high school": 1,
}

In [None]:
data['parental_education_encoded'] = data['parental_education'].apply(lambda level: parental_education_mapper[level])

data.head()