# Aula 4: Atributos Categóricos
**Objetivo da aula:** Ao fim desta aula, o aluno será capaz de operar com atributos categóricos para encontrar segmentações do dataset.

* Fonte dos dados: https://www.kaggle.com/datasets/georgerocha/ifooddataadvancedanalyticstest


Nesta aula, trabalharemos com dados de clientes do iFood. Esses dados foram disponibilizados pelo próprio iFood, e fazem (ou, ao menos, faziam) parte da dinâmica de contratação de pessoas para a equipe de análise de dados da empresa.

# Exercício 1
*Objetivo: ler a base de dados e interpretar suas colunas*

O código abaixo lê os dados do dataset do iFood. Após confirmar que a leitura funciona, procure no site-fonte dos dados uma explicação sobre o conteúdo de cada coluna. O que cada coluna significa?

In [None]:
import pandas as pd

df = pd.read_csv('dados/iFood/ml_project1_data.csv')
df.head()

# Exercício 2
*Objetivo: contar variáveis categóricas no dataset para caracterizar os seus elementos*

O código abaixo mostra como contar o número de ocorrências de cada categoria em uma coluna de um `dataframe`.

1. Qual é o nível educacional da maior parte dos clientes?
1. Modifique o código para descobrir quantos clientes da base de dados são casados.
1. Analisando a informação de estado civil dos clientes, você acredita que alguns dados podem não ser confiáveis? Caso afirmativo, remova-os do dataframe.

In [None]:
edu = df.value_counts('Education')
print(edu)

# Exercício 3
*Ordenar colunas categóricas para evidenciar que tratam-se de níveis de uma progressão*

Embora a "educação" seja uma variável categórica (uma vez que não tem valores numéricos), existe uma ordenação inerente às categorias. Podemos informar ao Pandas qual é essa ordenação usando o código abaixo.

1. A ordenação das categorias foi informada manualmente. Seria possível, neste caso específico, automatizar completamente o processo? Por que?
1. Por que é necessário informar o parâmetro `sort=False` na chamada de `value_counts`?
1. Modifique o código para passar a mostrar o estado civil (*marital status*) dos usuários. Neste caso, a ordenação ainda faz sentido?

In [None]:
df['Education'] = pd.Categorical(df['Education'], ["Basic", "2n Cycle", "Graduation", "Master", "PhD"])
edu = df.value_counts('Education', sort=False)
print(edu)

# Exercício 4
*Mostrar a contagem de variáveis categóricas em plots de barras*

O código abaixo mostra como mostrar as contagens que calculamos em um gráfico de barras.

1. "Gráfico de barras" é o mesmo que "histograma"? Por que?
1. Modifique a chamada do gráfico para passar a mostrar as contagens de clientes de acordo com o estado civil.

In [None]:
import matplotlib.pyplot as plt
plt.style.use('default')
#import seaborn as sns


#sns.barplot(x=edu.index, y=edu, color='b')
edu.plot.bar(figsize=(7,3))
plt.ylabel('# of clients')
plt.xlabel('Education')
plt.show()

# Exercício 5
*Objetivo: fazer contagens usando duas variáveis categóricas simultaneamente*

A função `crosstab` do Pandas cria uma tabela relacionando contagens de duas variáveis categóricas.

1. O que significa cada elemento da tabela que foi criada?
1. O parâmetro `normalize` pode receber os valores `False`, `True`, `index` ou `columns`. O que cada um deles significa?
1. Um cliente típico do iFood tem que combinação de nível de educação e estado civil?

In [None]:
df_ = pd.crosstab(index=df['Education'], columns=df['Marital_Status'])
print(df_)


# Exercício 6
*Objetivo: analisar duas propostas de gráficos de barras para mostrar dados*

No código abaixo, temos duas propostas de códigos de barras: um com barras lado-a-lado e outro com barras empilhadas.

1. As cores das barras, suas larguras e suas cores estão permitindo uma boa visualização dos dados? Consulte a documentação e modifique os parâmetros que achar necessário.
1. Que informações podemos ver no gráfico lado-a-lado que é mais difícil visualizar no gráfico de barras empilhadas?
1. Que informações podemos ver no gráfico empilhado que é mais difícil visualizar no gráfico de barras lado-a-lado?

In [None]:
df_.plot.bar(stacked=False, figsize=(7,3))
plt.ylabel('# of clients')
plt.xlabel('Education')
plt.show()


df_.plot.bar(stacked=True, figsize=(7,3))
plt.ylabel('# of clients')
plt.xlabel('Education')
plt.show()

# Exercício 7
*Objetivo: ler e entender documentação do Pandas. Transpor um dataframe e visualizar os resultados*

O método `transpose()` inverte as linhas e colunas de um dataframe. Consulte a documentação do método e use-o para mostrar um gráfico de barras que evidencie os níveis educacionais de clientes casados, solteiros e divorciados.

In [None]:
# Espaço para resolver o exercício 7

# Exercício 8
*Objetivo: relacionar variáveis categóricas a variáveis contínuas*



# Exercício 8
*Objetivo: mostrar, em uma figura, semelhanças e diferenças entre séries temporais*

Faz parte do senso comum pensar que, quanto maior o nível educacional de uma pessoa, maior será sua renda.

1. Faça uma figura que responda à pergunta: "na base de clientes do iFood, pessoas de nível educacional maior têm a renda maior?"
1. Usando as técnicas que aprendemos hoje, faça uma figura que evidencie a resposta à sua pergunta.
2. Não esqueça de rotular eixos e colocar título na figura! No título, tanto a pergunta quanto a resposta devem ficar evidentes.
3. Submeta sua figura no Blackboard.


In [None]:
# Espaço para resolver o exercício 8