## Análise Exploratoria de Dados

# Ferramentas e Bibliotecas



*   [Google Colab](https://colab.google/): Serviço de nuvem gratuito hospedado pelo Google para incentivar a pesquisa de Aprendizado de Máquina e Inteligência Atificial;
* Bibliotecas **Python**: **pandas, matplotlib**

## Referências sobre a biblioteca **pandas** e **matplotlib**:

*   [pandas](https://pandas.pydata.org/) é uma bilioteca para análise de dados em Python, de código aberto, licenciada pod BSD, utiliza o conceito de dataframes que funcionam como uma matriz de dados, formada por linhas e colunas.

* Documentação da biblioteca [matplotlib](https://matplotlib.org/stable/index.html).

* Ciência de Dados comReprodutibilidade usando Jupyter, disponível: [https://www.doi.org/]().

* Introdução à Análise de Dados com Python e pandas, disponível em: [https://enucomp.com.br/2017/enucomp_anaisX_2017.pdf]()

* Introdução à Análise Exploratória de Dados com Python, disponível em: [https://ercas2019.enucompi.com.br/doc/livro_de_minicursos_ercas_pi_2019.pdf]()


## Bibliotecas Necessárias

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
print('Versão numpy -> %s' % np.__version__)
print('Versão pandas -> %s' % pd.__version__)
print('Versão seaborn -> %s' % sns.__version__)

Versão numpy -> 1.23.5
Versão pandas -> 1.5.3
Versão seaborn -> 0.12.2


In [3]:
import matplotlib

print('Versão matplotlib %s' % matplotlib.__version__)

Versão matplotlib 3.7.1


## Elementos de Dados Estruturados

Dados são uma coleção de objetos discretos, eventos e fatos na forma de números, texto, imagens, vídeos objetos, áudio eoutras entidades.

Muitos desses dados não são estruturados: imagens são um conjunto de pixels, sendo que cada pixel contém informações de cor RGB (red, green, blue -- vermelhor, verde, azul); textos são sequências de palavras e caracteres, geralmente organizados em seções, subseções e assim por diante. A Análise Exploratória de Dados (AED) visa trabalhar essa torrentede dados brutos e transfomá-los em informação acionável.

A organização dos dados coletados é **fundamental** para que não hajam erros de processamento e **perda** de informações.

A **apresentação** dos dados **depende** do tipo de variável e daquilo que se quer **mostrar**.

**Variáveis**

A AED analisa **cada** variável, ou seja, qualquer característica associada a uma população, como peso, altura, sexo ou idade por exemplo.

As variáveis podem assumir diferentes valores, que basicamente podem ser **separados** em:

  * **Quantitativos** ou númericos.
  
  * **Qualitativos** ou não númericos, ou categóricos.

**As variáveis quantitativas ou númericas podem ser:**

  * **Discretas**: assumem apenas valores inteiros: Ex.: números de irmãos, número de passageiros;
  
  * **Conínuas**: assume qualquer valor no intervalo dos números reais. Ex.: peso, altura.

**As variáveis qualitativas ou categóricas podem ser:**

  * **Nominais**: quando as categorias não possuem uma ordem natural. Ex.: nomes, cores, sexo;
  
  * **Ordinais**: quando as categorias podem ser ordenadas. Ex.: tamanho (pequeno, médio, grande), classe social (baixa, média, alta), grau de instrução (básico, médio, graduação, pós-graduação).

A imagem abaixo resume os tipos de variáveis.


![teste](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1590355846511-158TZXXUJQH0AKRSL0Q5/Captura+de+Tela+2020-05-23+%C3%A0s+13.37.32.png)


**Covenção dos dados de entrada**:

  * Os dados devem estar no formato de **matriz** (linha x coluna);
  
  * Cada linha da matriz corresponde a **uma** unidade experimental (**elemento** da **população** ou **amostra** no qual observamos as variáveis/**colunas** da tabela);

  * Cada **coluna** da matriz corresponde a uma **variável**;

## Pandas

O pandas é uma biblioteca licenciada com código aberto que oferece estruturas de dados de alto desempenho e de fácil utilização voltado a análise de dados para a linguagem de programação Python.

  * Transforma dados de entrada em uma tabela de dados
  * Componentes chave
      
      * Series (Séries)
      
      * DataFrame

### Séries (series)

  * Objeto unidimensional do tipo array contendo dados e rótulos (labels) (ou índices), criado sobre o numpy.

  * Se um índice não for informado explicitamente, Pandas cria um automaticamente (equivalente a `range (n)`, sendo N é o tamanho dos seus dados)

  * O índice é usado para implementar buscas rápidas, alinhamento de dados e operações de junção (como join em SQL)

  * Suporta índices hierárquicos, onde cada label é uma tupla

  * Criando uma serie

In [4]:
my_series = pd.Series([10, 20, 30, 40, 50])
print(my_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


* Conteúdos podem ser acessados via um ou mais índices

In [5]:
my_series[2]

30

In [6]:
my_series.index = ['A', 'B', 'C', 'D', 'E']
my_series

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [7]:
my_series['C']

30

In [8]:
print(my_series['A'])

10


In [9]:
print(my_series[['B', 'C']])

B    20
C    30
dtype: int64


* slicing funciona para índices númericos e nominais

In [10]:
print(my_series[0:2])

A    10
B    20
dtype: int64


In [11]:
print(my_series['B':'D'])

B    20
C    30
D    40
dtype: int64


In [12]:
print(my_series['B':])

B    20
C    30
D    40
E    50
dtype: int64


In [13]:
print(my_series[:'C'])

A    10
B    20
C    30
dtype: int64


* máscaras booleanas também podem ser usadas

In [14]:
my_series >= 30

A    False
B    False
C     True
D     True
E     True
dtype: bool

In [15]:
mask = my_series >= 30

In [16]:
my_series[mask]

C    30
D    40
E    50
dtype: int64

* reindex

    * modifica o valor do índice, adiciona valores faltantes ou preenche valores faltantes

In [17]:
s = pd.Series(range(4))
s

0    0
1    1
2    2
3    3
dtype: int64

In [18]:
print('Original')
print(s)

Original
0    0
1    1
2    2
3    3
dtype: int64


In [19]:
sn = s.reindex([4, 3, 2, 1, 0, 5])
print(sn)

4    NaN
3    3.0
2    2.0
1    1.0
0    0.0
5    NaN
dtype: float64


In [20]:
print('Método 1 de tratar valores faltantes')
sn_1 = s.reindex([4, 3, 2, 1, 0, 5], fill_value=-1)
sn_1

Método 1 de tratar valores faltantes


4   -1
3    3
2    2
1    1
0    0
5   -1
dtype: int64

In [21]:
print('Método 2 de tratar os valores faltantes')
sn_2 = s.reindex([4, 3, 2, 1, 0, 5], method='nearest')
sn_2

Método 2 de tratar os valores faltantes


4    3
3    3
2    2
1    1
0    0
5    3
dtype: int64

* Operações aritméticas (realizada de acordo com o "match" dos índices)

In [22]:
print(sn_1)
print(sn_2)

4   -1
3    3
2    2
1    1
0    0
5   -1
dtype: int64
4    3
3    3
2    2
1    1
0    0
5    3
dtype: int64


In [23]:
print(sn_1 + sn_2)

4    2
3    6
2    4
1    2
0    0
5    2
dtype: int64


In [24]:
print(sn_1 * sn_2)

4   -3
3    9
2    4
1    1
0    0
5   -3
dtype: int64


* é possível organizar os elementos de uma série pelo índice ou pelos valores

In [25]:
print(sn_1)

4   -1
3    3
2    2
1    1
0    0
5   -1
dtype: int64


In [26]:
print(sn_1.sort_index())

0    0
1    1
2    2
3    3
4   -1
5   -1
dtype: int64


In [27]:
print(sn_1.sort_values())

4   -1
5   -1
0    0
1    1
2    2
3    3
dtype: int64


* Hé muitos métodos implementados para operar nos valores. Alguns exemplos, são:

    * unique()
    * value_counts()
    * isin()
    * ...(muito mais na parte II, próxima aula)

In [28]:
new_series = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
print(new_series)

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object


In [29]:
print(new_series.unique())

['c' 'a' 'd' 'b']


In [30]:
print(new_series.value_counts())

c    3
a    3
b    2
d    1
dtype: int64


In [31]:
print(new_series.isin(['b', 'd']))

0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool


In [32]:
dir(new_series)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__redu

### DataFrames

Dataframe é uma estrutura de dados tabular bidimensional e mutável em tamanho, potencialmente heterogênea, com eixos rotulados (linas e colunas).

  * Possui índices de linhas e colunas

  * Pode ser interpretado como um dicionário de Séries (cada série em uma linha) em que todas as Séries compartilham o mesmo conjunto de índices (os índices das colunas)

Dataframes podem ser criados de muitas maneiras diferentes:

  * **2-D NumPy array:** Uma matriz de dados, podendo passar os índices de linha e coluna

  * **Dict of arrays, lists, or tuples:** Cada sequência se torna uma coluna. As sequ~encias devem ter o mesmo número de elementos

  * **Dict of Series:** Cada séries se torna uma coluna. Índices de cada séries são unidos para formar o índice das linhas

  * **Dict of dicts:** Cada dicionário se torna uma coluna. Chaves dos dicionários se unem para formar os índices das linhas

  * **List of dicts or Series:** Cada item se torna uma linha no DataFrame. A união das chaves (para dicionário) ou índices (para Séries) gera o índice das colunas

  * **List of lists or tuples:** Similar a uma matriz do numpy

  * **DataFrame:** O índice do DataFrame é mantido a não ser que um novo seja fornecido

  * **NumPy masked array:** matriz de dados em que valores falso se tornam NaN

In [33]:
data = {
    'Name': ['Fulano A', 'Fulano B', 'Beltrano A', 'Beltrano B', 'Sicrano A', 'Sicrano B'],
    'Age': [20, 21, 19, 28, 20, 22]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age
0,Fulano A,20
1,Fulano B,21
2,Beltrano A,19
3,Beltrano B,28
4,Sicrano A,20
5,Sicrano B,22


**Atenção:** Duas funções são muito úteis para analisar rapidamente um novo DataFrame: df.head() e df.dtypes()

In [34]:
df.head()

Unnamed: 0,Name,Age
0,Fulano A,20
1,Fulano B,21
2,Beltrano A,19
3,Beltrano B,28
4,Sicrano A,20


In [35]:
df.head(2)

Unnamed: 0,Name,Age
0,Fulano A,20
1,Fulano B,21


In [36]:
df.dtypes

Name    object
Age      int64
dtype: object

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    6 non-null      object
 1   Age     6 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 224.0+ bytes


#### Manipulando e Acessando Colunas

  * Colunas podem ser acessadas;

      * usando seus rótulos dentro de [ ]

      * usando rótulos como atributo

      * usando lista de rótulos dentro de [ ] (acessa várias colunas)

In [38]:
d = {
    'state': ['FL', 'FL', 'GA', 'GA', 'GA'],
    'year': [2010, 2011, 2008, 2010, 2011],
    'pop': [18.8, 19.1, 9.7, 9.7, 9.8]
}

new_df = pd.DataFrame(d)
new_df

Unnamed: 0,state,year,pop
0,FL,2010,18.8
1,FL,2011,19.1
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8


In [39]:
new_df['state']

0    FL
1    FL
2    GA
3    GA
4    GA
Name: state, dtype: object

In [40]:
new_df.state

0    FL
1    FL
2    GA
3    GA
4    GA
Name: state, dtype: object

In [41]:
new_df[['state', 'pop']]

Unnamed: 0,state,pop
0,FL,18.8
1,FL,19.1
2,GA,9.7
3,GA,9.7
4,GA,9.8


* Colunas podem ser criadas simplesmente criando um novo rótulo

* Colunas podem ser removidas usando o método `drop` ou `del`

In [42]:
new_df['new_col'] = np.zeros(5)
new_df

Unnamed: 0,state,year,pop,new_col
0,FL,2010,18.8,0.0
1,FL,2011,19.1,0.0
2,GA,2008,9.7,0.0
3,GA,2010,9.7,0.0
4,GA,2011,9.8,0.0


In [43]:
new_df.drop(['new_col'], axis=1)

Unnamed: 0,state,year,pop
0,FL,2010,18.8
1,FL,2011,19.1
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8


In [44]:
new_df = new_df.drop(['new_col'], axis=1)
new_df

Unnamed: 0,state,year,pop
0,FL,2010,18.8
1,FL,2011,19.1
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8


In [45]:
new_df.drop(['pop'], axis=1, inplace=True)
new_df

Unnamed: 0,state,year
0,FL,2010
1,FL,2011
2,GA,2008
3,GA,2010
4,GA,2011


#### Manipulando e Acessando Linhas

  * Linhas podem ser acessadas usando:

    * iloc: manipula o DataFrame como uma matriz com índices inteiros, assim como no Numpy
    * loc: seleciona linhas pelos rótulos (índices) ou por máscara booleana

In [46]:
dod = {
    'GA': {'result_1': 9.7, 'result_2': 9.7, 'result_3': 9.8, 'result_4': 9.2, 'result_5': 10.1, 'result_6': 9.3},
    'FL': {'result_2': 18.1, 'result_3': 19.1, 'result_1': 20.1, 'result_4': 19.2, 'result_5': 20.1, 'result_6': 19.3},
    'DR': {'result_2': 8.1, 'result_3': 9.1, 'result_1': 7.1, 'result_4': 9.2, 'result_5': 6.1, 'result_6': 9.3},
    'GH': {'result_2': 22.4, 'result_3': 21.4, 'result_1': 17.9, 'result_4': 23.4, 'result_5': 17.1, 'result_6': 23.5}
}

dod_df = pd.DataFrame(dod)
dod_df

Unnamed: 0,GA,FL,DR,GH
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_4,9.2,19.2,9.2,23.4
result_5,10.1,20.1,6.1,17.1
result_6,9.3,19.3,9.3,23.5


In [47]:
dod_df.iloc[5]

GA     9.3
FL    19.3
DR     9.3
GH    23.5
Name: result_6, dtype: float64

In [48]:
dod_df.iloc[1:3]

Unnamed: 0,GA,FL,DR,GH
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4


In [49]:
dod_df.iloc[:3]

Unnamed: 0,GA,FL,DR,GH
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4


In [50]:
dod_df.iloc[3:]

Unnamed: 0,GA,FL,DR,GH
result_4,9.2,19.2,9.2,23.4
result_5,10.1,20.1,6.1,17.1
result_6,9.3,19.3,9.3,23.5


In [51]:
dod_df.iloc[:4]

Unnamed: 0,GA,FL,DR,GH
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_4,9.2,19.2,9.2,23.4


In [52]:
dod_df.iloc[4:, 2:3]

Unnamed: 0,DR
result_5,6.1
result_6,9.3


In [53]:
dod_df.iloc[4:, 2:]

Unnamed: 0,DR,GH
result_5,6.1,17.1
result_6,9.3,23.5


In [54]:
dod_df.loc['result_3']

GA     9.8
FL    19.1
DR     9.1
GH    21.4
Name: result_3, dtype: float64

In [55]:
dod_df.loc['result_2':'result_4']

Unnamed: 0,GA,FL,DR,GH
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_4,9.2,19.2,9.2,23.4


In [56]:
dod_df.loc[dod_df['GA'] == 9.2]

Unnamed: 0,GA,FL,DR,GH
result_4,9.2,19.2,9.2,23.4


In [57]:
dod_df.loc[dod_df['GA'] >= 9.5]

Unnamed: 0,GA,FL,DR,GH
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_5,10.1,20.1,6.1,17.1


In [58]:
dod_df.loc[(dod_df['GA'] >= 9.5) & (dod_df['DR'] < 8)]

Unnamed: 0,GA,FL,DR,GH
result_1,9.7,20.1,7.1,17.9
result_5,10.1,20.1,6.1,17.1


* Assim como nas Séries, também é possível ordernar por índice, mas ao ordenar por valor é necessário definir a coluna

In [59]:
dod_df

Unnamed: 0,GA,FL,DR,GH
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_4,9.2,19.2,9.2,23.4
result_5,10.1,20.1,6.1,17.1
result_6,9.3,19.3,9.3,23.5


In [60]:
dod_df.sort_values('DR')

Unnamed: 0,GA,FL,DR,GH
result_5,10.1,20.1,6.1,17.1
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_4,9.2,19.2,9.2,23.4
result_6,9.3,19.3,9.3,23.5


In [61]:
dod_df.sort_values(['GA', 'DR'])

Unnamed: 0,GA,FL,DR,GH
result_4,9.2,19.2,9.2,23.4
result_6,9.3,19.3,9.3,23.5
result_1,9.7,20.1,7.1,17.9
result_2,9.7,18.1,8.1,22.4
result_3,9.8,19.1,9.1,21.4
result_5,10.1,20.1,6.1,17.1


**Atenção:** sort_values, gera uma cópia. Para modificar o DataFrame, deve-se passar o parâmetro `inplace = True`

In [62]:
dod_df.sort_values(['GA', 'DR'], inplace=True)

## Carregando arquivos

Pandas permite diversas maneiras de carregar arquivos:

  * Arquivos de texto
  * Dados estruturados (JSON, XML, HTML, CSV)
  * Excel (depende das bibliotecas xlrd e openpyxl)
  * Direto da base de dados
      * pandas.io.sql (read_frame)

In [63]:
json_df = pd.read_json('/content/sample_data/anscombe.json')
json_df.head()

Unnamed: 0,Series,X,Y
0,I,10,8.04
1,I,8,6.95
2,I,13,7.58
3,I,9,8.81
4,I,11,8.33


In [64]:
json_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Series  44 non-null     object 
 1   X       44 non-null     int64  
 2   Y       44 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 1.2+ KB


In [65]:
iris_df = pd.read_csv('/content/iris.data')
iris_df.head()

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


In [66]:
iris_df = pd.read_csv(
    '/content/iris.data',
    names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
    )

iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## Base de Dados

## Microdados do Enem 2021

Os microdados do Enem são o menor nível de desagregação de dados recolhidos por meio do exame. Eles atendem a demanda por informações específicas ao disponibilizar as provas, os gabaritos, as informações sobre os itens, as notas e o questionário respondido pelos inscritos no Enem.

Fonte: [https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem]()

### Fontes de Dados

[https://download.inep.gov.br/microdados/microdados_enem_2021.zip]()

### Variáveis utilizadas

  ## TP_FAIXA_ETARIA
----

Faixa etária dos inscritos

|**Categoria**  | **Descrição**   |
|:-------------:|:---------------:|
1             | Meno que 17 anos
2             | 17 anos
3             | 18 anos
4             | 19 anos
5             | 20 anos
6             | 21 anos
7             | 22 anos
8             | 23 anos
9             | 24 anos
10            | 25 anos
11            | Entre 26 e 30 anos
12            | Entre 31 e 35 anos
13            | Entre 36 e 40 anos
14            | Entre 41 e 45 anos
15            | Entre 46 e 50 anos
16            | Entre 54 e 55 anos
17            | Entre 56 e 60 anos
18            | Entre 61 e 65 anos
19            | Entre 66 e 70 anos
20            | Maior de 70 anos


# Q024
----

Informação sobre acesso a internet na residência do inscrito

|**Categoria**  | **Descrição**   |
|:-------------:|:---------------:|
| A             | Não             |
| B             | Sim             |



In [67]:
enem_df = pd.read_csv('/content/MICRODADOS_ENEM_2021.csv', sep=';', encoding='latin-1')
enem_df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210053865474,2021,5,F,1,1,1,1,3,1,...,A,A,A,B,A,A,B,A,B,B
1,210052384164,2021,12,M,1,1,1,1,11,1,...,A,A,A,B,A,A,C,A,A,A
2,210052589243,2021,13,F,3,1,1,1,15,1,...,B,A,A,B,A,A,C,B,B,B
3,210052128335,2021,3,M,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,B,B
4,210051353021,2021,2,F,1,3,1,2,0,2,...,B,A,A,B,A,B,E,A,B,B


In [68]:
enem_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88901 entries, 0 to 88900
Data columns (total 76 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   NU_INSCRICAO            88901 non-null  int64  
 1   NU_ANO                  88901 non-null  int64  
 2   TP_FAIXA_ETARIA         88901 non-null  int64  
 3   TP_SEXO                 88901 non-null  object 
 4   TP_ESTADO_CIVIL         88901 non-null  int64  
 5   TP_COR_RACA             88901 non-null  int64  
 6   TP_NACIONALIDADE        88901 non-null  int64  
 7   TP_ST_CONCLUSAO         88901 non-null  int64  
 8   TP_ANO_CONCLUIU         88901 non-null  int64  
 9   TP_ESCOLA               88901 non-null  int64  
 10  TP_ENSINO               39384 non-null  float64
 11  IN_TREINEIRO            88901 non-null  int64  
 12  CO_MUNICIPIO_ESC        24705 non-null  float64
 13  NO_MUNICIPIO_ESC        24705 non-null  object 
 14  CO_UF_ESC               24705 non-null

In [70]:
var = ['TP_FAIXA_ETARIA', 'TP_SEXO', 'TP_COR_RACA', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO', 'Q006', 'Q022', 'Q024', 'Q025']

In [72]:
enem_df[var].head()

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_COR_RACA,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q006,Q022,Q024,Q025
0,5,F,1,,,,574.6,472.6,,760.0,D,B,B,B
1,12,M,1,,,505.9,551.8,498.3,461.5,560.0,B,C,A,A
2,13,F,1,,,,,,,,C,C,B,B
3,3,M,3,CE,2.0,580.7,678.9,638.9,659.5,780.0,B,B,B,B
4,2,F,3,CE,2.0,497.7,532.4,457.6,582.6,780.0,C,E,B,B


In [73]:
enem_df = enem_df[var]
enem_df.head()

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_COR_RACA,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q006,Q022,Q024,Q025
0,5,F,1,,,,574.6,472.6,,760.0,D,B,B,B
1,12,M,1,,,505.9,551.8,498.3,461.5,560.0,B,C,A,A
2,13,F,1,,,,,,,,C,C,B,B
3,3,M,3,CE,2.0,580.7,678.9,638.9,659.5,780.0,B,B,B,B
4,2,F,3,CE,2.0,497.7,532.4,457.6,582.6,780.0,C,E,B,B
