# **Análise Estatística do Enem 2019**

Este projeto analisa os resultados do ENEM no estado de São Paulo do ano de 2019.

Os dados foram extraídos do site do INEP:

http://inep.gov.br/microdados

In [54]:
import numpy as np # modelos matemáticos
import pandas as pd # manipulação estatística

### NumPy e Pandas: Resumo de Utilizações

#### NumPy
NumPy é uma biblioteca para a linguagem de programação Python, que suporta arrays e matrizes multidimensionais, além de funções matemáticas para operar nesses arrays.

#### Principais Funções:

- `import numpy as np`: Importa a biblioteca NumPy e a renomeia como `np` para facilitar o uso.

- `np.array()`: Cria um array NumPy.

- `np.zeros()`: Cria um array preenchido com zeros.

- `np.ones()`: Cria um array preenchido com uns.

- `np.arange()`: Cria um array com valores espaçados uniformemente dentro de um intervalo.

- `np.linspace()`: Cria um array com valores espaçados uniformemente entre dois limites.

- Operações matemáticas elementares: NumPy permite realizar operações matemáticas elementares em arrays, como adição, subtração, multiplicação e divisão.

### Pandas
Pandas é uma biblioteca de manipulação e análise de dados, oferecendo estruturas de dados eficientes e fáceis de usar.

#### Principais Funções:

- `import pandas as pd`: Importa a biblioteca Pandas e a renomeia como `pd` para facilitar o uso.

- `pd.Series()`: Cria uma série Pandas, uma estrutura unidimensional que pode armazenar dados de qualquer tipo.

- `pd.DataFrame()`: Cria um DataFrame Pandas, uma estrutura bidimensional que pode armazenar dados tabulares.

- `pd.read_csv()`, `pd.read_excel()`: Carrega dados de arquivos CSV ou Excel para um DataFrame.

- `df.head()`, `df.tail()`: Mostra as primeiras ou últimas linhas de um DataFrame.

- `df.info()`, `df.describe()`: Fornece informações sobre o DataFrame, como tipos de dados, estatísticas descritivas, etc.

- Indexação e seleção de dados: Pandas oferece diversas maneiras de indexar e selecionar dados em um DataFrame.

- Manipulação de dados: Pandas permite realizar operações como filtragem, ordenação, agrupamento e aplicação de funções em conjuntos de dados.

- Tratamento de dados ausentes: Pandas oferece métodos para lidar com valores nulos ou ausentes em um DataFrame.


In [55]:
dados = pd.read_csv('microdados_enem_2019_sp.csv', sep=';', encoding='iso-8859-1')
# encoding: codificação de caracteres, normalmente utiliza-se o iso-8859-1, utf-8, latin-1)

## Extração e Limpeza dos dados

In [56]:
pd.options.display.max_columns = 44

In [57]:
dados.head()

Unnamed: 0,NU_INSCRICAO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_NASCIMENTO,NO_MUNICIPIO_NASCIMENTO,CO_UF_NASCIMENTO,SG_UF_NASCIMENTO,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,CO_ESCOLA,CO_MUNICIPIO_ESC,NO_MUNICIPIO_ESC,CO_UF_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",3546801,Santa Isabel,35,SP,22,M,1,3,1,1506500.0,Santa Izabel do Pará,15.0,PA,1,4,1,1.0,0,,,,,,,,,1,1,1,1,5646.0,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",3538204,Pinhalzinho,35,SP,19,M,1,3,1,1503804.0,Jacundá,15.0,PA,1,2,1,1.0,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",3550308,São Paulo,35,SP,17,F,1,3,1,1501402.0,Belém,15.0,PA,2,0,3,1.0,0,15567761.0,1501402.0,Belém,15.0,PA,4.0,1.0,1.0,1,1,1,1,5762.0,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",3548708,São Bernardo do Campo,35,SP,19,M,1,3,1,3548708.0,São Bernardo do Campo,35.0,SP,2,0,2,1.0,0,35904958.0,3548708.0,São Bernardo do Campo,35.0,SP,2.0,1.0,1.0,1,1,1,1,4022.0,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",3549409,São Joaquim da Barra,35,SP,37,M,2,1,1,3549409.0,São Joaquim da Barra,35.0,SP,1,3,1,1.0,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,B


In [58]:
#O número total de inscritos em São Paulo foi de 813772, sendo de 15,97% de todo o Brasil que foi de 5095308 inscritos. 
dados.shape

(813772, 44)

In [59]:
# Análise dos tipos de atributos.
# object: strings
# int64: inteiros
# float64: reais
# complex: complexos
dados.dtypes

NU_INSCRICAO                object
CO_MUNICIPIO_RESIDENCIA      int64
NO_MUNICIPIO_RESIDENCIA     object
CO_UF_RESIDENCIA             int64
SG_UF_RESIDENCIA            object
NU_IDADE                     int64
TP_SEXO                     object
TP_ESTADO_CIVIL              int64
TP_COR_RACA                  int64
TP_NACIONALIDADE             int64
CO_MUNICIPIO_NASCIMENTO    float64
NO_MUNICIPIO_NASCIMENTO     object
CO_UF_NASCIMENTO           float64
SG_UF_NASCIMENTO            object
TP_ST_CONCLUSAO              int64
TP_ANO_CONCLUIU              int64
TP_ESCOLA                    int64
TP_ENSINO                  float64
IN_TREINEIRO                 int64
CO_ESCOLA                  float64
CO_MUNICIPIO_ESC           float64
NO_MUNICIPIO_ESC            object
CO_UF_ESC                  float64
SG_UF_ESC                   object
TP_DEPENDENCIA_ADM_ESC     float64
TP_LOCALIZACAO_ESC         float64
TP_SIT_FUNC_ESC            float64
TP_PRESENCA_CN               int64
TP_PRESENCA_CH      

In [60]:
dados1 = dados.drop(columns=['CO_MUNICIPIO_RESIDENCIA']) # drop elimina a coluna

In [61]:
dados1.head() # por padrão, mostra as 5 primeiras linhas 

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_NASCIMENTO,NO_MUNICIPIO_NASCIMENTO,CO_UF_NASCIMENTO,SG_UF_NASCIMENTO,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,CO_ESCOLA,CO_MUNICIPIO_ESC,NO_MUNICIPIO_ESC,CO_UF_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,35,SP,22,M,1,3,1,1506500.0,Santa Izabel do Pará,15.0,PA,1,4,1,1.0,0,,,,,,,,,1,1,1,1,5646.0,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,35,SP,19,M,1,3,1,1503804.0,Jacundá,15.0,PA,1,2,1,1.0,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,35,SP,17,F,1,3,1,1501402.0,Belém,15.0,PA,2,0,3,1.0,0,15567761.0,1501402.0,Belém,15.0,PA,4.0,1.0,1.0,1,1,1,1,5762.0,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,35,SP,19,M,1,3,1,3548708.0,São Bernardo do Campo,35.0,SP,2,0,2,1.0,0,35904958.0,3548708.0,São Bernardo do Campo,35.0,SP,2.0,1.0,1.0,1,1,1,1,4022.0,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,35,SP,37,M,2,1,1,3549409.0,São Joaquim da Barra,35.0,SP,1,3,1,1.0,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,B


In [62]:
dados1 = dados1.drop(columns=['CO_UF_RESIDENCIA','SG_UF_RESIDENCIA','CO_MUNICIPIO_NASCIMENTO'], )

In [63]:
dados1.head(40) # mosta as 40 primeiras linhas

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,NO_MUNICIPIO_NASCIMENTO,CO_UF_NASCIMENTO,SG_UF_NASCIMENTO,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,CO_ESCOLA,CO_MUNICIPIO_ESC,NO_MUNICIPIO_ESC,CO_UF_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,Santa Izabel do Pará,15.0,PA,1,4,1,1.0,0,,,,,,,,,1,1,1,1,5646.0,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,Jacundá,15.0,PA,1,2,1,1.0,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,Belém,15.0,PA,2,0,3,1.0,0,15567761.0,1501402.0,Belém,15.0,PA,4.0,1.0,1.0,1,1,1,1,5762.0,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,São Bernardo do Campo,35.0,SP,2,0,2,1.0,0,35904958.0,3548708.0,São Bernardo do Campo,35.0,SP,2.0,1.0,1.0,1,1,1,1,4022.0,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,São Joaquim da Barra,35.0,SP,1,3,1,1.0,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,B
5,"1,90E+11",Embu-Guaçu,17,F,1,3,1,Itacoatiara,13.0,AM,2,0,2,1.0,0,,,,,,,,,1,1,1,1,3996.0,4268.0,4872.0,4192.0,0,1.0,120.0,120.0,120.0,120.0,80.0,560.0,B
6,"1,90E+11",São José dos Campos,28,F,1,1,1,Manaus,13.0,AM,1,8,1,,0,,,,,,,,,0,0,0,0,,,,,0,,,,,,,,A
7,"1,90E+11",São José dos Campos,25,F,2,1,1,São José dos Campos,35.0,SP,1,7,1,,0,,,,,,,,,0,0,0,0,,,,,1,,,,,,,,B
8,"1,90E+11",Guarulhos,23,F,1,1,1,São Paulo,35.0,SP,1,5,1,,0,,,,,,,,,1,1,1,1,6257.0,6465.0,6293.0,7961.0,0,1.0,160.0,200.0,180.0,180.0,160.0,880.0,B
9,"1,90E+11",São Paulo,19,F,1,3,1,Belém,15.0,PA,1,1,1,1.0,0,,,,,,,,,0,0,0,0,,,,,0,,,,,,,,B


In [64]:
dados1 = dados1.drop(columns=['NO_MUNICIPIO_NASCIMENTO','CO_UF_NASCIMENTO','SG_UF_NASCIMENTO',
                              'TP_ANO_CONCLUIU','TP_ENSINO','CO_MUNICIPIO_ESC','CO_UF_ESC','SG_UF_ESC'],)

In [65]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,,,,1,1,1,1,5646.0,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,4.0,1.0,1.0,1,1,1,1,5762.0,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,2.0,1.0,1.0,1,1,1,1,4022.0,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,,,,0,0,0,0,,,,,1,,,,,,,,B


In [66]:
dados1 = dados1.drop(columns=['TP_DEPENDENCIA_ADM_ESC','TP_LOCALIZACAO_ESC','TP_SIT_FUNC_ESC'],)

In [67]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,5646.0,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,5762.0,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,4022.0,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


In [68]:
dados1.shape

(813772, 29)

Corrigindo erros nas notas

In [69]:
dados1.loc[:,'NU_NOTA_CN'] /= 10 # loc ----> localizar ;  ':' todos os pontos 

In [70]:
dados1.head(12)

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,564.6,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,576.2,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B
5,"1,90E+11",Embu-Guaçu,17,F,1,3,1,2,2,0,,,1,1,1,1,399.6,4268.0,4872.0,4192.0,0,1.0,120.0,120.0,120.0,120.0,80.0,560.0,B
6,"1,90E+11",São José dos Campos,28,F,1,1,1,1,1,0,,,0,0,0,0,,,,,0,,,,,,,,A
7,"1,90E+11",São José dos Campos,25,F,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B
8,"1,90E+11",Guarulhos,23,F,1,1,1,1,1,0,,,1,1,1,1,625.7,6465.0,6293.0,7961.0,0,1.0,160.0,200.0,180.0,180.0,160.0,880.0,B
9,"1,90E+11",São Paulo,19,F,1,3,1,1,1,0,,,0,0,0,0,,,,,0,,,,,,,,B


In [71]:
dados1.loc[:,'NU_NOTA_CH'] /= 10 # correção das notas ausentes (NaN)
dados1.loc[:,'NU_NOTA_LC'] /= 10
dados1.loc[:,'NU_NOTA_MT'] /= 10

In [72]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,564.6,585.8,592.9,600.2,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


Renomeando Variáveis (colunas)

In [73]:
dados1 = dados1.rename(columns={'NU_NOTA_REDACAO': 'NOTA_REDACAO'})

In [74]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,564.6,585.8,592.9,600.2,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


In [75]:
dados1 = dados1.rename(columns={'NU_NOTA_CN': 'NOTA_CN','NU_NOTA_CH': 'NOTA_CH',
                                'NU_NOTA_LC': 'NOTA_LC','NU_NOTA_MT': 'NOTA_MT'})

In [76]:
dados1 = dados1.rename(columns={'NU_NOTA_COMP1': 'COMP1','NU_NOTA_COMP2': 'COMP2',
                                'NU_NOTA_COMP3': 'COMP3','NU_NOTA_COMP4': 'COMP4',
                                'NU_NOTA_COMP5':'COMP5'})

In [77]:
dados1 = dados1.rename(columns={'NU_IDADE': 'IDADE','TP_SEXO': 'SEXO',
                                'TP_COR_RACA': 'RACA','Q025': 'INTERNET',
                                'TP_ESCOLA':'ESCOLA'})

#dados1.columns = [...,...,...,...]

Renomeando Registros (Linhas)

In [78]:
dados1["RACA"] = dados1["RACA"].replace({0:"nao_declarado", 1:"branca", 2:"preta", 3:"parda", 4:"amarela", 5:"indigena"})

In [79]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,1,0,,,1,1,1,1,564.6,585.8,592.9,600.2,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,parda,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,3,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,branca,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


In [80]:
# OUTRA MANEIRA
# dados1['RACA'] = dados1['RACA'].replace([0,1,2,3,4,5], ['Não Declarado','Branca','Preta','Parda','Amarela','Indígena'])

In [81]:
dados1["TP_LINGUA"] = dados1["TP_LINGUA"].replace({0:"Inglês", 1:"Espanhol"})

In [82]:
dados1["ESCOLA"] = dados1["ESCOLA"].replace({1:"não_respondeu", 2:"pública", 3:"privada", 4:"exterior"})

In [83]:
dados1["INTERNET"] = dados1["INTERNET"].replace({"A":"Não", "B":"Sim"})

## Análise Exploratória e Transformação dos dados

**Análise das idades**

In [84]:
dados1['IDADE'].value_counts()


IDADE
17    219313
18    147548
19     81236
16     59316
20     53009
21     37242
22     29489
23     23531
24     18851
25     15103
26     12465
15     11583
27     10367
28      8986
29      7650
30      6967
31      6331
32      5685
33      5175
34      4795
35      4340
36      4109
37      4105
38      3767
39      3299
40      3058
41      2638
42      2462
43      2307
44      2069
45      1939
46      1718
47      1578
48      1496
49      1304
50      1167
51      1014
52       933
53       841
54       727
55       652
56       530
57       497
58       388
14       355
59       325
60       254
61       236
62       176
63       144
64       139
65       115
66        81
67        72
68        53
69        43
70        40
13        29
71        25
72        17
73        16
74        13
75        10
76         8
12         6
8          6
79         4
77         3
81         3
7          3
78         3
5          2
6          2
82         2
80         2
86         1
4     

In [85]:
dados1['IDADE'].value_counts().sort_index()

IDADE
2          1
3          1
4          1
5          2
6          2
7          3
8          6
12         6
13        29
14       355
15     11583
16     59316
17    219313
18    147548
19     81236
20     53009
21     37242
22     29489
23     23531
24     18851
25     15103
26     12465
27     10367
28      8986
29      7650
30      6967
31      6331
32      5685
33      5175
34      4795
35      4340
36      4109
37      4105
38      3767
39      3299
40      3058
41      2638
42      2462
43      2307
44      2069
45      1939
46      1718
47      1578
48      1496
49      1304
50      1167
51      1014
52       933
53       841
54       727
55       652
56       530
57       497
58       388
59       325
60       254
61       236
62       176
63       144
64       139
65       115
66        81
67        72
68        53
69        43
70        40
71        25
72        17
73        16
74        13
75        10
76         8
77         3
78         3
79         4
80         2
81    

In [86]:
# Para ver todas as linhas, primeiro transforme num Dataframe:
idade = pd.DataFrame(dados1['IDADE'].value_counts().sort_index())

In [87]:
# Configura o Pandas para observar 80 linhas
pd.set_option('display.max_rows', 80)

In [88]:
idade.head(80)

Unnamed: 0_level_0,count
IDADE,Unnamed: 1_level_1
2,1
3,1
4,1
5,2
6,2
7,3
8,6
12,6
13,29
14,355


Alguns valores estranhos e curiosos: idades menores que 12 anos e maiores de 80 anos.

In [89]:
menores_12 = dados1.query('IDADE < 12')['NO_MUNICIPIO_RESIDENCIA'].value_counts()

In [90]:
# Inscrições com idade abaixo de 12 anos serão excluídos devido a alta probabilidade de erro.
menores_12

NO_MUNICIPIO_RESIDENCIA
São Paulo                 5
Tambaú                    1
Ribeirão Preto            1
Bálsamo                   1
São Bernardo do Campo     1
Embu das Artes            1
Queiroz                   1
Santana de Parnaíba       1
Vargem Grande Paulista    1
Auriflama                 1
Araçatuba                 1
Campinas                  1
Name: count, dtype: int64

In [91]:
dados_maiores_11 = dados1.loc[dados1.IDADE > 11]

In [92]:
dados_maiores_11.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,não_respondeu,0,,,1,1,1,1,564.6,585.8,592.9,600.2,Inglês,1.0,160.0,200.0,180.0,200.0,200.0,940.0,Sim
1,"1,90E+11",Pinhalzinho,19,M,1,parda,1,1,não_respondeu,0,,,0,0,0,0,,,,,Espanhol,,,,,,,,Não
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,Inglês,1.0,160.0,120.0,200.0,200.0,200.0,880.0,Não
3,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,pública,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,Espanhol,1.0,80.0,160.0,120.0,100.0,100.0,560.0,Sim
4,"1,90E+11",São Joaquim da Barra,37,M,2,branca,1,1,não_respondeu,0,,,0,0,0,0,,,,,Espanhol,,,,,,,,Sim


In [93]:
dados_maiores_11['IDADE'].value_counts().sort_index()

IDADE
12         6
13        29
14       355
15     11583
16     59316
17    219313
18    147548
19     81236
20     53009
21     37242
22     29489
23     23531
24     18851
25     15103
26     12465
27     10367
28      8986
29      7650
30      6967
31      6331
32      5685
33      5175
34      4795
35      4340
36      4109
37      4105
38      3767
39      3299
40      3058
41      2638
42      2462
43      2307
44      2069
45      1939
46      1718
47      1578
48      1496
49      1304
50      1167
51      1014
52       933
53       841
54       727
55       652
56       530
57       497
58       388
59       325
60       254
61       236
62       176
63       144
64       139
65       115
66        81
67        72
68        53
69        43
70        40
71        25
72        17
73        16
74        13
75        10
76         8
77         3
78         3
79         4
80         2
81         3
82         2
86         1
91         1
Name: count, dtype: int64

**Treineiros**

In [94]:
dados_maiores_11.query('IN_TREINEIRO == 1')['IN_TREINEIRO'].value_counts() # query ---> filtra dados (linha)[coluna]
                                                                           # value_counts ---> faz a contagem

IN_TREINEIRO
1    93988
Name: count, dtype: int64

In [95]:
treineiros = dados_maiores_11.loc[dados_maiores_11.IN_TREINEIRO == 1]

In [96]:
treineiros.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
20,"1,90E+11",Santos,15,F,1,parda,1,3,não_respondeu,1,,,1,1,1,1,455.4,506.7,480.4,573.2,Inglês,1.0,140.0,120.0,120.0,100.0,80.0,560.0,Sim
21,"1,90E+11",Panorama,16,F,1,parda,1,3,não_respondeu,1,,,0,0,0,0,,,,,Espanhol,,,,,,,,Não
106,"1,90E+11",São Paulo,16,F,1,branca,1,3,não_respondeu,1,,,1,1,1,1,424.5,517.7,489.6,532.6,Inglês,1.0,120.0,120.0,120.0,100.0,80.0,540.0,Sim
109,"1,90E+11",Águas de Lindóia,16,M,1,branca,1,3,não_respondeu,1,,,0,0,0,0,,,,,Espanhol,,,,,,,,Sim
159,"1,90E+11",Águas de Lindóia,15,M,1,branca,1,3,não_respondeu,1,,,0,0,0,0,,,,,Inglês,,,,,,,,Sim


In [97]:
treineiros.to_csv('treineiros_enem_2019_sp.csv', encoding = 'iso-8859-1', index = False) # monta csv com a tabela atual

In [98]:
# separação entre os treineiros e os vestibulandos
vestibulandos = dados_maiores_11.loc[dados_maiores_11.IN_TREINEIRO == 0] # localizar na tabela [nomeTabela.nomeColuna]

In [99]:
vestibulandos.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,não_respondeu,0,,,1,1,1,1,564.6,585.8,592.9,600.2,Inglês,1.0,160.0,200.0,180.0,200.0,200.0,940.0,Sim
1,"1,90E+11",Pinhalzinho,19,M,1,parda,1,1,não_respondeu,0,,,0,0,0,0,,,,,Espanhol,,,,,,,,Não
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,Inglês,1.0,160.0,120.0,200.0,200.0,200.0,880.0,Não
3,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,pública,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,Espanhol,1.0,80.0,160.0,120.0,100.0,100.0,560.0,Sim
4,"1,90E+11",São Joaquim da Barra,37,M,2,branca,1,1,não_respondeu,0,,,0,0,0,0,,,,,Espanhol,,,,,,,,Sim


In [100]:
vestibulandos.shape # (numeroLinhas, numeroColunas)

(719768, 29)

**Análise das presenças**

In [101]:
vestibulandos['TP_PRESENCA_CN'].value_counts()

TP_PRESENCA_CN
1    500805
0    218693
2       270
Name: count, dtype: int64

In [102]:
vestibulandos['TP_PRESENCA_CH'].value_counts()

TP_PRESENCA_CH
1    533142
0    185969
2       657
Name: count, dtype: int64

In [103]:
vestibulandos['TP_PRESENCA_LC'].value_counts()

TP_PRESENCA_LC
1    533142
0    185969
2       657
Name: count, dtype: int64

In [104]:
vestibulandos['TP._PRESENCA_MT'].value_counts()

KeyError: 'TP._PRESENCA_MT'

RESUMO DA PRESENÇA NAS PROVAS:

Ciências da Natureza: 500805 presentes, 218693 faltaram e 270 eliminados.

Ciências Humanas: 533142 presentes, 185969 faltaram e 657 eliminados.

Linguagens e Códigos: 533142 presentes, 185969 faltaram e 657 eliminados.

Matemática: 500805 presentes, 218693 faltaram e 270 eliminados.

In [None]:
vestibulandos['TP_STATUS_REDACAO'].value_counts().sort_index()

1.0    519763
2.0       913
3.0      1417
4.0      5513
6.0      3626
7.0       543
8.0       828
9.0       539
Name: TP_STATUS_REDACAO, dtype: int64

**Valores Ausentes**

In [105]:
vestibulandos['IDADE'].isnull().sum()

0

In [106]:
provas = ['NOTA_REDACAO','NOTA_CN','NOTA_MT','NOTA_LC','NOTA_CH']

In [107]:
# registros NAN nas notas
vestibulandos[provas].isnull().sum() # isnull verifica se tem valores ausentes NaN #sum, soma todos eles

NOTA_REDACAO    186626
NOTA_CN         218963
NOTA_MT         218963
NOTA_LC         186626
NOTA_CH         186626
dtype: int64

**Anotação**

**isnull().sum()**

isnull() retorna um DataFrame booleano do mesmo formato que o original, onde cada elemento é True se for um valor nulo (NaN) e False caso contrário.

sum() é então aplicado ao DataFrame booleano, resultando em uma série que mostra o número de valores nulos em cada coluna.

Essencialmente, isnull().sum() retorna a contagem total de valores nulos (ausentes) em cada coluna.
Exemplo:

```
vestibulandos[provas].isnull().sum()
```

**value_counts()**

value_counts() é utilizado para contar o número de ocorrências únicas em uma série.
Em contexto de valores nulos, isso contaria o número de valores não nulos e o número de valores nulos (NaN).

Exemplo (não relacionado a valores nulos, apenas para ilustrar):

```
vestibulandos['alguma_coluna'].value_counts()
```

In [108]:
vestibulandos_classificados = vestibulandos.loc[vestibulandos.TP_PRESENCA_CH == 1]
vestibulandos_classificados = vestibulandos_classificados.loc[vestibulandos_classificados.TP_PRESENCA_MT == 1]

In [109]:
vestibulandos_classificados['TP_PRESENCA_MT'].value_counts()

TP_PRESENCA_MT
1    499940
Name: count, dtype: int64

In [110]:
vestibulandos_classificados['TP_PRESENCA_CH'].value_counts()

TP_PRESENCA_CH
1    499940
Name: count, dtype: int64

In [111]:
vestibulandos_classificados['TP_PRESENCA_CN'].value_counts()

TP_PRESENCA_CN
1    499940
Name: count, dtype: int64

In [112]:
vestibulandos_classificados['TP_PRESENCA_LC'].value_counts()

TP_PRESENCA_LC
1    499940
Name: count, dtype: int64

In [113]:
vestibulandos_classificados[provas].isnull().sum()

NOTA_REDACAO    0
NOTA_CN         0
NOTA_MT         0
NOTA_LC         0
NOTA_CH         0
dtype: int64

** Notas zeros na Redação**

In [114]:
from collections import Counter
dict(Counter(vestibulandos_classificados['NOTA_REDACAO'])) # coleção

{940.0: 4688,
 880.0: 7676,
 560.0: 35741,
 580.0: 33062,
 540.0: 25538,
 900.0: 5921,
 520.0: 24551,
 500.0: 17102,
 680.0: 19520,
 660.0: 18451,
 760.0: 12859,
 860.0: 6502,
 480.0: 19617,
 640.0: 27623,
 720.0: 15214,
 600.0: 37197,
 820.0: 7810,
 340.0: 5464,
 0.0: 9181,
 920.0: 6540,
 780.0: 9236,
 400.0: 7232,
 740.0: 10931,
 320.0: 8113,
 840.0: 9047,
 800.0: 10677,
 700.0: 13502,
 460.0: 13045,
 360.0: 7023,
 620.0: 28059,
 980.0: 978,
 440.0: 11950,
 420.0: 6555,
 380.0: 4453,
 280.0: 4734,
 300.0: 5418,
 960.0: 3057,
 200.0: 312,
 260.0: 2634,
 180.0: 105,
 240.0: 1841,
 220.0: 664,
 40.0: 1,
 140.0: 20,
 160.0: 65,
 120.0: 16,
 100.0: 5,
 60.0: 4,
 1000.0: 5,
 80.0: 1}

In [115]:
vestibulandos_classificados.query('NOTA_REDACAO == 0')['NOTA_REDACAO'].value_counts()

NOTA_REDACAO
0.0    9181
Name: count, dtype: int64

In [120]:
vestibulandos_classificados.query('COMP1 == 0')['COMP1'].value_counts()

COMP1
0.0    9188
Name: count, dtype: int64

In [119]:
vestibulandos_classificados.query('COMP2 == 0')['COMP2'].value_counts()

COMP2
0.0    9181
Name: count, dtype: int64

In [118]:
vestibulandos_classificados.query('COMP3 == 0')['COMP3'].value_counts()

COMP3
0.0    9197
Name: count, dtype: int64

In [117]:
vestibulandos_classificados.query('COMP4 == 0')['COMP4'].value_counts()

COMP4
0.0    9194
Name: count, dtype: int64

In [116]:
vestibulandos_classificados.query('COMP5 == 0')['COMP5'].value_counts()

COMP5
0.0    73330
Name: count, dtype: int64

NOTAS ZEROS EM REDAÇÃO:

REDAÇÃO (final): 9181 notas zeros devido a não cumprimento das regras ou tirou zero em todos os cinco componentes.

COMPONENTE 1(Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.): 9188 notas zeros somente neste item.

COMPONENTE 2 (Compreender a proposta de redação e aplicar conceitos das várias áreas de conhecimento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-argumentativo em prosa): 9181. 

COMPONENTE 3 (Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista): 9197 notas zeros somente neste item.

COMPONENTE 4 (Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação.): 9194 notas zeros somente neste item.

COMPONENTE 5 (Elaborar proposta de intervenção para o problema abordado, respeitando os direitos humanos): 73330 notas zeros somente neste item.


In [125]:
vestibulandos_classificados.query('NOTA_CH == 0')['NOTA_CH'].value_counts()

NOTA_CH
0.0    343
Name: count, dtype: int64

In [124]:
vestibulandos_classificados.query('NOTA_CN == 0')['NOTA_CN'].value_counts()

NOTA_CN
0.0    36
Name: count, dtype: int64

In [123]:
vestibulandos_classificados.query('NOTA_LC == 0')['NOTA_LC'].value_counts()

NOTA_LC
0.0    135
Name: count, dtype: int64

In [122]:
vestibulandos_classificados.query('NOTA_MT == 0')['NOTA_MT'].value_counts()

NOTA_MT
0.0    56
Name: count, dtype: int64

In [121]:
vestibulandos_classificados.query('NOTA_REDACAO == 0')['NOTA_REDACAO'].value_counts()

NOTA_REDACAO
0.0    9181
Name: count, dtype: int64

NOTAS ZEROS DOS INSCRITOS CONCORRENTES AO VESTIBULAR:

Matemática = 56

Ciências da Natureza = 36

Linguagens e Códigos = 135

Ciências Humanas = 343

Redação = 9181


In [126]:
vestibulandos_classificados.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,não_respondeu,0,,,1,1,1,1,564.6,585.8,592.9,600.2,Inglês,1.0,160.0,200.0,180.0,200.0,200.0,940.0,Sim
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,Inglês,1.0,160.0,120.0,200.0,200.0,200.0,880.0,Não
3,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,pública,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,Espanhol,1.0,80.0,160.0,120.0,100.0,100.0,560.0,Sim
5,"1,90E+11",Embu-Guaçu,17,F,1,parda,1,2,pública,0,,,1,1,1,1,399.6,426.8,487.2,419.2,Inglês,1.0,120.0,120.0,120.0,120.0,80.0,560.0,Sim
8,"1,90E+11",Guarulhos,23,F,1,branca,1,1,não_respondeu,0,,,1,1,1,1,625.7,646.5,629.3,796.1,Inglês,1.0,160.0,200.0,180.0,180.0,160.0,880.0,Sim


In [127]:
vestibulandos_classificados = vestibulandos_classificados.drop(columns=['IN_TREINEIRO'], )

In [None]:
vestibulandos_classificados.shape

## **Salvando (Exportando) o Dataframe Tratado**

In [None]:
vestibulandos_classificados.to_csv('enem_2019_tratado.csv', encoding = 'iso-8859-1', index = False)