<a href="https://colab.research.google.com/github/mariaeco/ICD_project_Maria/blob/main/ProjetoICD_Maria_SelecaoDosDados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Título: "Efeito das diferenças socioeconômicas sobre as notas do Enem na Paraíba"**

## **Objetivo geral:**
Avaliar o perfil socioeconômico dos Estudantes na Paraíba e seus efeitos sobre o desempenho no Exame Nacional de Ensino Médio

###*Objetivos Específicos:*
Avaliar a relação dos fatores abaixo com o desempenho no Enem:
- tipo de escola (privada, particular)
- tipo de dependência admnistrativa (Federal, Estadual, Municipal, Privada)
- cor/raça
- tipo de localização (Rural, Urbana)
- escolaridade dos pais
- tipo de ocupação dos pais
- renda familiar
- numero de pessoas na casa
- acesso a celular, computador e internet










## Dividir o projeto nas seguintes partes:
###*Introdução*
###*Fazer uma breve introdução*
###*Descrever metodologia*
###*Explorar os dados*
###*Fazer uma breve discussão e conclusão*

#**EXPLORANDO OS DADOS**

##**Pacotes utilizados**

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


##**Seleção dos Dados**


Os micro dados do ENEM pode ser baixaidos no site do [INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados).
O banco de dados 'Microdados do Enem' é muito grande, preciso selecionar previamente com quais variáveis desejo trabalhar, ou não consigo abri-lo.

Para selecionar as variáveis previamente, consultei os nomes das colunas, importando o banco de dados e usando o argumento nrows=0, e consultando a pasta *Dicionário*, no arquivo *Dicionário_Microdados_Enem_2019.xlsx* no meu github para entender melhor o significado de cada variável.

O Banco de Dados selecionado, os dicionários e demais arquivos necessários são encontrados no [meu git hub](https://github.com/mariaeco/ICD_project_Maria.git).

Abaixo seleciono as variáveis que vou trabalhar e importo o banco de dados do meu Drive. Ao selecionar, fiz o download apenas do banco de dados e salvei no meu GitHub para outros terem acesso.

---
*Variáveis Selecionadas:*
- Ano no Enem:'NU_ANO'
- Número de Inscrição:'NU_INSCRICAO'
- Código do Município de Residência: 'CO_MUNICIPIO_RESIDENCIA'
- Nome do Município de Residência:'NO_MUNICIPIO_RESIDENCIA'
- UF de Residência: 'SG_UF_RESIDENCIA'
- Tipo de Escola: 'TP_ESCOLA'
- Codigo do Municipio da Escola: 'CO_MUNICIPIO_ESC'
- Código da Escola: 'CO_ESCOLA'
- Tipo de Dependência Escolar:'TP_DEPENDENCIA_ADM_ESC' 
- Tipo de Localização Escolar:    'TP_LOCALIZACAO_ESC'
- Raça: 'TP_COR_RACA'
- Notas no Enem:'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_MT', 'NU_NOTA_REDACAO', 'NU_NOTA_LC', 'TP_LINGUA'
- Nível de Formação dos pais: 'Q001', 'Q002'
- Tipo de Ocupação dos pais; 'Q003', 'Q004'
- Renda Familiar: 'Q005'
- Número de pessoas na casa:'Q006'
- Acesso a tecnologias (Celular, Computador, Internet):'Q023', 'Q024', 'Q025'

In [7]:
col_microdados = pd.read_csv('//content/drive/MyDrive/Colab Notebooks/ICD_projeto/MICRODADOS_ENEM_2019.zip', compression = 'zip', sep=";", encoding='ISO-8859-1', nrows=0)
col_microdados.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_NACIONALIDADE', 'CO_MUNICIPIO_NASCIMENTO',
       'NO_MUNICIPIO_NASCIMENTO', 'CO_UF_NASCIMENTO', 'SG_UF_NASCIMENTO',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_ESCOLA', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_BAIXA_VISAO', 'IN_CEGUEIRA', 'IN_SURDEZ',
       'IN_DEFICIENCIA_AUDITIVA', 'IN_SURDO_CEGUEIRA',
       'IN_DEFICIENCIA_FISICA', 'IN_DEFICIENCIA_MENTAL',
       'IN_DEFICIT_ATENCAO', 'IN_DISLEXIA', 'IN_DISCALCULIA',
       'IN_AUTISMO', 'IN_VISAO_MONOCULAR', 'IN_OUTRA_DEF', 'IN_GESTANTE',
       'IN_LACTANTE', 'IN_IDOSO', 'IN_ESTUDA_CLASSE_HOSPITALAR',
       'IN_SEM_RECURSO', 'IN_BRAILLE', 'IN_AMPLIADA_24

In [9]:
variaveis_selecionadas = ['NU_ANO','NU_INSCRICAO','CO_MUNICIPIO_RESIDENCIA', 'NO_MUNICIPIO_RESIDENCIA', 'SG_UF_RESIDENCIA',
                          'TP_ESCOLA','CO_ESCOLA','CO_MUNICIPIO_ESC','TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC',
                          'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_MT', 'NU_NOTA_REDACAO', 'NU_NOTA_LC', 'TP_LINGUA',
                           'TP_COR_RACA', 'IN_NOME_SOCIAL','Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006','Q023', 'Q024', 'Q025']
dados = pd.read_csv('//content/drive/MyDrive/Colab Notebooks/ICD_projeto/MICRODADOS_ENEM_2019.zip',compression = 'zip', sep=";", encoding='ISO-8859-1', usecols=variaveis_selecionadas)
dados.head()
#encoding='ISO-8859-1' carrega a acentuação corretamente

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,SG_UF_RESIDENCIA,TP_COR_RACA,TP_ESCOLA,CO_ESCOLA,CO_MUNICIPIO_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,IN_NOME_SOCIAL,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,PA,3,1,,,,,0,472.9,466.0,497.3,369.1,0,780.0,D,E,A,A,7,B,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,PA,3,1,,,,,0,358.9,495.4,482.3,416.5,1,600.0,D,E,A,A,5,B,A,A,A
2,190001004629,2019,1505502,Paragominas,PA,1,3,15230023.0,1505502.0,4.0,1.0,0,574.2,538.7,582.6,571.5,0,640.0,H,E,A,D,3,C,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,PA,3,2,15027635.0,1507706.0,2.0,1.0,0,,,,,1,,D,D,A,B,3,C,A,A,A
4,190001004631,2019,1503903,Juruti,PA,3,1,,,,,0,,,,,1,,B,C,A,A,5,C,A,A,A


In [11]:
dados = dados[dados['SG_UF_RESIDENCIA']=='PB'] # Ou pelo metodo query: dados.query('SG_UF_RESIDENCIA=="PB"').head()
dados.drop(['TP_LINGUA'], axis=1)
col = dados.loc[:,'NU_NOTA_CN':'NU_NOTA_REDACAO']
dados['NOTA_MEDIA'] = col.mean(axis=1)
dados

dados.to_csv('/content/MicroDadosEnemSelected.csv',  encoding='ISO-8859-1' ,header=True,sep='\t',index=False)