<h1 style='color: green; font-size: 36px; font-weight: bold;'>Data Science - Análise do Enem</h1>

# <a name='descricao'>Descrição</a>
Esta análise visa observar o impacto causado, devido a fatores socioeconômicos, no desempenho da prova objetiva de <b>Matemática e Suas Tecnologias</b>, sendo esta uma constituinte do Exame Nacional do Ensino Médio (Enem).<br><br> Para essa análise, será utiliza como amostra alunos dentre 16 a 18 anos, concluintes recentes, ou próximos de concluir, o ensino médio regular.<br>
A base de dados utilizada foram os microdados do Enem efetuados no ano de 2021. Disponibilizados pelo Inep no link:
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem

### Descrição das features selecionadas:
<ul style='font-size: 14px; line-height: 1,5 ; text-align: justify;'>
    <li><b>TP_FAIXA_ETARIA</b> - Faixa etária separada por categorias que vão de 1 (menor de 17 anos) até 20 (maior de 70 anos)</li>
    <li><b>TP_SEXO</b> - Sexo separado em M (masculino) e F (feminino).</li>
    <li><b>TP_COR_RACA</b> - Cor/raça, representado por números. Sendo 0, não informado; 1, branca; 2, preta; 3, parda; 4, amarela; 5, indigena; 6, não dispões da informação.</li>
    <li><b>TP_ST_CONCLUSAO</b> - Situação de conclusão do Ensino Médio. Sendo 1, já concluí o Ensino Médio; 2, cursando e conclusão em 2021; 3, cursando e concluirá após 2021; 4, Não concluiu e não está cursando.</li>
    <li><b>TP_ESCOLA</b> - Tipo de escola do Ensino Médio. Sendo 1, não respondeu; 2, Pública; 3, privada.</li>    
    <li><b>NO_MUNICIPIO_ESC</b> - Nome do município da escola.</li>    
    <li><b>SG_UF_ESC</b> - Sigla da Unidade da Federação da escola.</li>
    <li><b>TP_LOCALIZACAO_ESC</b> - Localização da escola, se é área urbana ou rural.</li>
    <li><b>NU_NOTA_MT</b> - Nota da prova de matemática.</li>
    <li><b>Q0XX</b> - Questões do questionário socioeconômico, que vão de Q001 até Q025.</li>
</ul>

# <a name='indice'>Índice</a>
* [Descrição](#descricao)
* [Índice](#indice)
* [1. Importando Bibliotecas e Base de Dados](#secao_1)
* [2. Conhecendo e Tratando a Base de Dados](#secao_2)
* [3. Análise Descritiva](#secao_3)
* [4. Comportamento da Variável Dependente](#secao_4)
* [5. Análise de Outliers](#secao_5)
* [6. Gráficos](#secao_6) 
* [7. Transformação dos Dados](#secao_7)
* [X. Outras seções/etapas a depender do objetivo](#secao_x)
* [Conclusão](#conclusao)

#  <a name="secao_1"><font style='font-size: 30px;'>1 Importando Bibliotecas e Base de Dados</font></a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

In [1]:
import pandas as pd

In [2]:
enem_df = pd.read_csv('dados/MICRODADOS_ENEM_2021.csv', encoding = 'latin_1', sep=';')

#  <a name="secao_2">2. Conhecendo e Tratando a Base de Dados</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

#### Informações gerais

Aplicar: 
* .info()
* .head()
* .shape
* .dtypes
* <font color='red'>.describe()</font> Obs: aplicável a variáveis quantitativas e já normalizadas
* etc

Obs: texto em vermelho são parâmetros a serem incluídos no modelo de notebook, visando sua melhoria

In [3]:
enem_df.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3389832 entries, 0 to 3389831
Data columns (total 76 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   NU_INSCRICAO            3389832 non-null  int64  
 1   NU_ANO                  3389832 non-null  int64  
 2   TP_FAIXA_ETARIA         3389832 non-null  int64  
 3   TP_SEXO                 3389832 non-null  object 
 4   TP_ESTADO_CIVIL         3389832 non-null  int64  
 5   TP_COR_RACA             3389832 non-null  int64  
 6   TP_NACIONALIDADE        3389832 non-null  int64  
 7   TP_ST_CONCLUSAO         3389832 non-null  int64  
 8   TP_ANO_CONCLUIU         3389832 non-null  int64  
 9   TP_ESCOLA               3389832 non-null  int64  
 10  TP_ENSINO               1096828 non-null  float64
 11  IN_TREINEIRO            3389832 non-null  int64  
 12  CO_MUNICIPIO_ESC        813806 non-null   float64
 13  NO_MUNICIPIO_ESC        813806 non-null   object 
 14  CO

In [4]:
enem_df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210053865474,2021,5,F,1,1,1,1,3,1,...,A,A,A,B,A,A,B,A,B,B
1,210052384164,2021,12,M,1,1,1,1,11,1,...,A,A,A,B,A,A,C,A,A,A
2,210052589243,2021,13,F,3,1,1,1,15,1,...,B,A,A,B,A,A,C,B,B,B
3,210052128335,2021,3,M,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,B,B
4,210051353021,2021,2,F,1,3,1,2,0,2,...,B,A,A,B,A,B,E,A,B,B


In [5]:
enem_df.shape

(3389832, 76)

#### Obtendo amostra e features pertinentes

In [6]:
enem_df.columns

Index(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
       'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TP_LINGUA', 'TX_GABARITO_CN', 'TX_GABARITO_CH',
       'TX_GABARITO_LC', 'TX_GABARITO_MT', 'TP_STATUS_REDACAO',
       'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'Q001', 'Q002', 'Q003', 'Q004',

* Serão selecionada as features as quais sejam pertinentes para o objetivo de análise. <br>
* Apesar de desejável, a coluna TP_ENSINO contém muitos valores faltantes, portanto não será inclusa. <br>
* A feature TP_PRESENCA_MT possui certa redundância, havendo baixa quantidade de eliminados na prova, permite que esssa feature seja melhor representada pela NU_NOTA_MT. Pois todos que compareceram à prova, obtiveram nota. <br>
* O conjunto de features que diz respeito ao local de aplicação das provas não será utilizado nesta análise. Em contrapartida, aquelas que dizem respeito ao local de estudos do aluno, serão utilizadas, porém há muitos registros faltantes, portanto haverá de receber um outro direcionamento.

In [7]:
alunos_df = enem_df[['TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_COR_RACA', 'TP_ST_CONCLUSAO','TP_ESCOLA', 
       'NO_MUNICIPIO_ESC', 'SG_UF_ESC',
       'TP_LOCALIZACAO_ESC', 'NU_NOTA_MT',      
       'Q001', 'Q002', 'Q003', 'Q004',
       'Q005', 'Q006', 'Q007', 'Q008', 'Q009', 'Q010', 'Q011', 'Q012', 'Q013',
       'Q014', 'Q015', 'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022',
       'Q023', 'Q024', 'Q025']]

### Consolidando base de dados

#### Selecionando alunos na faixa etária entre 17 e 18 anos

In [108]:
mat_alunos_df = alunos_df.loc[(alunos_df['TP_FAIXA_ETARIA']>=2) & (alunos_df['TP_FAIXA_ETARIA']<=3)]

#### Filtrar para concluintes recentes e próximos de concluir

In [109]:
mat_alunos_df = mat_alunos_df.loc[(mat_alunos_df['TP_ST_CONCLUSAO']<=2)]

#### Excluir valores faltantes da coluna NU_NOTA_MT

In [110]:
mat_alunos_df = mat_alunos_df.dropna(subset='NU_NOTA_MT')

#### Excluir demais valores faltantes

Como há muitos valores faltantes quanto às features de localização (CO_MUNICIPIO_ESC, NO_MUNICIPIO_ESC, CO_UF_ESC, SG_UF_ESC, TP_DEPENDENCIA_ADM_ESC e TP_LOCALIZACAO_ESC), a partir deste ponto há algumas alternativas. Citando duas delas:
* preencher os valores faltantes;
* descartar esses registros.

Devido a riqueza e variabilidade das features, seguirei com a segunda das alternativas. A qual, apesar de reduzir ainda mais o dataset, evitaria possíveis distorções e conclusões errôneas nas etapas seguintes.

In [111]:
mat_alunos_df = mat_alunos_df.dropna()

### Tratar features qualitativas

In [112]:
mat_alunos_df.columns

Index(['TP_FAIXA_ETARIA', 'TP_SEXO', 'TP_COR_RACA', 'TP_ST_CONCLUSAO',
       'TP_ESCOLA', 'NO_MUNICIPIO_ESC', 'SG_UF_ESC', 'TP_LOCALIZACAO_ESC',
       'NU_NOTA_MT', 'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006', 'Q007',
       'Q008', 'Q009', 'Q010', 'Q011', 'Q012', 'Q013', 'Q014', 'Q015', 'Q016',
       'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023', 'Q024', 'Q025'],
      dtype='object')

#### TP_FAIXA_ETARIA

In [113]:
mat_alunos_df.TP_FAIXA_ETARIA = mat_alunos_df.TP_FAIXA_ETARIA.map({2:'17', 3:'18'})

#### TP_SEXO

In [114]:
mat_alunos_df.TP_SEXO = mat_alunos_df.TP_SEXO.map({'M':'Masculino', 'F':'Feminino'})

#### TP_COR_RACA

In [115]:
mat_alunos_df.TP_COR_RACA = mat_alunos_df.TP_COR_RACA.map(
    {0:'Não declarado', 1:'Branca', 2:'Preta', 3:'Parda', 4:'Amarela', 5:'Indígena', 6:'Não dispõe da informação'})

#### TP_ST_CONCLUSAO

In [116]:
mat_alunos_df.TP_ST_CONCLUSAO.unique()

array([2], dtype=int64)

Como a seleção pela faixa etária acabou excluíndo alunos que já concluíram o ensino médio, a feature TP_ST_CONCLUSAO acabou se tornando redundante e será excluída.

In [117]:
mat_alunos_df.drop(columns='TP_ST_CONCLUSAO', axis=1, inplace=True)

#### TP_ESCOLA

In [118]:
mat_alunos_df.TP_ESCOLA = mat_alunos_df.TP_ESCOLA.map({2:'Público', 3:'Privada'})

#### TP_LOCALIZACAO_ESC

In [119]:
mat_alunos_df.TP_LOCALIZACAO_ESC = mat_alunos_df.TP_LOCALIZACAO_ESC.map({1:'Urbana', 2:'Rural'})

#### Tratando algumas das features do questionário socioeconomico

In [310]:
quest_alunos_df = mat_alunos_df.copy()

In [311]:
dicionario_renda_Q006 = {'A':'Nenhuma Renda', 'B':'Até R$ 1.100,00', 'C':'Até R$ 1.650,00', 
                         'D':'Até R$ 2.200,00', 'E':'Até R$ 2.750,00', 'F':'Até R$ 3.300,00',
                         'G':'Até R$ 4.400,00', 'H':'Até R$ 5.500,00', 'I':'Até R$ 6.600,00',
                         'J':'Até R$ 7.700,00', 'K':'Até R$ 8.800,00', 'L':'Até R$ 9.900,00',
                         'M':'Até R$ 11.000,00', 'N':'Até R$ 13.200,00','O':'Até R$ 16.500,00',
                         'P':'Até R$ 22.000,00', 'Q':'Acima de R$ 22.000,00'}

In [312]:
quest_alunos_df.Q006 = quest_alunos_df.Q006.map(dicionario_renda_Q006)

#### Aplicando função map no questionário socioeconomico de Q008 à Q025

In [301]:
def auto_map_questionario(questao):
    '''Essa função reconhece o número de alternativas na questão e aplica o map correto, 
    entre sim e não ou as cinco alternativas disponíveis'''
    
    qtde_alternativas = len(quest_alunos_df[questao].unique())
    
    if qtde_alternativas == 5:
        quest_alunos_df[questao] = quest_alunos_df[questao].map({'A':'0', 'B':'1', 'C':'2', 'D':'3', 'E':'4 ou mais'})
        
    elif qtde_alternativas == 2:
        quest_alunos_df[questao] = quest_alunos_df[questao].map({'A':'Não', 'B':'Sim'})
        
    else:
        print('Erro')   

In [313]:
# recriando o nome da questão e repassando como argumento para a função auto_map_questionario(), com loop de 8 à 26

_=[auto_map_questionario('Q0{:002}'.format(i)) for i in range(8, 26)]

#### Lista de variaveis quantitativas

In [327]:
lista_variaveis = list(quest_alunos_df.columns)

In [332]:
lista_variaveis_quantitativas = ['NU_NOTA_MT','Q005']

In [342]:
# quest_alunos_df[lista_variaveis_quantitativas]

#### Lista de variáveis qualitativas

Q005 e NU_NOTA_MT são as únicas features quantitativas, talvez devesse transformar a renda para quantitativa também.

In [336]:
lista_variaveis_qualitativas = [var for var in lista_variaveis if var not in lista_variaveis_quantitativas]

In [343]:
# quest_alunos_df[lista_variaveis_qualitativas].head(3)

#  <a name="secao_3">3. Análise Descritiva</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

#### Descrição
* .describe().round(2)


In [348]:
quest_alunos_df[lista_variaveis_quantitativas].describe().round(2)

Unnamed: 0,NU_NOTA_MT,Q005
count,533953.0,533953.0
mean,548.56,3.87
std,112.05,1.16
min,0.0,1.0
25%,455.2,3.0
50%,534.1,4.0
75%,631.5,4.0
max,953.1,20.0


In [347]:
quest_alunos_df[lista_variaveis_qualitativas].describe().round(2)

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_COR_RACA,TP_ESCOLA,NO_MUNICIPIO_ESC,SG_UF_ESC,TP_LOCALIZACAO_ESC,Q001,Q002,Q003,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
count,533953,533953,533953,533953,533953,533953,533953,533953,533953,533953,...,533953,533953,533953,533953,533953,533953,533953,533953,533953,533953
unique,2,2,6,2,5205,27,2,8,8,6,...,5,5,2,5,2,2,5,2,5,2
top,17,Feminino,Branca,Público,São Paulo,SP,Urbana,E,E,D,...,1,0,Não,1,Não,Não,3,Não,1,Sim
freq,280764,304794,270199,383307,30586,109722,518244,176999,198188,147649,...,329501,505954,341141,293697,399203,363961,188656,419598,224974,500303


#### Coeficiente de Variação(?)

#### Matriz (simples) de correlação

In [3]:
# x.corr().round(2)

#  <a name="secao_4">4. Comportamento da Variável Dependente (Y)</a>
[voltar ao índice](#indice)

<hr style='border: 1px solid cyan;'>

* Às principais features .value_counts(normalize=True)
* box plot inicial
* algum gráfico de linha (a depender do tipo de dado)
* etc.

#  <a name="secao_5">5.  Análise de Outliers</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

Para a exclusão de outliers, usarei como regra os valores abaixo de Q1 - 1.5 x Amplitude e valores acima de Q3 + 1.5 x Amplitude. Sendo que a amplitude é definida pelo valor Q1-Q3.

* função de limites
* função de exclusão
* função de gráficos boxplot, histograma e boxplot bivariada

#### Feature x
(aplicar as funções necessárias para cada feature)

#  <a name="secao_6">6. Gráficos</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

A aplicação de alguns gráficos que sejam pertinentes, tais como:
* Distribuição de frequências (distplot)
* Gráficos de dispersão (pairplot). Variável dependente x variáveis explicativas.
* Jointplot é outra opção.
* lmplot. Plota uma reta de regressão entre duas variáveis juntamente com a dispersão entre elas.
* Análise bivariada com gráficos de barras ou boxplot* 
* Gráfico de matriz de correlação (essencial)
* Para dados geográficos/geolocalização density_mapbox, etc.


#  <a name="secao_7">7. Transformação dos Dados</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

AVISO: <i>Desta etapa em diante, os passos são aplicáveis somente se for utilizar os dados para criação de um modelo linear ou para outros modelos de machine learning</i>

* ex: transformar valores numéricos em valor logarítimo com np.log(feature)
* ex normalizar(?)
* boolean para binário
* criar variáveis dummies para valores de texto
* outros exemplos a serem recuperados de encoding

Aplicar distplot para observar a nova distribuição de Frequências, ou outro tipo de gráfico a fim de observar os resultados das transformações.

#  <a name="secao_x">X. Outras seções/etapas a depender do objetivo</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

8. Verificar Relação Linear

9. Separar o dataset entre dados de treino e de teste <br>
importar train_test_split ou separar manualmente

10. importar, estanciar e treinar um ou mais modelos, seja este de Machine Learning tradicional ou deep learning (NLP, DNN, etc).
<br> Alguns modelos tradicionais de Machine Learning:

###### modelos de regressão linear (prever valores contínuos):
* Regressão Linear
* Regressão Polinomial
* Ridge Regression
* Lasso Regression
* Stepwise Regression
* Regressão Linar Bayesiana
    
###### modelos de clusterização (agrupar objetos similares):
* K-Means
* Mean-Shift
* DBSCAN
* EM/GMM
* Hierarchical Clustering
    
###### modelos de classificação (identificar a qual categoria pertence)
* Logistic Regression
* Stochastic Gradient Descent
* Naive Bayes
* K-Nearest Neighbors (KNN)
* Decision Tree
* Random Forest
* Support Vector Machine (SVM)

11. comparar os modelos e selecionar o mais eficiente
* Os métodos podem variar conforme os modelos

12. Métricas para avaliar o modelo estimado
* ex: modelo.summary()
* usar biblioteca statsmodel (import statsmodels.api as sm)
* Obter previsões e Coeficiente de Regressão. Por fim interpretar os coeficientes estimados

* Modelos de Regressão:
    * Mean Absolute Error (MAE)
    * Mean Squared Error (MSE)
    * Root Mean Squared Error (RMSE)
    * R² (R-Squared) <br>
    
* Modelos de Classificação:
    * Accuracy
    * Confusion Matrix (não é uma métrica, mas para alguns pode ser fundamental)
    * Precision and Recall
    * F1-Score
    * AU-ROC <br>
    
* Modelos de Clusterização
    * Rand Index
    * Mutual Information Based Scores
    * Homogeneity, completeness and V-measure
    * Fowlkes-Mallows Score
    * Silhouette Coefficent
    * Calinski-Harabsz Index
    * Contingency Matrix
    * Pair Confusion Matrix

13. Modificando e reavaliando modelo após ajuste

14. Efetuar análises gráficas dos resultados do modelo
* ex: scatterplot entre valores estimados e reais
* ex: distplot para análise de resíduos (y_treino - y_previsto_treino)

15. Criar um simulador simples

16. Salvar o modelo estimado

17. Efetuar o deploy do projeto
ex:
* Passo 1 -> Criar arquivo do Modelo(joblib)
* Passo 2 -> Escolher a forma de deploy:
    * Arquivo Executável + TKinter
    * Deploy em um Microsite (Flask)
    * Deploy apenas para uso direto (Streamlit)
* Passo 3 -> Outro arquivo Python (pode ser Jupyter ou PyCharm)
* Passo 4 -> Importar streamlit e criar código
* Passo 5 -> Atribuir ao botão o carregamento do modelo
* Passo 6 -> Deploy feito

18. Exportar dados criando dashboard PowerBI

#  <a name="conclusao">Conclusão</a>
<hr style='border: 1px solid cyan;'>

[voltar ao índice](#indice)

Ipsum aliquam adipisci adipisci neque labore. Numquam sit eius etincidunt dolore ipsum amet consectetur. Etincidunt ut quiquia labore sed. Amet eius dolore amet labore tempora dolorem magnam. Amet porro est consectetur magnam aliquam dolorem. Modi est consectetur est quiquia. Adipisci aliquam est consectetur tempora.