In [1]:
import pandas as pd
import numpy as np

#biblioteca plotly
import plotly.graph_objs as go
import plotly.plotly as py
from plotly import tools
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

init_notebook_mode(connected=True)

In [2]:
dados_nordeste = pd.read_csv("dados/enade2017_computacao_nordeste_convertido.csv")
# dados_nordeste = dados_nordeste[dados_nordeste["TP_INSCRICAO"]==1] desnecessario
dados_custo = pd.read_csv("dados/instituicoes_federais_nordeste_custo.csv")[["Instituicao", "custoAluno"]]

dados_custo = pd.merge( 
                        dados_nordeste, 
                        dados_custo, 
                        left_on=['Instituicao'], 
                        right_on=['Instituicao'], 
                        how='inner'
                      )


### A nota geral do aluno no ENADE é influenciada por características socioeconômicas do mesmo?


In [3]:
dados_nordeste_publicas = dados_nordeste[ dados_nordeste["QE_I08_Convertido"] != "Não informado" ]


order_q08 = pd.DataFrame(
                dados_nordeste_publicas.groupby('QE_I08_Convertido')['NT_GER'].mean()
            ).reset_index().sort_values(by='NT_GER', ascending=False)

layout = go.Layout(
            title=go.layout.Title(
                text='Desempenho dos alunos de acordo com suas caracteristicas Socioeconômicas',
                x=0.5
            ),
            yaxis=go.layout.YAxis(
                title=go.layout.yaxis.Title(
                    text='Média geral das notas',
                )
            ),
            width=700
        )

fig = go.Figure(layout=layout)
fig.add_trace(
    go.Bar(
            x=order_q08["QE_I08_Convertido"],
            y=order_q08["NT_GER"],
            marker_color=["#F08080", "#AFEEEE","#D8BFD8","#FFC0CB","#4169E1", "#D3D3D3", "#B0C4DE"],
    )
)


iplot(fig)

In [4]:
test = pd.DataFrame(
                dados_nordeste_publicas.groupby('QE_I08_Convertido').size()
            ).reset_index()
test

Unnamed: 0,QE_I08_Convertido,0
0,"1,5 a 3 salários-minimos",415
1,10 a 30 salários-minimos,183
2,"3 a 4,5 salários-minimos",337
3,"4,5 a 6 salários-minimos",173
4,6 a 10 salários-minimos,236
5,Acima de 30 salários,17
6,"Até 1,5 salários-minimos",305


#### Conclusão:
Sim, a nota é influenciada por características socioeconômicas dos mesmos. 

Pois, como podemos observar, os alunos que declararam ter uma renda familiar de **10 a 30 salários mínimos** conseguiram uma pontuação em média **10 pontos** maior do que os candidatos com renda familiar de até **1,5 salários minimos**.

Além disso, é possível observar que **a média e mediana das notas dos candidatos cresce conforme a classe socioeconômica do mesmo**. Ou seja, quanto maior é a renda familiar declarada, maior é a nota média daquele grupo de candidatos.

Não sendo o caso apenas para os candidatos que declararam renda familiar **Acima de 30 salários**. 
Talvez isso seja por conta do tamanho do grupo aqui representado, que seriam os alunos dentro dessa faixa socioeconômica *(17 candidatos)*, que pode não ser uma amostra grande o suficiente para representar, em termos gerais, o estrato social a que pertencem. 

### A nota geral do ENADE dos cursos é influenciada pelo custo aluno? Isto é, quanto mais caro o aluno, mais investimento é feito e maior é a nota?

In [5]:
# Ordenado do maior gasto para o menor gasto
dados_custo['custoAluno_legenda'] = ["Custo - " + str(item) for item in dados_custo['custoAluno']]
dados_custo_filtrado = pd.DataFrame(dados_custo.groupby('custoAluno_legenda')['NT_GER'].mean()).reset_index(
        ).sort_values(by='custoAluno_legenda', ascending=False)
layout = go.Layout(
    title=go.layout.Title(
        text='Desempenho de alunos de acordo com o investimento recebido',
        x=0.5
    ),
    yaxis=go.layout.YAxis(
        title=go.layout.yaxis.Title(
            text='Média geral das notas',
            )
    ),
    showlegend=False)

fig = go.Figure(layout=layout)
fig.add_trace(go.Bar(
            x=dados_custo_filtrado["custoAluno_legenda"],
            y=dados_custo_filtrado["NT_GER"],
            marker_color=["#F08080", "#AFEEEE","#D8BFD8","#FFC0CB","#4169E1", "#D3D3D3", "#B0C4DE",
                         "#F08080", "#AFEEEE","#D8BFD8","#FFC0CB","#4169E1", "#D3D3D3", "#B0C4DE"],
            
    ))
iplot(fig)

In [6]:

layout = go.Layout(
    title=go.layout.Title(
        text='Desempenho de alunos de acordo com o investimento recebido',
        x=0.5
    ),
    yaxis=go.layout.YAxis(
        title=go.layout.yaxis.Title(
            text='Nota geral obtida',
            )
    ),
    xaxis=go.layout.XAxis(
        title=go.layout.xaxis.Title(
            text='Investimento dado ao aluno',
            )
    ),
    showlegend=False)

fig = go.Figure(layout=layout)

fig.add_trace(go.Scatter(x=dados_custo["custoAluno"], y=dados_custo["NT_GER"],
                    mode='markers',
                    name='markers'))

fig.show()

#### Conclusão:
Não é uma unanimidade, já que se compararmos o menor investimento poderemos ver a diferença de 10 pontos em média  para o de maior investimento, mas também se olharmos que as médias de notas para os candidatos de custo de **R\$51.548,10** e **R\$39.754,90** tem quase o mesmo desempenho, com uma diferença de quase **11 mil reais** de um investimento para outro.

### O desempenho dos alunos de universidade privada foram melhores do que o de universidades públicas? Para alunos com mesma características socioeconômicas

In [7]:
dados_nordeste_publicas = dados_nordeste[(dados_nordeste["CO_CATEGAD"]== 1)].append(dados_nordeste[(dados_nordeste["CO_CATEGAD"]== 2)]).append(dados_nordeste[(dados_nordeste["CO_CATEGAD"]== 3)])
dados_nordeste_publicas = dados_nordeste_publicas[dados_nordeste_publicas["QE_I08_Convertido"] != "Não informado"]
order_q08_publicas = pd.DataFrame(dados_nordeste_publicas.groupby('QE_I08_Convertido')['NT_GER'].mean()).reset_index(
        ).sort_values(by='NT_GER', ascending=False)

dados_nordeste_privadas = dados_nordeste[(dados_nordeste["CO_CATEGAD"]== 4)].append(dados_nordeste[(dados_nordeste["CO_CATEGAD"]== 5)])
dados_nordeste_privadas = dados_nordeste_privadas[dados_nordeste_privadas["QE_I08_Convertido"] != "Não informado"]
order_q08_privadas = pd.DataFrame(dados_nordeste_privadas.groupby('QE_I08_Convertido')['NT_GER'].mean()).reset_index(
        ).sort_values(by='NT_GER', ascending=False)

layout = go.Layout(
    title=go.layout.Title(
        text='Desempenho de alunos de instituições públicas e privadas e suas caracteristicas socioeconômicas',
        x=0.5
    ),
    yaxis=go.layout.YAxis(
        title=go.layout.yaxis.Title(
            text='Média geral das notas',
            )
    ))

fig = go.Figure(layout=layout)
fig.add_trace(go.Bar(
            x=order_q08_publicas["QE_I08_Convertido"],
            y=order_q08_publicas["NT_GER"],
            marker_color="#4169E1",
            name="Públicas"
    ))

fig.add_trace(go.Bar(
            x=order_q08_privadas["QE_I08_Convertido"],
            y=order_q08_privadas["NT_GER"],
            marker_color="#F08080",
            name="Privadas"
    ))
iplot(fig)

#### Conclusão:
Não, no gráfico podemos observar que alunos de universidades públicas se sairam melhores no quesito nota geral, mostrando então que estão saindo melhores profissionais, sendo mais direto, as universidades públicas formam melhores profissionais e observando a faixa socioeconômica vemos que isso não influência de maneira geral num desempenho melhor para os individuos na mesma faixa.

### Considerando cursos que tiveram o mesmo conceito no ENADE, os alunos compartilham características sócio-econômicas em comum? (essa é a pergunta mais trabalhosa para responder e cada grupo deve identificar como fazer isso).

Para conseguir responder a esta pergunta, iremos separar as amostras pelos conceitos dos cursos dos alunos.

Com os dados separados por conceito, iremos avaliar em cada um desses grupos o que eles responderam na seção de **Questionário do Estudante** que contém as características sócio-econômicas que temos interesse. 

Assim nos casos em que mais de 50% (LIMITE DE SIMILARIDADE) dos alunos votaram em uma determinada característica, vamos considerar que aquela característica é compartilhada por boa parte dos indivíduos daquele grupo. Ou seja, dentro de uma amostra com usuários de um curso de mesmo conceito no ENADE, caso mais de 50% respondam a mesma coisa para uma determinada característica, iremos marcar aquela característica como em comum entre os alunos daquele grupo.  

Para identificar qual a resposta em comum entre os candidatos utilize o 
[dicionario de dados](./dicionario_dados.xlsx). 

In [19]:
from collections import defaultdict
from utils import tabela_traducao

LIMITE_SIMILARIDADE = 0.52

sorted_data = lambda data: data.sort_values(by='count_conceito', ascending=False)

target_cols = []
for col in dados_nordeste.columns: 
    if 'QE_I' in col and 'Convertido' not in col and int(col.replace('QE_I', '')) <= 26:
        target_cols.append(col)
target_cols_mod = target_cols + ['NU_ANO']

conceito_1 = dados_nordeste[dados_nordeste["CONCEITO"]==1][target_cols_mod]
conceito_2 = dados_nordeste[dados_nordeste["CONCEITO"]==2][target_cols_mod]
conceito_3 = dados_nordeste[dados_nordeste["CONCEITO"]==3][target_cols_mod]
conceito_4 = dados_nordeste[dados_nordeste["CONCEITO"]==4][target_cols_mod]
conceito_5 = dados_nordeste[dados_nordeste["CONCEITO"]==5][target_cols_mod]

conceitos = [conceito_1, conceito_2, conceito_3, conceito_4, conceito_5 ]
sizes_conceitos = [len(c) for c in conceitos]

similarities = defaultdict(lambda: [])

for idx, c in enumerate(conceitos):
    conceito_label = f"Conceito {idx+1}"
    for col in target_cols: 
        d = c.groupby(col).size().to_frame()        
        # Normaliza dados com porcentagens de voto pra cada opção 
        g_ans = d.apply(lambda n: n/sizes_conceitos[idx])  
        
        porcentagem, resposta = g_ans[0].max(), g_ans.idxmax()[0]
        if porcentagem > LIMITE_SIMILARIDADE:
            similarities[conceito_label].append((g_ans[0].max(), col, resposta))
           
            
for idx in range(5):
    label = f"Conceito {idx+1}"
    sim_data = similarities[label]
    
    print(f"Candidatos de cursos {label.upper()} no ENADE ({sizes_conceitos[idx]} amostras)\n\t"
          f"apresentam {len(sim_data)} características em comum de um total de {len(target_cols)}.\n")
    
    common = sorted(sim_data, key= lambda el: -el[0])
    for sim, col, resposta in common: 
        print(f"{col} ({resposta}) {sim*100:.02f}%\n\t{tabela_traducao[col]}\t")
    print('\n' + ("-" * 80) + '\n')


Candidatos de cursos CONCEITO 1 no ENADE (7 amostras)
	apresentam 17 características em comum de um total de 26.

QE_I03 (A) 100.00%
	Qual a sua nacionalidade?	
QE_I11 (A) 100.00%
	Que tipo de bolsa de estudos ou financiamento do curso você recebeu para custear todas ou a maior parte das mensalidades?	
QE_I14 (A) 100.00%
	Durante o curso de graduação você participou de programas e/ou atividades curriculares no exterior?	
QE_I24 (E) 100.00%
	Você teve oportunidade de aprendizado de idioma estrangeiro na Instituição?	
QE_I01 (A) 85.71%
	Qual o seu estado civil?	
QE_I02 (D) 85.71%
	Qual é a sua cor ou raça?	
QE_I06 (B) 85.71%
	Onde e com quem você mora atualmente?	
QE_I12 (A) 85.71%
	Ao longo da sua trajetória acadêmica, você recebeu algum tipo de auxílio permanência?	
QE_I15 (A) 85.71%
	Seu ingresso no curso de graduação se deu por meio de políticas de ação afirmativa ou inclusão social?	
QE_I16 (24.0) 85.71%
	Em que unidade da Federação você concluiu o ensino médio?	
QE_I17 (A) 71.43%
	

----- 

#### Melhoria no conceito de similaridade 

Como pudemos identificar existem algumas características em comum entre alguns dos grupos. Algumas dessas características como nacionalidade, estado civil, onde e com quem mora não são tão únicas. Vamos filtrar então para só exibir as características socio-econômicas pertencentes de maneira majoritária apenas a 1 grupo.

Ou seja, caso ele compartilhe essa característica, que é majoritária nele, com qualquer outro grupo de que também apresenta essa caracetística de maneira majoritária a mesma não será considerada. 



In [20]:
for idx in range(5):
    label = f"Conceito {idx+1}"
    sim_data = similarities[label]
    
    def is_unique(s): 
        for i in range(5):
            if idx == i: continue
            sims_other = similarities[f"Conceito {i+1}"]
            for s2 in sims_other:
                if s[1:] == s2[1:]: 
                    return False
        return True
    
    sim_data = [s for s in sim_data if is_unique(s)]
    if len(sim_data) == 0: continue 
    
    print(f"Candidatos de cursos {label.upper()} no ENADE ({sizes_conceitos[idx]} amostras)\n\t"
          f"apresentam {len(sim_data)} características em comum de um total de {len(target_cols)}.")
    
    common = sorted(sim_data, key= lambda el: -el[0])
    for sim, col, resposta in common: 
        print(f"{col} ({resposta}) {sim*100:.02f}%\n\t{tabela_traducao[col]}\t")
    print('\n' + ("-" * 80) + '\n')

Candidatos de cursos CONCEITO 1 no ENADE (7 amostras)
	apresentam 6 características em comum de um total de 26.
QE_I02 (D) 85.71%
	Qual é a sua cor ou raça?	
QE_I16 (24.0) 85.71%
	Em que unidade da Federação você concluiu o ensino médio?	
QE_I17 (A) 71.43%
	Em que tipo de escola você cursou o ensino médio?	
QE_I25 (A) 71.43%
	Qual o principal motivo para você ter escolhido este curso?	
QE_I26 (A) 71.43%
	Qual a principal razão para você ter escolhido a sua instituição de educação superior?	
QE_I08 (A) 57.14%
	Renda total da família, incluindo seus rendimentos?	

--------------------------------------------------------------------------------

Candidatos de cursos CONCEITO 5 no ENADE (304 amostras)
	apresentam 3 características em comum de um total de 26.
QE_I26 (F) 65.13%
	Qual a principal razão para você ter escolhido a sua instituição de educação superior?	
QE_I17 (B) 63.82%
	Em que tipo de escola você cursou o ensino médio?	
QE_I10 (A) 59.21%
	Qual alternativa a seguir melhor descre

Dessa perspectiva vemos que apenas os cursos de CONCEITO ENADE, 1 e 5, apresentaram respostas ao questionário socio-econômico que foram comuns apenas seus respectivos grupos. 

Para os candidatos dos cursos de CONCEITO 5 no ENADE. 
As características em comum são: 
    - QE_I26 (65.13%) = Qualidade/reputação
    - QE_I17 (63.82%) = Todo em escola privada (particular). 
    - QE_I10 (59.21%) = Não estou trabalhando.
    
Para os candidatos dos cursos de CONCEITO 1 no ENADE. 
As características em comum são: 
    - QE_I02 (85.71%) = Parda
    - QE_I16 (85.71%) = Rio Grande do Norte** (Dados possivelmente enviesados já que só consideram alunos do nordeste)
    - QE_I17 (71.43%) = Todo em escola pública.
    - QE_I25 (71.43%) = Inserção no mercado de trabalho.
    - QE_I26 (71.43%) = Gratuidade 
    - QE_I08 (57.14%) = Até 1,5 salário mínimo (até R$ 1.405,50).
    

### De acordo com as características socioeconômicas do aluno relacionando com sua raça: Qual é o desempenho na prova do enade  Nota bruta geral total e se a diferença entre as minorias e os brancos


In [12]:
dados_nordeste_brancos = dados_nordeste[dados_nordeste["QE_I02"]=="A"]
dados_nordeste_brancos = dados_nordeste_brancos[dados_nordeste_brancos["QE_I08_Convertido"] != "Não informado"]
order_brancos = pd.DataFrame(dados_nordeste_brancos.groupby('QE_I08_Convertido')['NT_GER'].mean()).reset_index(
        ).sort_values(by='NT_GER', ascending=False)

dados_nordeste_afros = dados_nordeste[dados_nordeste["QE_I02"]=="B"]
dados_nordeste_afros = dados_nordeste_afros[dados_nordeste_afros["QE_I08_Convertido"] != "Não informado"]
order_afros = pd.DataFrame(dados_nordeste_afros.groupby('QE_I08_Convertido')['NT_GER'].mean()).reset_index(
        ).sort_values(by='NT_GER', ascending=False)

dados_nordeste_indigenas = dados_nordeste[dados_nordeste["QE_I02"]=="E"]
dados_nordeste_indigenas = dados_nordeste_indigenas[dados_nordeste_indigenas["QE_I08_Convertido"] != "Não informado"]
order_indigenas = pd.DataFrame(dados_nordeste_indigenas.groupby('QE_I08_Convertido')['NT_GER'].mean()).reset_index(
        ).sort_values(by='NT_GER', ascending=False)

layout = go.Layout(
    title=go.layout.Title(
        text='Desempenho de alunos de acordo com sua etnia',
        x=0.5
    ),
    yaxis=go.layout.YAxis(
        title=go.layout.yaxis.Title(
            text='Média geral das notas',
            )
    ))

fig = go.Figure(layout=layout)
fig.add_trace(go.Bar(
            x=order_brancos["QE_I08_Convertido"],
            y=order_brancos["NT_GER"],
            marker_color="#4169E1",
            name="Brancos"
    ))

fig.add_trace(go.Bar(
            x=order_afros["QE_I08_Convertido"],
            y=order_afros["NT_GER"],
            marker_color="#F08080",
            name="Negros"
    ))
fig.add_trace(go.Bar(
            x=order_indigenas["QE_I08_Convertido"],
            y=order_indigenas["NT_GER"],
            marker_color="#B0C4DE",
            name="Indigenas"
    ))
iplot(fig)

#### Conclusão:
Geralmente alunos de etnia "branca" se sairam com notas melhores que os demais, tirando a faixa entre 1,5 salários-minimos. 

**Obs 1:** Ainda é bom observar que não se possui dados de etnia indigena que tenha declarado no questionário possuir mais do que 4,5 salários-minimos
**Obs 2:** O mesmo vale para negros mas a partir da faixa acima de 30 salários minimos.