<a href="https://colab.research.google.com/github/kelvingamedev/trabalho_pandas_qads/blob/main/trabalho_pandas_qads.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lista Pandas - Desempenho dos Alunos GDF

O dataset analisado aqui descreve o desempenho dos alunos da rede pública do Distrito Federal. Nele encontramos as notas bimestrais de todas as matérias oferecidas a cada aluno do GDF, juntamente com informações básicas sobre a escola, o curso e a série do aluno. A fonte dos dados é o portal de dados abertos do GDF.

Utilize o dataset para responder as questões abaixo. Coloque sua solução somente dentro do espaço delimitado para a resposta e não altere nenhum outro código disponibilizado. As bibliotecas para a resolução de todos os problemas já foram importadas na célula abaixo.

Obs.: Caso alguma delas não esteja instalada no seu ambiente execute o processo de instalção através de !pip install <nome_da_biblioteca>



In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

import requests as r
from zipfile import ZipFile
import io

import warnings
warnings.filterwarnings('ignore')

In [2]:
def get_data(rows=None,download=True) -> pd.core.frame.DataFrame:
    
    """ get_data(rows: int=None, download: bool=True) -> pandas.core.frame.DataFrame:
        
        - Retorna os dados para serem utilizados na resolução da lista. 
        - Utilize o parâmetro 'download' caso você já possua os dados na sua pasta de trabalho.
        
        
        ** Parâmetros **
        ________________
        
        rows : quantidade de linhas a serem lidas no dataset, padrão é None e representa todo o dataset.
        download : define se a função executará o processo de download e extração dos dados, padrão True.
        
        ** Exemplos **
        ________________
        
        >> df = get_data(rows=100)
        >> df.shape
        >> (100,23)
        
        
        >> df = get_data(rows=578)
        >> df.shape
        >> (578,23)
        
    """
    
    if download == True:
            
        file_zipped = r.get('http://dados.df.gov.br/dataset/b8436049-44e7-4224-95b4-224718a4b166/resource/3e654a9d-0647-4e39-930e-7cd07faec888/download/dados-abertos---desempenho-escolar20180515160111.zip')  
        z = ZipFile(io.BytesIO(file_zipped.content))
        z.extractall('.')
    
    return pd.read_csv('dados abertos - desempenho escolar_20180515_160111.csv',sep=';',encoding='latin-1',nrows=rows)

In [3]:
df = get_data()

1. Quantos alunos diferentes estão matriculados no curso "Ensino Médio"?

Primeiro, devemos observar a estrutura do dataframe

In [4]:
df.head(1)

Unnamed: 0,cod_coordenacao_regional,coordenacao_regional,cod_escola,escola,cod_curso,curso,cod_serie,serie,cod_turno,turno,cod_turma,turma,cod_aluno,bimestre,cod_disciplina,disciplina,nota_bimestral,aulas_bimestre,faltas_bimestre,faltas_justificadas_bimestre,aulas_globalizadas,faltas_globalizadas,faltas_justificadas_globalizadas
0,3,CRE - Plano Piloto,1,CENTRO DE ENSINO FUNDAMENTAL POLIVALENTE,5,Ensino Fundamental de 9 Anos,8,6º Ano,5,Diurno,100329.0,6º ANO B,-8376490126953895597,1,22,Projeto Interdisciplinar I,9.0,10.0,0.0,0.0,,,


Em seguida, é importante se atentar a possíveis valores ausentes

In [5]:
df.isna().sum()[df.isna().sum() != 0]

cod_turma                                896
turma                                    896
nota_bimestral                        788999
aulas_bimestre                       3423972
faltas_bimestre                      3423972
faltas_justificadas_bimestre         4274032
aulas_globalizadas                  11991797
faltas_globalizadas                 11990519
faltas_justificadas_globalizadas    11991797
dtype: int64

Com base nas perguntas e nas colunas com valores pendentes, a maior preocupção é em decorrência da falta de notas afetar nossas análises. Número de faltas, quantidade de aulas e turmas não serão solicitados

Voltando a pergunta 1, devemos verificar quais séries são referentes ao ensino médio

In [6]:
df[["cod_serie", "serie", "escola"]].groupby('cod_serie', group_keys=False).apply(lambda df: df.sample(1))

Unnamed: 0,cod_serie,serie,escola
1242117,8,6º Ano,CENTRO DE ENSINO FUNDAMENTAL 802 DO RECANTO DA...
2534665,9,7º Ano,CENTRO DE ENSINO FUNDAMENTAL PIPIRIPAU II
4763735,10,8º Ano,CENTRO DE ENSINO FUNDAMENTAL 802 DO RECANTO DA...
6079331,11,9º Ano,CENTRO DE ENSINO FUNDAMENTAL 504 DE SAMAMBAIA
6849058,16,6º Ano,Centro de Ensino Fundamental 03 do Paranoá
6851176,17,7º Ano,Centro de Ensino Fundamental 03 do Paranoá
6857265,18,8º Ano,CENTRO EDUCACIONAL POMPÍLIO MARQUES DE SOUZA
6863888,19,9º Ano,CENTRO EDUCACIONAL POMPÍLIO MARQUES DE SOUZA
7973545,20,1ª Série,Centro Educacional 01 do Guará
9594382,21,2ª Série,CENTRO DE ENSINO MÉDIO 03 DE CEILÂNDIA


Claramente, sexto ano ao nono ano são referentes ao ensino fundamental. Em seguida, vem alguns códigos do ensino médio.Depois, temos algumas séries referentes ao fundamental. Mais alguns códigos referentes a pré-escola. Depois ensino especial, isso com uma ressalva de uma série do ensino especial no ensino médio (incluso, portanto). Depois, pegamos apenas os códigos referentes ao terceiro ciclo, que é o ensino médio, além dos "Bloco Ensino Médio"

De posse desses indices, filtramos apenas os códigos de séries pertinentes 

In [7]:
df_ensino_medio = df[df.cod_serie.isin([20, 21, 22, 23, 24, 25, 53, 58, 59, 60, 83, 84])]

Calculamos quantos alunos estão matriculados no ensino médio considerando apenas códigos de identificação únicos, já que é um dataset com notas e códigos repetidos 

In [8]:
df_ensino_medio.cod_aluno.nunique()

82536

82536 alunos estão matriculados no ensino médio do DF.

2. Levando em consideração somente os alunos do curso "Ensino Médio". Descreva a porcentagem de alunos que foram aprovados e reprovados (aluno aprovado é aquele que tirou 5 ou mais como nota final em todas as matérias cursadas) por série.

Principal questão para resolução dessa ponto é se devemos calcular a nota final ou já temos posse do valor no dataset

In [9]:
df_ensino_medio.bimestre.unique()

array(['1', '2', '3', '4', 'resultado final'], dtype=object)

Sabendo que temos a nota de resultado final, não iremos calcular através de resultados parciais

Vamos criar uma função para decidir se as notas de resultado final são superiores ou iguais a um valor x

In [10]:
def notas_acima(df, parametro):
  return all(df[df.bimestre == "resultado final"].nota_bimestral >= parametro)

Depois, fazer um agrupamento das notas do aluno e cálculo se ele reprovou ou não

In [11]:
aprovados_ensino_medio = df_ensino_medio.groupby("cod_aluno", group_keys = False).apply(lambda x: notas_acima(x, 5.0))

Então, mesclamos a informação da aprovação com o dataframe do ensino médio

In [12]:
df_ensino_medio["aprovado"] = df_ensino_medio.cod_aluno.map(lambda x: aprovados_ensino_medio[x])

Para facilitar, também vamos definir uma função que calcule o percentual de alunos que atendem ou não uma regra X, que é definido com base no resultado booleano já salvo no dataframe

In [13]:
def percentual(df, regras):
  n = len(df)
  n_aprovado = sum(df[regras[0]])
  percentual_aprovado = (n_aprovado / n) * 100
  percentual_desaprovado = (abs(100.0 - percentual_aprovado)) 
  return f"{regras[0].capitalize()}: {round(percentual_aprovado, 2)}% | {regras[1].capitalize()} {round(percentual_desaprovado, 2)}%"

Desconsiderando notas repetidas, para pegar apenas o aluno e sua aprovação, realizamos o agrupamento e exibição do resultado

In [14]:
df_ensino_medio.drop_duplicates('cod_aluno').groupby("serie", group_keys = False).apply(lambda x: percentual(x, ["aprovado", "reprovado"]))

serie
1ª Série                         Aprovado: 42.94% | Reprovado 57.06%
1ª Série EM Especial               Aprovado: 100.0% | Reprovado 0.0%
2ª Série                         Aprovado: 40.21% | Reprovado 59.79%
3ª Série                         Aprovado: 48.27% | Reprovado 51.73%
3º Ciclo - Bloco 1               Aprovado: 28.71% | Reprovado 71.29%
3º Ciclo - Bloco 2               Aprovado: 48.41% | Reprovado 51.59%
Bloco Ensino Médio - 1ª série    Aprovado: 66.67% | Reprovado 33.33%
Bloco Ensino Médio - 2ª série    Aprovado: 81.67% | Reprovado 18.33%
Bloco Ensino Médio - 3ª série    Aprovado: 73.33% | Reprovado 26.67%
dtype: object

3. As coordenações regionais são instituições que cuidam das escolas públicas de uma determinada região. Busque dados populacionais de cada coordenação regional e demonstre se há alguma correlação entra a quantidade de alunos de cada coordenação e a população daquela cidade satélite.

Foi encontrada uma tabela com regiões administrativas no DF no Wikipedia

In [15]:
populacao_por_regiao_df = pd.read_html ('https://pt.wikipedia.org/wiki/Lista_de_regi%C3%B5es_administrativas_do_Distrito_Federal_por_popula%C3%A7%C3%A3o', index_col = 1)[0].drop("Posição",axis=1)

Sabendo que no dataframe, as CRE (coordenações regionais estudantis) constam com um prefixo desnecessário, iremos definir uma função para retira-lo.

In [16]:
def remove_cre(string):
  return string.replace("CRE - ", "")

E aplicar aos dataframes do ensino médio e todos alunos do DF.

In [17]:
df.coordenacao_regional = df.coordenacao_regional.apply(remove_cre)
df_ensino_medio.coordenacao_regional = df_ensino_medio.coordenacao_regional.apply(remove_cre)

Vamos contar a quantidade de alunos por CRE

In [20]:
quantidade_de_alunos_cre = df[["coordenacao_regional", "cod_aluno"]].groupby("coordenacao_regional", group_keys=False)["cod_aluno"].nunique()

E transformar em um dataframe com nomes de colunas apropriados

In [21]:
regioes_df = quantidade_de_alunos_cre.to_frame().rename(columns = {"cod_aluno": "quantidade_de_alunos"}).reset_index()

A função abaixo serve para transformar a string de populção em um valor inteiro

In [22]:
def get_int(a_string):
  return (int) ("".join([word for word in a_string.split() if word.isdigit()]))

Aplicamos a função

In [23]:
regioes_df["populacao"] = regioes_df.coordenacao_regional.apply(lambda x: get_int(populacao_por_regiao_df.loc[x, "População"]))

E mostramos a correlação

In [24]:
regioes_df.corr()

Unnamed: 0,quantidade_de_alunos,populacao
quantidade_de_alunos,1.0,0.93772
populacao,0.93772,1.0


0.93 é uma correlação muito forte, sendo assim, quanto maior o número de alunos de uma determinada região, maior é a população daquela região. Isso, entretanto, não é suficiente para dizer uma coisa causa a outra

4. Levando em consideração somente os alunos do curso "Ensino Médio". Demonstre a porcentagem de alunos que obtiveram notas finais maiores ou iguais a 8 em Química, Física e Biologia, por coordenação Regional.

Vamos chamar de "Critério 1" o booleano que confirma o atendimento a regra de nota superior a 8 para as disciplinas informadas

In [25]:
criterio1 = df_ensino_medio[df.disciplina.str.contains("Química|Física|Biologia")].groupby("cod_aluno", group_keys = False).apply(lambda x: notas_acima(x, 8.0))

Importante notar que nem todos alunos do ensino médio possuem registros dessas disciplinas.

In [26]:
len(criterio1) != df_ensino_medio.cod_aluno.nunique()

True

Sendo assim, quando o registro não existir, vamos considerar que não atende ao critério. Caso contrário, pegamos o valor do critério já contabilizado

In [27]:
df_ensino_medio["criterio1"] = df_ensino_medio.cod_aluno.map(lambda x: criterio1[x] if criterio1.get(x) != None else False)

Novamente, pegamos códigos únicos de alunos e calculamos o percentual dos que atendem ou não a regra

In [28]:
df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional", group_keys = False).apply(lambda x: percentual(x, ["criterio1", "!criterio1"]))

coordenacao_regional
Brazlândia            Criterio1: 14.65% | !criterio1 85.35%
Ceilândia             Criterio1: 18.08% | !criterio1 81.92%
Gama                  Criterio1: 14.14% | !criterio1 85.86%
Guará                 Criterio1: 21.89% | !criterio1 78.11%
Núcleo Bandeirante    Criterio1: 21.03% | !criterio1 78.97%
Paranoá               Criterio1: 21.08% | !criterio1 78.92%
Planaltina            Criterio1: 13.72% | !criterio1 86.28%
Plano Piloto          Criterio1: 13.52% | !criterio1 86.48%
Recanto das Emas      Criterio1: 20.22% | !criterio1 79.78%
Samambaia             Criterio1: 20.64% | !criterio1 79.36%
Santa Maria           Criterio1: 18.59% | !criterio1 81.41%
Sobradinho              Criterio1: 16.5% | !criterio1 83.5%
São Sebastião         Criterio1: 19.62% | !criterio1 80.38%
Taguatinga            Criterio1: 15.64% | !criterio1 84.36%
dtype: object

5. Qual coordenação regional tem a maior quantidade de alunos matriculados no turno diurno do curso "Ensino Médio".Considere somente as coordenações regionais que possuem um número acima da média de aprovados.

Primeiro, contabilizamos a média de aprovados do ensino médio

In [29]:
media_aprovados = round(df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional").aprovado.sum().mean(), 2)
media_aprovados

2565.07

Armazenamos os índices dos CREs que são superiores a média  

In [30]:
cres_acima_media = df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional").aprovado.sum() > media_aprovados

Por fim, contabilizamos dos CREs, qual do período diurno possui maior número de aprovados, que é a Ceilândia

In [31]:
df_ensino_medio[df.turno == "Diurno"].drop_duplicates('cod_aluno').groupby("coordenacao_regional").aprovado.sum()[cres_acima_media].sort_values().tail(1)

coordenacao_regional
Ceilândia    4906
Name: aprovado, dtype: int64

6. Considerando somente alunos do curso "Ensino Médio". Os alunos do turno diurno perfomam melhor que os alunos do turno noturno nas matérias de química, física e biologia. (Verdadeiro ou Falso, demonstre com dados).


Para responder a pergunta, só precisamos somar aqueles que atendem ao critério solicitado no período diurno

In [32]:
criterio1_periodo_diruno = df_ensino_medio[df.turno == "Diurno"].drop_duplicates('cod_aluno')[["criterio1"]].sum()
criterio1_periodo_diruno

criterio1    10497
dtype: int64

No período noturno

In [33]:
criterio1_periodo_noturno = df_ensino_medio[df.turno == "Noturno"].drop_duplicates('cod_aluno')[["criterio1"]].sum()
criterio1_periodo_noturno

criterio1    3855
dtype: int64

E comparar

In [34]:
criterio1_periodo_diruno > criterio1_periodo_noturno

criterio1    True
dtype: bool

Verdadeiro, os alunos do período diurno performam melhor nas matérias Química, Física e Biologia do que os alunos do período noturno.