<a href="https://colab.research.google.com/github/kelvingamedev/trabalho_pandas_qads/blob/main/trabalho_pandas_qads.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lista Pandas - Desempenho dos Alunos GDF

O dataset analisado aqui descreve o desempenho dos alunos da rede pública do Distrito Federal. Nele encontramos as notas bimestrais de todas as matérias oferecidas a cada aluno do GDF, juntamente com informações básicas sobre a escola, o curso e a série do aluno. A fonte dos dados é o portal de dados abertos do GDF.

Utilize o dataset para responder as questões abaixo. Coloque sua solução somente dentro do espaço delimitado para a resposta e não altere nenhum outro código disponibilizado. As bibliotecas para a resolução de todos os problemas já foram importadas na célula abaixo.

Obs.: Caso alguma delas não esteja instalada no seu ambiente execute o processo de instalção através de !pip install <nome_da_biblioteca>



In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

import requests as r
from zipfile import ZipFile
import io

import warnings
warnings.filterwarnings('ignore')

In [4]:
def get_data(rows=None,download=True) -> pd.core.frame.DataFrame:
    
    """ get_data(rows: int=None, download: bool=True) -> pandas.core.frame.DataFrame:
        
        - Retorna os dados para serem utilizados na resolução da lista. 
        - Utilize o parâmetro 'download' caso você já possua os dados na sua pasta de trabalho.
        
        
        ** Parâmetros **
        ________________
        
        rows : quantidade de linhas a serem lidas no dataset, padrão é None e representa todo o dataset.
        download : define se a função executará o processo de download e extração dos dados, padrão True.
        
        ** Exemplos **
        ________________
        
        >> df = get_data(rows=100)
        >> df.shape
        >> (100,23)
        
        
        >> df = get_data(rows=578)
        >> df.shape
        >> (578,23)
        
    """
    
    if download == True:
            
        file_zipped = r.get('http://dados.df.gov.br/dataset/b8436049-44e7-4224-95b4-224718a4b166/resource/3e654a9d-0647-4e39-930e-7cd07faec888/download/dados-abertos---desempenho-escolar20180515160111.zip')  
        z = ZipFile(io.BytesIO(file_zipped.content))
        z.extractall('.')
    
    return pd.read_csv('dados abertos - desempenho escolar_20180515_160111.csv',sep=';',encoding='latin-1',nrows=rows)

In [5]:
df = get_data()

6. Considerando somente alunos do curso "Ensino Médio". Os alunos do turno diurno perfomam melhor que os alunos do turno noturno nas matérias de química, física e biologia. (Verdadeiro ou Falso, demonstre com dados).



1. Quantos alunos diferentes estão matriculados no curso "Ensino Médio"?

In [216]:
df.head(1)

Unnamed: 0,cod_coordenacao_regional,coordenacao_regional,cod_escola,escola,cod_curso,curso,cod_serie,serie,cod_turno,turno,cod_turma,turma,cod_aluno,bimestre,cod_disciplina,disciplina,nota_bimestral,aulas_bimestre,faltas_bimestre,faltas_justificadas_bimestre,aulas_globalizadas,faltas_globalizadas,faltas_justificadas_globalizadas
0,3,Plano Piloto,1,CENTRO DE ENSINO FUNDAMENTAL POLIVALENTE,5,Ensino Fundamental de 9 Anos,8,6º Ano,5,Diurno,100329.0,6º ANO B,-8376490126953895597,1,22,Projeto Interdisciplinar I,9.0,10.0,0.0,0.0,,,


In [228]:
df.isna().sum()[df.isna().sum() != 0]

cod_turma                                896
turma                                    896
nota_bimestral                        788999
aulas_bimestre                       3423972
faltas_bimestre                      3423972
faltas_justificadas_bimestre         4274032
aulas_globalizadas                  11991797
faltas_globalizadas                 11990519
faltas_justificadas_globalizadas    11991797
dtype: int64

In [9]:
df.cod_serie.unique()

array([ 8,  9, 10, 11, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
       29, 30, 31, 32, 33, 34, 35, 36, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 53, 56, 57, 58, 59, 60, 83, 84])

In [10]:
df[["cod_serie", "serie", "escola"]].groupby('cod_serie', group_keys=False).apply(lambda df: df.sample(1))

Unnamed: 0,cod_serie,serie,escola
989568,8,6º Ano,CENTRO DE ENSINO FUNDAMENTAL 427 DE SAMAMBAIA
3071279,9,7º Ano,Centro Educacional 308 do Recanto das Emas
3726070,10,8º Ano,CENTRO DE ENSINO FUNDAMENTAL GAN
6286036,11,9º Ano,CENTRO DE ENSINO FUNDAMENTAL 214 SUL
6850127,16,6º Ano,Centro de Ensino Fundamental 02 do Riacho Fund...
6852147,17,7º Ano,Centro de Ensino Fundamental 03 do Paranoá
6855762,18,8º Ano,Centro de Ensino Fundamental 03 do Paranoá
6863638,19,9º Ano,CENTRO EDUCACIONAL POMPÍLIO MARQUES DE SOUZA
8562279,20,1ª Série,CENTRO EDUCACIONAL 01 DE PLANALTINA
9014839,21,2ª Série,Centro Educacional 619 de Samambaia


In [11]:
df_ensino_medio = df[df.cod_serie.isin([20, 21, 22, 23, 24, 25, 53, 58, 59, 60, 83, 84])]

In [12]:
f"Alunos diferentes matriculados no ensino médio: {len(df_ensino_medio.cod_aluno.value_counts())}"

'Alunos diferentes matriculados no ensino médio: 82536'

2. Levando em consideração somente os alunos do curso "Ensino Médio". Descreva a porcentagem de alunos que foram aprovados e reprovados (aluno aprovado é aquele que tirou 5 ou mais como nota final em todas as matérias cursadas) por série.

In [13]:
df_ensino_medio.bimestre.unique()

array(['1', '2', '3', '4', 'resultado final'], dtype=object)

In [213]:
def notas_acima(df, parametro):
  return all(df[df.bimestre == "resultado final"].nota_bimestral >= parametro)

In [214]:
aprovados_ensino_medio = df_ensino_medio.groupby("cod_aluno", group_keys = False).apply(lambda x: notas_acima(x, 5.0))

In [18]:
df_ensino_medio["aprovado"] = df_ensino_medio.cod_aluno.map(lambda x: aprovados_ensino_medio[x])

In [211]:
def percentual(df, regras):
  n = len(df)
  n_aprovado = sum(df[regras[0]])
  percentual_aprovado = (n_aprovado / n) * 100
  percentual_desaprovado = (abs(100.0 - percentual_aprovado)) 
  return f"{regras[0].capitalize()}: {round(percentual_aprovado, 2)}% | {regras[1].capitalize()} {round(percentual_desaprovado, 2)}%"

In [212]:
df_ensino_medio.drop_duplicates('cod_aluno').groupby("serie", group_keys = False).apply(lambda x: percentual(x, ["aprovado", "reprovado"]))

serie
1ª Série                         Aprovado: 42.94% | Reprovado 57.06%
1ª Série EM Especial               Aprovado: 100.0% | Reprovado 0.0%
2ª Série                         Aprovado: 40.21% | Reprovado 59.79%
3ª Série                         Aprovado: 48.27% | Reprovado 51.73%
3º Ciclo - Bloco 1               Aprovado: 28.71% | Reprovado 71.29%
3º Ciclo - Bloco 2               Aprovado: 48.41% | Reprovado 51.59%
Bloco Ensino Médio - 1ª série    Aprovado: 66.67% | Reprovado 33.33%
Bloco Ensino Médio - 2ª série    Aprovado: 81.67% | Reprovado 18.33%
Bloco Ensino Médio - 3ª série    Aprovado: 73.33% | Reprovado 26.67%
dtype: object

3. As coordenações regionais são instituições que cuidam das escolas públicas de uma determinada região. Busque dados populacionais de cada coordenação regional e demonstre se há alguma correlação entra a quantidade de alunos de cada coordenação e a população daquela cidade satélite.

In [147]:
populacao_por_regiao_df = pd.read_html ('https://pt.wikipedia.org/wiki/Lista_de_regi%C3%B5es_administrativas_do_Distrito_Federal_por_popula%C3%A7%C3%A3o', index_col = 1)[0].drop("Posição",axis=1)

In [232]:
def remove_cre(string):
  return string.replace("CRE - ", "")

In [235]:
df.coordenacao_regional = df.coordenacao_regional.apply(remove_cre)
df_ensino_medio.coordenacao_regional = df_ensino_medio.coordenacao_regional.apply(remove_cre)

In [40]:
quantidade_de_alunos_cre = df[["coordenacao_regional", "cod_aluno"]].groupby("coordenacao_regional", group_keys=alse)["cod_aluno"].nunique()F

In [157]:
regioes_df = quantidade_de_alunos_cre.to_frame().rename(columns = {"cod_aluno": "quantidade_de_alunos"}).reset_index()

In [168]:
def get_int(a_string):
  return (int) ("".join([word for word in a_string.split() if word.isdigit()]))

In [170]:
regioes_df["populacao"] = regioes_df.coordenacao_regional.apply(lambda x: get_int(populacao_por_regiao_df.loc[x, "População"]))

In [182]:
regioes_df.corr()

Unnamed: 0,quantidade_de_alunos,populacao
quantidade_de_alunos,1.0,0.93772
populacao,0.93772,1.0


0.93 é uma correlação muito forte, sendo assim, quanto maior o número de alunos de uma determinada região, maior é a população daquela região. Isso, entretanto, não é suficiente para dizer uma coisa causa a outra

4. Levando em consideração somente os alunos do curso "Ensino Médio". Demonstre a porcentagem de alunos que obtiveram notas finais maiores ou iguais a 8 em Química, Física e Biologia, por coordenação Regional.

In [192]:
criterio1 = df_ensino_medio[df.disciplina.str.contains("Química|Física|Biologia")].groupby("cod_aluno", group_keys = False).apply(lambda x: notas_acima(x, 8.0))

In [202]:
len(criterio1) != df_ensino_medio.cod_aluno.nunique()

True

In [203]:
df_ensino_medio["criterio1"] = df_ensino_medio.cod_aluno.map(lambda x: criterio1[x] if criterio1.get(x) != None else False)

In [205]:
df_ensino_medio["criterio1"].value_counts()

False    4430703
True      695430
Name: criterio1, dtype: int64

In [236]:
df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional", group_keys = False).apply(lambda x: percentual(x, ["criterio1", "!criterio1"]))

coordenacao_regional
Brazlândia            Criterio1: 14.65% | !criterio1 85.35%
Ceilândia             Criterio1: 18.08% | !criterio1 81.92%
Gama                  Criterio1: 14.14% | !criterio1 85.86%
Guará                 Criterio1: 21.89% | !criterio1 78.11%
Núcleo Bandeirante    Criterio1: 21.03% | !criterio1 78.97%
Paranoá               Criterio1: 21.08% | !criterio1 78.92%
Planaltina            Criterio1: 13.72% | !criterio1 86.28%
Plano Piloto          Criterio1: 13.52% | !criterio1 86.48%
Recanto das Emas      Criterio1: 20.22% | !criterio1 79.78%
Samambaia             Criterio1: 20.64% | !criterio1 79.36%
Santa Maria           Criterio1: 18.59% | !criterio1 81.41%
Sobradinho              Criterio1: 16.5% | !criterio1 83.5%
São Sebastião         Criterio1: 19.62% | !criterio1 80.38%
Taguatinga            Criterio1: 15.64% | !criterio1 84.36%
dtype: object

5. Qual coordenação regional tem a maior quantidade de alunos matriculados no turno diurno do curso "Ensino Médio".Considere somente as coordenações regionais que possuem um número acima da média de aprovados.

In [255]:
media_aprovados = round(df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional").aprovado.sum().mean(), 2)
media_aprovados

2565.07

In [259]:
cres_acima_media = df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional").aprovado.sum() > media_aprovados

In [278]:
df_ensino_medio.drop_duplicates('cod_aluno').groupby("coordenacao_regional").aprovado.sum()[cres_acima_media].sort_values().tail(1)

coordenacao_regional
Ceilândia    5696
Name: aprovado, dtype: int64