# Big Data Real-Time Analytics com Python e Spark

## Capítulo 3 - Manipulação de Dados em Python com Pandas
https://pandas.pydata.org/

### Estudo de Caso 2

### Data Science na Educação - Análise de Dados Escolares com Pandas

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versao_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.
#!pip install -q -U pandas

In [3]:
# Importando o módulo Pandas
import pandas as pd

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Andrew Borges" --iversions

Author: Andrew Borges

pandas: 1.5.3



## Carregando os Dados

In [5]:
# Carrega o dataset de escolas
dados_escolas = pd.read_csv("dados/dataset_escolas.csv")

In [6]:
# Shape
dados_escolas.shape

(15, 5)

In [7]:
# Visualiza
dados_escolas.head()

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500


In [8]:
# Dataset de estudantes
dados_estudantes = pd.read_csv("dados/dataset_estudantes.csv")

In [9]:
# Shape
dados_estudantes.shape

(39160, 7)

In [10]:
# Visualiza
dados_estudantes.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84


In [11]:
# Combina os datasets
dados_full = pd.merge(dados_estudantes, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [12]:
# Shape
dados_full.shape

(39160, 11)

In [13]:
# Visualiza
dados_full.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635


In [16]:
# Séries escolares no dataset
dados_full["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [17]:
# Genero
dados_full["Genero"].unique()

array(['M', 'F'], dtype=object)

## Desafio de Análise de Dados

Responda as perguntas abaixo.

> 1 - Temos dados de quantas escolas?

In [50]:
escolas = dados_full["Nome_Escola"].nunique()
escolas

15

> 2 - Qual o total de registros de estudantes na base de dados?

In [86]:
estudantes = dados_full["ID_Estudante"].count()
estudantes

numpy.int64

> 3 - Qual o orçamento total considerando todas as escolas?

In [64]:
orcamento = dados_escolas["Orcamento_Anual"].sum()
orcamento

24649428

> 4 - Qual a média da nota dos alunos em Redação?

In [53]:
media_redacao = dados_full["Nota_Redacao"].mean()
media_redacao

81.87574055158325

> 5 - Qual a média da nota dos alunos em Matemática?

In [54]:
media_mat = dados_full["Nota_Matematica"].mean()
media_mat

78.98493360572012

> 6 - Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)

In [42]:
aprovados = dados_full.loc[:, 'Nota_Redacao'] >= 70
aprovados_qtd = dados_full.loc[aprovados, 'Nome_Estudante'].count()
aprovados_qtd

33600

In [65]:
porcentagem = aprovados_qtd / estudantes * 100
print(porcentagem, "%")

85.80183861082737 %


> 7 - Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)

In [45]:
aprovados_mat = dados_full.loc[:, 'Nota_Matematica'] >= 70
aprovados_mat_qtd = dados_full.loc[aprovados_mat, 'Nome_Estudante'].count()
aprovados_mat_qtd

29360

In [66]:
porcentagem_mat = aprovados_mat_qtd / estudantes * 100
print(porcentagem_mat, "%")

74.97446373850867 %


> 8 - Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)

In [48]:
aprovados_both = dados_full.loc[aprovados & aprovados_mat, 'Nome_Estudante'].count()
aprovados_both

25518

In [67]:
porcentagem_both = aprovados_both / estudantes * 100
print(porcentagem_both, "%")

65.16343207354444 %


> 9 - Crie um dataframe com os resultados das questões 1 a 8 que você calculou acima. (Dica: crie um dicionário e depois converta em dataframe do Pandas)

In [82]:
respostas_dict = {"Total_Escolas": escolas, "Total_Estudantes": estudantes, "Total_Orcamento": orcamento,
                  "Media_Redacao": media_redacao, "Media_Matematica": media_mat, "Aprovados_Redacao": aprovados_qtd,
                 "Aprovados_Redacao_Porc": porcentagem, "Aprovados_Matematica": aprovados_mat_qtd,
                 "Aprovados_Matematica_Porc": porcentagem_mat, "Aprovados_Ambos": aprovados_both,
                 "Aprovados_Ambos_Porc": porcentagem_both}

df_respostas = pd.DataFrame(respostas_dict, index = ["Repostas"])

In [83]:
df_respostas

Unnamed: 0,Total_Escolas,Total_Estudantes,Total_Orcamento,Media_Redacao,Media_Matematica,Aprovados_Redacao,Aprovados_Redacao_Porc,Aprovados_Matematica,Aprovados_Matematica_Porc,Aprovados_Ambos,Aprovados_Ambos_Porc
Repostas,15,39160,24649428,81.875741,78.984934,33600,85.801839,29360,74.974464,25518,65.163432


In [71]:
type(df_respostas)

pandas.core.frame.DataFrame

> 10 - Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.

In [84]:
df_respostas["Total_Estudantes"] = pd.to_numeric(df_respostas["Total_Estudantes"])
df_respostas["Total_Estudantes"] = df_respostas["Total_Estudantes"].map("{:,}".format)
df_respostas["Total_Orcamento"] = df_respostas["Total_Orcamento"].map("${:,.2f}".format)

In [85]:
df_respostas

Unnamed: 0,Total_Escolas,Total_Estudantes,Total_Orcamento,Media_Redacao,Media_Matematica,Aprovados_Redacao,Aprovados_Redacao_Porc,Aprovados_Matematica,Aprovados_Matematica_Porc,Aprovados_Ambos,Aprovados_Ambos_Porc
Repostas,15,39160,"$24,649,428.00",81.875741,78.984934,33600,85.801839,29360,74.974464,25518,65.163432


# Fim