## <font color='blue'>Data Science na Educação – Análise de Dados Escolares com Pandas</font>
## <font color='blue'>Estudo de Caso 2</font>

In [1]:
import pandas as pd

## Carregando os dados

In [2]:
# Carregando dataset escolas
dados_escolas = pd.read_csv("dados/dataset_escolas.csv")

In [3]:
# Shape
dados_escolas.shape

(15, 5)

In [4]:
# Visualizando 
dados_escolas.head()

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500


In [6]:
# Carregando dataset estudantes
dados_estudantes = pd.read_csv("dados/dataset_estudantes.csv")

In [8]:
# Shape
dados_estudantes.shape

(39160, 7)

In [9]:
dados_estudantes.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84


In [10]:
# Combinando os datasets usando o as colunas comuns nos dois datasets
dados_full = pd.merge(dados_estudantes, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [11]:
display(dados_full)

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [12]:
# Verificando quantas series estao representadas nesse dataset
dados_full["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [13]:
# Verificando quantos generos estao representadas nesse dataset
dados_full["Genero"].unique()

array(['M', 'F'], dtype=object)

### Perguntas de negócios 

> **1- Temos dados de quantas escolas?**

In [72]:
total_escolas = dados_full["Nome_Escola"].nunique()
total_escolas

15

> **2- Qual o total de registros de estudantes na base de dados?**

In [88]:
total_estudantes = dados_full['ID_Estudante'].count()
total_estudantes

39160

> **3- Qual o orçamento total considerando todas as escolas?**

In [90]:
total_orcamento = dados_escolas["Orcamento_Anual"].sum()
print(f"{total_orcamento:,.2f}")

24,649,428.00


> **4- Qual a média da nota dos alunos em Redação?**

In [35]:
media_nota_redacao = dados_full["Nota_Redacao"].mean()
print(f"{media_nota_redacao:,.2f}")

81.88


> **5- Qual a média da nota dos alunos em Matemática?**

In [36]:
media_nota_matematica = dados_full["Nota_Matematica"].mean()
print(f"{media_nota_matematica:,.2f}")

78.98


> **6- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)**

In [79]:
alunos_aprovados_redacao = dados_full.loc[dados_full["Nota_Redacao"] >= 70]
num_alunos_aprovados = alunos_aprovados_redacao.shape[0]

percentual_aprovados_redacao = (num_alunos_aprovados / total_estudantes) * 100

print("Número absoluto de alunos aprovados em redação:", num_alunos_aprovados)
print("Percentual de alunos aprovados em redação: {:.2f}%".format(percentual_aprovados_redacao))

Número absoluto de alunos aprovados em redação: 33600
Percentual de alunos aprovados em redação: 85.80%


> **7- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)**

In [78]:
alunos_aprovados_matematica = dados_full.loc[dados_full["Nota_Matematica"] >= 70]
num_alunos_aprovados = alunos_aprovados_matematica.shape[0]

percentual_aprovados_matematica = (num_alunos_aprovados / total_estudantes) * 100

print("Número absoluto de alunos aprovados em matemática:", num_alunos_aprovados)
print("Percentual de alunos aprovados em matemática: {:.2f}%".format(percentual_aprovados_matematica))

Número absoluto de alunos aprovados em matemática: 29360
Percentual de alunos aprovados em matemática: 74.97%


> **8- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)**

In [47]:
contagem_total_aprovados= dados_full[(dados_full['Nota_Matematica'] >= 70) 
                                     & (dados_full['Nota_Redacao'] >= 70)].count()['Nome_Estudante']
contagem_total_aprovados

25518

In [82]:
percentual_aprovados_tot = contagem_total_aprovados / float(total_estudantes) * 100
percentual_aprovados_tot
print("O percentual de alunos aprovados em Matemática e Redação foi de: {:.2f}%".format(percentual_aprovados_tot))

O percentual de alunos aprovados em Matemática e Redação foi de: 65.16%


> **9- Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. 

In [95]:
df_performance_escolar1 = pd.DataFrame({'Total de Escolas': [total_escolas],
                                        'Total de Estudantes': [total_estudantes],
                                        'Total Orçamento': [total_orcamento],
                                         'Nota Media em Redação': [media_nota_redacao],
                                       'Nota Meddia em Matemática': [media_nota_matematica],
                                       '% Aprovacao Redação': [percentual_aprovados_redacao],
                                       '% Aprovacao Matemática': [percentual_aprovados_matematica],
                                       '% Aprovacao Total': [percentual_aprovados_tot]})


In [96]:
display(df_performance_escolar1)

Unnamed: 0,Total de Escolas,Total de Estudantes,Total Orçamento,Nota Media em Redação,Nota Meddia em Matemática,% Aprovacao Redação,% Aprovacao Matemática,% Aprovacao Total
0,15,39160,24649428,81.875741,78.984934,85.801839,74.974464,65.163432


> **10- Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.**

In [97]:
df_performance_escolar1["Total de Estudantes"] = df_performance_escolar1["Total de Estudantes"].map("{:,}".format)
df_performance_escolar1["Total Orçamento"] = df_performance_escolar1["Total Orçamento"].map("${:,.2f}".format)

In [98]:
df_performance_escolar1

Unnamed: 0,Total de Escolas,Total de Estudantes,Total Orçamento,Nota Media em Redação,Nota Meddia em Matemática,% Aprovacao Redação,% Aprovacao Matemática,% Aprovacao Total
0,15,39160,"$24,649,428.00",81.875741,78.984934,85.801839,74.974464,65.163432
