# Instruções iniciais

1 - Siga as instruções de configuração do ambiente disponibilizadas no README da aula para preparar o seu sistema.

2 - Baixar este arquivo no seu computador.

3 - Utilize o ambiente virtual (venv) configurado como o kernel para este arquivo.

### Carregando o conjunto de dados:

In [1]:
import pandas as pd
import requests
from io import StringIO

# Criação do dataFrame dos alunos
# ID do arquivo no Google Drive
file_id = '15aOJIGAyLMSY1gecjiCgu2ko_riIcKQy'

# URL modificada para forçar o download do arquivo
url = f"https://drive.google.com/uc?id={file_id}"

# Tentando obter o arquivo com requests
try:
    response = requests.get(url)
    response.raise_for_status()  # Lança um erro para respostas não-sucedidas
    # Usando StringIO para converter o texto em um arquivo em memória e, então, lendo com o Pandas
    csv_raw = StringIO(response.text)
    estudantes = pd.read_csv(csv_raw)
except requests.RequestException as e:
    print(f"Erro ao acessar o arquivo: {e}")


In [2]:
#Criação do dataFrame das escolas

# ID do arquivo no Google Drive
file_id = '1Jgto7psHaMRTAVzcFt7D6SgJiHMB7uGT'

# URL modificada para forçar o download do arquivo
url = f"https://drive.google.com/uc?id={file_id}"

# Tentando obter o arquivo com requests
try:
    response = requests.get(url)
    response.raise_for_status()  # Lança um erro para respostas não-sucedidas
    # Usando StringIO para converter o texto em um arquivo em memória e, então, lendo com o Pandas
    csv_raw = StringIO(response.text)
    escolas = pd.read_csv(csv_raw)
except requests.RequestException as e:
    print(f"Erro ao acessar o arquivo: {e}")

Analisando os dataframes

1 - Escolas

In [3]:
escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500
5,5,Escola F,Particular,2283,1319574
6,6,Escola G,Particular,1858,1081356
7,7,Escola H,Publica,4976,3124928
8,8,Escola I,Particular,427,248087
9,9,Escola J,Particular,962,585858


2 - Estudantes

In [4]:
estudantes

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84
...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98
39156,39156,Stephanie Contreras,F,8,Escola O,79,95
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94
39158,39158,Kari Holloway,F,7,Escola O,87,90


Perguntas:

Existem dados faltantes nas tabelas? 

R: Não.

Existe algo em comum nas duas tabelas? 

R: Sim, a coluna Nome_Escola.

### Combinando os datasets

In [5]:
data = pd.merge(estudantes, escolas, how='left', on=["Nome_Escola", "Nome_Escola"])

In [6]:
data

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


As colunas Genero, Serie e Tipo Escola representam dados categóricos. Como podemos verificar a quantidade de valores distintos que existem em cada categoria? 

In [7]:
data["Genero"].unique()

array(['M', 'F'], dtype=object)

In [8]:
data["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [9]:
data["Tipo_Escola"].unique()

array(['Publica', 'Particular'], dtype=object)

### Algumas perguntas:

Qual o orçamento total das escolas?

In [10]:
escolas["Orcamento_Anual"].sum()

24649428

Qual a nota média dos alunos nas disciplinas analisadas?

In [11]:
mediaRedacao = data["Nota_Redacao"].mean()
mediaMatematica = data["Nota_Matematica"].mean()

Organizando os resultados

In [12]:
# Criando um novo DataFrame com os resultados
resultados = pd.DataFrame({
    "Operação": ["Média Redação", "Média Matemática"],
    "Resultado": [mediaRedacao, mediaMatematica]
})

# Exibindo a tabela
display(resultados)

Unnamed: 0,Operação,Resultado
0,Média Redação,81.875741
1,Média Matemática,78.984934


Quantos alunos ficaram com nota superior a 90 em redação?

In [13]:
highRed = data[data["Nota_Redacao"]>90]
len(highRed)

9973

E qual o percentual?

In [14]:
len(highRed)/len(estudantes) * 100

25.467313585291112

Quantos alunos ficaram com nota superior a 90 em matemática? 

In [15]:
highMat = data[data["Nota_Matematica"]>90]
len(highMat)

8834

Qual o percentual?

In [16]:
len(highMat)/len(estudantes) * 100

22.558733401430032

Quantos Alunos tiraram nota maior do que 90 nas duas disciplinas? 

In [17]:
highBoth = data[(data["Nota_Redacao"]>90) & (data["Nota_Matematica"]>90)]
len(highBoth)

2323

Qual o percentual? 

In [18]:
len(data[(data["Nota_Redacao"]>90) & (data["Nota_Matematica"]>90)])/len(estudantes) * 100

5.932073544433095

Quantos alunos que obtiveram alto desempenho em ambas as disciplinas são de escolas públicas?

In [19]:
highBoth["Tipo_Escola"].value_counts()

Tipo_Escola
Publica       1321
Particular    1002
Name: count, dtype: int64

Quantas alunas obtiveram alto desempenho em ambas as disciplinas?

In [20]:
highBoth["Genero"].value_counts()

Genero
M    1167
F    1156
Name: count, dtype: int64

Como ficou a distribuição dos alunos de alto desempenho pelas série?

In [21]:
highBoth["Serie"].value_counts()

Serie
6    663
8    604
7    599
9    457
Name: count, dtype: int64

Qual o total por escolas? 

In [22]:
highBoth["Nome_Escola"].value_counts()

Nome_Escola
Escola D    252
Escola H    252
Escola M    239
Escola L    183
Escola F    172
Escola G    155
Escola K    153
Escola A    143
Escola B    142
Escola C    129
Escola O    129
Escola E    126
Escola N    110
Escola J     96
Escola I     42
Name: count, dtype: int64

In [23]:
# Agrupando por 'Nome_Escola' e 'Tipo_Escola', e contando o número de registros em cada grupo
sumario = highBoth.groupby(['Nome_Escola', 'Tipo_Escola']).size().sort_values(ascending=False)

# Exibindo o sumário
print(sumario)


Nome_Escola  Tipo_Escola
Escola D     Publica        252
Escola H     Publica        252
Escola M     Publica        239
Escola L     Publica        183
Escola F     Particular     172
Escola G     Particular     155
Escola K     Particular     153
Escola A     Publica        143
Escola B     Publica        142
Escola C     Particular     129
Escola O     Particular     129
Escola E     Particular     126
Escola N     Publica        110
Escola J     Particular      96
Escola I     Particular      42
dtype: int64


Qual o orçamento per capita de cada escola?

In [24]:
perCapita = escolas["Orcamento_Anual"]/escolas["Numero_Alunos"]
escolas["Per_Capita"] = perCapita

In [25]:
escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Per_Capita
0,0,Escola A,Publica,2917,1910635,655.0
1,1,Escola B,Publica,2949,1884411,639.0
2,2,Escola C,Particular,1761,1056600,600.0
3,3,Escola D,Publica,4635,3022020,652.0
4,4,Escola E,Particular,1468,917500,625.0
5,5,Escola F,Particular,2283,1319574,578.0
6,6,Escola G,Particular,1858,1081356,582.0
7,7,Escola H,Publica,4976,3124928,628.0
8,8,Escola I,Particular,427,248087,581.0
9,9,Escola J,Particular,962,585858,609.0


Quais foram as escolas mais eficientes? 

Para tentar responder essa pergunta vamos adicionar o percentual de alunos de alto desempenho ao nosso dataset.

In [26]:
# Número de alunos de alto desempenho por escola
highPerSchool = data[(data["Nota_Redacao"] > 90) & (data["Nota_Matematica"] > 90)].groupby("Nome_Escola").size()

# Número total de alunos por escola
totalStudents = data.groupby("Nome_Escola").size()

# Calculando o percentual de alunos de alto desempenho
highPerSchool = (highPerSchool / totalStudents) * 100

highPerSchool

Nome_Escola
Escola A    4.902297
Escola B    4.815192
Escola C    7.325383
Escola D    5.436893
Escola E    8.583106
Escola F    7.533947
Escola G    8.342304
Escola H    5.064309
Escola I    9.836066
Escola J    9.979210
Escola K    8.500000
Escola L    4.576144
Escola M    5.019954
Escola N    4.016064
Escola O    7.938462
dtype: float64

In [27]:
# Criando uma coluna para o percentual de alunos com alto desempenho
escolas["High_Performance_perc"] = escolas["Nome_Escola"].map(highPerSchool)

# Exibir resultado com ordem crescente
escolas.sort_values(by="High_Performance_perc", ascending=False)

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Per_Capita,High_Performance_perc
9,9,Escola J,Particular,962,585858,609.0,9.97921
8,8,Escola I,Particular,427,248087,581.0,9.836066
4,4,Escola E,Particular,1468,917500,625.0,8.583106
10,10,Escola K,Particular,1800,1049400,583.0,8.5
6,6,Escola G,Particular,1858,1081356,582.0,8.342304
14,14,Escola O,Particular,1635,1043130,638.0,7.938462
5,5,Escola F,Particular,2283,1319574,578.0,7.533947
2,2,Escola C,Particular,1761,1056600,600.0,7.325383
3,3,Escola D,Publica,4635,3022020,652.0,5.436893
7,7,Escola H,Publica,4976,3124928,628.0,5.064309


In [28]:
escolas.sort_values(by=['Per_Capita', 'High_Performance_perc'], ascending=[True, False])

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Per_Capita,High_Performance_perc
5,5,Escola F,Particular,2283,1319574,578.0,7.533947
8,8,Escola I,Particular,427,248087,581.0,9.836066
6,6,Escola G,Particular,1858,1081356,582.0,8.342304
10,10,Escola K,Particular,1800,1049400,583.0,8.5
2,2,Escola C,Particular,1761,1056600,600.0,7.325383
9,9,Escola J,Particular,962,585858,609.0,9.97921
4,4,Escola E,Particular,1468,917500,625.0,8.583106
7,7,Escola H,Publica,4976,3124928,628.0,5.064309
11,11,Escola L,Publica,3999,2547363,637.0,4.576144
14,14,Escola O,Particular,1635,1043130,638.0,7.938462
