# Instruções iniciais

1 - Siga as instruções de configuração do ambiente disponibilizadas no README da aula para preparar o seu sistema.

2 - Baixar este arquivo no seu computador.

3 - Utilize o ambiente virtual (venv) configurado como o kernel para este arquivo.

obs.: Notebook da aula no Colab: https://drive.google.com/file/d/1BQjpb56UV2WDknXiocWdE1bmTtqeTkbr/view?usp=sharing

### Carregando o conjunto de dados:

In [2]:
import pandas as pd
import requests
from io import StringIO

# Criação do dataFrame dos alunos
# ID do arquivo no Google Drive
file_id = '15aOJIGAyLMSY1gecjiCgu2ko_riIcKQy'

# URL modificada para forçar o download do arquivo
url = f"https://drive.google.com/uc?id={file_id}"

# Tentando obter o arquivo com requests
try:
    response = requests.get(url)
    response.raise_for_status()  # Lança um erro para respostas não-sucedidas
    # Usando StringIO para converter o texto em um arquivo em memória e, então, lendo com o Pandas
    csv_raw = StringIO(response.text)
    estudantes = pd.read_csv(csv_raw)
except requests.RequestException as e:
    print(f"Erro ao acessar o arquivo: {e}")


In [3]:
#Criação do dataFrame das escolas

# ID do arquivo no Google Drive
file_id = '1Jgto7psHaMRTAVzcFt7D6SgJiHMB7uGT'

# URL modificada para forçar o download do arquivo
url = f"https://drive.google.com/uc?id={file_id}"

# Tentando obter o arquivo com requests
try:
    response = requests.get(url)
    response.raise_for_status()  # Lança um erro para respostas não-sucedidas
    # Usando StringIO para converter o texto em um arquivo em memória e, então, lendo com o Pandas
    csv_raw = StringIO(response.text)
    escolas = pd.read_csv(csv_raw)
except requests.RequestException as e:
    print(f"Erro ao acessar o arquivo: {e}")

Analisando os dataframes

1 - Escolas

In [4]:
escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500
5,5,Escola F,Particular,2283,1319574
6,6,Escola G,Particular,1858,1081356
7,7,Escola H,Publica,4976,3124928
8,8,Escola I,Particular,427,248087
9,9,Escola J,Particular,962,585858


2 - Estudantes

In [5]:
estudantes

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84
...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98
39156,39156,Stephanie Contreras,F,8,Escola O,79,95
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94
39158,39158,Kari Holloway,F,7,Escola O,87,90


Perguntas:

Existem dados faltantes nas tabelas? 

R: .

Existe algo em comum nas duas tabelas? 

R: .

### Combinando os datasets

In [6]:
estudantes.isnull().sum()

ID_Estudante       0
Nome_Estudante     0
Genero             0
Serie              0
Nome_Escola        0
Nota_Redacao       0
Nota_Matematica    0
dtype: int64

In [7]:
estudantes.isna().sum()

ID_Estudante       0
Nome_Estudante     0
Genero             0
Serie              0
Nome_Escola        0
Nota_Redacao       0
Nota_Matematica    0
dtype: int64

As colunas Genero, Serie e Tipo Escola representam dados categóricos. Como podemos verificar a quantidade de valores distintos que existem em cada categoria? 

## Left join no pandas

In [8]:
data = pd.merge(
    estudantes,
    escolas,
    how='left',
    on=["Nome_Escola","Nome_Escola"]
)

data

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [10]:
data  = pd.merge(
    estudantes,
    escolas,
    how = 'left',
    on = ['Nome_Escola', 'Nome_Escola']
                                  )
data

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [11]:

data["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [12]:
data["Genero"].unique()

array(['M', 'F'], dtype=object)

In [13]:
data["Tipo_Escola"].unique()

array(['Publica', 'Particular'], dtype=object)

### Algumas perguntas:

Qual o orçamento total das escolas?

In [14]:
custos = escolas["Orcamento_Anual"].sum()
print(f"R${custos}")

R$24649428


Qual a nota média dos alunos nas disciplinas analisadas?

In [15]:
mediaRedacao = data["Nota_Redacao"].mean()

In [None]:
mediaRedacao

In [16]:

mediaMatematica = data["Nota_Matematica"].mean()

In [17]:
mediaMatematica

78.98493360572012

### Exibição bonita

In [18]:
resultado = pd.DataFrame({
    "Operação": ["Média Redação","Média matemática"],
    "Resultado": [mediaRedacao,mediaMatematica]
})

In [19]:
resultado["Resultado"] = resultado["Resultado"].round(2)

print(resultado)

           Operação  Resultado
0     Média Redação      81.88
1  Média matemática      78.98


Organizando os resultados

Quantos alunos ficaram com nota superior a 90 em redação?

In [36]:
highRed = data[data["Nota_Redacao"]>90]
print(len(highRed))

9973


E qual o percentual?

In [34]:
percentual = len(data[data["Nota_Redacao"]>90]) / len(estudantes) * 100
print(f"{percentual:.2f}%")

25.47%


Quantos alunos ficaram com nota superior a 90 em matemática? 

Qual o percentual?

Quantos Alunos tiraram nota maior do que 90 nas duas disciplinas? 

In [47]:
highBoth = data[(data["Nota_Redacao"]>90) & (data["Nota_Matematica"]>90)]
len(highBoth)

2323

Qual o percentual? 

In [48]:
highBoth["Tipo_Escola"].value_counts()

Tipo_Escola
Publica       1321
Particular    1002
Name: count, dtype: int64

In [55]:
highBoth["Nome_Escola"].value_counts()

Nome_Escola
Escola D    252
Escola H    252
Escola M    239
Escola L    183
Escola F    172
Escola G    155
Escola K    153
Escola A    143
Escola B    142
Escola C    129
Escola O    129
Escola E    126
Escola N    110
Escola J     96
Escola I     42
Name: count, dtype: int64

In [65]:
highBoth["Genero"].value_counts()

Genero
M    1167
F    1156
Name: count, dtype: int64

Quantos alunos que obtiveram alto desempenho em ambas as disciplinas são de escolas públicas?

Quantas alunas obtiveram alto desempenho em ambas as disciplinas?

Como ficou a distribuição dos alunos de alto desempenho pelas série?

Qual o total por escolas? 

Qual o orçamento per capita de cada escola?

In [75]:
perCapita = escolas["Orcamento_Anual"]/escolas["Numero_Alunos"]
escolas["Per_Capita"] = perCapita

In [78]:
escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Per_Capita
0,0,Escola A,Publica,2917,1910635,655.0
1,1,Escola B,Publica,2949,1884411,639.0
2,2,Escola C,Particular,1761,1056600,600.0
3,3,Escola D,Publica,4635,3022020,652.0
4,4,Escola E,Particular,1468,917500,625.0
5,5,Escola F,Particular,2283,1319574,578.0
6,6,Escola G,Particular,1858,1081356,582.0
7,7,Escola H,Publica,4976,3124928,628.0
8,8,Escola I,Particular,427,248087,581.0
9,9,Escola J,Particular,962,585858,609.0


Quais foram as escolas mais eficientes? 

Para tentar responder essa pergunta vamos adicionar o percentual de alunos de alto desempenho ao nosso dataset.

### Agrupando por Nome_Escola e Tipo_Escola e contando número de registros

In [69]:
sumario =  highBoth.groupby(["Nome_Escola", "Tipo_Escola"]).size().sort_values(ascending = False)
print(sumario)

Nome_Escola  Tipo_Escola
Escola D     Publica        252
Escola H     Publica        252
Escola M     Publica        239
Escola L     Publica        183
Escola F     Particular     172
Escola G     Particular     155
Escola K     Particular     153
Escola A     Publica        143
Escola B     Publica        142
Escola C     Particular     129
Escola O     Particular     129
Escola E     Particular     126
Escola N     Publica        110
Escola J     Particular      96
Escola I     Particular      42
dtype: int64
