# <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

#### Importando o pacote Pandas

In [1]:
# Importando o módulo Pandas e NumPy
import numpy as np
import pandas as pd

# <br>Estudo de Caso - Analisando de Dados Escolares

## <u>Objetivo</u>:<br>

#### Neste Estudo de Caso o  objetivo é realizar um detalhado processo  de análise de dados escolares cruzando, comparando e resumindo, diferentes tipos de informações.
#### No total serão duas partes onde serão respondidas perguntas de negócio que vão requerer analisar os dados por diferentes perspectivas. O Pandas será a única ferramenta usada.
#### Usaremos para este trabalho dados fictícios, mas que poderiam representar dados reais.

# <br><u>Parte 1</u>

### Perguntas:<br>
<strong>
1) Temos dados de quantas escolas?<br>
2) Qual o total de registros de estudantes na base de dados?<br>
3) Qual o orçamento total considerando todas as escolas?<br>
4) Qual a média da nota dos alunos em Redação?<br>
5) Qual a média da nota dos alunos em Matemática?<br>
6) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)<br>
7) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)<br>
8) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)<br>
9) Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. (Dica: crie um dicionário e depois converta em dataframe do Pandas)<br>
10) Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.<br>
</strong>
<br>
Vamos usar a Ciência de Dados para responder essas e outras perguntas e analisar dados escolares usando uma das mais poderosas ferramentas de manipulação de dados em Linguagem Python, o Pandas.

O Estudo de Caso conta ainda com um desafio para que cada aluno pratique análise de dados e solução de problemas.Este Estudo de Caso traz uma quantidade incrível de conhecimento sobre manipulação de dados em Python. Aproveite!

# <br>Carregando Dados

#### Carregando Dataset de Escolas

In [2]:
# Carregando dados
dados_escolas = pd.read_csv("datasets/dataset_escolas.csv")

In [3]:
# Visualiza
dados_escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500
5,5,Escola F,Particular,2283,1319574
6,6,Escola G,Particular,1858,1081356
7,7,Escola H,Publica,4976,3124928
8,8,Escola I,Particular,427,248087
9,9,Escola J,Particular,962,585858


In [4]:
# Verifica shape (qtd linhas e colunas)
dados_escolas.shape

(15, 5)

#### Carregando Dataset de Alunos

In [5]:
# Carregando dados
dados_alunos = pd.read_csv("datasets/dataset_estudantes.csv")

In [6]:
# Visualiza
dados_alunos

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84
...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98
39156,39156,Stephanie Contreras,F,8,Escola O,79,95
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94
39158,39158,Kari Holloway,F,7,Escola O,87,90


In [7]:
# Verifica shape (qtd linhas e colunas)
dados_alunos.shape

(39160, 7)

### <br>Unindo os Dois Dataframes em um só

In [8]:
# Combina os datasets
dados_full = pd.merge(dados_alunos, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [9]:
# Visualiza
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [10]:
# Reordenando e Visualizando as colunas do DataFrame dados_full
dados_full = dados_full[['ID_Estudante', 'Nome_Estudante', 'Genero', 'Serie', 'Nota_Redacao', 'Nota_Matematica', 'ID_Escola', 'Nome_Escola', 'Tipo_Escola', 'Numero_Alunos', 'Orcamento_Anual']]

# Visualizando as primeiras linhas do DataFrame reordenado
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,66,79,0,Escola A,Publica,2917,1910635
1,1,Paul Smith,M,9,94,61,0,Escola A,Publica,2917,1910635
2,2,John Rodriguez,M,9,90,60,0,Escola A,Publica,2917,1910635
3,3,Oliver Scott,M,9,67,58,0,Escola A,Publica,2917,1910635
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


# <br>Desafio Análise de Dados<br>

#### Responda as perguntas:

### <br><font color='green'> 1) Temos dados de quantas escolas?</font>

In [11]:
# Verificando valores únicos para a coluna Nome_Escola
print(dados_full['Nome_Escola'].unique())

# Visualizando a quantidade de valores únicos de cada item
print(dados_full['Nome_Escola'].value_counts())

# Visualizando a quantidade de valores únicos
print("Quantidade de escolas:", dados_full['Nome_Escola'].nunique())

# Visualizando a quantidade de valores únicos
print("Quantidade de escolas:", len(dados_full["Nome_Escola"].unique()))

['Escola A' 'Escola B' 'Escola C' 'Escola D' 'Escola E' 'Escola F'
 'Escola G' 'Escola H' 'Escola I' 'Escola J' 'Escola K' 'Escola L'
 'Escola M' 'Escola N' 'Escola O']
Nome_Escola
Escola H    4976
Escola M    4761
Escola D    4635
Escola L    3999
Escola B    2949
Escola A    2917
Escola N    2739
Escola F    2283
Escola G    1858
Escola K    1800
Escola C    1761
Escola O    1625
Escola E    1468
Escola J     962
Escola I     427
Name: count, dtype: int64
Quantidade de escolas: 15
Quantidade de escolas: 15


### Resposta -> 15 escolas.<br>

### <br><font color='green'> 2) Qual o total de registros de estudantes na base de dados?</font>

In [12]:
# Verificando valores únicos para a coluna Nome_Estudante
print(dados_full['ID_Estudante'].nunique())

39160


### Resposta -> 39159 registros de estudantes na base dados.<br>

### <br><font color='green'> 3) Qual o orçamento total considerando todas as escolas?</font>

In [13]:
# Verificando valores total da coluna Orcamento_Anual do dataset dados_escolas
print(dados_escolas['Orcamento_Anual'].sum())

# Verificando valores total da coluna Orcamento_Anual do dataset dados_full (ao trabalhar com dados_full precisamos remover duplicadas)
print(dados_full.drop_duplicates(subset='ID_Escola')['Orcamento_Anual'].sum())

24649428
24649428


### Resposta -> 24.649.428.<br>

In [14]:
# Visualizando Dataset dados_full
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,66,79,0,Escola A,Publica,2917,1910635
1,1,Paul Smith,M,9,94,61,0,Escola A,Publica,2917,1910635
2,2,John Rodriguez,M,9,90,60,0,Escola A,Publica,2917,1910635
3,3,Oliver Scott,M,9,67,58,0,Escola A,Publica,2917,1910635
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


### <br><font color='green'> 4) Qual a média da nota dos alunos em Redação?</font> 

In [15]:
# Verificando média da coluna Nota_Redacao do dataset dados_full
print(dados_full['Nota_Redacao'].mean())

81.87574055158325


### Resposta -> 81.88.<br>

### <br><font color='green'> 5) Qual a média da nota dos alunos em Matemática?</font> 

In [16]:
# Verificando média da coluna Nota_Matematica do dataset dados_full
print(dados_full['Nota_Matematica'].mean())

78.98493360572012


### Resposta -> 79.00.<br>

### <br><font color='green'> 6) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)</font> 

In [17]:
# Calculando e visualizando quantidade de alunoas aprovado acima de 70 em todas as colunas
aprovados_redacao = dados_full[dados_full['Nota_Redacao'] >= 70]['Nota_Redacao'].count()
print(aprovados_redacao)

# Calculando o percentual de alunos aprovados em Redação
percentual_aprovados_redacao = (aprovados_redacao / dados_full.shape[0]) * 100
print(percentual_aprovados_redacao)

33600
85.80183861082737


### Resposta -> 33.600 aprovados, o que representa cerca de 85.80% do total dos alunos.<br>

### <br><font color='green'> 7) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)</font> 

In [18]:
# Calculando e visualizando quantidade de alunoas aprovado acima de 70 em todas as colunas
aprovados_matematica = dados_full[dados_full['Nota_Matematica'] >= 70]['Nota_Matematica'].count()
print(aprovados_matematica)

# Calculando o percentual de alunos aprovados em Matemática
percentual_aprovados_matematica = (aprovados_matematica / dados_full.shape[0]) * 100
print(percentual_aprovados_matematica)

29360
74.97446373850867


### Resposta -> 29.360 aprovados, o que representa cerca de 74.98% do total dos alunos.<br>

### <br><font color='green'> 8) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)</font> 

In [19]:
# Calculando e visualizando quantidade de alunoas aprovado acima de 70 em todas as colunas (usar método count() precisa especificar a coluna)
aprovados = dados_full[(dados_full['Nota_Matematica'] >= 70) & 
                       (dados_full['Nota_Redacao'] >= 70)]

aprovados = aprovados.shape[0]

print(aprovados)

# Calculando o percentual de alunos aprovados em Matemática e Redação
percentual_aprovados = (aprovados / dados_full.shape[0]) * 100
print(percentual_aprovados)

25518
65.16343207354444


### Resposta -> 25.518 aprovados, o que representa cerca de 65.16% do total dos alunos.<br>

### <br><font color='green'> 9) Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. (Dica: crie um dicionário e depois converta em dataframe do Pandas)</font> 

In [20]:
r1 = dados_full['Nome_Escola'].nunique()
r2 = dados_full['ID_Estudante'].nunique()
r3 = dados_escolas['Orcamento_Anual'].sum()
r4 = dados_full['Nota_Redacao'].mean()
r5 = dados_full['Nota_Matematica'].mean()
r6_1 = aprovados_redacao
r6_2 = percentual_aprovados_redacao
r7_1 = aprovados_matematica
r7_2 = percentual_aprovados_matematica
r8_1 = aprovados
r8_2 = percentual_aprovados

# Criando um dicionário
dicionario = {'Total_Escolas': [r1], 'Total_Estudantes': [r2], 'Orcamento_Total_Escolas': [r3], 'Media_Notas_Redacao': [r4], 'Media_Notas_Matematica': [r5],
               'Aprovados_Redacao_Total': [r6_1], 'Aprovados_Redacao_Per': [r6_2], 'Aprovados_Matematica_Total': [r7_1], 'Aprovados_Matematica_Per': [r7_2],
               'Aprovados_Redacao_e_Mat_Total': [r8_1], 'Aprovados_Redacao_e_Mat_Per': [r8_2]}

In [21]:
dicionario

{'Total_Escolas': [15],
 'Total_Estudantes': [39160],
 'Orcamento_Total_Escolas': [24649428],
 'Media_Notas_Redacao': [81.87574055158325],
 'Media_Notas_Matematica': [78.98493360572012],
 'Aprovados_Redacao_Total': [33600],
 'Aprovados_Redacao_Per': [85.80183861082737],
 'Aprovados_Matematica_Total': [29360],
 'Aprovados_Matematica_Per': [74.97446373850867],
 'Aprovados_Redacao_e_Mat_Total': [25518],
 'Aprovados_Redacao_e_Mat_Per': [65.16343207354444]}

In [22]:
# Convertendo dicionário para dataframe
df = pd.DataFrame(dicionario)
df

Unnamed: 0,Total_Escolas,Total_Estudantes,Orcamento_Total_Escolas,Media_Notas_Redacao,Media_Notas_Matematica,Aprovados_Redacao_Total,Aprovados_Redacao_Per,Aprovados_Matematica_Total,Aprovados_Matematica_Per,Aprovados_Redacao_e_Mat_Total,Aprovados_Redacao_e_Mat_Per
0,15,39160,24649428,81.875741,78.984934,33600,85.801839,29360,74.974464,25518,65.163432


#### <strong>Alterando shape do dataframe</strong>

In [23]:
# Configurando o pandas para não usar notação científica e exibir duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

# Convertendo dicionário para dataframe com orientação 'index'
df2 = pd.DataFrame.from_dict(dicionario, orient='index', columns=['Respostas'])

df2

Unnamed: 0,Respostas
Total_Escolas,15.0
Total_Estudantes,39160.0
Orcamento_Total_Escolas,24649428.0
Media_Notas_Redacao,81.88
Media_Notas_Matematica,78.98
Aprovados_Redacao_Total,33600.0
Aprovados_Redacao_Per,85.8
Aprovados_Matematica_Total,29360.0
Aprovados_Matematica_Per,74.97
Aprovados_Redacao_e_Mat_Total,25518.0


In [24]:
# Resetando o índice para transformá-lo em uma coluna regular e adicionando nova coluna com nome das perguntas
df2.reset_index(inplace=True)
df2.rename(columns={'index': 'Perguntas'}, inplace=True)
df2

Unnamed: 0,Perguntas,Respostas
0,Total_Escolas,15.0
1,Total_Estudantes,39160.0
2,Orcamento_Total_Escolas,24649428.0
3,Media_Notas_Redacao,81.88
4,Media_Notas_Matematica,78.98
5,Aprovados_Redacao_Total,33600.0
6,Aprovados_Redacao_Per,85.8
7,Aprovados_Matematica_Total,29360.0
8,Aprovados_Matematica_Per,74.97
9,Aprovados_Redacao_e_Mat_Total,25518.0


### <br><font color='green'> 10) Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.</font> 

In [25]:
# Utilizando df
df['Total_Estudantes'] = df['Total_Estudantes'].apply(lambda x: "{:,}".format(x))
df['Orcamento_Total_Escolas'] = df['Orcamento_Total_Escolas'].apply(lambda x: "{:,.2f}".format(x))

df

Unnamed: 0,Total_Escolas,Total_Estudantes,Orcamento_Total_Escolas,Media_Notas_Redacao,Media_Notas_Matematica,Aprovados_Redacao_Total,Aprovados_Redacao_Per,Aprovados_Matematica_Total,Aprovados_Matematica_Per,Aprovados_Redacao_e_Mat_Total,Aprovados_Redacao_e_Mat_Per
0,15,39160,24649428.0,81.88,78.98,33600,85.8,29360,74.97,25518,65.16


# <br>Parte 2 (análise de dados avançado)

### <br>Perguntas:<br>
<strong>
11) Entre os alunos aprovados em Redação, qual gênero obteve maior número de aprovações?<br>
12) Entre os alunos aprovados em Matemática, qual gênero obteve maior número de aprovações?<br>
13) Quais os tipos de todas as escolas em nossa base de dados?<br>
14) Qual o total de estudantes por escola?<br>
15) Qual o total de orçamento de cada escola per capita (por estudante)?<br>
16) Em qual tipo de escola (pública ou particular) há maior índice de aprovação?<br>
17) Qual a nota média dos alunos em Redação para cada escola?<br>
18) Qual a nota média dos alunos em Matemática para cada escola?<br>    
19) Considerando somente os alunos aprovados em Redação, qual a média de alunos aprovados por escola?<br>
20) Considerando somente os alunos aprovados em Matemática, qual a média de alunos aprovados por escola??<br>
21) Considerando alunos aprovados em Matemática e Redação, qual foi a média de alunos aprovados por escola?<br>
22) Considerando a taxa geral de aprovados, quais as 5 escolas com melhor performance?<br>
23) Em cada série, qual escola teve os alunos com melhor performance em Matemática?<br>
24) Considerando as faixas de gastos por estudante como sendo: [0, 585, 630, 645, 680], qual faixa resulta em estudantes com melhor performance?<br>
25) Considerando as faixas de tamanho (número de alunos) das escolas como sendo: [0, 1000, 2000, 5000], qual faixa resulta em estudantes com melhor performance?<br>
26) Qual o impacto do tipo de escola na performance dos alunos?<br>    

</strong>

### <br><u>Visualizando Dados</u>

In [26]:
dados_escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500
5,5,Escola F,Particular,2283,1319574
6,6,Escola G,Particular,1858,1081356
7,7,Escola H,Publica,4976,3124928
8,8,Escola I,Particular,427,248087
9,9,Escola J,Particular,962,585858


In [27]:
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,66,79,0,Escola A,Publica,2917,1910635
1,1,Paul Smith,M,9,94,61,0,Escola A,Publica,2917,1910635
2,2,John Rodriguez,M,9,90,60,0,Escola A,Publica,2917,1910635
3,3,Oliver Scott,M,9,67,58,0,Escola A,Publica,2917,1910635
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


### <br><font color='green'> 11) Entre os alunos aprovados em Redação, qual gênero obteve maior número de aprovações?</font> 

In [28]:
aprovados_genero_red = dados_full[(dados_full['Nota_Redacao'] >= 70)]['Genero'].value_counts()

aprovados_genero_red

Genero
F    17027
M    16573
Name: count, dtype: int64

### Resposta -> Feminino: 17027 e Masculino: 16573. O gênero feminino obteve o maior número de aprovações.<br>

### <br><font color='green'> 12) Entre os alunos aprovados em Matemática, qual gênero obteve maior número de aprovações?</font> 

In [29]:
aprovados_genero_mat = dados_full[(dados_full['Nota_Matematica'] >= 70)]['Genero'].value_counts()

aprovados_genero_mat

Genero
F    14835
M    14525
Name: count, dtype: int64

### Resposta ->  Feminino: 14835 e Masculino: 14525. O gênero feminino obteve o maior número de aprovações.<br>

### <br><font color='green'> 13) Quais os tipos de todas as escolas em nossa base de dados?</font> 

In [89]:
# Verificando valores únicos para a coluna Tipo_Escola
print(dados_escolas['Tipo_Escola'].unique())
print(dados_escolas['Tipo_Escola'].value_counts())

['Publica' 'Particular']
Tipo_Escola
Particular    8
Publica       7
Name: count, dtype: int64


In [31]:
tipos_escolas = dados_escolas.set_index(["Nome_Escola"])["Tipo_Escola"].sort_values()
tipos_escolas

Nome_Escola
Escola C    Particular
Escola E    Particular
Escola F    Particular
Escola G    Particular
Escola I    Particular
Escola J    Particular
Escola K    Particular
Escola O    Particular
Escola A       Publica
Escola B       Publica
Escola D       Publica
Escola H       Publica
Escola L       Publica
Escola M       Publica
Escola N       Publica
Name: Tipo_Escola, dtype: object

### Resposta -> Pública e Particular.<br>

### <br><font color='green'> 14) Qual o total de estudantes por escola?</font> 

In [32]:
total_estudantes_por_escola = dados_full['Nome_Escola'].value_counts()
print(total_estudantes_por_escola)

Nome_Escola
Escola H    4976
Escola M    4761
Escola D    4635
Escola L    3999
Escola B    2949
Escola A    2917
Escola N    2739
Escola F    2283
Escola G    1858
Escola K    1800
Escola C    1761
Escola O    1625
Escola E    1468
Escola J     962
Escola I     427
Name: count, dtype: int64


### Resposta -> Está no print.<br>

### <br><font color='green'> 15) Qual o total de orçamento de cada escola per capita (por estudante)?</font> 

In [33]:
print(dados_escolas)
print()
print(dados_escolas['Orcamento_Anual'][0])
print()

orcamento_per_capita_escola_A = dados_escolas['Orcamento_Anual'][0] / dados_escolas['Numero_Alunos'][0]
print('Orçamento Per Capita Escola A: ', orcamento_per_capita_escola_A)
print()

orcamento_per_capita_escola_B = dados_escolas['Orcamento_Anual'][1] / dados_escolas['Numero_Alunos'][1]
print('Orçamento Per Capita Escola B: ', orcamento_per_capita_escola_B)
print()

orcamento_per_capita_escola_C = dados_escolas['Orcamento_Anual'][2] / dados_escolas['Numero_Alunos'][2]
print('Orçamento Per Capita Escola C: ', orcamento_per_capita_escola_C)
print()

orcamento_per_capita_escola_D = dados_escolas['Orcamento_Anual'][3] / dados_escolas['Numero_Alunos'][3]
print('Orçamento Per Capita Escola D: ', orcamento_per_capita_escola_D)
print()

orcamento_per_capita_escola_E = dados_escolas['Orcamento_Anual'][4] / dados_escolas['Numero_Alunos'][4]
print('Orçamento Per Capita Escola E: ', orcamento_per_capita_escola_E)
print()

orcamento_per_capita_escola_F = dados_escolas['Orcamento_Anual'][5] / dados_escolas['Numero_Alunos'][5]
print('Orçamento Per Capita Escola F: ', orcamento_per_capita_escola_F)
print()

orcamento_per_capita_escola_G = dados_escolas['Orcamento_Anual'][6] / dados_escolas['Numero_Alunos'][6]
print('Orçamento Per Capita Escola G: ', orcamento_per_capita_escola_G)
print()

orcamento_per_capita_escola_H = dados_escolas['Orcamento_Anual'][7] / dados_escolas['Numero_Alunos'][7]
print('Orçamento Per Capita Escola H: ', orcamento_per_capita_escola_H)
print()

orcamento_per_capita_escola_I = dados_escolas['Orcamento_Anual'][8] / dados_escolas['Numero_Alunos'][8]
print('Orçamento Per Capita Escola I: ', orcamento_per_capita_escola_I)
print()

orcamento_per_capita_escola_J = dados_escolas['Orcamento_Anual'][9] / dados_escolas['Numero_Alunos'][9]
print('Orçamento Per Capita Escola J: ', orcamento_per_capita_escola_J)
print()

orcamento_per_capita_escola_K = dados_escolas['Orcamento_Anual'][10] / dados_escolas['Numero_Alunos'][10]
print('Orçamento Per Capita Escola K: ', orcamento_per_capita_escola_K)
print()

orcamento_per_capita_escola_L = dados_escolas['Orcamento_Anual'][11] / dados_escolas['Numero_Alunos'][11]
print('Orçamento Per Capita Escola L: ', orcamento_per_capita_escola_L)
print()

orcamento_per_capita_escola_M = dados_escolas['Orcamento_Anual'][12] / dados_escolas['Numero_Alunos'][12]
print('Orçamento Per Capita Escola M: ', orcamento_per_capita_escola_A)
print()

orcamento_per_capita_escola_N = dados_escolas['Orcamento_Anual'][13] / dados_escolas['Numero_Alunos'][13]
print('Orçamento Per Capita Escola N: ', orcamento_per_capita_escola_N)
print()

orcamento_per_capita_escola_O = dados_escolas['Orcamento_Anual'][14] / dados_escolas['Numero_Alunos'][14]
print('Orçamento Per Capita Escola O: ', orcamento_per_capita_escola_O)
print()

    ID_Escola Nome_Escola Tipo_Escola  Numero_Alunos  Orcamento_Anual
0           0    Escola A     Publica           2917          1910635
1           1    Escola B     Publica           2949          1884411
2           2    Escola C  Particular           1761          1056600
3           3    Escola D     Publica           4635          3022020
4           4    Escola E  Particular           1468           917500
5           5    Escola F  Particular           2283          1319574
6           6    Escola G  Particular           1858          1081356
7           7    Escola H     Publica           4976          3124928
8           8    Escola I  Particular            427           248087
9           9    Escola J  Particular            962           585858
10         10    Escola K  Particular           1800          1049400
11         11    Escola L     Publica           3999          2547363
12         12    Escola M     Publica           4761          3094650
13         13    Esc

In [34]:
# Otimizando o código
for index, row in dados_escolas.iterrows():
    orcamento_per_capita = row['Orcamento_Anual'] / row['Numero_Alunos']
    print(f"Orçamento Per Capita {row['Nome_Escola']}: {orcamento_per_capita:.2f}")

Orçamento Per Capita Escola A: 655.00
Orçamento Per Capita Escola B: 639.00
Orçamento Per Capita Escola C: 600.00
Orçamento Per Capita Escola D: 652.00
Orçamento Per Capita Escola E: 625.00
Orçamento Per Capita Escola F: 578.00
Orçamento Per Capita Escola G: 582.00
Orçamento Per Capita Escola H: 628.00
Orçamento Per Capita Escola I: 581.00
Orçamento Per Capita Escola J: 609.00
Orçamento Per Capita Escola K: 583.00
Orçamento Per Capita Escola L: 637.00
Orçamento Per Capita Escola M: 650.00
Orçamento Per Capita Escola N: 644.00
Orçamento Per Capita Escola O: 638.00


### Resposta -> Está no print. <br>

### <br><font color='green'> 16) Em qual tipo de escola (pública ou particular) há maior índice de aprovação?</font> 

In [35]:
# Verificando quantidade de alunos em Escolas Pública e Particular
escola_publica = dados_full[(dados_full['Tipo_Escola'] == 'Publica')]

escola_publica_total = escola_publica.shape[0]     
print(escola_publica_total)

escola_particular = dados_full[(dados_full['Tipo_Escola'] == 'Particular')]

escola_particular_total = escola_particular.shape[0]     
print(escola_particular_total)

26976
12184


In [36]:
# Verificando a quantidade total de aprovados por tipo de escola (levando em consideração que aprovados = notas de ambas as matérias acima de 70)
aprovados_pub = dados_full[(dados_full['Nota_Matematica'] >= 70) & 
                           (dados_full['Nota_Redacao'] >= 70) &
                           (dados_full['Tipo_Escola'] == 'Publica')]

aprovados_pub = aprovados_pub.shape[0]
print(aprovados_pub)

aprovados_par = dados_full[(dados_full['Nota_Matematica'] >= 70) & 
                           (dados_full['Nota_Redacao'] >= 70) &
                           (dados_full['Tipo_Escola'] == 'Particular')]

aprovados_par = aprovados_par.shape[0]
print(aprovados_par)

# Verificando o percentual de aprovados por tipo de escola
percentual_aprovados_pub = (aprovados_pub / escola_publica_total) * 100
print(percentual_aprovados_pub)

percentual_aprovados_par = (aprovados_par / escola_particular_total) * 100
print(percentual_aprovados_par)

14485
11033
53.695877817319094
90.55318450426789


### Resposta -> O índice de aprovação da escola pública é cerca de 53.70% de aprovação, enquanto o índice da escola particular é cerca de 90.55%.
### Portanto o maior índice de aprovação ocorre nas escolas do tipo particular.<br>

### <br><font color='green'> 17) Qual a nota média dos alunos em Redação para cada escola?</font> 

In [37]:
# Veriicando média por escola (desta forma teria que fazer por cada escola)
escola_A = dados_full[(dados_full['Nome_Escola'] == 'Escola A')]['Nota_Redacao'].mean()
print('Média Redação Escola A:', escola_A)

escola_B = dados_full[(dados_full['Nome_Escola'] == 'Escola B')]['Nota_Redacao'].mean()
print('Média Redação Escola B:', escola_B)

Média Redação Escola A: 81.18272197463148
Média Redação Escola B: 81.15801966768396


In [38]:
# Otimizando o código (usando groupby)

# Agrupando por 'Nome_Escola' e calculando a média da 'Nota_Redacao' para cada grupo
media_redacao_por_escola = dados_full.groupby('Nome_Escola')['Nota_Redacao'].mean()
media_redacao_por_escola

Nome_Escola
Escola A   81.18
Escola B   81.16
Escola C   83.73
Escola D   80.93
Escola E   83.82
Escola F   83.99
Escola G   83.98
Escola H   81.03
Escola I   83.81
Escola J   84.04
Escola K   83.95
Escola L   80.74
Escola M   80.97
Escola N   80.75
Escola O   83.81
Name: Nota_Redacao, dtype: float64

### Resposta -> Está no print.<br>

### <br><font color='green'> 18) Qual a nota média dos alunos em Matemática para cada escola?</font> 

In [39]:
# Otimizando o código

# Agrupando por 'Nome_Escola' e calculando a média da 'Nota_Matematica' para cada grupo
media_matematica_por_escola = dados_full.groupby('Nome_Escola')['Nota_Matematica'].mean()
media_matematica_por_escola

Nome_Escola
Escola A   76.63
Escola B   76.71
Escola C   83.36
Escola D   77.29
Escola E   83.35
Escola F   83.27
Escola G   83.06
Escola H   77.05
Escola I   83.80
Escola J   83.84
Escola K   83.68
Escola L   76.84
Escola M   77.07
Escola N   77.10
Escola O   83.44
Name: Nota_Matematica, dtype: float64

### Resposta -> Está no print.<br>

### <br><font color='green'> 19) Considerando somente os alunos aprovados em Redação, qual a média de alunos aprovados por escola?</font> 

In [40]:
aprovados_redacao = dados_full[(dados_full['Nota_Redacao'] >= 70)]

media_aprovados_red_por_escola = aprovados_redacao.groupby('Nome_Escola')['Nota_Redacao'].mean()
media_aprovados_red_por_escola

Nome_Escola
Escola A   84.69
Escola B   84.77
Escola C   84.36
Escola D   84.48
Escola E   84.25
Escola F   84.53
Escola G   84.43
Escola H   84.36
Escola I   84.39
Escola J   84.68
Escola K   84.48
Escola L   84.37
Escola M   84.43
Escola N   84.61
Escola O   84.22
Name: Nota_Redacao, dtype: float64

### Resposta -> Está no print.<br>

### <br><font color='green'> 20) Considerando somente os alunos aprovados em Matemática, qual a média de alunos aprovados por escola?</font> 

In [41]:
aprovados_matematica = dados_full[(dados_full['Nota_Matematica'] >= 70)]

media_aprovados_mat_por_escola = aprovados_matematica.groupby('Nome_Escola')['Nota_Matematica'].mean()
media_aprovados_mat_por_escola

Nome_Escola
Escola A   84.24
Escola B   84.31
Escola C   84.33
Escola D   84.94
Escola E   84.39
Escola F   84.24
Escola G   83.97
Escola H   84.51
Escola I   85.04
Escola J   84.72
Escola K   84.76
Escola L   84.34
Escola M   84.74
Escola N   84.17
Escola O   84.52
Name: Nota_Matematica, dtype: float64

### Resposta -> Está no print.<br>

### <br><font color='green'> 21) Considerando alunos aprovados em Matemática e Redação, qual foi a média de alunos aprovados por escola?</font> 

In [42]:
aprovados = dados_full[(dados_full['Nota_Matematica'] >= 70) & 
                       (dados_full['Nota_Redacao'] >= 70)]
aprovados.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
5,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635
6,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635
8,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635
9,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635


In [43]:
media_aprovados_por_escola = aprovados.groupby('Nome_Escola').apply(
    lambda df: ((df['Nota_Matematica'] + df['Nota_Redacao']) / 2).mean()
).reset_index(name='media_notas_aprovados')

media_aprovados_por_escola

  media_aprovados_por_escola = aprovados.groupby('Nome_Escola').apply(


Unnamed: 0,Nome_Escola,media_notas_aprovados
0,Escola A,84.47
1,Escola B,84.44
2,Escola C,84.34
3,Escola D,84.76
4,Escola E,84.34
5,Escola F,84.41
6,Escola G,84.22
7,Escola H,84.38
8,Escola I,84.75
9,Escola J,84.74


In [44]:
# Modificando código para evitar mensagem de DeprecationWarning
media_aprovados_por_escola_por_materia = aprovados.groupby('Nome_Escola').agg({
    'Nota_Redacao': 'mean',
    'Nota_Matematica': 'mean'
}).reset_index()

print(media_aprovados_por_escola_por_materia)

media_aprovados_por_escola['media_notas_aprovados'] = (media_aprovados_por_escola_por_materia['Nota_Redacao'] + media_aprovados_por_escola_por_materia['Nota_Matematica']) / 2
media_aprovados_por_escola = media_aprovados_por_escola[['Nome_Escola', 'media_notas_aprovados']]

print()
print(media_aprovados_por_escola)

   Nome_Escola  Nota_Redacao  Nota_Matematica
0     Escola A         84.66            84.28
1     Escola B         84.80            84.09
2     Escola C         84.26            84.41
3     Escola D         84.52            84.99
4     Escola E         84.22            84.45
5     Escola F         84.57            84.26
6     Escola G         84.41            84.02
7     Escola H         84.34            84.43
8     Escola I         84.48            85.01
9     Escola J         84.76            84.72
10    Escola K         84.47            84.71
11    Escola L         84.28            84.34
12    Escola M         84.34            84.66
13    Escola N         84.75            84.20
14    Escola O         84.22            84.53

   Nome_Escola  media_notas_aprovados
0     Escola A                  84.47
1     Escola B                  84.44
2     Escola C                  84.34
3     Escola D                  84.76
4     Escola E                  84.34
5     Escola F                  84.

### Resposta -> Está no print.<br>

### <br><font color='green'> 22) Considerando a taxa geral de aprovados, quais as 5 escolas com melhor performance?</font> 

In [45]:
aprovados = dados_full[(dados_full['Nota_Matematica'] >= 70) & 
                       (dados_full['Nota_Redacao'] >= 70)]
aprovados.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
5,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635
6,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635
8,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635
9,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635


In [46]:
# Usando value_counts()
total_estudantes_apovados_por_escola = aprovados['Nome_Escola'].value_counts()
total_estudantes_apovados_por_escola

Nome_Escola
Escola H    2719
Escola M    2549
Escola D    2481
Escola L    2119
Escola F    2068
Escola G    1697
Escola K    1626
Escola C    1583
Escola B    1569
Escola A    1561
Escola N    1487
Escola O    1477
Escola E    1330
Escola J     871
Escola I     381
Name: count, dtype: int64

In [47]:
# Usando group_by
total_estudantes_aprovados_por_escola = aprovados.groupby('Nome_Escola').size()
total_estudantes_aprovados_por_escola

Nome_Escola
Escola A    1561
Escola B    1569
Escola C    1583
Escola D    2481
Escola E    1330
Escola F    2068
Escola G    1697
Escola H    2719
Escola I     381
Escola J     871
Escola K    1626
Escola L    2119
Escola M    2549
Escola N    1487
Escola O    1477
dtype: int64

In [48]:
type(total_estudantes_aprovados_por_escola)

pandas.core.series.Series

### Resposta -> Escola H, M, D, L e F.<br>

### <br><font color='green'> 23) Em cada série, qual escola teve os alunos com melhor performance em Matemática?</font> 

In [49]:
# Visualizando dados
aprovados

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
5,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635
6,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635
8,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635
9,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


In [50]:
# Selecionando Colunas
aprovados_matematica = aprovados[['Nome_Escola', 'Serie', 'Nota_Matematica']]
aprovados_matematica

Unnamed: 0,Nome_Escola,Serie,Nota_Matematica
4,Escola A,6,84
5,Escola A,6,94
6,Escola A,8,80
8,Escola A,7,87
9,Escola A,7,84
...,...,...,...
39155,Escola O,7,98
39156,Escola O,8,95
39157,Escola O,6,94
39158,Escola O,7,90


In [51]:
# Realizando Agrupamento Por Serie e Nome_Escola e calculando a média
aprovados_por_serie_e_escola = aprovados_matematica.groupby(['Serie', 'Nome_Escola'])['Nota_Matematica'].mean().reset_index()
aprovados_por_serie_e_escola

Unnamed: 0,Serie,Nome_Escola,Nota_Matematica
0,6,Escola A,84.28
1,6,Escola B,84.36
2,6,Escola C,84.47
3,6,Escola D,85.07
4,6,Escola E,83.11
5,6,Escola F,84.15
6,6,Escola G,83.79
7,6,Escola H,84.31
8,6,Escola I,85.27
9,6,Escola J,84.7


In [52]:
# Em seguida, encontramos a escola com a maior média em Matemática por série
melhor_performance_por_serie = aprovados_por_serie_e_escola.loc[aprovados_por_serie_e_escola.groupby('Serie')['Nota_Matematica'].idxmax()]
melhor_performance_por_serie

Unnamed: 0,Serie,Nome_Escola,Nota_Matematica
8,6,Escola I,85.27
19,7,Escola E,85.29
38,8,Escola I,86.5
54,9,Escola J,85.13


### Resposta -> Serie 6 - Escola I. Serie 7 - Escola E. Serie 8 - Escola I. Serie 9 - Escola J<br>

### <br><font color='green'> 24) Considerando as faixas de gastos por estudante como sendo: [0, 585, 630, 645, 680], qual faixa resulta em estudantes com melhor performance?</font> 

In [64]:
dados_escolas['Orcamento_Per_Capita'] = dados_escolas['Orcamento_Anual'] / dados_escolas['Numero_Alunos']
dados_escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Orcamento_Per_Capita
0,0,Escola A,Publica,2917,1910635,655.0
1,1,Escola B,Publica,2949,1884411,639.0
2,2,Escola C,Particular,1761,1056600,600.0
3,3,Escola D,Publica,4635,3022020,652.0
4,4,Escola E,Particular,1468,917500,625.0
5,5,Escola F,Particular,2283,1319574,578.0
6,6,Escola G,Particular,1858,1081356,582.0
7,7,Escola H,Publica,4976,3124928,628.0
8,8,Escola I,Particular,427,248087,581.0
9,9,Escola J,Particular,962,585858,609.0


In [76]:
# Adicionando Nova Coluna Media_Aprovados
aprovados['Media_Aprovados'] = (aprovados['Nota_Redacao'] + aprovados['Nota_Matematica']) / 2
aprovados

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  aprovados['Media_Aprovados'] = (aprovados['Nota_Redacao'] + aprovados['Nota_Matematica']) / 2


Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Media_Aprovados
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635,90.50
5,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635,94.00
6,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635,81.00
8,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635,91.00
9,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635,90.00
...,...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130,95.00
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130,87.00
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130,86.50
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130,88.50


In [77]:
# Adicionando coluna Orcamento_Per_Capitao em dados_full
orcamento_per_capita_df = dados_escolas[['Nome_Escola', 'Orcamento_Per_Capita']]

# Mesclando o dataframe intermediário com o dataframe aprovados
dados_completos = pd.merge(aprovados, orcamento_per_capita_df, on='Nome_Escola', how='left')
dados_completos

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Media_Aprovados,Orcamento_Per_Capita
0,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635,90.50,655.00
1,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635,94.00,655.00
2,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635,81.00,655.00
3,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635,91.00,655.00
4,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635,90.00,655.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
25513,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130,95.00,638.00
25514,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130,87.00,638.00
25515,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130,86.50,638.00
25516,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130,88.50,638.00


In [68]:
# Verificando Valores Únicos para Orcamento_Per_Capita
dados_completos['Orcamento_Per_Capita'].value_counts()

Orcamento_Per_Capita
628.00    2719
650.00    2549
652.00    2481
637.00    2119
578.00    2068
582.00    1697
583.00    1626
600.00    1583
639.00    1569
655.00    1561
644.00    1487
638.00    1477
625.00    1330
609.00     871
581.00     381
Name: count, dtype: int64

In [79]:
# Realizando Agrupamento Por Orcamento_Per_Capita e calculando a média
# Calculando a média das notas de Matemática e Redação para cada faixa de Orcamento_Per_Capita
aprovados_por_oc = dados_completos.groupby('Orcamento_Per_Capita')['Media_Aprovados'].mean().reset_index()
aprovados_por_oc

Unnamed: 0,Orcamento_Per_Capita,Media_Aprovados
0,578.0,84.41
1,581.0,84.75
2,582.0,84.22
3,583.0,84.59
4,600.0,84.34
5,609.0,84.74
6,625.0,84.34
7,628.0,84.38
8,637.0,84.31
9,638.0,84.38


In [81]:
# Encontrando Melhor Média de Orcamento_Per_Capita
aprovados_por_oc_ordenado = aprovados_por_oc.sort_values(by='Media_Aprovados', ascending=False)
aprovados_por_oc_ordenado

Unnamed: 0,Orcamento_Per_Capita,Media_Aprovados
13,652.0,84.76
1,581.0,84.75
5,609.0,84.74
3,583.0,84.59
12,650.0,84.5
11,644.0,84.48
14,655.0,84.47
10,639.0,84.44
0,578.0,84.41
7,628.0,84.38


### Resposta -> Orçamento de 652 tem a melhor performance.<br>

### <br><font color='green'> 25) Considerando as faixas de tamanho (número de alunos) das escolas como sendo: [0, 1000, 2000, 5000], qual faixa resulta em estudantes com melhor performance?</font> 

In [83]:
# Adicionando Nova Coluna Faixa_Estudantes
dados_completos['Faixa_Estudantes'] = pd.cut(dados_completos['Numero_Alunos'],
                                             bins=[0, 1000, 2000, 5000, 10000],
                                             labels=['0-1000', '1001-2000', '2001-5000', '5001-10000'],
                                             right=False)

dados_completos

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Media_Aprovados,Orcamento_Per_Capita,Faixa_Estudantes
0,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635,90.50,655.00,2001-5000
1,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635,94.00,655.00,2001-5000
2,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635,81.00,655.00,2001-5000
3,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635,91.00,655.00,2001-5000
4,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635,90.00,655.00,2001-5000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25513,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130,95.00,638.00,1001-2000
25514,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130,87.00,638.00,1001-2000
25515,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130,86.50,638.00,1001-2000
25516,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130,88.50,638.00,1001-2000


In [84]:
# Verificando Valores Únicos para Numero_Alunos
dados_completos['Faixa_Estudantes'].value_counts()

Faixa_Estudantes
2001-5000     16553
1001-2000      7713
0-1000         1252
5001-10000        0
Name: count, dtype: int64

In [85]:
# Realizando Agrupamento Por Faixa_Estudantes e calculando a média
aprovados_por_fe = dados_completos.groupby('Faixa_Estudantes')['Media_Aprovados'].mean().reset_index()
aprovados_por_fe

  aprovados_por_fe = dados_completos.groupby('Faixa_Estudantes')['Media_Aprovados'].mean().reset_index()


Unnamed: 0,Faixa_Estudantes,Media_Aprovados
0,0-1000,84.74
1,1001-2000,84.37
2,2001-5000,84.47
3,5001-10000,


### Resposta -> Faixa de 0 a 1000 tem os melhores resultados.<br>

### <br><font color='green'> 26) Qual o impacto do tipo de escola na performance dos alunos?</font> 

In [86]:
dados_completos

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual,Media_Aprovados,Orcamento_Per_Capita,Faixa_Estudantes
0,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635,90.50,655.00,2001-5000
1,5,James Miranda,M,6,94,94,0,Escola A,Publica,2917,1910635,94.00,655.00,2001-5000
2,6,Benjamin Carter,F,8,82,80,0,Escola A,Publica,2917,1910635,81.00,655.00,2001-5000
3,8,Ethan Roth,M,7,95,87,0,Escola A,Publica,2917,1910635,91.00,655.00,2001-5000
4,9,Jacob Greene,M,7,96,84,0,Escola A,Publica,2917,1910635,90.00,655.00,2001-5000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25513,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130,95.00,638.00,1001-2000
25514,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130,87.00,638.00,1001-2000
25515,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130,86.50,638.00,1001-2000
25516,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130,88.50,638.00,1001-2000


In [87]:
# Realizando Agrupamento Por Tipo_Escola e calculando a média
aprovados_por_te = dados_completos.groupby('Tipo_Escola')['Media_Aprovados'].mean().reset_index()
aprovados_por_te

Unnamed: 0,Tipo_Escola,Media_Aprovados
0,Particular,84.42
1,Publica,84.48


### Resposta -> <br>

# FIM