# <font color='blue'>Análise de Dados Escolares com Pandas</font>

In [153]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.12


In [154]:
# Imports
import pandas as pd

## Carregando os Dados

In [155]:
# Carrega o dataset de escolas
dados_escolas = pd.read_csv("dataset_escolas.csv")

In [156]:
# Shape
dados_escolas.shape

(15, 5)

In [157]:
# Visualiza
dados_escolas.head()

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500


In [158]:
# Dataset de estudantes
dados_estudantes = pd.read_csv("dataset_estudantes.csv")

In [159]:
# Shape
dados_estudantes.shape

(39160, 7)

In [160]:
# Visualiza
dados_estudantes.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84


In [161]:
# Combina os datasets
dados_full = pd.merge(dados_estudantes, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [162]:
# Shape
dados_full.shape

(39160, 11)

In [163]:
# Visualiza
dados_full.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635


In [164]:
# Séries escolares no dataset
dados_full["Serie"].unique()

array([6, 9, 8, 7])

In [165]:
# Genero
dados_full["Genero"].unique()

array(['M', 'F'], dtype=object)

## Business Questions

> **1- Temos dados de quantas escolas?**

In [166]:
total_escolas = len(dados_full["Nome_Escola"].unique()); total_escolas

15

> **2- Qual o total de registros de estudantes na base de dados?**

In [167]:
total_estudantes = dados_full["ID_Estudante"].count(); total_estudantes

39160

In [168]:
total_estudantes_2 = len(dados_full["ID_Estudante"].unique()); total_estudantes_2

39160

> **3- Qual o orçamento total considerando todas as escolas?**

In [169]:
total_orc = dados_escolas["Orcamento_Anual"].sum(); total_orc

24649428

> **4- Qual a média da nota dos alunos em Redação?**

In [170]:
media_redacao = dados_full["Nota_Redacao"].mean()
media_redacao

81.87574055158325

> **5- Qual a média da nota dos alunos em Matemática?**

In [171]:
media_matematica = dados_full["Nota_Matematica"].mean()
media_matematica

78.98493360572012

> **6- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)**

In [172]:
contagem_aprovados_red = dados_full[(dados_full["Nota_Redacao"] >= 70)].count()["Nome_Estudante"]
contagem_aprovados_red

33600

In [173]:
percentual_aprovados_red = contagem_aprovados_red / float(total_estudantes) * 100
percentual_aprovados_red

85.80183861082737

> **7- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)**

In [174]:
contagem_aprovados_mat = dados_full[(dados_full["Nota_Matematica"] >= 70)].count()["Nome_Estudante"]
contagem_aprovados_mat

29360

In [175]:
percentual_aprovados_mat = contagem_aprovados_mat / float(total_estudantes) * 100
percentual_aprovados_mat

74.97446373850867

> **8- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)**

In [176]:
contagem_total_aprovados = dados_full[(dados_full["Nota_Matematica"] >= 70) 
                                                  & (dados_full["Nota_Redacao"] >= 70)].count()["Nome_Estudante"]
contagem_total_aprovados

25518

In [177]:
percentual_aprovados_total = contagem_total_aprovados /  float(total_estudantes) * 100
percentual_aprovados_total

65.16343207354444

> **9- Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. (Crie um dicionário e depois converta em dataframe do Pandas)**

In [178]:
df_performance_escolar = pd.DataFrame({"Total de Escolas": [total_escolas], 
                                       "Total de Estudantes": [total_estudantes], 
                                       "Total Orçamento": [total_orc],
                                       "Nota Média em Redação": [media_redacao], 
                                       "Nota Média em Matemática": [media_matematica],
                                       "% Aprovação Redação": [percentual_aprovados_red],
                                       "% Aprovação Matemática": [percentual_aprovados_mat],
                                       "% Aprovação Total": [percentual_aprovados_total]})

In [179]:
df_performance_escolar

Unnamed: 0,Total de Escolas,Total de Estudantes,Total Orçamento,Nota Média em Redação,Nota Média em Matemática,% Aprovação Redação,% Aprovação Matemática,% Aprovação Total
0,15,39160,24649428,81.875741,78.984934,85.801839,74.974464,65.163432


In [180]:
type(df_performance_escolar)

pandas.core.frame.DataFrame

> **10- Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.**

In [181]:
df_performance_escolar["Total Orçamento"] = df_performance_escolar["Total Orçamento"].map("${:,.2f}".format)

In [182]:
df_performance_escolar

Unnamed: 0,Total de Escolas,Total de Estudantes,Total Orçamento,Nota Média em Redação,Nota Média em Matemática,% Aprovação Redação,% Aprovação Matemática,% Aprovação Total
0,15,39160,"$24,649,428.00",81.875741,78.984934,85.801839,74.974464,65.163432


## Análise de Dados

**1- Entre os alunos aprovados em Redação, qual gênero obteve maior número de aprovações?**

In [183]:
aprovados_por_genero_red = dados_full[(dados_full["Nota_Redacao"] >= 70)]["Genero"].value_counts()
aprovados_por_genero_red

F    17027
M    16573
Name: Genero, dtype: int64

**2- Entre os alunos aprovados em Matemática, qual gênero obteve maior número de aprovações?**

In [184]:
aprovados_por_genero_mat = dados_full[(dados_full["Nota_Matematica"] >= 70)]["Genero"].value_counts()
aprovados_por_genero_mat

F    14835
M    14525
Name: Genero, dtype: int64

**3- Quais os tipos de todas as escolas em nossa base de dados?**

In [185]:
dados_escolas["Tipo_Escola"].value_counts()

Particular    8
Publica       7
Name: Tipo_Escola, dtype: int64

In [186]:
tipos_escolas = dados_escolas.set_index(["Nome_Escola"])["Tipo_Escola"].sort_values()
tipos_escolas

Nome_Escola
Escola C    Particular
Escola E    Particular
Escola F    Particular
Escola G    Particular
Escola I    Particular
Escola J    Particular
Escola K    Particular
Escola O    Particular
Escola A       Publica
Escola B       Publica
Escola D       Publica
Escola H       Publica
Escola L       Publica
Escola M       Publica
Escola N       Publica
Name: Tipo_Escola, dtype: object

**4- Qual o total de estudantes por escola?**

In [187]:
total_estudantes_escola = dados_full["Nome_Escola"].value_counts().sort_values()
total_estudantes_escola

Escola I     427
Escola J     962
Escola E    1468
Escola O    1625
Escola C    1761
Escola K    1800
Escola G    1858
Escola F    2283
Escola N    2739
Escola A    2917
Escola B    2949
Escola L    3999
Escola D    4635
Escola M    4761
Escola H    4976
Name: Nome_Escola, dtype: int64

**5- Qual o total de orçamento de cada escola per capita (por estudante)?**

In [188]:
orc_escola = dados_full.groupby(["Nome_Escola"]).mean()["Orcamento_Anual"].sort_values()
orc_escola

Nome_Escola
Escola I     248087.0
Escola J     585858.0
Escola E     917500.0
Escola O    1043130.0
Escola K    1049400.0
Escola C    1056600.0
Escola G    1081356.0
Escola F    1319574.0
Escola N    1763916.0
Escola B    1884411.0
Escola A    1910635.0
Escola L    2547363.0
Escola D    3022020.0
Escola M    3094650.0
Escola H    3124928.0
Name: Orcamento_Anual, dtype: float64

In [189]:
orc_escola_percapita = (orc_escola / total_estudantes_escola).sort_values()
orc_escola_percapita

Escola F    578.000000
Escola I    581.000000
Escola G    582.000000
Escola K    583.000000
Escola C    600.000000
Escola J    609.000000
Escola E    625.000000
Escola H    628.000000
Escola L    637.000000
Escola B    639.000000
Escola O    641.926154
Escola N    644.000000
Escola M    650.000000
Escola D    652.000000
Escola A    655.000000
dtype: float64

In [190]:
dados_full.columns

Index(['ID_Estudante', 'Nome_Estudante', 'Genero', 'Serie', 'Nome_Escola',
       'Nota_Redacao', 'Nota_Matematica', 'ID_Escola', 'Tipo_Escola',
       'Numero_Alunos', 'Orcamento_Anual'],
      dtype='object')

**6- Qual a nota média dos alunos em Redação para cada escola?**

In [191]:
media_escola_red = dados_full.groupby(["Nome_Escola"]).mean()["Nota_Redacao"].sort_values()
media_escola_red

Nome_Escola
Escola L    80.744686
Escola N    80.746258
Escola D    80.934412
Escola M    80.966394
Escola H    81.033963
Escola B    81.158020
Escola A    81.182722
Escola C    83.725724
Escola O    83.810462
Escola I    83.814988
Escola E    83.816757
Escola K    83.955000
Escola G    83.975780
Escola F    83.989488
Escola J    84.044699
Name: Nota_Redacao, dtype: float64

**7- Qual a nota média dos alunos em Matemática para cada escola?**

In [192]:
media_escola_mat = dados_full.groupby(["Nome_Escola"]).mean()["Nota_Matematica"].sort_values()
media_escola_mat

Nome_Escola
Escola A    76.629414
Escola B    76.711767
Escola L    76.842711
Escola H    77.048432
Escola M    77.072464
Escola N    77.102592
Escola D    77.289752
Escola G    83.061895
Escola F    83.274201
Escola E    83.351499
Escola C    83.359455
Escola O    83.435077
Escola K    83.682222
Escola I    83.803279
Escola J    83.839917
Name: Nota_Matematica, dtype: float64

In [193]:
dados_full.columns

Index(['ID_Estudante', 'Nome_Estudante', 'Genero', 'Serie', 'Nome_Escola',
       'Nota_Redacao', 'Nota_Matematica', 'ID_Escola', 'Tipo_Escola',
       'Numero_Alunos', 'Orcamento_Anual'],
      dtype='object')

**8- Considerando somente os alunos aprovados em Redação, qual a média de alunos aprovados por escola?**

In [194]:
# Alunos aprovados em Redação
aprovados_red = dados_full[(dados_full["Nota_Redacao"] >= 70)]; aprovados_red.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
5,5,James Miranda,M,6,Escola A,94,94,0,Publica,2917,1910635
6,6,Benjamin Carter,F,8,Escola A,82,80,0,Publica,2917,1910635


In [195]:
# Média da nota em Redação por escola considerando os aprovados em Redação
media_apr_red_esc = (aprovados_red.groupby(["Nome_Escola"]).count()["Nome_Estudante"] / total_estudantes_escola * 100).sort_values()
media_apr_red_esc

Escola N    79.299014
Escola L    80.220055
Escola B    80.739234
Escola D    80.862999
Escola M    81.222432
Escola A    81.316421
Escola H    81.933280
Escola C    95.854628
Escola J    95.945946
Escola I    96.252927
Escola F    96.539641
Escola K    96.611111
Escola G    97.039828
Escola E    97.138965
Escola O    97.292308
dtype: float64

**9- Considerando somente os alunos aprovados em Matemática, qual a média de alunos aprovados por escola?**

In [196]:
# Alunos aprovados em Matemática
aprovados_mat = dados_full[(dados_full["Nota_Matematica"] >= 70)]; aprovados_mat.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
5,5,James Miranda,M,6,Escola A,94,94,0,Publica,2917,1910635
6,6,Benjamin Carter,F,8,Escola A,82,80,0,Publica,2917,1910635
8,8,Ethan Roth,M,7,Escola A,95,87,0,Publica,2917,1910635


In [197]:
# Média da nota em Matemática por escola considerando os aprovados em Matemática
media_apr_mat_esc = (aprovados_mat.groupby(["Nome_Escola"]).count()["Nome_Estudante"]/ total_estudantes_escola * 100).sort_values()
media_apr_mat_esc

Escola A    65.683922
Escola B    65.988471
Escola M    66.057551
Escola L    66.366592
Escola H    66.680064
Escola D    66.752967
Escola N    68.309602
Escola I    92.505855
Escola O    93.230769
Escola K    93.333333
Escola E    93.392371
Escola C    93.867121
Escola F    93.867718
Escola G    94.133477
Escola J    94.594595
dtype: float64

**10- Considerando alunos aprovados em Matemática e Redação, qual foi a média de alunos aprovados por escola?**

In [198]:
aprovados_mat_red = dados_full[(dados_full["Nota_Redacao"] >= 70) & (dados_full["Nota_Matematica"] >= 70)]
aprovados_mat_red.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
5,5,James Miranda,M,6,Escola A,94,94,0,Publica,2917,1910635
6,6,Benjamin Carter,F,8,Escola A,82,80,0,Publica,2917,1910635
8,8,Ethan Roth,M,7,Escola A,95,87,0,Publica,2917,1910635
9,9,Jacob Greene,M,7,Escola A,96,84,0,Publica,2917,1910635


In [199]:
taxa_aprovados_red_mat = (aprovados_mat_red.groupby(["Nome_Escola"]).count()["Nome_Estudante"] / total_estudantes_escola * 100).sort_values()
taxa_aprovados_red_mat

Escola L    52.988247
Escola B    53.204476
Escola A    53.513884
Escola D    53.527508
Escola M    53.539172
Escola N    54.289887
Escola H    54.642283
Escola I    89.227166
Escola C    89.892107
Escola K    90.333333
Escola J    90.540541
Escola F    90.582567
Escola E    90.599455
Escola O    90.892308
Escola G    91.334769
dtype: float64

Construindo um dataframe de resumo com as métricas anteriores.

In [200]:
df_resumo_performance_escolar = pd.DataFrame({"Tipo Escola": tipos_escolas,
                                              "Total Estudantes": total_estudantes_escola,
                                              "Total Orçamento": orc_escola,
                                              "Orçamento Por Estudante": orc_escola_percapita,
                                              "Nota Média Aprovação Redação": media_escola_red,
                                              "Nota Média Aprovação Matemática": media_escola_mat,
                                              "% Aprovados Redação": media_apr_red_esc,
                                              "% Aprovados Matemática": media_apr_mat_esc,
                                              "% Geral Aprovados": taxa_aprovados_red_mat})

In [201]:
df_resumo_performance_escolar

Unnamed: 0,Tipo Escola,Total Estudantes,Total Orçamento,Orçamento Por Estudante,Nota Média Aprovação Redação,Nota Média Aprovação Matemática,% Aprovados Redação,% Aprovados Matemática,% Geral Aprovados
Escola A,Publica,2917,1910635.0,655.0,81.182722,76.629414,81.316421,65.683922,53.513884
Escola B,Publica,2949,1884411.0,639.0,81.15802,76.711767,80.739234,65.988471,53.204476
Escola C,Particular,1761,1056600.0,600.0,83.725724,83.359455,95.854628,93.867121,89.892107
Escola D,Publica,4635,3022020.0,652.0,80.934412,77.289752,80.862999,66.752967,53.527508
Escola E,Particular,1468,917500.0,625.0,83.816757,83.351499,97.138965,93.392371,90.599455
Escola F,Particular,2283,1319574.0,578.0,83.989488,83.274201,96.539641,93.867718,90.582567
Escola G,Particular,1858,1081356.0,582.0,83.97578,83.061895,97.039828,94.133477,91.334769
Escola H,Publica,4976,3124928.0,628.0,81.033963,77.048432,81.93328,66.680064,54.642283
Escola I,Particular,427,248087.0,581.0,83.814988,83.803279,96.252927,92.505855,89.227166
Escola J,Particular,962,585858.0,609.0,84.044699,83.839917,95.945946,94.594595,90.540541


Formatamos algumas colunas.

In [202]:
df_resumo_performance_escolar["Total Orçamento"] = df_resumo_performance_escolar["Total Orçamento"].map("${:,.2f}".format)
df_resumo_performance_escolar["Orçamento Por Estudante"] = df_resumo_performance_escolar["Orçamento Por Estudante"].map("${:,.2f}".format)
#df_resumo_performance_escolar["Nota Média Aprovação Redação"] = df_resumo_performance_escolar["Nota Média Aprovação Redação"].map("{:.2f}".format)
#df_resumo_performance_escolar["Nota Média Aprovação Matemática"] = df_resumo_performance_escolar["Nota Média Aprovação Matemática"].map("{:.2f}".format)
#df_resumo_performance_escolar["% Aprovados Redação"] = df_resumo_performance_escolar["% Aprovados Redação"].map("{:.2f}".format)
#df_resumo_performance_escolar["% Aprovados Matemática"] = df_resumo_performance_escolar["% Aprovados Matemática"].map("{:.2f}".format)
#df_resumo_performance_escolar["% Geral Aprovados"] = df_resumo_performance_escolar["% Geral Aprovados"].map("{:.2f}".format)

In [203]:
df_resumo_performance_escolar

Unnamed: 0,Tipo Escola,Total Estudantes,Total Orçamento,Orçamento Por Estudante,Nota Média Aprovação Redação,Nota Média Aprovação Matemática,% Aprovados Redação,% Aprovados Matemática,% Geral Aprovados
Escola A,Publica,2917,"$1,910,635.00",$655.00,81.18,76.63,81.32,65.68,53.51
Escola B,Publica,2949,"$1,884,411.00",$639.00,81.16,76.71,80.74,65.99,53.2
Escola C,Particular,1761,"$1,056,600.00",$600.00,83.73,83.36,95.85,93.87,89.89
Escola D,Publica,4635,"$3,022,020.00",$652.00,80.93,77.29,80.86,66.75,53.53
Escola E,Particular,1468,"$917,500.00",$625.00,83.82,83.35,97.14,93.39,90.6
Escola F,Particular,2283,"$1,319,574.00",$578.00,83.99,83.27,96.54,93.87,90.58
Escola G,Particular,1858,"$1,081,356.00",$582.00,83.98,83.06,97.04,94.13,91.33
Escola H,Publica,4976,"$3,124,928.00",$628.00,81.03,77.05,81.93,66.68,54.64
Escola I,Particular,427,"$248,087.00",$581.00,83.81,83.8,96.25,92.51,89.23
Escola J,Particular,962,"$585,858.00",$609.00,84.04,83.84,95.95,94.59,90.54


In [204]:
df_resumo_performance_escolar.describe()

Unnamed: 0,Total Estudantes
count,15.0
mean,2610.666667
std,1421.408339
min,427.0
25%,1693.0
50%,2283.0
75%,3474.0
max,4976.0


**11-A- Considerando a taxa geral de aprovados, quais as 5 escolas com melhor performance?**

In [205]:
top_escolas = df_resumo_performance_escolar.sort_values(["% Geral Aprovados"], ascending = False)
top_escolas.head(5)

Unnamed: 0,Tipo Escola,Total Estudantes,Total Orçamento,Orçamento Por Estudante,Nota Média Aprovação Redação,Nota Média Aprovação Matemática,% Aprovados Redação,% Aprovados Matemática,% Geral Aprovados
Escola G,Particular,1858,"$1,081,356.00",$582.00,83.98,83.06,97.04,94.13,91.33
Escola O,Particular,1625,"$1,043,130.00",$641.93,83.81,83.44,97.29,93.23,90.89
Escola E,Particular,1468,"$917,500.00",$625.00,83.82,83.35,97.14,93.39,90.6
Escola F,Particular,2283,"$1,319,574.00",$578.00,83.99,83.27,96.54,93.87,90.58
Escola J,Particular,962,"$585,858.00",$609.00,84.04,83.84,95.95,94.59,90.54


**11-B- Considerando a taxa geral de aprovados, quais as 5 escolas com pior performance?**

In [206]:
bottom_escolas = df_resumo_performance_escolar.sort_values(["% Geral Aprovados"], ascending = True)
bottom_escolas.head(5)

Unnamed: 0,Tipo Escola,Total Estudantes,Total Orçamento,Orçamento Por Estudante,Nota Média Aprovação Redação,Nota Média Aprovação Matemática,% Aprovados Redação,% Aprovados Matemática,% Geral Aprovados
Escola L,Publica,3999,"$2,547,363.00",$637.00,80.74,76.84,80.22,66.37,52.99
Escola B,Publica,2949,"$1,884,411.00",$639.00,81.16,76.71,80.74,65.99,53.2
Escola A,Publica,2917,"$1,910,635.00",$655.00,81.18,76.63,81.32,65.68,53.51
Escola D,Publica,4635,"$3,022,020.00",$652.00,80.93,77.29,80.86,66.75,53.53
Escola M,Publica,4761,"$3,094,650.00",$650.00,80.97,77.07,81.22,66.06,53.54


In [207]:
dados_full.columns

Index(['ID_Estudante', 'Nome_Estudante', 'Genero', 'Serie', 'Nome_Escola',
       'Nota_Redacao', 'Nota_Matematica', 'ID_Escola', 'Tipo_Escola',
       'Numero_Alunos', 'Orcamento_Anual'],
      dtype='object')

**12- Em cada série, qual escola teve os alunos com melhor performance em Matemática?**

In [208]:
sexta_serie = dados_full[(dados_full["Serie"] == 6)]
setima_serie = dados_full[(dados_full["Serie"] == 7)]
oitava_serie = dados_full[(dados_full["Serie"] == 8)]
nona_serie = dados_full[(dados_full["Serie"] == 9)]

In [209]:
sexta_serie.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
5,5,James Miranda,M,6,Escola A,94,94,0,Publica,2917,1910635
12,12,Sebastian Walker,F,6,Escola A,64,79,0,Publica,2917,1910635
13,13,Mateo Long,M,6,Escola A,71,79,0,Publica,2917,1910635


In [210]:
notas_sexta_serie = sexta_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]
notas_setima_serie = setima_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]
notas_oitava_serie = oitava_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]
notas_nona_serie = nona_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]

In [211]:
notas_por_serie = pd.DataFrame({"Sexta Série": notas_sexta_serie, 
                                "Sétima Série": notas_setima_serie,
                                "Oitava Série": notas_oitava_serie, 
                                "Nona Série": notas_nona_serie})

In [212]:
notas_por_serie.sort_values(by = "Nome_Escola")

Unnamed: 0_level_0,Sexta Série,Sétima Série,Oitava Série,Nona Série
Nome_Escola,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Escola A,77.027251,75.908735,76.446602,77.225641
Escola B,76.403037,76.539974,76.884344,77.151369
Escola C,83.420755,82.917411,83.383495,83.778976
Escola D,77.438495,77.337408,77.136029,77.186567
Escola E,82.04401,84.229064,83.842105,83.356164
Escola F,83.085578,83.724422,83.195326,83.035794
Escola G,83.094697,83.154506,82.76556,83.277487
Escola H,77.083676,76.996772,77.515588,76.492218
Escola I,83.787402,83.429825,85.0,82.855422
Escola J,83.625455,83.372,84.328125,84.121547


In [213]:
notas_por_serie["Sexta Série"].idxmax()

'Escola I'

In [214]:
notas_por_serie["Sétima Série"].idxmax()

'Escola E'

In [215]:
notas_por_serie["Oitava Série"].idxmax()

'Escola I'

In [216]:
notas_por_serie["Nona Série"].idxmax()

'Escola J'

**13- Considerando as faixas de gastos por estudante como sendo: [0, 585, 630, 645, 680], qual faixa resulta em estudantes com melhor performance?**

In [217]:
df_resumo_performance_escolar.columns

Index(['Tipo Escola', 'Total Estudantes', 'Total Orçamento',
       'Orçamento Por Estudante', 'Nota Média Aprovação Redação',
       'Nota Média Aprovação Matemática', '% Aprovados Redação',
       '% Aprovados Matemática', '% Geral Aprovados'],
      dtype='object')

In [218]:
faixas_bins = [0, 585, 630, 645, 680]
labels_faixas = ["<$585", "$585-630", "$630-645", "$645-680"]

In [219]:
df_resumo_performance_escolar["Faixa de Gastos Por Estudante"] = pd.cut(orc_escola_percapita, 
                                                                        faixas_bins, 
                                                                        labels = labels_faixas, 
                                                                        right = False)

In [220]:
df_resumo_performance_escolar

Unnamed: 0,Tipo Escola,Total Estudantes,Total Orçamento,Orçamento Por Estudante,Nota Média Aprovação Redação,Nota Média Aprovação Matemática,% Aprovados Redação,% Aprovados Matemática,% Geral Aprovados,Faixa de Gastos Por Estudante
Escola A,Publica,2917,"$1,910,635.00",$655.00,81.18,76.63,81.32,65.68,53.51,$645-680
Escola B,Publica,2949,"$1,884,411.00",$639.00,81.16,76.71,80.74,65.99,53.2,$630-645
Escola C,Particular,1761,"$1,056,600.00",$600.00,83.73,83.36,95.85,93.87,89.89,$585-630
Escola D,Publica,4635,"$3,022,020.00",$652.00,80.93,77.29,80.86,66.75,53.53,$645-680
Escola E,Particular,1468,"$917,500.00",$625.00,83.82,83.35,97.14,93.39,90.6,$585-630
Escola F,Particular,2283,"$1,319,574.00",$578.00,83.99,83.27,96.54,93.87,90.58,<$585
Escola G,Particular,1858,"$1,081,356.00",$582.00,83.98,83.06,97.04,94.13,91.33,<$585
Escola H,Publica,4976,"$3,124,928.00",$628.00,81.03,77.05,81.93,66.68,54.64,$585-630
Escola I,Particular,427,"$248,087.00",$581.00,83.81,83.8,96.25,92.51,89.23,<$585
Escola J,Particular,962,"$585,858.00",$609.00,84.04,83.84,95.95,94.59,90.54,$585-630


In [221]:
df_resumo_performance_escolar.columns

Index(['Tipo Escola', 'Total Estudantes', 'Total Orçamento',
       'Orçamento Por Estudante', 'Nota Média Aprovação Redação',
       'Nota Média Aprovação Matemática', '% Aprovados Redação',
       '% Aprovados Matemática', '% Geral Aprovados',
       'Faixa de Gastos Por Estudante'],
      dtype='object')

In [222]:
df_13_1 = df_resumo_performance_escolar.groupby(["Faixa de Gastos Por Estudante"]).mean()["Nota Média Aprovação Redação"]
df_13_2 = df_resumo_performance_escolar.groupby(["Faixa de Gastos Por Estudante"]).mean()["Nota Média Aprovação Matemática"]
df_13_3 = df_resumo_performance_escolar.groupby(["Faixa de Gastos Por Estudante"]).mean()["% Aprovados Redação"]
df_13_4 = df_resumo_performance_escolar.groupby(["Faixa de Gastos Por Estudante"]).mean()["% Aprovados Matemática"]
df_13_5 = df_resumo_performance_escolar.groupby(["Faixa de Gastos Por Estudante"]).mean()["% Geral Aprovados"]

KeyError: 'Nota Média Aprovação Redação'

In [None]:
df_performance_gastos = pd.DataFrame({"Média Redação" : df_13_1.round(2),
                                      "Média Matemática": df_13_2.round(2),
                                      "% Aprovados Redação": df_13_3.round(2),
                                      "% Aprovados Matemática": df_13_4.round(2),
                                      "% Geral Aprovados": df_13_5.round(2)})

In [None]:
df_performance_gastos

**14- Considerando as faixas de tamanho (número de alunos) das escolas como sendo: [0, 1000, 2000, 5000], qual faixa resulta em estudantes com melhor performance?**

In [None]:
df_resumo_performance_escolar.columns

In [None]:
tamanho_bins = [0, 1000, 2000, 5000]
labels_tamanhos = ["Pequeno Porte (<1000)", "Médio Porte (1000-2000)", "Grande Porte (2000-5000)"]

In [None]:
df_resumo_performance_escolar["Tamanho Escola"] = pd.cut(df_resumo_performance_escolar["Total Estudantes"], 
                                                         tamanho_bins, 
                                                         labels = labels_tamanhos, 
                                                         right = False)

In [None]:
df_resumo_performance_escolar

In [None]:
df_14_1 = df_resumo_performance_escolar.groupby(["Tamanho Escola"]).mean()["Nota Média Aprovação Redação"]
df_14_2 = df_resumo_performance_escolar.groupby(["Tamanho Escola"]).mean()["Nota Média Aprovação Matemática"]
df_14_3 = df_resumo_performance_escolar.groupby(["Tamanho Escola"]).mean()["% Aprovados Redação"]
df_14_4 = df_resumo_performance_escolar.groupby(["Tamanho Escola"]).mean()["% Aprovados Matemática"]
df_14_5 = df_resumo_performance_escolar.groupby(["Tamanho Escola"]).mean()["% Geral Aprovados"]

In [None]:
df_performance_tamanho = pd.DataFrame({"Média Redação" : df_14_1.round(2),
                                       "Média Matemática": df_14_2.round(2),
                                       "% Aprovados Redação": df_14_3.round(2),
                                       "% Aprovados Matemática": df_14_4.round(2),
                                       "% Geral Aprovados": df_14_5.round(2)})

In [None]:
df_performance_tamanho

**15- Qual o impacto do tipo de escola na performance dos alunos?**

In [None]:
df_resumo_performance_escolar.columns

In [None]:
df_15_1 = df_resumo_performance_escolar.groupby(["Tipo Escola"]).mean()["Nota Média Aprovação Redação"]
df_15_2 = df_resumo_performance_escolar.groupby(["Tipo Escola"]).mean()["Nota Média Aprovação Matemática"]
df_15_3 = df_resumo_performance_escolar.groupby(["Tipo Escola"]).mean()["% Aprovados Redação"]
df_15_4 = df_resumo_performance_escolar.groupby(["Tipo Escola"]).mean()["% Aprovados Matemática"]
df_15_5 = df_resumo_performance_escolar.groupby(["Tipo Escola"]).mean()["% Geral Aprovados"]

In [None]:
df_performance_tipo_escola = pd.DataFrame({"Média Redação": df_15_1.round(2),
                                           "Média Matemática": df_15_2.round(2),
                                           "% Aprovados Redação": df_15_3.round(2),
                                           "% Aprovados Matemática": df_15_4.round(2),
                                           "% Geral Aprovados": df_15_5.round(2)})

In [None]:
df_performance_tipo_escola

In [None]:
df_resumo_performance_escolar.to_excel('dados/df_resumo_performance_escolar.xlsx')