# Tratando dados com Pandas

In [88]:
# Imports
import pandas as pd
import numpy as np

## Carregando os Dados

In [89]:
# Carrega o dataset de escolas
dados_escolas = pd.read_csv("dados/dataset_escolas.csv")

In [90]:
# Shape
dados_escolas.shape

(15, 5)

In [91]:
# Visualiza
dados_escolas.head()

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500


In [92]:
# Dataset de estudantes
dados_estudantes = pd.read_csv("dados/dataset_estudantes.csv")

In [93]:
# Shape
dados_estudantes.shape

(39160, 7)

In [94]:
# Visualiza
dados_estudantes.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84


In [95]:
# Combina os datasets
dados_full = pd.merge(dados_estudantes, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [96]:
# Shape
dados_full.shape

(39160, 11)

In [97]:
# Visualiza
dados_full.tail()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130
39159,39159,Kimberly Cabrera,F,8,Escola O,85,72,14,Particular,1635,1043130


In [98]:
# Séries escolares no dataset
dados_full["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [99]:
# Genero
dados_full["Genero"].unique()

array(['M', 'F'], dtype=object)

## Desafio de Análise de Dados

Responda as perguntas abaixo.

> **1- Temos dados de quantas escolas?**

In [100]:
total_escolas = len(dados_full.Nome_Escola.unique())
total_escolas

15

> **2- Qual o total de registros de estudantes na base de dados?**

In [101]:
total_estudantes = dados_full["ID_Estudante"].count()
total_estudantes

39160

> **3- Qual o orçamento total considerando todas as escolas?**

In [102]:
orcamento_todas_escolas = sum(dados_full["Orcamento_Anual"].unique())
orcamento_todas_escolas

24649428

> **4- Qual a média da nota dos alunos em Redação?**

In [103]:
media_redacao = dados_full["Nota_Redacao"].mean()
media_redacao

81.87574055158325

> **5- Qual a média da nota dos alunos em Matemática?**

In [104]:
media_matematica = dados_full["Nota_Matematica"].mean()
media_matematica

78.98493360572012

> **6- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)**

In [105]:
aprovados_redacao = sum(dados_full["Nota_Redacao"] >= 70)
aprovados_redacao

33600

In [106]:
aprovados_redacao_perc = (aprovados_redacao / len(dados_full["Nota_Redacao"]) )*100
print(f"Porcentagem aprovados em Redação: {aprovados_redacao_perc} %")

Porcentagem aprovados em Redação: 85.80183861082737 %


> **7- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)**

In [107]:
aprovados_matematica = sum(dados_full["Nota_Matematica"] >= 70)
aprovados_matematica

29360

In [108]:
aprovados_matematica_perc = (aprovados_matematica / len(dados_full["Nota_Matematica"]) )*100
print(f"Porcentagem aprovados em Matemática: {aprovados_matematica_perc} %")

Porcentagem aprovados em Matemática: 74.97446373850867 %


> **8- Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)**

In [109]:
aprovados_mat_red = sum(dados_full["Nota_Matematica"] >= 70) + sum(dados_full["Nota_Redacao"] >= 70)
aprovados_mat_red

62960

In [110]:
aprovados_mat_red_perc = (aprovados_mat_red / (len(dados_full["Nota_Matematica"]) + len(dados_full["Nota_Redacao"])) )*100
print(f"Porcentagem aprovados em Matemática: {aprovados_mat_red_perc} %")

Porcentagem aprovados em Matemática: 80.38815117466804 %


> **9- Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. (Dica: crie um dicionário e depois converta em dataframe do Pandas)**

In [111]:
dictionary = {"Total de Escolas": [total_escolas], 
              "Total de Estudantes": [total_estudantes], 
              "Orçamento Escolas Total": [orcamento_todas_escolas],
             "Média de Redação": [media_redacao], 
              "Média de Matemática": [media_matematica], 
              "Total de aprov Redação": [aprovados_redacao],
              "Perc Aprov Redação": [aprovados_redacao_perc],
              "Total de aprov Mat": [aprovados_matematica],
             "Perc Aprov Matemática": [aprovados_matematica_perc],
             "Total de Aprov Mat e Red": [aprovados_mat_red],
             "Perc Aprov Mat e Red": [aprovados_mat_red_perc]}

In [112]:
dictionary

{'Total de Escolas': [15],
 'Total de Estudantes': [39160],
 'Orçamento Escolas Total': [24649428],
 'Média de Redação': [81.87574055158325],
 'Média de Matemática': [78.98493360572012],
 'Total de aprov Redação': [33600],
 'Perc Aprov Redação': [85.80183861082737],
 'Total de aprov Mat': [29360],
 'Perc Aprov Matemática': [74.97446373850867],
 'Total de Aprov Mat e Red': [62960],
 'Perc Aprov Mat e Red': [80.38815117466804]}

In [113]:
data = pd.DataFrame(dictionary)
data

Unnamed: 0,Total de Escolas,Total de Estudantes,Orçamento Escolas Total,Média de Redação,Média de Matemática,Total de aprov Redação,Perc Aprov Redação,Total de aprov Mat,Perc Aprov Matemática,Total de Aprov Mat e Red,Perc Aprov Mat e Red
0,15,39160,24649428,81.875741,78.984934,33600,85.801839,29360,74.974464,62960,80.388151


> **10- Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.**

In [114]:
data["Total de Estudantes"] = data["Total de Estudantes"].map("{:,}".format)
data["Orçamento Escolas Total"] = data["Orçamento Escolas Total"].map("${:,.2f}".format)

In [115]:
data

Unnamed: 0,Total de Escolas,Total de Estudantes,Orçamento Escolas Total,Média de Redação,Média de Matemática,Total de aprov Redação,Perc Aprov Redação,Total de aprov Mat,Perc Aprov Matemática,Total de Aprov Mat e Red,Perc Aprov Mat e Red
0,15,39160,"$24,649,428.00",81.875741,78.984934,33600,85.801839,29360,74.974464,62960,80.388151


## Análise de Dados com Pandas

**1- Entre os alunos aprovados em Redação, qual gênero obteve maior número de aprovações?**

In [116]:
aprov_por_gen_red = dados_full[(dados_full["Nota_Redacao"] >= 70)]["Genero"].value_counts()
aprov_por_gen_red

F    17027
M    16573
Name: Genero, dtype: int64

**2- Entre os alunos aprovados em Matemática, qual gênero obteve maior número de aprovações?**

In [117]:
aprov_por_gen_mat = dados_full[(dados_full["Nota_Matematica"] >= 70)]["Genero"].value_counts()
aprov_por_gen_mat

F    14835
M    14525
Name: Genero, dtype: int64

**3- Quais os tipos de todas as escolas em nossa base de dados?**

In [118]:
dados_escolas[["Nome_Escola", "Tipo_Escola"]]

Unnamed: 0,Nome_Escola,Tipo_Escola
0,Escola A,Publica
1,Escola B,Publica
2,Escola C,Particular
3,Escola D,Publica
4,Escola E,Particular
5,Escola F,Particular
6,Escola G,Particular
7,Escola H,Publica
8,Escola I,Particular
9,Escola J,Particular


**4- Qual o total de estudantes por escola?**

In [119]:
total_estudantes_escola = dados_full["Nome_Escola"].value_counts().sort_values()
total_estudantes_escola

Escola I     427
Escola J     962
Escola E    1468
Escola O    1625
Escola C    1761
Escola K    1800
Escola G    1858
Escola F    2283
Escola N    2739
Escola A    2917
Escola B    2949
Escola L    3999
Escola D    4635
Escola M    4761
Escola H    4976
Name: Nome_Escola, dtype: int64

**5- Qual o total de orçamento de cada escola per capita (por estudante)?**

In [163]:
orcamento_por_aluno = dados_escolas[["Nome_Escola", "Numero_Alunos", "Orcamento_Anual"]]
orcamento_por_aluno["Orçamento/aluno"] = orcamento_por_aluno["Orcamento_Anual"] / orcamento_por_aluno["Numero_Alunos"]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  orcamento_por_aluno["Orçamento/aluno"] = orcamento_por_aluno["Orcamento_Anual"] / orcamento_por_aluno["Numero_Alunos"]


In [164]:
orcamento_por_aluno

orc_escola_per_capita = orcamento_por_aluno["Orçamento/aluno"]

**6- Qual a nota média dos alunos em Redação para cada escola?**

In [122]:
dados_full.groupby(["Nome_Escola"]).mean()["Nota_Redacao"].sort_values()

Nome_Escola
Escola L    80.744686
Escola N    80.746258
Escola D    80.934412
Escola M    80.966394
Escola H    81.033963
Escola B    81.158020
Escola A    81.182722
Escola C    83.725724
Escola O    83.810462
Escola I    83.814988
Escola E    83.816757
Escola K    83.955000
Escola G    83.975780
Escola F    83.989488
Escola J    84.044699
Name: Nota_Redacao, dtype: float64

**7- Qual a nota média dos alunos em Matemática para cada escola?**

In [123]:
dados_full.groupby(["Nome_Escola"]).mean()["Nota_Matematica"].sort_values()

Nome_Escola
Escola A    76.629414
Escola B    76.711767
Escola L    76.842711
Escola H    77.048432
Escola M    77.072464
Escola N    77.102592
Escola D    77.289752
Escola G    83.061895
Escola F    83.274201
Escola E    83.351499
Escola C    83.359455
Escola O    83.435077
Escola K    83.682222
Escola I    83.803279
Escola J    83.839917
Name: Nota_Matematica, dtype: float64

**8- Considerando somente os alunos aprovados em Redação, qual a média de alunos aprovados por escola?**

In [124]:
dados_full_aprov_red = dados_full[(dados_full["Nota_Redacao"] >= 70)]
dados_full_aprov_red.groupby(["Nome_Escola"]).mean()["Nota_Redacao"].sort_values()

Nome_Escola
Escola O    84.222644
Escola E    84.253156
Escola H    84.362521
Escola C    84.362559
Escola L    84.374377
Escola I    84.391727
Escola M    84.430566
Escola G    84.432612
Escola K    84.479586
Escola D    84.483725
Escola F    84.526770
Escola N    84.612799
Escola J    84.680390
Escola A    84.691400
Escola B    84.767745
Name: Nota_Redacao, dtype: float64

**9- Considerando somente os alunos aprovados em Matemática, qual a média de alunos aprovados por escola?**

In [125]:
dados_full_aprov_mat = dados_full[(dados_full["Nota_Matematica"] > 69)]
dados_full_aprov_mat.groupby(["Nome_Escola"]).mean()["Nota_Matematica"].sort_values()

Nome_Escola
Escola G    83.972556
Escola N    84.165687
Escola A    84.240084
Escola F    84.244050
Escola B    84.310894
Escola C    84.326679
Escola L    84.339111
Escola E    84.394602
Escola H    84.505124
Escola O    84.522772
Escola J    84.719780
Escola M    84.742448
Escola K    84.758929
Escola D    84.936975
Escola I    85.040506
Name: Nota_Matematica, dtype: float64

**10- Considerando alunos aprovados em Matemática e Redação, qual foi a média de alunos aprovados por escola?**

In [135]:
aprovados_mat_red = dados_full[(dados_full["Nota_Redacao"] >= 70) & (dados_full["Nota_Matematica"] >= 70)]
aprovados_mat_red

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
5,5,James Miranda,M,6,Escola A,94,94,0,Publica,2917,1910635
6,6,Benjamin Carter,F,8,Escola A,82,80,0,Publica,2917,1910635
8,8,Ethan Roth,M,7,Escola A,95,87,0,Publica,2917,1910635
9,9,Jacob Greene,M,7,Escola A,96,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [141]:
taxa_aprovados_red_mat = (aprovados_mat_red.groupby(["Nome_Escola"]).count()["Nome_Estudante"] / total_estudantes_escola * 100)
taxa_aprovados_red_mat

Escola A    53.513884
Escola B    53.204476
Escola C    89.892107
Escola D    53.527508
Escola E    90.599455
Escola F    90.582567
Escola G    91.334769
Escola H    54.642283
Escola I    89.227166
Escola J    90.540541
Escola K    90.333333
Escola L    52.988247
Escola M    53.539172
Escola N    54.289887
Escola O    90.892308
dtype: float64

 **11-A- Considerando a taxa geral de aprovados, quais as 5 escolas com melhor performance?**

In [148]:
taxa_aprovados_red_mat.sort_values(ascending = False).head(5)

Escola G    91.334769
Escola O    90.892308
Escola E    90.599455
Escola F    90.582567
Escola J    90.540541
dtype: float64

**11-B- Considerando a taxa geral de aprovados, quais as 5 escolas com pior performance?**

In [149]:
taxa_aprovados_red_mat.sort_values().head(5)

Escola L    52.988247
Escola B    53.204476
Escola A    53.513884
Escola D    53.527508
Escola M    53.539172
dtype: float64

**12- Em cada série, qual escola teve os alunos com melhor performance em Matemática?**

In [150]:
escolas_melhor_perf_mat_por_serie = dados_full.groupby(["Serie"]).mean()["Nota_Matematica"]
escolas_melhor_perf_mat_por_serie

Serie
6    78.935473
7    78.940777
8    79.083677
9    78.992022
Name: Nota_Matematica, dtype: float64

In [151]:
sexta_serie = dados_full[(dados_full["Serie"] == 6)]
setima_serie = dados_full[(dados_full["Serie"] == 7)]
oitava_serie = dados_full[(dados_full["Serie"] == 8)]
nona_serie = dados_full[(dados_full["Serie"] == 9)]

In [152]:
notas_sexta_serie = sexta_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]
notas_setima_serie = setima_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]
notas_oitava_serie = oitava_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]
notas_nona_serie = nona_serie.groupby(["Nome_Escola"]).mean()["Nota_Matematica"]

In [153]:
notas_por_serie = pd.DataFrame({"Sexta Série": notas_sexta_serie,
                                 "Sétima Série": notas_setima_serie,
                                 "Oitava Série": notas_oitava_serie,
                                 "Nona Série": notas_nona_serie,})

In [154]:
notas_por_serie.sort_values(by = "Nome_Escola")

Unnamed: 0_level_0,Sexta Série,Sétima Série,Oitava Série,Nona Série
Nome_Escola,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Escola A,77.027251,75.908735,76.446602,77.225641
Escola B,76.403037,76.539974,76.884344,77.151369
Escola C,83.420755,82.917411,83.383495,83.778976
Escola D,77.438495,77.337408,77.136029,77.186567
Escola E,82.04401,84.229064,83.842105,83.356164
Escola F,83.085578,83.724422,83.195326,83.035794
Escola G,83.094697,83.154506,82.76556,83.277487
Escola H,77.083676,76.996772,77.515588,76.492218
Escola I,83.787402,83.429825,85.0,82.855422
Escola J,83.625455,83.372,84.328125,84.121547


In [155]:
notas_por_serie["Sexta Série"].idxmax()

'Escola I'

In [156]:
notas_por_serie["Sétima Série"].idxmax()

'Escola E'

In [157]:
notas_por_serie["Oitava Série"].idxmax()

'Escola I'

In [158]:
notas_por_serie["Nona Série"].idxmax()

'Escola J'

**13- Considerando as faixas de gastos por estudante como sendo: [0, 585, 630, 645, 680], qual faixa resulta em estudantes com melhor performance?**

In [236]:
faixas_bins = [0,585,630,645,680]
labels_faixas = ["<$585","$585-630","$630-645","$645-680"]

In [237]:
dados_full["Faixa de Gastos Por Estudante"] = pd.cut(orc_escola_per_capita,
                                                    faixas_bins,
                                                    labels = labels_faixas,
                                                    right = False) 

In [221]:
dados_full.groupby(dados_full["Faixa de Gastos Por Estudante"])[["Nota_Matematica", "Nota_Redacao"]].mean()

Unnamed: 0_level_0,Nota_Matematica,Nota_Redacao
Faixa de Gastos Por Estudante,Unnamed: 1_level_1,Unnamed: 2_level_1
<$585,82.75,90.25
$585-630,74.25,94.75
$630-645,71.0,82.0
$645-680,72.0,65.666667


**14- Considerando as faixas de tamanho (número de alunos) das escolas como sendo: [0, 1000, 2000, 5000], qual faixa resulta em estudantes com melhor performance?**

In [199]:
faixa_2 = [0,1000,2000,5000]
labels_2 = ["0-1000","1000-2000","2000-5000"]

In [200]:
dados_full["Faixa Qtd de Alunos"] = pd.cut(dados_full["Numero_Alunos"],
                                          faixa_2,
                                          labels = labels_2,
                                          right = False)

In [201]:
dados_full.groupby(["Faixa Qtd de Alunos"]).mean()[["Nota_Redacao", "Nota_Matematica"]]

Unnamed: 0_level_0,Nota_Redacao,Nota_Matematica
Faixa Qtd de Alunos,Unnamed: 1_level_1,Unnamed: 2_level_1
0-1000,83.974082,83.828654
1000-2000,83.860667,83.375822
2000-5000,81.198674,77.477597


**15- Qual o impacto do tipo de escola na performance dos alunos?**

In [233]:
dados_full["Tipo_Escola"].unique()

array(['Publica', 'Particular'], dtype=object)

In [235]:
dados_full.groupby(["Tipo_Escola"])[["Nota_Redacao", "Nota_Matematica"]].mean()

Unnamed: 0_level_0,Nota_Redacao,Nota_Matematica
Tipo_Escola,Unnamed: 1_level_1,Unnamed: 2_level_1
Particular,83.897735,83.408404
Publica,80.962485,76.987026
