# Big Data Real-Time Analytics with Python and Spark

## Data Manipulation in Python with Pandas

### Case Study Challenge 2

**Problem Definition and Data Source**

In this Case Study the objective is to carry out a detailed school data analysis process by crossing, comparing and summarizing different types of information.

In total, 25 business questions will be answered that will require analyzing the data from different perspectives. Pandas will be the only tool used.

For this work we will use fictitious data, but which could represent real data. The data was generated from the Realistic Data Generator, at the address below:

https://www.mockaroo.com

In [15]:
import pandas as pd

#### Loading the Data

In [16]:
schools_data = pd.read_csv("dataset/dataset_escolas.csv")

In [17]:
schools_data.shape

(15, 5)

In [18]:
schools_data.head()

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500


In [19]:
student_data = pd.read_csv("dataset/dataset_estudantes.csv")

In [20]:
student_data.shape

(39160, 7)

In [21]:
student_data.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84


In [23]:
full_data = pd.merge(dados_estudantes, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [24]:
full_data.shape

(39160, 11)

In [25]:
full_data.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635


In [26]:
full_data["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [27]:
full_data["Genero"].unique()

array(['M', 'F'], dtype=object)

#### Data Analysis Challenge


Answer the questions below.

> **1- How many have data schools?**

In [30]:
number_schools = full_data['Nome_Escola'].nunique()
number_schools

15

> **2- What is the total number of student records in the database?**

In [32]:
number_students = full_data['ID_Estudante'].count()
number_students

39160

> **3- What is the total budget considering all schools?**

In [33]:
sum_annual_budget = schools_data['Orcamento_Anual'].sum()
sum_annual_budget

24649428

> **4- What is the average grade of students in Writing?**

In [34]:
average_grade_essay = full_data['Nota_Redacao'].mean()
average_grade_essay

81.87574055158325

> **5- What is the average grade of students in Mathematics?**

In [None]:
media_nota_matematica = dados_full['Nota_Matematica'].mean()
media_nota_matematica

78.98493360572012

> **6- Considering that the passing grade is 70, how many students passed Writing? (Deliver the result in absolute value and percentage)**

In [None]:
alunos_aprovados_redacao = dados_full[dados_full['Nota_Redacao'] >= 70].shape[0]
alunos_aprovados_redacao

33600

In [None]:
total_alunos = dados_full.shape[0]
percentual_aprovados_redacao = (alunos_aprovados_redacao / total_alunos) * 100
percentual_aprovados_redacao

85.80183861082737

In [None]:
print("Quantidade de alunos aprovados em Redação:", alunos_aprovados_redacao)
print("Percentual de alunos aprovados em Redação: {:.2f}%".format(percentual_aprovados_redacao))

Quantidade de alunos aprovados em Redação: 33600
Percentual de alunos aprovados em Redação: 85.80%


> **7- Considering that the passing score is 70, how many students passed Mathematics? (Deliver the result in absolute value and percentage)**

In [None]:
alunos_aprovados_matematica = dados_full[dados_full['Nota_Matematica'] >= 70].shape[0]
alunos_aprovados_matematica

29360

In [None]:
percentual_aprovados_matematica = (alunos_aprovados_matematica / total_alunos) * 100
percentual_aprovados_matematica

74.97446373850867

In [None]:
print("Quantidade de alunos aprovados em Matemática:", alunos_aprovados_matematica)
print("Percentual de alunos aprovados em Matemática: {:.2f}%".format(percentual_aprovados_matematica))

Quantidade de alunos aprovados em Matemática: 29360
Percentual de alunos aprovados em Matemática: 74.97%


> **8- Considering that the passing score is 70, how many students passed Mathematics and Writing? (Deliver the result in absolute value and percentage)**

In [None]:
alunos_aprovados = dados_full[(dados_full['Nota_Matematica'] >= 70) & (dados_full['Nota_Redacao'] >= 70)].shape[0]
alunos_aprovados

25518

In [None]:
percentual_aprovados = (alunos_aprovados / total_alunos) * 100
percentual_aprovados

65.16343207354444

In [None]:
print("Quantidade de alunos aprovados em Matemática e Redação:", alunos_aprovados)
print("Percentual de alunos aprovados em Matemática e Redação: {:.2f}%".format(percentual_aprovados))

Quantidade de alunos aprovados em Matemática e Redação: 25518
Percentual de alunos aprovados em Matemática e Redação: 65.16%


> **9- Create a dataframe with the results of questions 1 to 8 that you calculated above. (Tip: create a dictionary and then convert it to a Pandas dataframe)**

In [None]:
resultados = pd.DataFrame ({"Quantidade de Escolas": [numero_de_escolas],
                            "Quantidade de Alunos": [numero_de_estudantes],
                            "Orçamento Anual Total das Escolas":[soma_orcamento_anual],
                            "Média da Nota em Redação":[media_nota_redacao],
                            "Média da Nota em Matemática":[media_nota_matematica],
                            "Quantidade de alunos aprovados em Redação (valor absoluto)":[alunos_aprovados_redacao],
                            "Quantidade de alunos aprovados em Redação (valor percentual)":[percentual_aprovados_redacao],
                            "Quantidade de alunos aprovados em Matemática (valor absoluto)":[alunos_aprovados_matematica],
                            "Quantidade de alunos aprovados em Matemática (valor percentual)":[percentual_aprovados_matematica],
                            "Quantidade de alunos aprovados em Matemática e Redação (valor absoluto)":[alunos_aprovados],
                            "Quantidade de alunos aprovados em Matemática e Redação (valor percentual)":[percentual_aprovados],})

resultados

Unnamed: 0,Quantidade de Escolas,Quantidade de Alunos,Orçamento Anual Total das Escolas,Média da Nota em Redação,Média da Nota em Matemática,Quantidade de alunos aprovados em Redação (valor absoluto),Quantidade de alunos aprovados em Redação (valor percentual),Quantidade de alunos aprovados em Matemática (valor absoluto),Quantidade de alunos aprovados em Matemática (valor percentual),Quantidade de alunos aprovados em Matemática e Redação (valor absoluto),Quantidade de alunos aprovados em Matemática e Redação (valor percentual)
0,15,39160,24649428,81.88,78.98,33600,85.8,29360,74.97,25518,65.16


> **10- Format the "Total Students" and "Total Budget" columns by adjusting the decimal places.**

In [None]:
resultados = pd.DataFrame({
    "Quantidade de Escolas": [numero_de_escolas],
    "Quantidade de Alunos": ["{:.2f}".format(numero_de_estudantes)],
    "Orçamento Anual Total das Escolas": ["{:.2f}".format(soma_orcamento_anual)],
    "Média da Nota em Redação": [media_nota_redacao],
    "Média da Nota em Matemática": [media_nota_matematica],
    "Quantidade de alunos aprovados em Redação (valor absoluto)": [alunos_aprovados_redacao],
    "Quantidade de alunos aprovados em Redação (valor percentual)": [percentual_aprovados_redacao],
    "Quantidade de alunos aprovados em Matemática (valor absoluto)": [alunos_aprovados_matematica],
    "Quantidade de alunos aprovados em Matemática (valor percentual)": [percentual_aprovados_matematica],
    "Quantidade de alunos aprovados em Matemática e Redação (valor absoluto)": [alunos_aprovados],
    "Quantidade de alunos aprovados em Matemática e Redação (valor percentual)": [percentual_aprovados],
})

resultados

Unnamed: 0,Quantidade de Escolas,Quantidade de Alunos,Orçamento Anual Total das Escolas,Média da Nota em Redação,Média da Nota em Matemática,Quantidade de alunos aprovados em Redação (valor absoluto),Quantidade de alunos aprovados em Redação (valor percentual),Quantidade de alunos aprovados em Matemática (valor absoluto),Quantidade de alunos aprovados em Matemática (valor percentual),Quantidade de alunos aprovados em Matemática e Redação (valor absoluto),Quantidade de alunos aprovados em Matemática e Redação (valor percentual)
0,15,39160.0,24649428.0,81.88,78.98,33600,85.8,29360,74.97,25518,65.16
