# <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

#### Importando o pacote Pandas

In [1]:
# Importando o módulo Pandas e NumPy
import numpy as np
import pandas as pd

# <br>Estudo de Caso - Analisando de Dados Escolares

## <u>Objetivo</u>:<br>

#### Neste Estudo de Caso o  objetivo é realizar um detalhado processo  de análise de dados escolares cruzando, comparando e resumindo, diferentes tipos de informações.
#### No total serão duas partes onde serão respondidas perguntas de negócio que vão requerer analisar os dados por diferentes perspectivas. O Pandas será a única ferramenta usada.
#### Usaremos para este trabalho dados fictícios, mas que poderiam representar dados reais.

# <br><u>Parte 1</u>

### Perguntas:<br>
<strong>
1) Temos dados de quantas escolas?<br>
2) Qual o total de registros de estudantes na base de dados?<br>
3) Qual o orçamento total considerando todas as escolas?<br>
4) Qual a média da nota dos alunos em Redação?<br>
5) Qual a média da nota dos alunos em Matemática?<br>
6) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)<br>
7) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)<br>
8) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)<br>
9) Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. (Dica: crie um dicionário e depois converta em dataframe do Pandas)<br>
10) Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.<br>
</strong>
<br>
Vamos usar a Ciência de Dados para responder essas e outras perguntas e analisar dados escolares usando uma das mais poderosas ferramentas de manipulação de dados em Linguagem Python, o Pandas.

O Estudo de Caso conta ainda com um desafio para que cada aluno pratique análise de dados e solução de problemas.Este Estudo de Caso traz uma quantidade incrível de conhecimento sobre manipulação de dados em Python. Aproveite!

# <br>Carregando Dados

#### Carregando Dataset de Escolas

In [2]:
# Carregando dados
dados_escolas = pd.read_csv("datasets/dataset_escolas.csv")

In [3]:
# Visualiza
dados_escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500
5,5,Escola F,Particular,2283,1319574
6,6,Escola G,Particular,1858,1081356
7,7,Escola H,Publica,4976,3124928
8,8,Escola I,Particular,427,248087
9,9,Escola J,Particular,962,585858


In [4]:
# Verifica shape (qtd linhas e colunas)
dados_escolas.shape

(15, 5)

#### Carregando Dataset de Alunos

In [5]:
# Carregando dados
dados_alunos = pd.read_csv("datasets/dataset_estudantes.csv")

In [6]:
# Visualiza
dados_alunos

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica
0,0,Kevin Bradley,M,6,Escola A,66,79
1,1,Paul Smith,M,9,Escola A,94,61
2,2,John Rodriguez,M,9,Escola A,90,60
3,3,Oliver Scott,M,9,Escola A,67,58
4,4,William Ray,F,6,Escola A,97,84
...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98
39156,39156,Stephanie Contreras,F,8,Escola O,79,95
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94
39158,39158,Kari Holloway,F,7,Escola O,87,90


In [7]:
# Verifica shape (qtd linhas e colunas)
dados_alunos.shape

(39160, 7)

### <br>Unindo os Dois Dataframes em um só

In [8]:
# Combina os datasets
dados_full = pd.merge(dados_alunos, dados_escolas, how = "left", on = ["Nome_Escola", "Nome_Escola"])

In [9]:
# Visualiza
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [10]:
# Reordenando e Visualizando as colunas do DataFrame dados_full
dados_full = dados_full[['ID_Estudante', 'Nome_Estudante', 'Genero', 'Serie', 'Nota_Redacao', 'Nota_Matematica', 'ID_Escola', 'Nome_Escola', 'Tipo_Escola', 'Numero_Alunos', 'Orcamento_Anual']]

# Visualizando as primeiras linhas do DataFrame reordenado
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,66,79,0,Escola A,Publica,2917,1910635
1,1,Paul Smith,M,9,94,61,0,Escola A,Publica,2917,1910635
2,2,John Rodriguez,M,9,90,60,0,Escola A,Publica,2917,1910635
3,3,Oliver Scott,M,9,67,58,0,Escola A,Publica,2917,1910635
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


# <br>Desafio Análise de Dados<br>

#### Responda as perguntas:

### <br><font color='green'> 1) Temos dados de quantas escolas?</font>

In [101]:
# Verificando valores únicos para a coluna Nome_Escola
print(dados_full['Nome_Escola'].unique())

# Visualizando a quantidade de valores únicos de cada item
print(dados_full['Nome_Escola'].value_counts())

# Visualizando a quantidade de valores únicos
print("Quantidade de escolas:", dados_full['Nome_Escola'].nunique())

# Visualizando a quantidade de valores únicos
print("Quantidade de escolas:", len(dados_full["Nome_Escola"].unique()))

['Escola A' 'Escola B' 'Escola C' 'Escola D' 'Escola E' 'Escola F'
 'Escola G' 'Escola H' 'Escola I' 'Escola J' 'Escola K' 'Escola L'
 'Escola M' 'Escola N' 'Escola O']
Nome_Escola
Escola H    4976
Escola M    4761
Escola D    4635
Escola L    3999
Escola B    2949
Escola A    2917
Escola N    2739
Escola F    2283
Escola G    1858
Escola K    1800
Escola C    1761
Escola O    1625
Escola E    1468
Escola J     962
Escola I     427
Name: count, dtype: int64
Quantidade de escolas: 15
Quantidade de escolas: 15


### Resposta -> 15 escolas.<br>

### <br><font color='green'> 2) Qual o total de registros de estudantes na base de dados?</font>

In [61]:
# Verificando valores únicos para a coluna Nome_Estudante
print(dados_full['ID_Estudante'].nunique())

39160


### Resposta -> 39159 registros de estudantes na base dados.<br>

### <br><font color='green'> 3) Qual o orçamento total considerando todas as escolas?</font>

In [62]:
# Verificando valores total da coluna Orcamento_Anual do dataset dados_escolas
print(dados_escolas['Orcamento_Anual'].sum())

# Verificando valores total da coluna Orcamento_Anual do dataset dados_full (ao trabalhar com dados_full precisamos remover duplicadas)
print(dados_full.drop_duplicates(subset='ID_Escola')['Orcamento_Anual'].sum())

24649428
24649428


### Resposta -> 24.649.428.<br>

In [26]:
# Visualizando Dataset dados_full
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,66,79,0,Escola A,Publica,2917,1910635
1,1,Paul Smith,M,9,94,61,0,Escola A,Publica,2917,1910635
2,2,John Rodriguez,M,9,90,60,0,Escola A,Publica,2917,1910635
3,3,Oliver Scott,M,9,67,58,0,Escola A,Publica,2917,1910635
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


### <br><font color='green'> 4) Qual a média da nota dos alunos em Redação?</font> 

In [63]:
# Verificando média da coluna Nota_Redacao do dataset dados_full
print(dados_full['Nota_Redacao'].mean())

81.87574055158325


### Resposta -> 81.88.<br>

### <br><font color='green'> 5) Qual a média da nota dos alunos em Matemática?</font> 

In [64]:
# Verificando média da coluna Nota_Matematica do dataset dados_full
print(dados_full['Nota_Matematica'].mean())

78.98493360572012


### Resposta -> 79.00.<br>

### <br><font color='green'> 6) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Redação? (Entregue o resultado em valor absoluto e percentual)</font> 

In [45]:
# Calculando e visualizando quantidade de alunoas aprovado acima de 70 em todas as colunas
aprovados_redacao = dados_full[dados_full['Nota_Redacao'] >= 70]['Nota_Redacao'].count()
print(aprovados_redacao)

# Calculando o percentual de alunos aprovados em Redação
percentual_aprovados_redacao = (aprovados_redacao / dados_full.shape[0]) * 100
print(percentual_aprovados_redacao)

33600
85.80183861082737


### Resposta -> 33.600 aprovados, o que representa cerca de 85.80% do total dos alunos.<br>

### <br><font color='green'> 7) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática? (Entregue o resultado em valor absoluto e percentual)</font> 

In [65]:
# Calculando e visualizando quantidade de alunoas aprovado acima de 70 em todas as colunas
aprovados_matematica = dados_full[dados_full['Nota_Matematica'] >= 70]['Nota_Matematica'].count()
print(aprovados_matematica)

# Calculando o percentual de alunos aprovados em Matemática
percentual_aprovados_matematica = (aprovados_matematica / dados_full.shape[0]) * 100
print(percentual_aprovados_matematica)

29360
74.97446373850867


### Resposta -> 29.360 aprovados, o que representa cerca de 74.98% do total dos alunos.<br>

### <br><font color='green'> 8) Considerando que a nota de aprovação é 70, quantos alunos foram aprovados em Matemática e Redação? (Entregue o resultado em valor absoluto e percentual)</font> 

In [54]:
# Calculando e visualizando quantidade de alunoas aprovado acima de 70 em todas as colunas (usar método count() precisa especificar a coluna)
aprovados = dados_full[(dados_full['Nota_Matematica'] >= 70) & 
                       (dados_full['Nota_Redacao'] >= 70)]

aprovados = aprovados.shape[0]

print(aprovados)

# Calculando o percentual de alunos aprovados em Matemática e Redação
percentual_aprovados = (aprovados / dados_full.shape[0]) * 100
print(percentual_aprovados)

25518
65.16343207354444


### Resposta -> 25.518 aprovados, o que representa cerca de 65.16% do total dos alunos.<br>

### <br><font color='green'> 9) Crie um dataframe com os resultados das questões de 1 a 8 que você calculou acima. (Dica: crie um dicionário e depois converta em dataframe do Pandas)</font> 

In [93]:
r1 = dados_full['Nome_Escola'].nunique()
r2 = dados_full['ID_Estudante'].nunique()
r3 = dados_escolas['Orcamento_Anual'].sum()
r4 = dados_full['Nota_Redacao'].mean()
r5 = dados_full['Nota_Matematica'].mean()
r6_1 = aprovados_redacao
r6_2 = percentual_aprovados_redacao
r7_1 = aprovados_matematica
r7_2 = percentual_aprovados_matematica
r8_1 = aprovados
r8_2 = percentual_aprovados

# Criando um dicionário
dicionario = {'Total_Escolas': [r1], 'Total_Estudantes': [r2], 'Orcamento_Total_Escolas': [r3], 'Media_Notas_Redacao': [r4], 'Media_Notas_Matematica': [r5],
               'Aprovados_Redacao_Total': [r6_1], 'Aprovados_Redacao_Per': [r6_2], 'Aprovados_Matematica_Total': [r7_1], 'Aprovados_Matematica_Per': [r7_2],
               'Aprovados_Redacao_e_Mat_Total': [r8_1], 'Aprovados_Redacao_e_Mat_Per': [r8_2]}

In [94]:
dicionario

{'Total_Escolas': [15],
 'Total_Estudantes': [39160],
 'Orcamento_Total_Escolas': [24649428],
 'Media_Notas_Redacao': [81.87574055158325],
 'Media_Notas_Matematica': [78.98493360572012],
 'Aprovados_Redacao_Total': [33600],
 'Aprovados_Redacao_Per': [85.80183861082737],
 'Aprovados_Matematica_Total': [29360],
 'Aprovados_Matematica_Per': [74.97446373850867],
 'Aprovados_Redacao_e_Mat_Total': [25518],
 'Aprovados_Redacao_e_Mat_Per': [65.16343207354444]}

In [95]:
# Convertendo dicionário para dataframe
df = pd.DataFrame(dicionario)
df

Unnamed: 0,Total_Escolas,Total_Estudantes,Orcamento_Total_Escolas,Media_Notas_Redacao,Media_Notas_Matematica,Aprovados_Redacao_Total,Aprovados_Redacao_Per,Aprovados_Matematica_Total,Aprovados_Matematica_Per,Aprovados_Redacao_e_Mat_Total,Aprovados_Redacao_e_Mat_Per
0,15,39160,24649428,81.88,78.98,33600,85.8,29360,74.97,25518,65.16


#### <strong>Alterando shape do dataframe</strong>

In [96]:
# Configurando o pandas para não usar notação científica e exibir duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

# Convertendo dicionário para dataframe com orientação 'index'
df2 = pd.DataFrame.from_dict(dicionario, orient='index', columns=['Respostas'])

df2

Unnamed: 0,Respostas
Total_Escolas,15.0
Total_Estudantes,39160.0
Orcamento_Total_Escolas,24649428.0
Media_Notas_Redacao,81.88
Media_Notas_Matematica,78.98
Aprovados_Redacao_Total,33600.0
Aprovados_Redacao_Per,85.8
Aprovados_Matematica_Total,29360.0
Aprovados_Matematica_Per,74.97
Aprovados_Redacao_e_Mat_Total,25518.0


In [97]:
# Resetando o índice para transformá-lo em uma coluna regular e adicionando nova coluna com nome das perguntas
df2.reset_index(inplace=True)
df2.rename(columns={'index': 'Perguntas'}, inplace=True)
df2

Unnamed: 0,Perguntas,Respostas
0,Total_Escolas,15.0
1,Total_Estudantes,39160.0
2,Orcamento_Total_Escolas,24649428.0
3,Media_Notas_Redacao,81.88
4,Media_Notas_Matematica,78.98
5,Aprovados_Redacao_Total,33600.0
6,Aprovados_Redacao_Per,85.8
7,Aprovados_Matematica_Total,29360.0
8,Aprovados_Matematica_Per,74.97
9,Aprovados_Redacao_e_Mat_Total,25518.0


### <br><font color='green'> 10) Formate as colunas "Total de Estudantes" e "Total Orçamento" ajustando as casas decimais.</font> 

In [100]:
# Utilizando df
df['Total_Estudantes'] = df['Total_Estudantes'].apply(lambda x: "{:,}".format(x))
df['Orcamento_Total_Escolas'] = df['Orcamento_Total_Escolas'].apply(lambda x: "{:,.2f}".format(x))

df



Unnamed: 0,Total_Escolas,Total_Estudantes,Orcamento_Total_Escolas,Media_Notas_Redacao,Media_Notas_Matematica,Aprovados_Redacao_Total,Aprovados_Redacao_Per,Aprovados_Matematica_Total,Aprovados_Matematica_Per,Aprovados_Redacao_e_Mat_Total,Aprovados_Redacao_e_Mat_Per
0,15,39160,24649428.0,81.88,78.98,33600,85.8,29360,74.97,25518,65.16


# <br>Parte 2 (análise de dados avançado)

### <br>Perguntas:<br>
<strong>
11) Entre os alunos aprovados em Redação, qual gênero obteve maior número de aprovações?<br>
12) Entre os alunos aprovados em Matemática, qual gênero obteve maior número de aprovações?<br>
13) Quais os tipos de todas as escolas em nossa base de dados?<br>
14) Qual o total de estudantes por escola?<br>
15) Qual o total de orçamento de cada escola per capita (por estudante)?<br>
16) Em qual tipo de escola (pública ou particular) há maior índice de aprovação?<br>
17) Qual a nota média dos alunos em Redação para cada escola?<br>
18) Qual a nota média dos alunos em Matemática para cada escola?<br>    
19) Considerando somente os alunos aprovados em Redação, qual a média de alunos aprovados por escola?<br>
20) Considerando somente os alunos aprovados em Matemática, qual a média de alunos aprovados por escola??<br>
21) Considerando alunos aprovados em Matemática e Redação, qual foi a média de alunos aprovados por escola?<br>
22) Considerando a taxa geral de aprovados, quais as 5 escolas com melhor performance?<br>
23) Em cada série, qual escola teve os alunos com melhor performance em Matemática?<br>
24) Considerando as faixas de gastos por estudante como sendo: [0, 585, 630, 645, 680], qual faixa resulta em estudantes com melhor performance?<br>
25) Considerando as faixas de tamanho (número de alunos) das escolas como sendo: [0, 1000, 2000, 5000], qual faixa resulta em estudantes com melhor performance?<br>
26) Qual o impacto do tipo de escola na performance dos alunos?<br>    

</strong>

### <br><u>Visualizando Dados</u>

In [104]:
dados_escolas

Unnamed: 0,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Escola A,Publica,2917,1910635
1,1,Escola B,Publica,2949,1884411
2,2,Escola C,Particular,1761,1056600
3,3,Escola D,Publica,4635,3022020
4,4,Escola E,Particular,1468,917500
5,5,Escola F,Particular,2283,1319574
6,6,Escola G,Particular,1858,1081356
7,7,Escola H,Publica,4976,3124928
8,8,Escola I,Particular,427,248087
9,9,Escola J,Particular,962,585858


In [105]:
dados_full

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nota_Redacao,Nota_Matematica,ID_Escola,Nome_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,66,79,0,Escola A,Publica,2917,1910635
1,1,Paul Smith,M,9,94,61,0,Escola A,Publica,2917,1910635
2,2,John Rodriguez,M,9,90,60,0,Escola A,Publica,2917,1910635
3,3,Oliver Scott,M,9,67,58,0,Escola A,Publica,2917,1910635
4,4,William Ray,F,6,97,84,0,Escola A,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,92,98,14,Escola O,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,79,95,14,Escola O,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,79,94,14,Escola O,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,87,90,14,Escola O,Particular,1635,1043130


### <br><font color='green'> 11) Entre os alunos aprovados em Redação, qual gênero obteve maior número de aprovações?</font> 

### <br><font color='green'> 12) Entre os alunos aprovados em Matemática, qual gênero obteve maior número de aprovações?</font> 

### <br><font color='green'> 13) Quais os tipos de todas as escolas em nossa base de dados?</font> 

### <br><font color='green'> 14) Qual o total de estudantes por escola?</font> 

### <br><font color='green'> 15) Qual o total de orçamento de cada escola per capita (por estudante)?</font> 

### <br><font color='green'> 16) Em qual tipo de escola (pública ou particular) há maior índice de aprovação?</font> 

### <br><font color='green'> 17) Qual a nota média dos alunos em Redação para cada escola?</font> 

### <br><font color='green'> 18) Qual a nota média dos alunos em Matemática para cada escola?</font> 

### <br><font color='green'> 19) Considerando somente os alunos aprovados em Redação, qual a média de alunos aprovados por escola?</font> 

### <br><font color='green'> 20) Considerando somente os alunos aprovados em Matemática, qual a média de alunos aprovados por escola?</font> 

### <br><font color='green'> 21) Considerando alunos aprovados em Matemática e Redação, qual foi a média de alunos aprovados por escola?</font> 

### <br><font color='green'> 22) Considerando a taxa geral de aprovados, quais as 5 escolas com melhor performance?</font> 

### <br><font color='green'> 23) Em cada série, qual escola teve os alunos com melhor performance em Matemática?</font> 

### <br><font color='green'> 24) Considerando as faixas de gastos por estudante como sendo: [0, 585, 630, 645, 680], qual faixa resulta em estudantes com melhor performance?</font> 

### <br><font color='green'> 25) Considerando as faixas de tamanho (número de alunos) das escolas como sendo: [0, 1000, 2000, 5000], qual faixa resulta em estudantes com melhor performance?</font> 

### <br><font color='green'> 26) Qual o impacto do tipo de escola na performance dos alunos?</font> 