# Análise de Dados - UFPB

**Professor** : Marcus Carvalho

Aluno: Lori Medeiros

## Laboratório: Manipulação de Dados

Nesta atividade prática, você deve usar a biblioteca Pandas de Python para exercitar a manipulação dados.
O dataset usado como exemplo será de notas de alunos em algumas turmas ofertadas para o curso de Sistemas de Informação da UFPB.
A tabela tem duas colunas: `disciplina` e `nota`. Cada linha representa a nota final de um aluno que cursou a disciplina em uma turma.
Por exemplo, se a disciplina "SISTEMAS DISTRIBUIDOS" teve 30 alunos, existirão 30 linhas com o par `<SISTEMAS DISTRIBUIDOS, nota_do_aluno>`, sendo uma para cada aluno.

Carregue e manipule os dados para responder as questões. Tente usar apenas código para responder as questões nos blocos de código.

### Carregamento dos dados

Para iniciar, importe as bibliotecas necessárias e carregue o arquivo `dados/exemplo_notas_si.csv` usando o Pandas e imprima o DataFrame para entender o formato dos dados.

In [2]:
import pandas as pd
df = pd.read_csv("exemplo_notas_si.csv")
display(df)

Unnamed: 0,disciplina,nota
0,ADMINISTRAÇÃO I,7.7
1,ADMINISTRAÇÃO I,7.0
2,ADMINISTRAÇÃO I,5.5
3,ADMINISTRAÇÃO I,2.6
4,ADMINISTRAÇÃO I,5.1
...,...,...
637,SISTEMAS OPERACIONAIS,7.5
638,SISTEMAS OPERACIONAIS,6.5
639,SISTEMAS OPERACIONAIS,1.2
640,SISTEMAS OPERACIONAIS,7.3


### Filtragem de dados

Com base na tabela de notas dos alunos, aplique alguns filtros e ordenação nos dados.

#### Mostre apenas as linhas com as notas igual a 10

In [3]:
print(df[df["nota"] == 10])

                                  disciplina  nota
62         ALGORITMOS E ESTRUTURA DE DADOS I  10.0
144    DESENVOLVIMENTOS DE SIST CORPORATIVOS  10.0
153    DESENVOLVIMENTOS DE SIST CORPORATIVOS  10.0
206                       ETICA PROFISSIONAL  10.0
215                       ETICA PROFISSIONAL  10.0
216                       ETICA PROFISSIONAL  10.0
220                       ETICA PROFISSIONAL  10.0
223                       ETICA PROFISSIONAL  10.0
231                       ETICA PROFISSIONAL  10.0
232                       ETICA PROFISSIONAL  10.0
233                       ETICA PROFISSIONAL  10.0
236                       ETICA PROFISSIONAL  10.0
237                       ETICA PROFISSIONAL  10.0
238                       ETICA PROFISSIONAL  10.0
305                 INTRODUCAO A PROGRAMACAO  10.0
318                 INTRODUCAO A PROGRAMACAO  10.0
322                 INTRODUCAO A PROGRAMACAO  10.0
514  PESQUISA APLIC A SISTEMAS DE INFORMACAO  10.0


#### Mostre apenas as notas da disciplina "SISTEMAS DISTRIBUIDOS", ordenadas da maior para a menor nota

In [None]:
print(df[df["disciplina"] == "SISTEMAS DISTRIBUIDOS"].sort_values("nota", ascending=False))
# F do False deve ser maiúsculo
# .sort_values aplicado no segundo df

                disciplina  nota
608  SISTEMAS DISTRIBUIDOS   9.6
604  SISTEMAS DISTRIBUIDOS   9.4
610  SISTEMAS DISTRIBUIDOS   9.2
605  SISTEMAS DISTRIBUIDOS   9.2
611  SISTEMAS DISTRIBUIDOS   9.0
616  SISTEMAS DISTRIBUIDOS   8.2
614  SISTEMAS DISTRIBUIDOS   7.9
617  SISTEMAS DISTRIBUIDOS   7.9
612  SISTEMAS DISTRIBUIDOS   7.5
615  SISTEMAS DISTRIBUIDOS   7.3
619  SISTEMAS DISTRIBUIDOS   7.2
606  SISTEMAS DISTRIBUIDOS   7.1
618  SISTEMAS DISTRIBUIDOS   5.8
613  SISTEMAS DISTRIBUIDOS   5.6
607  SISTEMAS DISTRIBUIDOS   5.4
609  SISTEMAS DISTRIBUIDOS   5.3


### Média geral das disciplinas

Crie um novo dataframe que agrupe os dados por disciplina e aplique uma função de agregação que calcule a **média** geral das notas de cada disciplina.
Cada disciplina terá apenas uma linha com o seu nome e média das notas de todos os alunos daquela disciplina.
Exiba o dataframe para visualizar se deu certo.

In [10]:
df_agrupado = df.groupby(["disciplina"]).mean()
df_agrupado

Unnamed: 0_level_0,nota
disciplina,Unnamed: 1_level_1
ADMINISTRAÇÃO I,7.07
ALGEBRA LINEAR E GEOMETRIA ANALITICA,6.465
ALGORITMOS E ESTRUTURA DE DADOS I,8.319048
AUDITORIA E SEGURANCA DE SISTEMAS,7.7625
BANCO DE DADOS I,6.662069
DESENVOLVIMENTOS DE SIST CORPORATIVOS,7.044
ENGENHARIA DE SOFTWARE APLICADA,7.911111
ESTATÍSTICA,3.515789
ETICA PROFISSIONAL,9.715789
GESTÃO DA QUALIDADE DE SOFTWARE,7.42


#### Qual disciplina teve a maior média?

In [None]:
df_ordenado = df_agrupado.sort_values("nota", ascending=False)
print(df_ordenado.head(1))
# ETICA PROFISSIONAL

                        nota
disciplina                  
ETICA PROFISSIONAL  9.715789


#### Qual disciplina teve a menor média?

In [None]:
df_ordenado = df_agrupado.sort_values("nota", ascending=True)
print(df_ordenado.head(1))
# ESTATÍSTICA

                 nota
disciplina           
ESTATÍSTICA  3.515789


### Quantidade de alunos por disciplina

Crie um novo dataframe que calcule a quantidade de alunos por disciplina.

In [None]:
# forma mais basica, contando cada nota
#df_qt_alunos = df.groupby(["disciplina"]).count()
#df_qt_alunos

# forma avançada, dando outro nome para a coluna nota
df_qt_alunos = df.groupby(["disciplina"])["nota"].count().reset_index(name='quantidade_alunos')
df_qt_alunos
# essa forma não conta valores nulos

# já essa é a ideal, por se tratar de alunos e levando em conta 
# a possíbilidade do aluno não ter a nota ainda inserida
df_qt_alunos = df.groupby(["disciplina"])["nota"].size().reset_index(name='quantidade_alunos')
df_qt_alunos

# count = não conta nulos
# size  = conta todos

Unnamed: 0,disciplina,quantidade_alunos
0,ADMINISTRAÇÃO I,40
1,ALGEBRA LINEAR E GEOMETRIA ANALITICA,20
2,ALGORITMOS E ESTRUTURA DE DADOS I,21
3,AUDITORIA E SEGURANCA DE SISTEMAS,24
4,BANCO DE DADOS I,29
5,DESENVOLVIMENTOS DE SIST CORPORATIVOS,25
6,ENGENHARIA DE SOFTWARE APLICADA,27
7,ESTATÍSTICA,19
8,ETICA PROFISSIONAL,38
9,GESTÃO DA QUALIDADE DE SOFTWARE,30


#### Qual disciplina teve a maior quantidade de alunos?

In [None]:
df_qt_alunos_ordenada = df_qt_alunos.sort_values("quantidade_alunos", ascending=False)
df_qt_alunos_ordenada.head(1)
# MATEMÁTICA ELEMENTAR	

Unnamed: 0,disciplina,quantidade_alunos
15,MATEMÁTICA ELEMENTAR,42


#### Qual disciplina teve a menor quantidade de alunos?

In [None]:
df_qt_alunos_ordenada = df_qt_alunos.sort_values("quantidade_alunos", ascending=True)
df_qt_alunos_ordenada.head(1)
# REDES DE COMPUTADORES

Unnamed: 0,disciplina,quantidade_alunos
21,REDES DE COMPUTADORES,12


### Percentual de aprovados por disciplina

Crie um novo dataframe que calcule o percentual de alunos por disciplina, considerando que a nota mínima para aprovação é 5.


In [40]:
# total de alunos (para a divisão)
# já temos: df_qt_alunos

# obtendo aprovados
df_aprovados = df[df["nota"] >= 5].groupby('disciplina').size().reset_index(name='aprovados')

# juntando ambos (para melhor visualização)
resultado = pd.merge(df_qt_alunos, df_aprovados, on='disciplina', how='left')

# calculando percentual de aprovados
resultado['pct_aprovados'] = (resultado['aprovados'] / resultado['quantidade_alunos'] * 100)

display(resultado)

Unnamed: 0,disciplina,quantidade_alunos,aprovados,pct_aprovados
0,ADMINISTRAÇÃO I,40,38,95.0
1,ALGEBRA LINEAR E GEOMETRIA ANALITICA,20,14,70.0
2,ALGORITMOS E ESTRUTURA DE DADOS I,21,21,100.0
3,AUDITORIA E SEGURANCA DE SISTEMAS,24,23,95.833333
4,BANCO DE DADOS I,29,26,89.655172
5,DESENVOLVIMENTOS DE SIST CORPORATIVOS,25,23,92.0
6,ENGENHARIA DE SOFTWARE APLICADA,27,26,96.296296
7,ESTATÍSTICA,19,6,31.578947
8,ETICA PROFISSIONAL,38,38,100.0
9,GESTÃO DA QUALIDADE DE SOFTWARE,30,30,100.0


#### Qual a disciplina com a maior taxa de aprovação?


In [42]:
# ja observei que algumas disciplinas tem aprovação máxima (100)
display(resultado[resultado['pct_aprovados'] == 100])

Unnamed: 0,disciplina,quantidade_alunos,aprovados,pct_aprovados
2,ALGORITMOS E ESTRUTURA DE DADOS I,21,21,100.0
8,ETICA PROFISSIONAL,38,38,100.0
9,GESTÃO DA QUALIDADE DE SOFTWARE,30,30,100.0
16,METODOLOGIA CIENTÍFICA,35,35,100.0
17,PESQUISA APLIC A SISTEMAS DE INFORMACAO,15,15,100.0
18,PORTUGUES INSTRUMENTAL,13,13,100.0
19,PROBABILIDADE E ESTATISTICA,23,23,100.0
20,PROGRAMACAO ORIENTADA A OBJETOS,17,17,100.0
22,SISTEMAS DE APOIO A GESTÃO,19,19,100.0
23,SISTEMAS DISTRIBUIDOS,16,16,100.0


#### Qual a disciplina com a menor taxa de aprovação?


In [None]:
df_menor_taxa = resultado.sort_values("pct_aprovados", ascending=True)
display(df_menor_taxa.head(1))
# ESTATÍSTICA

Unnamed: 0,disciplina,quantidade_alunos,aprovados,pct_aprovados
7,ESTATÍSTICA,19,6,31.578947
