<a href="https://colab.research.google.com/github/repitta/CienciaDeDadosEducacionais/blob/master/LOP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Exploração dos dados do sistema LOP

Nesse projeto iremos fazer a análise exploratória de dados e suas representações visuais, que  engloba um conjunto de estatísticas quantitativas e gráficas que nos mostram as tendências, detectam comportamentos, testam a validade de hipóteses e fazem vários outros estudos.

Para esta análise, vamos utilizar os dados fornecidos pelo sistema LOP - Plataforma de gerenciamento de exercícios de programação da Escola de Ciência e Tecnolgia da  Universidade Federal do Rio Grande do Norte (UFRN) e investigar os fatores que influenciam o desempenho dos alunos do Bacharelado em Ciência e Tecnologia.

Assim, algumas questões que serão uma base para o nosso estudo podem ser levantadas:

1. Como o sucesso dos alunos tem sido ao longo dos anos?
2.  Uma configuração (tamanho, horário) da classe influencia  nesse desempenho?
3. Quais habilidades são aprendidas pelos alunos? (Perseverança,  Raciocínio Lógico, Atenção aos detalhes, Pensamento Abstrato )
4. Qual o perfil dos alunos?
5. Quais os estilos de aprendizagem?
6. E finalmente, qual a influência da  autorregulação da aprendizagem do aluno no seu redimento?




E tendo respondido a essas perguntas que, ao longo deste trabalho, geraremos gráficos e tabelas que relacionam a média dos alunos e o número de alunos aprovados e reprovados desde 2017.2  a 2019.1 com elementos como:

* O número de alunos por turma;
* O turno de aula;
* A quantidade de exercícios repondidos;
*A frequência que o aluno responde as atividades;
* E a quantidade de ausências de estudantes.
*Quantidade de linhas do código? 

# Análise dos dados dos usuários do sistema LOP

O sistema LOP - Plataforma de gerenciamento de exercícios de programação da Escola de Ciência e Tecnolgia da Universidade Federal do Rio Grande do Norte (UFRN) disponibiliza o recurso **lop.user.csv**, uma base de dados com registro dos usuários cadastrados no sistema LOP desde o ano 2017.2.

Para cada usuário há informações de _id, email, grupos.0, hash, listasFavoritas, matricula, nome, questoesFavoritas, salt e sigaa.turmas

1. A variável  **_id indica**  o número único data indentificação do usuário no sistema.

2. A variável  **email** armazena o endereço eletrônico informado pelo usuário

3. A variável  **grupos.0** indica o papel o usuário no sistema. Porém essa coluna está com o mesmo valor para todos . USUARIO

4. A variável  **hash** ...

5. A variável **listasFavoritas** indica .... está coluna está em branco para todos os campos

6. A variável  **matricula** indica o número de matricula informado pelo usuário

7. A variável **nome** armazena os nomes dos usuários

8. A variável **questoesFavoritas** indica quais as questões o usuário classificou como favorita

9. A variável **salt** ...

10. A variável **sigaa.turmas** ...

O nosso dataset tem 49 colunas e 1067 linhas




# Análise dos dados das turmas do sistema LOP

O sistema LOP - Plataforma de gerenciamento de exercícios de programação da Escola de Ciência e Tecnolgia da Universidade Federal do Rio Grande do Norte (UFRN) disponibiliza o recurso **lop.turmas.csv**, uma base de dados com registro das turmas cadastradas no sistema LOP desde o ano 2017.2.

Para cada turma há informações 355 colunas . Muitas dessas informações foram exportadas do SIGAA e não são releventes para a pesquisa. Vamos descrever as variáveis que serão utilizadas no estudo.

1. A variável **_id armazena** o número único para identificar cada turma cadastrada
2. A variável **anoPeriodoString** armazena o ano e o respectivo período: .1 para o primeiro sementre .2 para o segundo sementre
3. A variável **descricaoTurma** armazena o nome da disciplina e o nome da turma
4. A variável **qtdMatriculados** armazena a quantidade de alunos matriculados em cada turma, tem muitos obejtos faltantes , não foi utilizado no estudo
5. A variável **horariosTurma.0.descricaoTurno** armazena o período que a turma foi oferdada : Manhã, Tarde ou Noite, tem muito objetos faltantes, não foi utilizadono estudo.
6. A variável **matrícula** armazena a matricula do usuário

O nosso dataset tem 355 colunas e 48 linhas

# Análise dos dados das listas de questões do sistema Lop

O sistema LOP - Plataforma de gerenciamento de exercícios de programação da Escola de Ciência e Tecnolgia da Universidade Federal do Rio Grande do Norte (UFRN) disponibiliza o recurso **lop.listasExercicios.csv**, uma base de dados com registro das listas de exercícios cadastradas no sistema LOP desde o ano 2017.2.

Para cada lista de questões há informações  _id, likes, questoes, titulo.

1. A variável **_id** é um número único que idenfifica cada lista de questões
2. A variável **likes** ... está coluna está toda zerada
3.A variável  **questões** armazena o número único para cada questão cadastrada
4. a variável **titulo** armazena o titulo de cada questão

O nosso dataset tem 23 colunas e 23 linhas

# Análise dos dados das submissões das questões do sistema Lop

O sistema LOP - Plataforma de gerenciamento de exercícios de programação da Escola de Ciência e Tecnolgia da Universidade Federal do Rio Grande do Norte (UFRN) disponibiliza o recurso **lop.submissoes.csv**, uma base de dados com registro das listas de exercícios cadastradas no sistema LOP desde o ano 2017.2.

Para cada submissão há informações _id, codigo, data, porcentagemAcerto, questao.

1. A variável **_id**  armazena um número único da submissão de uma questão por aluno
2. A variável **codigo** armazena o código que foi feito pelo aluno
3. A variável **data** armazena data e hora de cada submissão
4. A variável **porcentagemAcerto** armazena o valor da porcentagem de acerto de cada questão submetida
5. A variável **questao** armazena o id da questão que foi submetida

O nosso dataset tem 55  colunas e 33421 linhas

**Importa as bibliotecas**

In [0]:
import pandas as pd
from csv import reader
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

**Lendo os arquivos CSV do Lop e definindo os tipos de cada coluna**

In [2]:
#Tipos de dados em cada coluna
typeUser   = {"_id":str, "matricula":str, "nome":str}
typeTurmas = {"_id":str, 'anoPeriodoString':np.float, 'descricaoTurma':str}
typeLista  = {"_id":str,"titulo":str,"questao":str}
typeSub    = {"porcentagemAcerto":np.int,"user":str} 
         
# Ler os arquivos CSV que foram gerados a partir do banco de dados do sistema LOP
lopUsers  = pd.read_csv("https://github.com/repitta/CienciaDeDadosEducacionais/raw/master/arquivosCSV/lop.users.csv",dtype=typeUser)
lopTurmas = pd.read_csv("https://raw.githubusercontent.com/repitta/CienciaDeDadosEducacionais/master/arquivosCSV/lop.turmas.csv",dtype=typeTurmas)
lopListas = pd.read_csv("https://raw.githubusercontent.com/repitta/CienciaDeDadosEducacionais/master/arquivosCSV/lop.listasExercicios.csv",dtype=typeLista) 
lopSub    = pd.read_csv("https://github.com/repitta/CienciaDeDadosEducacionais/raw/master/arquivosCSV/lop.submissoes.csv",dtype=typeSub)

lopSub["data"] = pd.to_datetime(lopSub["data"], format = "%Y/%m/%dT%H:%M:%S")

#Transformando data em variável do tipo datetime
#tabSub["data"] = tabSub["data"].astype(str)
#a = tabSub["data"].str.split(".",  n=1, expand=True).loc[:,0].str.split("T",  n=1, expand=True) 
#tabSub["data"] = pd.to_datetime(a[0], format = "%Y/%m/%d")
#tabSub["hora"] = pd.to_datetime(a[1], format = "%H:%M:%S")
#tabSub[["data","hora"]].head()

  interactivity=interactivity, compiler=compiler, result=result)


**Selecionar as colunas com os dados que serão utilizados no estudo**

In [0]:
#Tabela Usuários - tab_user armazena as colunas "_id", "matricula", "nome" 
tabUser = lopUsers.loc[:,["_id", "matricula", "nome"]].copy()

#Tabela Turmas - tab_turmas armazena as colunas "_id", "anoPeriodoString","descricaoTurma", "matricula"
tabTurmas = lopTurmas.loc[:,["_id", "anoPeriodoString","descricaoTurma"]].copy()
matricula = []
turno     = []
for j in range(len(tabTurmas)):
  idMatriculat = []
  for i in range(30):
    idMatriculat.append(lopTurmas.loc[:,"dicentes."+str(i)+".matricula"][j])
  matricula.append(idMatriculat)                     
tabTurmas.loc[:,"matricula"] = pd.Series(matricula)

#Tabela Listas - tab_listas armazena as colunas "id","questoes, titulo"
tabListas = lopListas.loc[:,["_id","titulo"]].copy()
idLista   = []
for j in range(23):
  idQuestoes =[]
  for i in range(19):
    idQuestoes.append(lopListas.loc[:,"questoes."+str(i)][j])
  idLista.append(idQuestoes)
tabListas.loc[:,"questao"] = pd.Series(idLista)

#Tabela Submissoes - tab_sub armazena as colunas "data","porcentagemAcerto","questao", "user"
tabSub = lopSub.loc[:,["data","porcentagemAcerto","questao", "user"]].copy()



**Estrutura da cada dataframe após a seleção dos dados**

In [5]:
print("Tabelas de Usuários Colunas   \n",tabUser.columns,   tabUser.shape)
print("Tabelas de Turmas Colunas     \n",tabTurmas.columns, tabTurmas.shape)
print("Tabelas de Listas Colunas     \n",tabListas.columns, tabListas.shape)
print("Tabelas de Submissoes Colunas \n",tabSub.columns,    tabSub.shape)

Tabelas de Usuários Colunas   
 Index(['_id', 'matricula', 'nome'], dtype='object') (1067, 3)
Tabelas de Turmas Colunas     
 Index(['_id', 'anoPeriodoString', 'descricaoTurma', 'matricula'], dtype='object') (48, 4)
Tabelas de Listas Colunas     
 Index(['_id', 'titulo', 'questao'], dtype='object') (23, 3)
Tabelas de Submissoes Colunas 
 Index(['data', 'porcentagemAcerto', 'questao', 'user'], dtype='object') (33421, 4)


**Transformar os dados da tabela User**

In [6]:
#renomeando a coluna _id para idAluno
tabUser.rename(columns={"_id":"idAluno"}, inplace=True)

#Limpando a coluna matricula, onde tem .0 no final da matricula foi retirado, tive q fazer uma gambiarra pq ele estva entendendo .0 como uma expressao regular
tabUser.loc[:,"matricula"] = tabUser.loc[:,"matricula"].str.replace(".0","",regex=False).copy()
#tabUser.loc[:,"matricula"] = tabUser.loc[:,"matricula"].str.replace("r0","").copy()


#imprimir os dados da tabela User
print(tabUser.info())
print(tabUser.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067 entries, 0 to 1066
Data columns (total 3 columns):
idAluno      1067 non-null object
matricula    1066 non-null object
nome         1067 non-null object
dtypes: object(3)
memory usage: 25.1+ KB
None
                    idAluno    matricula                           nome
0  598cd5453bc48946977dcf66   2013023070               Gabriel Tibúrcio
1  598cd8b823daeb4b50a4b254      1943220                       Orivaldo
2  599155ebb3333c31b7a01e5b     12345678                 Professor João
3  5991cb910be9d42f2f68b906  20170039453                         Amanda
4  5991cd1a8907ca2f441cd313  20170038394  Emanuel Fernandes P. da Rocha


**Expandi a tabela turmas para que cada aluno seja uma linha do dataframe**

In [7]:
colunas    = ["idTurma","ano","descricaoTurma","matricula"]
turmasNovo = pd.DataFrame(columns=colunas)
for i in range(44):
  idTurma        = tabTurmas["_id"].iloc[i]
  ano            = tabTurmas["anoPeriodoString"].iloc[i]
  descricaoTurma = tabTurmas["descricaoTurma"].iloc[i]
  m              = tabTurmas["matricula"].iloc[i]
  for a in range(30):
    matricula  = m[a]
    dic        = {"idTurma": idTurma ,"ano": ano ,"descricaoTurma":descricaoTurma,"matricula":matricula}
    turmasNovo = pd.concat([turmasNovo, pd.DataFrame(dic, index=[0])],  ignore_index=True, sort = False )
    
print(turmasNovo.shape)
turmasNovo.info()

(1320, 4)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1320 entries, 0 to 1319
Data columns (total 4 columns):
idTurma           1320 non-null object
ano               1320 non-null float64
descricaoTurma    1320 non-null object
matricula         1028 non-null object
dtypes: float64(1), object(3)
memory usage: 41.3+ KB


**Apagar os registros onde o campo da coluna Matricula é nulo**

In [8]:
turmasNovo = turmasNovo.dropna(axis=0, how='any')
print(turmasNovo.shape)
turmasNovo.info()

(1028, 4)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1028 entries, 0 to 1319
Data columns (total 4 columns):
idTurma           1028 non-null object
ano               1028 non-null float64
descricaoTurma    1028 non-null object
matricula         1028 non-null object
dtypes: float64(1), object(3)
memory usage: 40.2+ KB


**Transformar os dados da tabela Turmas**

In [9]:
#Retirando o .0 da coluna matricula
turmasNovo["matricula"] = turmasNovo["matricula"].astype(str)
turmasNovo["matricula"] = turmasNovo["matricula"].str.replace(".0","",regex=False)

print(turmasNovo.info())
print(turmasNovo.head()) 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1028 entries, 0 to 1319
Data columns (total 4 columns):
idTurma           1028 non-null object
ano               1028 non-null float64
descricaoTurma    1028 non-null object
matricula         1028 non-null object
dtypes: float64(1), object(3)
memory usage: 40.2+ KB
None
                    idTurma  ...    matricula
0  598e15296d8650eb27d52e3d  ...  20170106538
1  598e15296d8650eb27d52e3d  ...  20170039453
2  598e15296d8650eb27d52e3d  ...  20170044776
3  598e15296d8650eb27d52e3d  ...  20170031473
4  598e15296d8650eb27d52e3d  ...  20170032274

[5 rows x 4 columns]


**TESTE : Tem matriculas em mais de uma turma**

In [0]:
#total de matriculas únicas 
print("Total de matriculas únicas: ",  turmasNovo["matricula"].unique().shape)
resultado = turmasNovo.groupby(["matricula"]).count()
resultado = resultado.reset_index()
print(resultado.loc[resultado["idTurma"]==2,"matricula"])
# tem 917 matriculas em estão em apenas 1 turma 
# tem 80 matriculas que estão em 2 turmas cadastradas
# tem 14 matriculas que estão em 3 turmas cadastradas



**TESTE : Montar uma turma por ano e descrição**

In [0]:
turmasNovoAno=turmasNovo.loc[turmasNovo["ano"] == 2018.2, ["matricula","descricaoTurma","ano"]] 
turmaDescricao = turmasNovoAno.loc[turmasNovoAno["descricaoTurma"].str.contains('Turma 03A', regex=False), ["matricula","descricaoTurma","ano"]]
print(turmaDescricao.sort_values(by=['matricula']))
print("Quantidade de alunos ", turmaDescricao.shape)

**Concatenar a tabela usuarios com a tabela turmas pela coluna matricula**

In [54]:
mergeUserTurmas = pd.merge(right = tabUser, left = turmasNovo, on='matricula', how="outer")
mergeUserTurmas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1266 entries, 0 to 1265
Data columns (total 6 columns):
idTurma           1028 non-null object
ano               1028 non-null float64
descricaoTurma    1028 non-null object
matricula         1265 non-null object
idAluno           1173 non-null object
nome              1173 non-null object
dtypes: float64(1), object(5)
memory usage: 69.2+ KB


**TESTE: alunos que não estão cadastrados no sistema e que estão matriculados na disciplina**

In [0]:
print("Quantidade de matriculas em user "                                  ,tabUser["matricula"].shape )
print("Quantidade de matriculas em turmasNovo "                            ,turmasNovo["matricula"].shape )
print("Quantidade de matriculas depois de juntar as tabelas user e turmas ",mergeUserTurmas["matricula"].shape )


# TESTE 
# Existem matriculas na tabela turmas que não se cadastraram no sistema? SIM
# Existem 93 matriculas que não tem registro no sistema
print(mergeUserTurmas.loc[mergeUserTurmas["idAluno"].isna(), ["idAluno","matricula", "descricaoTurma", "ano"]].sort_values(by=['matricula']))

**TESTE : Montar a turma pelo ano e pela descrição da turma**

In [0]:
turmaAno       = mergeUserTurmas.loc[mergeUserTurmas.loc[:,"ano"] == 2018.2, ["matricula",'nome',"descricaoTurma","ano", "idAluno", "descricaoHorario","idTurma"]].copy() 
turmaDescricao = turmaAno.loc[turmaAno.loc[:,"descricaoTurma"].str.contains('Turma 03A', regex=False), ["matricula",'nome',"descricaoTurma","ano","idAluno","descricaoHorario","idTurma"]].copy()
turmaDescricao.shape


**Criar um arquivo CSV com as informações das turmas do Sigaa e as informações de cadastro do LOP**

In [0]:
mergeUserTurmasT= mergeUserTurmas.drop('nome',axis=1)
mergeUserTurmasT.to_csv(r'lopUsuarioTurma.csv')

**Expandir a tabela listas para que cada questão seja uma linha da tabela**

In [21]:
colunas = ["idLista","questao","titulo"]
listaNovo = pd.DataFrame(columns=colunas)
for i in range(23):
  idLista=tabListas["_id"].iloc[i]
  titulo=tabListas["titulo"].iloc[i]
  j=tabListas["questao"].iloc[i]
  for a in range(18):
      questao=j[a]
      dic = {"idLista": idLista ,"titulo":titulo, "questao": questao }
      listaNovo = pd.concat([listaNovo, pd.DataFrame(dic, index=[0])],  ignore_index=True, sort=False )
    
print(listaNovo.shape)
listaNovo.info()

(414, 3)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 414 entries, 0 to 413
Data columns (total 3 columns):
idLista    414 non-null object
questao    173 non-null object
titulo     414 non-null object
dtypes: object(3)
memory usage: 9.8+ KB


**Apagar os registros onde o campo da coluna questao é nulo**




In [22]:
listaNovo = listaNovo.dropna(axis=0, how='any')
print(listaNovo.shape)



(173, 3)


**Cirar um novo campo na tabela ListaNovo com a quantidade de questões por lista**

In [23]:
listaNovo.columns
quantidade=listaNovo.groupby("idLista").count()
quantidade = quantidade.reset_index()
quantidade = quantidade.drop('titulo',axis=1)
quantidade.rename(columns={"questao":"quantidade"}, inplace=True)
listaNovo= pd.merge(left = listaNovo, right = quantidade, on='idLista', how="right")
print(listaNovo.info())
listaNovo.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 173 entries, 0 to 172
Data columns (total 4 columns):
idLista       173 non-null object
questao       173 non-null object
titulo        173 non-null object
quantidade    173 non-null int64
dtypes: int64(1), object(3)
memory usage: 6.8+ KB
None


Unnamed: 0,idLista,questao,titulo,quantidade
0,598cd57a3bc48946977dcf67,59885f8d684f4a3f78163c00,Lista de Laboratório 1 - Expressões Aritmética...,5
1,598cd57a3bc48946977dcf67,59887121d7c3703f96fda00c,Lista de Laboratório 1 - Expressões Aritmética...,5
2,598cd57a3bc48946977dcf67,59887c83684f4a3f78163c02,Lista de Laboratório 1 - Expressões Aritmética...,5
3,598cd57a3bc48946977dcf67,59888cb2d2f43b3f548ef054,Lista de Laboratório 1 - Expressões Aritmética...,5
4,598cd57a3bc48946977dcf67,59888ea5d2f43b3f548ef057,Lista de Laboratório 1 - Expressões Aritmética...,5


**Concatenar a tabela lista com a tabela submissoes pela coluna questao**

In [24]:
mergeSubLista = pd.merge(right= tabSub, left = listaNovo, on='questao', how="inner")
print(mergeSubLista.shape)

# A Quantidade de submissoes aumentou muito . Esta correto
#pode existe questão que foi submetida que não esta em nenhuma lista? simmmm
print(mergeSubLista.info())

#quantidade correta, pois ha questoes sem lista
print(listaNovo["titulo"].unique().shape)
print(mergeSubLista["titulo"].unique().shape)


(49277, 7)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 49277 entries, 0 to 49276
Data columns (total 7 columns):
idLista              49277 non-null object
questao              49277 non-null object
titulo               49277 non-null object
quantidade           49277 non-null int64
data                 49277 non-null datetime64[ns, UTC]
porcentagemAcerto    49277 non-null int64
user                 49277 non-null object
dtypes: datetime64[ns, UTC](1), int64(2), object(4)
memory usage: 3.0+ MB
None
(23,)
(23,)


**TESTE: Montar uma lista de questoes pelo nome da lista**

In [0]:
mergeSubLista.loc[mergeSubLista["titulo"].str.contains('Lista de Laboratório 3', regex=False), "questao"].unique()

**Criar um arquivo CSV com as informações das submissões e as informações da lista com titulo e quantidade**

In [0]:
mergeSubLista.to_csv(r'lopSubLista.csv')

**Concatenar as tabelas merge_user_turmas e merge_sub_lista**




In [57]:
mergeSubLista.rename(columns={"user":"idAluno"}, inplace=True)
mergeUseTurmasSubLista = pd.merge(right= mergeUserTurmas, left = mergeSubLista, on='idAluno', how="outer")
print (mergeUseTurmasSubLista.shape)
print(mergeUseTurmasSubLista.columns)
mergeUseTurmasSubLista.head(1)

(55235, 12)
Index(['idLista', 'questao', 'titulo', 'quantidade', 'data',
       'porcentagemAcerto', 'idAluno', 'idTurma', 'ano', 'descricaoTurma',
       'matricula', 'nome'],
      dtype='object')


Unnamed: 0,idLista,questao,titulo,quantidade,data,porcentagemAcerto,idAluno,idTurma,ano,descricaoTurma,matricula,nome
0,598cd57a3bc48946977dcf67,59885f8d684f4a3f78163c00,Lista de Laboratório 1 - Expressões Aritmética...,5.0,2017-08-14 16:19:03.629000+00:00,0.0,5991cd63b3c8b42f3d5da402,598e15296d8650eb27d52e3d,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01A,20170096736,Lucas Dantas


**Criar um arquivo CSV com as informações dos usuarios, turmas, submissões e as informações da lista**

In [0]:
mergeUseTurmasSubLista.to_csv(r'lopUseTurmasSubLista.csv')

**Montar um arquivo CSV com as notas de cada aluno por lista**

In [0]:
#Remover todas as linhas que tem dados faltantes
mergeUseTurmasSubListaM = mergeUseTurmasSubLista.dropna(axis=0, how='any')


**Porcentagem Maxima por aluno em cada questão**

In [66]:
NotaMaxQuestao = mergeUseTurmasSubListaM.groupby(["idLista","idAluno","questao"]).max()
NotaMaxQuestao.rename(columns={"porcentagemAcerto":"porcentagemMaxima"}, inplace=True)
NotaMaxQuestao = NotaMaxQuestao.reset_index()
print(NotaMaxQuestao.columns)
NotaMaxQuestao.head(1)

Index(['idLista', 'idAluno', 'questao', 'titulo', 'quantidade', 'data',
       'porcentagemMaxima', 'idTurma', 'ano', 'descricaoTurma', 'matricula',
       'nome'],
      dtype='object')


Unnamed: 0,idLista,idAluno,questao,titulo,quantidade,data,porcentagemMaxima,idTurma,ano,descricaoTurma,matricula,nome
0,598cd57a3bc48946977dcf67,5991cb910be9d42f2f68b906,59885f8d684f4a3f78163c00,Lista de Laboratório 1 - Expressões Aritmética...,5.0,2017-08-14 16:29:10.522000+00:00,100.0,598e15296d8650eb27d52e3d,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01A,20170039453,Amanda


**Quantidade de questoes feitas por aluno em cada lista**

In [67]:
quantidade = NotaMaxQuestao.groupby(["titulo","idAluno"]).count()
quantidade.rename(columns={"quantidade":"questoesFeitas"}, inplace=True)
quantidade= quantidade.reset_index()
quantidade= quantidade[["titulo","idAluno","questoesFeitas"]]
print(quantidade.columns)
quantidade.head(1)


Index(['titulo', 'idAluno', 'questoesFeitas'], dtype='object')


Unnamed: 0,titulo,idAluno,questoesFeitas
0,Lista de Exercícios 1 - Expressões e variáveis,5991cb910be9d42f2f68b906,11


**Nota final dos alunos por lista**

In [68]:
NotaLista = NotaMaxQuestao.groupby(["titulo","idAluno"]).sum()
NotaLista.rename(columns={"porcentagemMaxima":"SomaLista", "quantidade":"questoesFeitas"}, inplace=True)
NotaLista = NotaLista.drop('ano',axis=1)
NotaLista= NotaLista.reset_index()
NotaLista = NotaLista[["titulo",'idAluno','SomaLista']]
print(NotaLista.columns)
NotaLista.head(1)


Index(['titulo', 'idAluno', 'SomaLista'], dtype='object')


Unnamed: 0,titulo,idAluno,SomaLista
0,Lista de Exercícios 1 - Expressões e variáveis,5991cb910be9d42f2f68b906,1100.0


In [69]:
mergeQuanNotaLista =  pd.merge(right= quantidade, left = NotaLista, on=['idAluno','titulo'], how="inner")
print(mergeQuanNotaLista.columns)
print(mergeQuanNotaLista.shape)
mergeQuanNotaLista.head(1)


Index(['titulo', 'idAluno', 'SomaLista', 'questoesFeitas'], dtype='object')
(6822, 4)


Unnamed: 0,titulo,idAluno,SomaLista,questoesFeitas
0,Lista de Exercícios 1 - Expressões e variáveis,5991cb910be9d42f2f68b906,1100.0,11


**Quantidade de questoes por lista**

In [70]:
quantQuesList = listaNovo[['quantidade','titulo']]
quantQuesList =quantQuesList.drop_duplicates()
print(quantQuesList.shape)
quantQuesList.head()



(23, 2)


Unnamed: 0,quantidade,titulo
0,5,Lista de Laboratório 1 - Expressões Aritmética...
5,5,Lista de Laboratório 2 - Expressões Lógicas e ...
10,18,Lista de Exercícios 2 - Estruturas Condicionais
28,15,Lista de Exercícios 3 - Laço Condicional
43,5,Lista de Laboratório 3 - Estruturas de Repeti...


**Concatenando as informações das tabelas mergeQuanNotaLista e quantidade para calcular o nota final de cada lista**

In [71]:
mergeQuanNotaListaQuanQ = mergeQuanNotaLista.join(quantQuesList.set_index('titulo'), on='titulo')
mergeQuanNotaListaQuanQ["NotaLista"]= mergeQuanNotaListaQuanQ["SomaLista"] /mergeQuanNotaListaQuanQ['quantidade']
print(mergeQuanNotaListaQuanQ.columns)
print(mergeQuanNotaListaQuanQ.shape)
mergeQuanNotaListaQuanQ.head(3)

Index(['titulo', 'idAluno', 'SomaLista', 'questoesFeitas', 'quantidade',
       'NotaLista'],
      dtype='object')
(6822, 6)


Unnamed: 0,titulo,idAluno,SomaLista,questoesFeitas,quantidade,NotaLista
0,Lista de Exercícios 1 - Expressões e variáveis,5991cb910be9d42f2f68b906,1100.0,11,15,73.333333
1,Lista de Exercícios 1 - Expressões e variáveis,5991cd1a8907ca2f441cd313,500.0,5,15,33.333333
2,Lista de Exercícios 1 - Expressões e variáveis,5991cd34b3c8b42f3d5da3fd,600.0,6,15,40.0


**Tabela final com todas as informações do aluno**

In [72]:
mergeUseTurmasSubListaM = mergeUseTurmasSubLista[["titulo",'idAluno', 'ano', 'descricaoTurma', 'idTurma','matricula','nome']]
mergeQuanNotaListaQuanM = mergeQuanNotaListaQuanQ[['titulo', 'idAluno','questoesFeitas', 'quantidade','NotaLista']]
tabelaFinal= mergeQuanNotaListaQuanM.join(mergeUseTurmasSubListaM.set_index(['titulo','idAluno']), on=['titulo','idAluno'])
#remover as linhas duplicadas
tabelaFinal =tabelaFinal.drop_duplicates()
print(tabelaFinal.shape)
print(tabelaFinal.info())
tabelaFinal.head()

(7654, 10)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 7654 entries, 0 to 6821
Data columns (total 10 columns):
titulo            7654 non-null object
idAluno           7654 non-null object
questoesFeitas    7654 non-null int64
quantidade        7654 non-null int64
NotaLista         7654 non-null float64
ano               7654 non-null float64
descricaoTurma    7654 non-null object
idTurma           7654 non-null object
matricula         7654 non-null object
nome              7654 non-null object
dtypes: float64(2), int64(2), object(6)
memory usage: 657.8+ KB
None


Unnamed: 0,titulo,idAluno,questoesFeitas,quantidade,NotaLista,ano,descricaoTurma,idTurma,matricula,nome
0,Lista de Exercícios 1 - Expressões e variáveis,5991cb910be9d42f2f68b906,11,15,73.333333,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01A,598e15296d8650eb27d52e3d,20170039453,Amanda
1,Lista de Exercícios 1 - Expressões e variáveis,5991cd1a8907ca2f441cd313,5,15,33.333333,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01B,598e15296d8650eb27d52e5f,20170038394,Emanuel Fernandes P. da Rocha
2,Lista de Exercícios 1 - Expressões e variáveis,5991cd34b3c8b42f3d5da3fd,6,15,40.0,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01B,598e15296d8650eb27d52e5f,20170001812,Andrey Costa
3,Lista de Exercícios 1 - Expressões e variáveis,5991cd37b3c8b42f3d5da3fe,4,15,26.666667,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01B,598e15296d8650eb27d52e5f,20170102735,Fernanda
4,Lista de Exercícios 1 - Expressões e variáveis,5991cd39b3c8b42f3d5da3ff,2,15,13.333333,2017.2,LÓGICA DE PROGRAMAÇÃO - Turma 01B,598e15296d8650eb27d52e5f,20170043590,Jayedson Brito


**Exportando o dataframe para um arquivo CSV**

In [0]:
tabelaFinalT= tabelaFinal.drop('nome',axis=1)
tabelaFinalT.to_csv(r'lopUsuarioNota.csv')
