# DATA LOAD

Read the original Excel information and transform it to be processed.

The original information is the folder 'data/original', classified by years and in some file by year

In every file exists multiple sheet, some of them with userful information and others that want be used.

The files and sheets will be detected using the cell headers. 

The preprocessed information will be stored in folder 'data/preprocessed', classified by language.


In [1]:
import json
import os.path
import sys
import csv
import numpy as np
import pandas as pd
import xlrd
from colorama import Fore

In [2]:
from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path

In [3]:
import spacy
from spacy_langdetect import LanguageDetector

# Load English tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load("en_core_web_sm")
# ca_fasttext_wiki
# es_core_news_sm
# en_core_web_sm

nlp.add_pipe(LanguageDetector(), name='language_detector', last=True)



In [4]:
import pycld2 as cld2

In [5]:
pathori = "../data/original"
pathdest = "../data/preprocessed/"
debug = True

In [6]:
def delete_preprocessed_files():
    
    languages = ["ca", "es", "en", "xx"]
    for language in languages:
        url = pathdest + "comentaris_" + language + ".csv"
        if os.path.exists(url):
            os.remove(url)
            if debug:
                print ("File deleted: " + url)
    
    

In [7]:
# Test if a file has the correct format to load his information

def validateSheet(data):

    cols = data.columns
    if (cols.size > 5):
        if (('Codi pregunta' in cols) or ('Comentari' in cols) or ('Tipus incidencia' in cols)):
            if (('Codi pregunta' in cols) and ('Comentari' in cols) and ('Tipus incidencia' in cols)):
                print (Fore.GREEN + " " * 8  + "VALID")
                return True
            else:
                print (Fore.RED + " " * 8 + "WARNING (see column names)")
                print (cols)
                return False
        else:
            print (Fore.LIGHTWHITE_EX + " " * 8 + "NO VALID")
            return False
    else:
        print (Fore.LIGHTWHITE_EX + " " * 8 + "NO VALID")
        return False


In [8]:
# Reorganize information to be exported in preprocessed files

def process_file (data_ori, file):
# folder = "17-18"
# file = "assignatura_professor_comentaris_LS_17-18_1s.xlsx"
# sheet = "Hoja1"
# xlsx = pd.ExcelFile(pathori+"/"+folder+"/"+file)
# data_ori = pd.read_excel(xlsx, sheet)

#    print(Fore.BLACK + "Process_file")
#    data_ori = data_ori[data_ori["Comentari"].notna]
    data_ori["Fitxer"] = file
    data_ori["TipusPregunta"] = data_ori["Codi pregunta"].str[0]
    data_ori["TipusIncidencia"] = data_ori["Tipus incidencia"]

    # Obtain languages of comments    
    data_ori["Idiomas"] = data_ori.apply(lambda row: detect_language(row["Comentari"]), axis=1)
    data_ori["IdiomaSpacy"] = data_ori.apply(lambda row: row["Idiomas"][0], axis=1)
    data_ori["IdiomaPyCld2"] = data_ori.apply(lambda row: row["Idiomas"][1], axis=1)
    data_ori["Idioma"] = data_ori.apply(lambda row: row["Idiomas"][2], axis=1)

    data_res = data_ori[["Curs","Fitxer","TipusPregunta","TipusIncidencia","Comentari","IdiomaSpacy","IdiomaPyCld2","Idioma"]]
    #data_res = data_res.dropna(subset="Comentari")
    data_res = data_res[data_res["Comentari"].notnull()]
    
    if debug:
#        print("Comments:"  + data_res.shape[0])
        display(data_res[data_res["TipusIncidencia"].notnull()].head())
    
    return data_res

In [9]:
# Load data from file

def load_file(folder, file):
    try:
        url = folder + "/" + file
        if debug:
            print (Fore.BLACK + "File:   " + url)
        sheet = ""
        xlsx = pd.ExcelFile(url)
        for sheet in xlsx.sheet_names:
            if debug:
                print (Fore.BLACK + "Sheet:  " + sheet)
            data = pd.read_excel(xlsx, sheet)
            if validateSheet(data):
#                print ("Processing file: " + url)
                data_res = process_file(data, file)
                write_file(data_res)
    
    except:
        print (Fore.LIGHTWHITE_EX + " " * 8 + "NO VALID")

In [10]:
# Load data from folder

def load_folder(folder):
    
    if debug:
        print (Fore.BLACK + 'Folder: ' + folder)
    if os.path.isdir(folder):
        for file in os.listdir(folder):
            url = folder+"/"+file
#            print (url)
            if os.path.isdir(url):
                load_folder(url)
            if os.path.isfile(url):
                load_file(folder, file)


In [11]:
# Write data preprocessed into disk, in one file by language

def write_file(data_res):
    print ("write_file")
        
    if debug:
        print(data_res.value_counts("Idioma"))
    
    # Official languages
    languages = ["ca", "es", "en"]
    for language in languages:
        url = "comentaris_" + language + ".csv"
        data_lang = data_res[data_res["Idioma"]==language]
        
        if os.path.exists(pathdest + url):
            data_lang.to_csv(pathdest + url, index=False, mode="a", header=False)
            if debug:            
                print ("File updated: " + url)
        else:
            data_lang.to_csv(pathdest + url, index=False, mode="w", header=True)
            if debug:
                print ("File created: " + url)
            
    # Other languages        
    url = "comentaris_xx.csv"
    data_lang = data_res[~data_res["Idioma"].isin(languages)]
    if os.path.exists(pathdest + url):
        data_lang.to_csv(pathdest + url, index=False, mode="a", header=False)
        if debug:            
            print ("File updated: " + url)        
    else:
        data_lang.to_csv(pathdest + url, index=False, mode="w", header=True)
        if debug:
            print ("File created: " + url)
    
    if first_file:
        first_file = False
        

In [12]:
def analyze_files():
    
    if debug:
        print (Fore.BLACK + "Preprocessed file analysis:")

#   Load preprocessed files
    data_total = pd.DataFrame(columns=["Curs","TipusPregunta","TipusIncidencia","Idioma","File","Comentari"])

    languages = ["ca","es","en","xx"]
    for language in languages:
        file = "comentaris_" + language + ".csv"
        data_lang = pd.read_csv(pathdest + file)

        if debug:
            print ("* " + file + ": ", end="")
            print (data_lang.shape[0], end="")
            print (" registers")

        data_lang["Fitxer"] = language
        data_lang = data_lang.groupby(["Curs","TipusPregunta","TipusIncidencia","Idioma","Fitxer"], dropna=False).count().reset_index()
        data_total = pd.concat([data_total, data_lang])

    data_total = data_total.reset_index()
    display (data_total)

#   Distribution by Curs    
    data_group = data_total[["Curs","Fitxer","Comentari"]].groupby(["Curs","Fitxer"]).sum().reset_index()
    data_pivot = data_group.pivot(index="Curs", columns="Fitxer", values="Comentari")
    if debug:
        display (data_pivot)
        
#   Distribution by Tipus Pregunta        
    data_group = data_total[["TipusPregunta","Fitxer","Comentari"]].groupby(["TipusPregunta","Fitxer"]).sum().reset_index()
    data_pivot = data_group.pivot(index="TipusPregunta", columns="Fitxer", values="Comentari")
    if debug:
        display (data_pivot)
        
#   Distribution by Tipus Incidencia        
    data_group = data_total[["TipusIncidencia","Fitxer","Comentari"]].groupby(["TipusIncidencia","Fitxer"]).sum().reset_index()
    data_pivot = data_group.pivot(index="TipusIncidencia", columns="Fitxer", values="Comentari")
    if debug:
        display (data_pivot)

#   Distribution by Idioma        
    data_group = data_total[["Idioma","Fitxer","Comentari"]].groupby(["Idioma","Fitxer"]).sum().reset_index()
    data_pivot = data_group.pivot(index="Idioma", columns="Fitxer", values="Comentari")
    if debug:
        display (data_pivot)
        

In [13]:
# Detects the language of a comment. Compares results from Spacy and PyCld2

def detect_language(comment):
    
    lang_spacy = nlp(comment)._.language["language"]
    isReliable, textBytesFound, details = cld2.detect(comment.encode('utf-8', 'replace'), 
                                                    isPlainText = True, bestEffort = True, returnVectors=False)
    lang_pycld2 = details[0][1]
    
    language = lang_spacy
    if (lang_spacy != "ca") & (lang_pycld2 == "ca"):
        language = "ca"

    if (lang_spacy != "ca") & (lang_spacy != "es") & (lang_pycld2 == "es"):
        language = "es"
        
    if (lang_spacy == "en") & (lang_pycld2 != "ca") & (lang_pycld2 != "es") & (lang_pycld2 != "en"):
        language = "ca"
        
    if (debug == 2):
        print (comment, ", ", lang_spacy, ", ", lang_pycld2, ", ", language)
     
 #   language = lang_spacy
    
 #   return language
    return [lang_spacy, lang_pycld2, language]

In [14]:
# Main function

delete_preprocessed_files()
load_folder(pathori)
analyze_files()
print (Fore.BLACK + "ORIGINAL FILES PREPROCESSED")


[30mFolder: ../data/original
[30mFolder: ../data/original/17-18
[30mFile:   ../data/original/17-18/assignatura_professor_comentaris_LS_17-18_1s.xls
[30mSheet:  Hoja1
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
20,2017-18,assignatura_professor_comentaris_LS_17-18_1s.xls,P,Comentari d'assignatura,Módulo 1 áreas para mejorar: _x000D_\nLa tarea...,es,es,es
24,2017-18,assignatura_professor_comentaris_LS_17-18_1s.xls,P,No ha impartit classe a aquest grup,No he tenido contacto,es,es,es
25,2017-18,assignatura_professor_comentaris_LS_17-18_1s.xls,P,No ha impartit classe a aquest grup,No he tratado con él,pt,es,es
27,2017-18,assignatura_professor_comentaris_LS_17-18_1s.xls,P,No ha impartit classe a aquest grup,No he tratado con él,pt,es,es
29,2017-18,assignatura_professor_comentaris_LS_17-18_1s.xls,P,No ha impartit classe a aquest grup,No he tratado con él,pt,es,es


write_file
Idioma
es    52
ca    24
dtype: int64
File created: comentaris_ca.csv
File created: comentaris_es.csv
File created: comentaris_en.csv
File created: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/17-18/assignatura_professor_comentaris_LS_17-18_1s_M110.xls
[30mSheet:  Sheet0
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
5,2017-18,assignatura_professor_comentaris_LS_17-18_1s_M...,P,Comentari d'assignatura,"No he après res, segueixo sense saber llatí.",ca,ca,ca


write_file
Idioma
es    10
ca     4
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/17-18/assignatura_professor_comentaris_LS_17-18_2s.xls
[30mSheet:  Sheet0
[32m        VALID
[97m        NO VALID
[30mFile:   ../data/original/17-18/revisar.txt
[97m        NO VALID
[30mFolder: ../data/original/18-19
[30mFile:   ../data/original/18-19/assignatura_professor_comentaris_LS_18-19_P_1S.xls
[30mSheet:  Sheet0
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
5,2018-19,assignatura_professor_comentaris_LS_18-19_P_1S...,P,No ha impartit classe a aquest grup,No he tingut aquesta professora.,en,ca,ca
10,2018-19,assignatura_professor_comentaris_LS_18-19_P_1S...,P,No ha impartit classe a aquest grup,No l'hem tingut,en,tk,ca
13,2018-19,assignatura_professor_comentaris_LS_18-19_P_1S...,P,No ha impartit classe a aquest grup,no l´he tingut,en,ca,ca
15,2018-19,assignatura_professor_comentaris_LS_18-19_P_1S...,P,No ha impartit classe a aquest grup,No he tingut aquesta professora,ca,ca,ca
16,2018-19,assignatura_professor_comentaris_LS_18-19_P_1S...,P,No ha impartit classe a aquest grup,No he tingut a aquest professor.,en,ca,ca


write_file
Idioma
ca         444
es         121
en          87
pt           5
no           2
sw           1
so           1
nl           1
UNKNOWN      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/18-19/assignatura_professor_comentaris_LS_18_19_NP_1S.xls
[30mSheet:  Sheet0
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
5,2018-19,assignatura_professor_comentaris_LS_18_19_NP_1...,A,Comentari de professor,Molt bon mestre. Respon molt ràpid i molt didà...,ca,ca,ca
17,2018-19,assignatura_professor_comentaris_LS_18_19_NP_1...,A,Comentari de professor,No estoy de acuerdo con pedir trabajos sobre l...,es,es,es
18,2018-19,assignatura_professor_comentaris_LS_18_19_NP_1...,A,Comentari de professor,L’últim dia de classe vam acabar 1hora i 30m a...,ca,ca,ca
19,2018-19,assignatura_professor_comentaris_LS_18_19_NP_1...,A,Comentari de professor,"Classes poc preparades, a excepció de la prime...",ca,ca,ca
30,2018-19,assignatura_professor_comentaris_LS_18_19_NP_1...,A,No ha impartit classe a aquest grup,Aun no se ha cursado. No puedo evaluar,es,es,es


write_file
Idioma
es    161
ca    135
en      5
ro      1
lt      1
it      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/18-19/assignatura_professor_comentaris_LS_18_19_NP_2S.xls
[30mSheet:  REVISIO
Index(['Curs', 'Quadri \nmestre', 'Codi estudi', 'Estudi', 'Codi assign.',
       'Assignatura', 'Codi grup', 'Grup', 'Codi pregunta', 'Pregunta',
       'Codi profe.', 'Codi professor', 'Cognom 1\nprofessor',
       'Cognom 2\nprofessor', 'Nom\nprofessor', 'Comentari',
       'Tipus Incidencia'],
      dtype='object')
[30mSheet:  Notas
[97m        NO VALID
[30mFile:   ../data/original/18-19/assignatura_professor_comentaris_LS_18_19_P_2S.xls
[30mSheet:  Comentari ofensiu
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
57,2018-19,assignatura_professor_comentaris_LS_18_19_P_2S...,P,No ha impartit classe a aquest grup,Poques sessions per avaluar correctament.,ca,ca,ca
61,2018-19,assignatura_professor_comentaris_LS_18_19_P_2S...,P,No ha impartit classe a aquest grup,No es pot avaluar amb una sessió,ca,ca,ca
88,2018-19,assignatura_professor_comentaris_LS_18_19_P_2S...,P,Comentari ofensiu,leridaaa calvo cablooooon,so,en,so
123,2018-19,assignatura_professor_comentaris_LS_18_19_P_2S...,A,Comentari de professor,El professor Xavi Sabi ens ha tingut faltes de...,ca,ca,ca
129,2018-19,assignatura_professor_comentaris_LS_18_19_P_2S...,P,No ha impartit classe a aquest grup,No se quien es,es,es,es


write_file
Idioma
ca    357
en    112
es     20
fr      6
nl      2
it      2
so      1
id      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFolder: ../data/original/19-20
[30mFolder: ../data/original/19-20/1S
[30mFolder: ../data/original/19-20/2S
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_EPS_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
102,2019-20,assignatura_professor_comentaris_EPS_2S.xls,P,Comentari problemàtic,Aquest professor els dies festius se'ls salta....,ca,ca,ca
103,2019-20,assignatura_professor_comentaris_EPS_2S.xls,P,Comentari problemàtic,Els estudiants també som persones!\r,ca,ca,ca
104,2019-20,assignatura_professor_comentaris_EPS_2S.xls,P,Comentari problemàtic,El que no pot ser és que faci una avaluació a...,ca,ca,ca
106,2019-20,assignatura_professor_comentaris_EPS_2S.xls,P,Comentari problemàtic,Aquest professor creu que tothom té els mateix...,ca,ca,ca
107,2019-20,assignatura_professor_comentaris_EPS_2S.xls,P,Comentari problemàtic,Tot l'esforç i dedicació d'hores en aquesta as...,ca,ca,ca


write_file
Idioma
ca    510
es     91
ro      2
no      2
en      2
pt      1
nl      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_ETSEA_2S.xls
[30mSheet:  REVISIÓ
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
79,2019-20,assignatura_professor_comentaris_ETSEA_2S.xls,P,No ha impartit classe a aquest grup,No l’hem tingut.,en,tk,ca
104,2019-20,assignatura_professor_comentaris_ETSEA_2S.xls,A,Comentari de professor,"El professor no reconeix les seves errades, no...",ca,ca,ca
108,2019-20,assignatura_professor_comentaris_ETSEA_2S.xls,P,No ha impartit classe a aquest grup,No puc jutjar.,hr,oc,hr
112,2019-20,assignatura_professor_comentaris_ETSEA_2S.xls,P,Comentari problemàtic,"Per començar, per setmana santa NO HAURIEM D’H...",ca,ca,ca
131,2019-20,assignatura_professor_comentaris_ETSEA_2S.xls,P,Comentari problemàtic,Per un altre costat crec que no es capaç de tr...,ca,ca,ca


write_file
Idioma
ca         986
es         275
it           3
fr           3
UNKNOWN      3
sw           1
ro           1
nl           1
hr           1
de           1
af           1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_FDET_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
3,2019-20,assignatura_professor_comentaris_FDET_2S.xls,P,Comentari problemàtic,1r. Que d'una vegada faci les classes als hora...,ca,ca,ca
11,2019-20,assignatura_professor_comentaris_FDET_2S.xls,A,Comentari ofensiu,Los exámenes han ido a putear \n,es,es,es
51,2019-20,assignatura_professor_comentaris_FDET_2S.xls,P,Comentari problemàtic,Arribava bastant tard habitualment. Trobo norm...,ca,ca,ca
88,2019-20,assignatura_professor_comentaris_FDET_2S.xls,P,Comentari problemàtic,"Era impossible contactar amb ell, tant fos per...",ca,ca,ca
90,2019-20,assignatura_professor_comentaris_FDET_2S.xls,P,Comentari problemàtic,sense realitzar CAP classe per vídeo-conferènc...,ca,ca,ca


write_file
Idioma
ca         603
es         117
fr           4
en           4
it           3
pt           1
id           1
de           1
UNKNOWN      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_FEPTS_2S.xls
[30mSheet:  revisió
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
24,2019-20,assignatura_professor_comentaris_FEPTS_2S.xls,P,Comentari problemàtic,"Considero, que un examen on només fem nosaltre...",ca,ca,ca
26,2019-20,assignatura_professor_comentaris_FEPTS_2S.xls,P,Comentari problemàtic,Durant el confinament s'ha despreocupat de nos...,ca,ca,ca
29,2019-20,assignatura_professor_comentaris_FEPTS_2S.xls,P,Comentari problemàtic,"M'agradaria que es ""currés"" una mica les class...",ca,ca,ca
32,2019-20,assignatura_professor_comentaris_FEPTS_2S.xls,P,Comentari problemàtic,"Aquest segon semestre fatal, no explica res......",ca,ca,ca
34,2019-20,assignatura_professor_comentaris_FEPTS_2S.xls,P,Comentari problemàtic,No hi ha coordinació entre els dos professors....,ca,ca,ca


write_file
Idioma
ca         1900
es           87
pt            8
en            8
it            3
fr            3
UNKNOWN       2
so            1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_FIF_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
3,2019-20,assignatura_professor_comentaris_FIF_2S.xls,P,Comentari problemàtic,"No quiere que le hagamos consultas, respondien...",es,es,es
7,2019-20,assignatura_professor_comentaris_FIF_2S.xls,P,Comentari problemàtic,Prepotencia personificada. Él siempre tiene qu...,es,es,es
8,2019-20,assignatura_professor_comentaris_FIF_2S.xls,P,Comentari problemàtic,"Que una profesora, el primer día de clase, mie...",es,es,es
22,2019-20,assignatura_professor_comentaris_FIF_2S.xls,P,Comentari problemàtic,"No he aprendido nada en ninguna de sus clases,...",es,es,es
24,2019-20,assignatura_professor_comentaris_FIF_2S.xls,P,Comentari problemàtic,desinteres total cap a l'alumnat. Ara no reali...,ca,ca,ca


write_file
Idioma
ca    373
es    264
en      2
sw      1
it      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_FLL_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
3,2019-20,assignatura_professor_comentaris_FLL_2S.xls,P,Comentari problemàtic,Hauria de tenir una mica d’empatia cap als est...,ca,ca,ca
4,2019-20,assignatura_professor_comentaris_FLL_2S.xls,P,Comentari problemàtic,No tinc res bo a dir. Només ha impartit dues c...,ca,ca,ca
6,2019-20,assignatura_professor_comentaris_FLL_2S.xls,P,Comentari problemàtic,Una mejor actitud hacia los alumnos\r\nPosibil...,es,es,es
10,2019-20,assignatura_professor_comentaris_FLL_2S.xls,P,Comentari problemàtic,És massa estricta a l'hora de valorar i de tra...,ca,ca,ca
11,2019-20,assignatura_professor_comentaris_FLL_2S.xls,P,Comentari problemàtic,La situació del COVID-19 ha incrementat la dif...,ca,ca,ca


write_file
Idioma
ca         513
es         113
en          13
fr           3
UNKNOWN      3
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_FM_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
61,2019-20,assignatura_professor_comentaris_FM_2S.xls,P,Comentari problemàtic,Té una actitud una mica xuleta i tot i què diu...,ca,ca,ca
65,2019-20,assignatura_professor_comentaris_FM_2S.xls,P,Comentari problemàtic,Hay comentarios en clase que no debería soltar.,es,es,es
67,2019-20,assignatura_professor_comentaris_FM_2S.xls,P,Comentari problemàtic,"L'únic que trobo que no m'agrada, a nivell pe...",ca,ca,ca
68,2019-20,assignatura_professor_comentaris_FM_2S.xls,P,Comentari problemàtic,"Explica de forma correcta i entenedora, amb co...",ca,ca,ca
72,2019-20,assignatura_professor_comentaris_FM_2S.xls,P,Comentari problemàtic,"Per altra banda, trobo que podria parar més co...",ca,ca,ca


write_file
Idioma
ca    495
es    341
de      2
it      1
fr      1
en      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_INEFC_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
2,2019-20,assignatura_professor_comentaris_INEFC_2S.xls,A,Comentari de professor,"És una assignatura útil, que combina perfecta...",ca,ca,ca
9,2019-20,assignatura_professor_comentaris_INEFC_2S.xls,A,Comentari problemàtic,Aquest missatge ho he posat per igual a totes ...,ca,ca,ca
63,2019-20,assignatura_professor_comentaris_INEFC_2S.xls,P,No ha impartit classe a aquest grup,No l'hem tingut cap dia.,ca,ca,ca
72,2019-20,assignatura_professor_comentaris_INEFC_2S.xls,P,Comentari problemàtic,Verdaderament he sentit que aquest professor n...,ca,ca,ca
80,2019-20,assignatura_professor_comentaris_INEFC_2S.xls,P,No ha impartit classe a aquest grup,No puedo valorar a a este profesor puesto que ...,es,es,es


write_file
Idioma
ca    440
es     64
fr      2
en      2
vi      1
pl      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_INEFC_DG_2S.xls
[30mSheet:  REVISIO
[32m        VALID


Unnamed: 0,Curs,Fitxer,TipusPregunta,TipusIncidencia,Comentari,IdiomaSpacy,IdiomaPyCld2,Idioma
0,2019-20,assignatura_professor_comentaris_INEFC_DG_2S.xls,P,Comentari problemàtic,Típic professor que t'agafa mania i et suspèn ...,ca,ca,ca
1,2019-20,assignatura_professor_comentaris_INEFC_DG_2S.xls,P,Comentari problemàtic,"Es una professora mediocre, que es contradiu a...",ca,ca,ca
3,2019-20,assignatura_professor_comentaris_INEFC_DG_2S.xls,P,Comentari problemàtic,Espero i desitjo que les coses canviïn molt de...,ca,ca,ca
4,2019-20,assignatura_professor_comentaris_INEFC_DG_2S.xls,P,Comentari problemàtic,Aquesta docent és massa tradicionalista. Perso...,ca,ca,ca
5,2019-20,assignatura_professor_comentaris_INEFC_DG_2S.xls,P,Comentari problemàtic,Es una profesora excesivamente prepotente. No ...,es,es,es


write_file
Idioma
ca    113
es     49
af      1
dtype: int64
File updated: comentaris_ca.csv
File updated: comentaris_es.csv
File updated: comentaris_en.csv
File updated: comentaris_xx.csv
[97m        NO VALID
[30mFile:   ../data/original/19-20/2S/assignatura_professor_comentaris_MÀSTERS_2S.xls
[30mSheet:  REVISIO
[32m        VALID
[97m        NO VALID
[30mFile:   ../data/original/Resum_comentaris.xlsx
[97m        NO VALID
[30mFile:   ../data/original/revisar.txt
[97m        NO VALID
[30mPreprocessed file analysis:
* comentaris_ca.csv: 6908 registers
* comentaris_es.csv: 1765 registers
* comentaris_en.csv: 236 registers
* comentaris_xx.csv: 92 registers


Unnamed: 0,index,Curs,TipusPregunta,TipusIncidencia,Idioma,File,Comentari,Fitxer,IdiomaSpacy,IdiomaPyCld2
0,0,2017-18,A,Comentari de professor,ca,,2,ca,2.0,2.0
1,1,2017-18,A,,ca,,11,ca,11.0,11.0
2,2,2017-18,P,Comentari d'assignatura,ca,,1,ca,1.0,1.0
3,3,2017-18,P,,ca,,14,ca,14.0,14.0
4,4,2018-19,A,Comentari de professor,ca,,18,ca,18.0,18.0
...,...,...,...,...,...,...,...,...,...,...
108,36,2019-20,P,,pl,,1,xx,1.0,1.0
109,37,2019-20,P,,pt,,5,xx,5.0,5.0
110,38,2019-20,P,,ro,,3,xx,3.0,3.0
111,39,2019-20,P,,so,,1,xx,1.0,1.0


Fitxer,ca,en,es,xx
Curs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-18,28.0,,62.0,
2018-19,936.0,204.0,302.0,26.0
2019-20,5933.0,32.0,1401.0,66.0


Fitxer,ca,en,es,xx
TipusPregunta,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,2909.0,91.0,820.0,20.0
P,3988.0,145.0,945.0,72.0
ca,0.0,,,
en,0.0,,,


Fitxer,ca,en,es,xx
TipusIncidencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Canvi de professor,16.0,,2.0,
Comentari d'assignatura,3.0,1.0,3.0,
Comentari de professor,37.0,2.0,18.0,
Comentari excel·lent,1.0,2.0,1.0,
Comentari ofensiu,7.0,,2.0,3.0
Comentari problemàtic,287.0,,53.0,2.0
Duplicar a professor,2.0,,3.0,
Exclamacions o emoticones excessius,1.0,,,1.0
Faltes d'ortografia,14.0,,4.0,
NO FER-HI RES,1.0,,,


Fitxer,ca,en,es,xx
Idioma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
UNKNOWN,,,,10.0
af,,,,2.0
ca,6886.0,,,
de,,,,4.0
en,,236.0,,
es,,,1765.0,
fr,,,,22.0
hr,,,,1.0
id,,,,2.0
it,,,,14.0


[30mORIGINAL FILES PREPROCESSED
