# Preparación del Dataset
---

- Se obtienen y preprocesan textos directos del dataset para luego ser persistidos.

In [1]:
import pandas as pd
import os
from document import Document
import util.log as log
from multiprocessing import Process
from multiprocessing import Manager
from multiprocessing import Pool
import pandas as pd
from datetime import datetime

In [2]:
corpora = []
init_time = datetime.now()
directory = '../labeled_dataset/'
files = os.listdir(directory)
dataframe = None
number_of_cores_to_use = 10

def process_file(file):
    log.info('Processing file: {}'.format(file))
    try:
        path = '{}{}'.format(directory, file)
        document = Document(path = path)
        splitted_file = file.split(' $ ') 
        topic = splitted_file[0]
        title = splitted_file[1]
        return [path, title, document.string, document.word_count(), document.type_count(), document.sentences,\
                       document.lemmatized_string, document.stemmed_string, document.simple_preprocessed_string, topic, \
                       document.named_entities, document.bigrams, document.trigrams, document.lemmatized_bigrams, \
                       document.lemmatized_trigrams, document.stemmed_bigrams, document.stemmed_trigrams, \
                       document.simple_preprocessed_bigrams, document.simple_preprocessed_trigrams, document.preprocessed_sentences,
                       document.paragraphs, document.preprocessed_paragraphs]
    except InvalidDocument:
        pass



with Pool(number_of_cores_to_use) as pool:
    corpora = pool.map(process_file, files)

time = datetime.now() - init_time
log.info('{} documents were processed. {} documents errored. Total time used: {}, Total cores used: {}'.format(len(corpora), corpora.count([]), \
                                                                                                          str(time), number_of_cores_to_use))

In [3]:
dataframe = pd.DataFrame(data = corpora, columns=['original_path', 'document_title', 'string', 'word_count', 'type_count', 'sentences','lemmatized_text', 'stemmed_text', 'simple_preprocessed', 'topic', 'named_entities', 'tokens_bigrams', 'tokens_trigrams', 'lemmatized_bigrams', 'lemmatized_trigrams', 'stemmed_bigrams', 'stemmed_trigrams', 'simple_preprocessed_bigrams', 'simple_preprocessed_trigrams', 'preprocessed_sentences', 'paragraphs', 'preprocessed_paragraphs'])

In [4]:
dataframe.to_csv('data.csv')

In [5]:
dataframe

Unnamed: 0,original_path,document_title,string,word_count,type_count,sentences,lemmatized_text,stemmed_text,simple_preprocessed,topic,...,tokens_trigrams,lemmatized_bigrams,lemmatized_trigrams,stemmed_bigrams,stemmed_trigrams,simple_preprocessed_bigrams,simple_preprocessed_trigrams,preprocessed_sentences,paragraphs,preprocessed_paragraphs
0,../labeled_dataset/La larga cola $ TP2 - La La...,TP2 - La Larga Cola de Chris Anderson corto - ...,Universidad Tecnológica Nacional Facultad Reg...,1234,477,[ Universidad Tecnológica Nacional Facultad Re...,"[sistema, curso, cuat, marketing, nuevo, dr, a...","[cuat, marketing, nuev, dr, ayud, trabaj, col,...","[sistemas, curso, cuat, marketing, nueva, dr, ...",La larga cola,...,"[(Universidad, Tecnológica, Nacional), (Tecnol...","[(sistema, curso), (curso, cuat), (cuat, marke...","[(sistema, curso, cuat), (curso, cuat, marketi...","[(cuat, marketing), (marketing, nuev), (nuev, ...","[(cuat, marketing, nuev), (marketing, nuev, dr...","[(sistemas, curso), (curso, cuat), (cuat, mark...","[(sistemas, curso, cuat), (curso, cuat, market...","[marketing nuevo dr ayudante, trabajo largo co...",[ Universidad Tecnológica Nacional Facultad Re...,[sistema curso cuat marketing nuevo dr ayudant...
1,../labeled_dataset/Sistemas emergentes $ TP_6_...,TP_6_Weiss_Gonzalo.pdf,TRABAJO PRÁCTICO N°6 Curso: K5052 Profesor: Al...,480,231,[TRABAJO PRÁCTICO N°6 Curso: K5052 Profesor: A...,"[trabajo, curso, fecha, entregar, nombre, apel...","[trabaj, nombr, email, gmail, com, marketing, ...","[trabajo, curso, fecha, entrega, nombre, apell...",Sistemas emergentes,...,"[(TRABAJO, PRÁCTICO, N°6), (PRÁCTICO, N°6, Cur...","[(trabajo, curso), (curso, fecha), (fecha, ent...","[(trabajo, curso, fecha), (curso, fecha, entre...","[(trabaj, nombr), (nombr, email), (email, gmai...","[(trabaj, nombr, email), (nombr, email, gmail)...","[(trabajo, curso), (curso, fecha), (fecha, ent...","[(trabajo, curso, fecha), (curso, fecha, entre...",[trabajo curso fecha entregar nombre apellido ...,[TRABAJO PRÁCTICO N°6 Curso: K5052 Profesor: A...,[trabajo curso fecha entregar nombre apellido ...
2,../labeled_dataset/La sociedad de costo margin...,TP N° 5 – La sociedad de costo marginal cero -...,MARKETING EN INTERNET Y NUEVA ECONOMÍA Cátedra...,1031,444,[MARKETING EN INTERNET Y NUEVA ECONOMÍA Cátedr...,"[marketing, nuevo, ayudante, maximiliano, brac...","[marketing, nuev, ayud, trabaj, tp, socied, co...","[marketing, nueva, ayudantes, maximiliano, bra...",La sociedad de costo marginal cero,...,"[(MARKETING, EN, INTERNET), (EN, INTERNET, Y),...","[(marketing, nuevo), (nuevo, ayudante), (ayuda...","[(marketing, nuevo, ayudante), (nuevo, ayudant...","[(marketing, nuev), (nuev, ayud), (ayud, traba...","[(marketing, nuev, ayud), (nuev, ayud, trabaj)...","[(marketing, nueva), (nueva, ayudantes), (ayud...","[(marketing, nueva, ayudantes), (nueva, ayudan...",[marketing nuevo ayudante maximiliano bracho t...,[MARKETING EN INTERNET Y NUEVA ECONOMÍA Cátedr...,[marketing nuevo ayudante maximiliano bracho t...
3,../labeled_dataset/Wikinomics $ TP1-Franco Zan...,TP1-Franco Zanette.docx,Alumno: Franco Zanette (147. 074-7)Institución...,1180,472,"[Alumno: Franco Zanette (147., 074-7)Instituci...","[tp, fecha, concepto, concepto, hacer, referen...","[tp, form, masiv, riquez, sector, context, emp...","[tp, fecha, concepto, concepto, hace, referenc...",Wikinomics,...,"[(Alumno, :, Franco), (:, Franco, Zanette), (F...","[(tp, fecha), (fecha, concepto), (concepto, co...","[(tp, fecha, concepto), (fecha, concepto, conc...","[(tp, form), (form, masiv), (masiv, riquez), (...","[(tp, form, masiv), (form, masiv, riquez), (ma...","[(tp, fecha), (fecha, concepto), (concepto, co...","[(tp, fecha, concepto), (fecha, concepto, conc...",[concepto hacer referencia gente forma masivo ...,"[Alumno: Franco Zanette (147.074-7), Instituci...","[, frba, tp tp, fecha, , concepto, , concepto ..."
4,../labeled_dataset/Economia de experiencia $ T...,TP 3 (1).docx,TP 3¿Qué 3 elementos hacen resurgir con fuerza...,590,309,[TP 3¿Qué 3 elementos hacen resurgir con fuerz...,"[tp, elemento, hacer, resurgir, fuerza, idea, ...","[tp, ide, pod, facilit, ser, prosper, nuev, de...","[tp, elementos, hacen, resurgir, fuerza, idea,...",Economia de experiencia,...,"[(TP, 3¿Qué, 3), (3¿Qué, 3, elementos), (3, el...","[(tp, elemento), (elemento, hacer), (hacer, re...","[(tp, elemento, hacer), (elemento, hacer, resu...","[(tp, ide), (ide, pod), (pod, facilit), (facil...","[(tp, ide, pod), (ide, pod, facilit), (pod, fa...","[(tp, elementos), (elementos, hacen), (hacen, ...","[(tp, elementos, hacen), (elementos, hacen, re...",[tp elemento hacer resurgir fuerza idea experi...,"[TP 3, ¿Qué 3 elementos hacen resurgir con fue...","[tp, elemento hacer resurgir fuerza idea exper..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
301,../labeled_dataset/La sociedad de costo margin...,TP5-Gariglio.docx,PREGUNTAS TP5 - (Test de lectura sobre capítul...,698,330,[PREGUNTAS TP5 - (Test de lectura sobre capítu...,"[pregunta, lectura, sociedad, costo, marginal,...","[pregunt, lectur, socied, cost, marginal, cer,...","[preguntas, lectura, sociedad, costo, marginal...",La sociedad de costo marginal cero,...,"[(PREGUNTAS, TP5, -), (TP5, -, (), (-, (, Test...","[(pregunta, lectura), (lectura, sociedad), (so...","[(pregunta, lectura, sociedad), (lectura, soci...","[(pregunt, lectur), (lectur, socied), (socied,...","[(pregunt, lectur, socied), (lectur, socied, c...","[(preguntas, lectura), (lectura, sociedad), (s...","[(preguntas, lectura, sociedad), (lectura, soc...",[pregunta lectura sociedad costo marginal cero...,[PREGUNTAS TP5 - (Test de lectura sobre capítu...,"[pregunta lectura, , sociedad costo marginal c..."
302,../labeled_dataset/La sociedad de costo margin...,TP5 - La sociedad de MG Cero - Rifkin - Santia...,curso: K5071 - 2 Cuat. 2016Marketing en Intern...,745,336,"[curso: K5071 - 2 Cuat., 2016Marketing en Inte...","[curso, cuat, nuevo, dr, princeayudante, traba...","[cuat, nuev, dr, princeayud, trabaj, socied, c...","[curso, cuat, nueva, dr, princeayudante, traba...",La sociedad de costo marginal cero,...,"[(curso, :, K5071), (:, K5071, -), (K5071, -, ...","[(curso, cuat), (cuat, nuevo), (nuevo, dr), (d...","[(curso, cuat, nuevo), (cuat, nuevo, dr), (nue...","[(cuat, nuev), (nuev, dr), (dr, princeayud), (...","[(cuat, nuev, dr), (nuev, dr, princeayud), (dr...","[(curso, cuat), (cuat, nueva), (nueva, dr), (d...","[(curso, cuat, nueva), (cuat, nueva, dr), (nue...",[trabajo sociedad costo marginal ceroalumno pe...,"[curso: K5071 - 2 Cuat. 2016, Marketing en Int...","[curso cuat, marketing nuevo, , dr, , ayudante..."
303,../labeled_dataset/Sistemas emergentes $ TP6 ...,TP6 - Sistemas emergentes - Joel Melamed.docx,"MarketingProfesor: Alejandro Prince, Hernan Bo...",434,222,"[MarketingProfesor: Alejandro Prince, Hernan B...","[marketingprofesor, entregar, trabajo, sistema...","[marketingprofesor, trabaj, central, particul,...","[marketingprofesor, entrega, trabajo, sistemas...",Sistemas emergentes,...,"[(MarketingProfesor, :, Alejandro), (:, Alejan...","[(marketingprofesor, entregar), (entregar, tra...","[(marketingprofesor, entregar, trabajo), (entr...","[(marketingprofesor, trabaj), (trabaj, central...","[(marketingprofesor, trabaj, central), (trabaj...","[(marketingprofesor, entrega), (entrega, traba...","[(marketingprofesor, entrega, trabajo), (entre...",[marketingprofesor entregar trabajo sistema pr...,"[, , Marketing, Profesor: Alejandro Prince, He...","[, , marketing, , trabajo, , , , fecha entrega..."
304,../labeled_dataset/Economia de experiencia $ T...,TP 3 - Economía de Experiencia - Andrés Basso ...,The experience economy - Joseph PINE II y Jame...,771,380,[The experience economy - Joseph PINE II y Jam...,"[experience, ii, gilmorepreguntas, trabajo, re...","[ii, trabaj, lectur, ide, defin, caracteriz, p...","[experience, ii, gilmorepreguntas, trabajo, re...",Economia de experiencia,...,"[(The, experience, economy), (experience, econ...","[(experience, ii), (ii, gilmorepreguntas), (gi...","[(experience, ii, gilmorepreguntas), (ii, gilm...","[(ii, trabaj), (trabaj, lectur), (lectur, ide)...","[(ii, trabaj, lectur), (trabaj, lectur, ide), ...","[(experience, ii), (ii, gilmorepreguntas), (gi...","[(experience, ii, gilmorepreguntas), (ii, gilm...",[experience ii gilmorepreguntas trabajo requer...,[The experience economy - Joseph PINE II y Jam...,"[experience ii, pregunta trabajo, nota requeri..."
