# Limpieza de los datos

In [1]:
import pandas as pd
import numpy as np
import datetime as dt
from pathlib import Path
import re
import nltk
nltk.download(['punkt','stopwords','wordnet'])
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.stem import WordNetLemmatizer
import unidecode

Conjunto de las stop words que serán eliminadas ya que no aportan valor:

In [2]:
stopWords = stopwords.words('english')

Palabras que considermos StopWords que no estan incluidas en el conjunto descargado:

In [3]:
listoStopWords = ['www','https','html']

Se añaden las palabras que consideramos al conjunto principal

In [4]:
stopWords.extend(listoStopWords)

### Función principal

In [5]:
def clean_files(texto,stopWords):
    
    #Quitar todos los acentos
    texto = unidecode.unidecode(texto)
    
    #Quitar todos los caracteres especiales
    texto = re.sub('[^A-Za-z0-9]+',' ',texto)
    
    #Pasar todo a minisculas
    texto = texto.lower()
    
    #Tokenizar
    tokens = texto.split()
    
    #Variable que guarda el año en el que estamos que es el limite superior de los números que no se van a eliminar
    currentYear = int(dt.datetime.now().year)
    
    #Verificar que las palabras tengan más de un caracter, que además sean solo sean letras
    # o si son números que esten entre un rango que sea admisible para no eliminar información de año que se mencione en los artículos
    # y finalmente que no sean palabras que estan en el dicccionario de stopwords.
    
    tokens = [w for w in tokens if (len(w)>1)&(w.isalpha() or (w.isnumeric() and int(w)>=1000 and int(w)<=currentYear))&(w not in stopWords)]
    
    #Stemmer
    ps = PorterStemmer() 
    tokens = [ps.stem(w) for w in tokens]
    
    #Lematización
    word_net_lemmatizar = WordNetLemmatizer()

    tokens = [word_net_lemmatizar.lemmatize(w, pos = "v") for w in tokens]
    
    #Se retorna el texto nuevamente en un solo string luego de ser procesado
    to_return = ' '.join(tokens)
    
    #Se retorna el vocabulario de cada documento
    set_words = set(tokens)
    
    #Y la frecuencia de las palabras
    freq = nltk.FreqDist(tokens)
    return to_return,set_words,freq

Definición de la ubicación de los txt

In [6]:
#base_path =  Path("~").expanduser().resolve()
base_path = Path.cwd().expanduser().resolve()
input_file_path  = base_path / 'datasets/papers-txt'

Inicialización de los conjuntos:

    - Vocabulary: el conjunto de todas las palabras que contienen los documentos
    - results_text: la lista con los documentos ya organizados para construir el bag of words
    - results_frecuency: información de cada documento de las palabras que contiene cuántas veces las contiene

In [75]:
vocabulary = set()
results_text = []
results_frecuency = []

In [76]:
for f in input_file_path.glob('*.txt'):
    input_file = open(f, "r", encoding = 'utf-8')
    texto = input_file.read()
    text_cleanned,set_words,freq = clean_files(texto,stopWords)
    vocabulary = vocabulary.union(set_words)
    results_text.append(text_cleanned)
    results_frecuency.append(freq)
    print(f)

/home/cmejia3/datasets/papers-txt/0704.3504.txt
/home/cmejia3/datasets/papers-txt/0811.1254.txt
/home/cmejia3/datasets/papers-txt/0911.2538.txt
/home/cmejia3/datasets/papers-txt/0911.2746.txt
/home/cmejia3/datasets/papers-txt/0907.3965.txt
/home/cmejia3/datasets/papers-txt/0811.2853.txt
/home/cmejia3/datasets/papers-txt/0907.3220.txt
/home/cmejia3/datasets/papers-txt/0706.1402.txt
/home/cmejia3/datasets/papers-txt/0803.2570.txt
/home/cmejia3/datasets/papers-txt/0910.2912.txt
/home/cmejia3/datasets/papers-txt/0910.5577.txt
/home/cmejia3/datasets/papers-txt/0903.2923.txt
/home/cmejia3/datasets/papers-txt/0911.1509.txt
/home/cmejia3/datasets/papers-txt/0903.0197.txt
/home/cmejia3/datasets/papers-txt/0911.1546.txt
/home/cmejia3/datasets/papers-txt/0911.1507.txt
/home/cmejia3/datasets/papers-txt/0903.1291.txt
/home/cmejia3/datasets/papers-txt/0903.4386.txt
/home/cmejia3/datasets/papers-txt/0808.0084.txt
/home/cmejia3/datasets/papers-txt/0911.5153.txt
/home/cmejia3/datasets/papers-txt/0710.0

In [9]:
len(vocabulary)

6352

In [10]:
vocabulary

{'predetermin',
 'cocoon',
 'barnum',
 'daubechi',
 'budget',
 'defeat',
 'tonchev',
 'aeh',
 'constructor',
 'productprofil',
 'modular',
 'mani',
 'donald',
 'howard',
 'und',
 'sean',
 'chow',
 'sea',
 'stricter',
 'kraus',
 'chichest',
 'mage',
 'altruist',
 'npc',
 'monoton',
 'elev',
 'alon',
 'imped',
 'centroid',
 'depict',
 'ito',
 'batteri',
 'maindetect',
 'co',
 '1269',
 'israel',
 'uca',
 'detect',
 'roughli',
 'hannel',
 'rq',
 'motiv',
 'tulsi',
 'akj',
 'biocompat',
 'nti',
 'ihth',
 'behind',
 'mortola',
 'column',
 'obligatori',
 'wirelessli',
 'oa',
 'suen',
 'wonder',
 'key',
 'impuls',
 'radiu',
 'cardiovascular',
 'comparison',
 'heden',
 'dead',
 '1416',
 'song',
 'discrep',
 'zn',
 'dramat',
 'contend',
 'correct',
 'driver',
 'fe',
 'lapidoth',
 '1106',
 'aet',
 'cbr',
 'lj',
 'sk',
 'digress',
 'irrelev',
 'orlando',
 'plane',
 'myopic',
 'eigenbasi',
 'zi',
 '1874',
 'ce',
 'variou',
 'apach',
 'shtml',
 'cultur',
 'claim',
 'seawat',
 'resp',
 'pishro',
 'la

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

Construido el vocabulario podemos construir el bag of words, que se hace con la ayuda de la funcion CountVectorizer

In [13]:
vectorizer = CountVectorizer(analyzer = "word",vocabulary =vocabulary , tokenizer = None, preprocessor = None, stop_words = 'english', max_features = 5000) 
train_data_features = vectorizer.fit_transform(results_text)
#vectorizer.transform(["Machine learning is great"]).toarray()

In [14]:
print(train_data_features)

  (0, 156)	1
  (0, 159)	1
  (0, 160)	1
  (0, 161)	3
  (0, 162)	1
  (0, 163)	1
  (0, 192)	1
  (0, 198)	1
  (0, 214)	1
  (0, 220)	2
  (0, 231)	5
  (0, 262)	14
  (0, 304)	2
  (0, 361)	1
  (0, 370)	3
  (0, 371)	2
  (0, 376)	1
  (0, 432)	1
  (0, 433)	1
  (0, 435)	4
  (0, 439)	1
  (0, 453)	1
  (0, 476)	1
  (0, 481)	1
  (0, 496)	1
  :	:
  (24, 5960)	1
  (24, 5971)	2
  (24, 5974)	12
  (24, 5991)	1
  (24, 5998)	1
  (24, 6008)	1
  (24, 6048)	11
  (24, 6059)	1
  (24, 6095)	3
  (24, 6114)	2
  (24, 6141)	1
  (24, 6142)	7
  (24, 6147)	1
  (24, 6162)	3
  (24, 6164)	1
  (24, 6169)	1
  (24, 6170)	3
  (24, 6180)	1
  (24, 6182)	1
  (24, 6197)	1
  (24, 6212)	1
  (24, 6231)	2
  (24, 6261)	4
  (24, 6303)	1
  (24, 6321)	2


In [15]:
vectorizer.vocabulary_

{'1000': 0,
 '1002': 1,
 '1016': 2,
 '1025': 3,
 '1045': 4,
 '1060': 5,
 '1085': 6,
 '1095': 7,
 '1099': 8,
 '1104': 9,
 '1106': 10,
 '1108': 11,
 '1117': 12,
 '1123': 13,
 '1150': 14,
 '1201': 15,
 '1212': 16,
 '1223': 17,
 '1229': 18,
 '1234': 19,
 '1236': 20,
 '1238': 21,
 '1245': 22,
 '1248': 23,
 '1261': 24,
 '1265': 25,
 '1267': 26,
 '1268': 27,
 '1269': 28,
 '1273': 29,
 '1275': 30,
 '1288': 31,
 '1289': 32,
 '1302': 33,
 '1306': 34,
 '1341': 35,
 '1343': 36,
 '1344': 37,
 '1359': 38,
 '1365': 39,
 '1382': 40,
 '1391': 41,
 '1393': 42,
 '1397': 43,
 '1400': 44,
 '1416': 45,
 '1419': 46,
 '1420': 47,
 '1423': 48,
 '1426': 49,
 '1434': 50,
 '1435': 51,
 '1436': 52,
 '1438': 53,
 '1441': 54,
 '1447': 55,
 '1450': 56,
 '1462': 57,
 '1472': 58,
 '1484': 59,
 '1493': 60,
 '1501': 61,
 '1505': 62,
 '1510': 63,
 '1523': 64,
 '1527': 65,
 '1556': 66,
 '1567': 67,
 '1568': 68,
 '1569': 69,
 '1570': 70,
 '1584': 71,
 '1587': 72,
 '1600': 73,
 '1605': 74,
 '1632': 75,
 '1641': 76,
 '1650': 

In [57]:
print(vectorizer.get_feature_names())

['0704', '2000', '2003', '2004', '2005', '2006', '2007', '3378', '3788', 'abovement', 'abstract', 'account', 'acknowledg', 'actual', 'aep', 'al', 'along', 'also', 'although', 'amplif', 'analog', 'analogon', 'analyz', 'appli', 'applic', 'approach', 'apr', 'argu', 'arxiv', 'asiacrypt', 'assum', 'attain', 'avail', 'averag', 'base', 'basic', 'behav', 'believ', 'berri', 'bind', 'bjelakov', 'bori', 'breiman', 'call', 'cambridg', 'captur', 'case', 'central', 'ch', 'chapter', 'chuang', 'class', 'classic', 'clearli', 'close', 'com', 'commut', 'compact', 'comparison', 'complet', 'compress', 'comput', 'concentr', 'conclud', 'condit', 'connect', 'consequ', 'consid', 'constant', 'context', 'contrari', 'convent', 'converg', 'correspond', 'countabl', 'cover', 'cryptograph', 'data', 'defin', 'definit', 'denot', 'densiti', 'depend', 'dept', 'detail', 'diagon', 'differ', 'digit', 'dimens', 'direct', 'directli', 'discuss', 'diss', 'distanc', 'distribut', 'earli', 'eas', 'edit', 'efer', 'ei', 'eigenvalu',