In [28]:
import spacy
import nltk
from spacy.tokens import Doc
from nltk.corpus import PlaintextCorpusReader
from nltk.tokenize import RegexpTokenizer
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /users/ldefrancesca/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [60]:
# Expresion regular
pattern = r'''(?x)      
   (?:\d{1,3}(?:\.\d{3})+)
   | (?:[Pp]unto[s]*\s+[\d[.,]]+)
   | (?:[A-Z][a-z]\.\s*[A-Z][a-z]\.)                                     # Abreviaciones tipo Bs. As. o Bs.As. 
   | (?:Nº\s*\d*.\d+)                                                    # Nº numero
   | (?:[Aa]rt[ií]culo[\s+Nº]*\s+\d+º*)                                 # articulos
   | (?:[Aa]rt\.*[\s+\d+]+º*)                                           # articulos abreviados
   | (?:[Ll]ey\sN[º + o]*\s\d{1,}(?:\.\d{3})*)                             # leyes
   | (?:[Dd]ecreto[s]*\sN[º + o]\s*\d{1,})                                  # decretos
   | (?:[Rr]esoluci[óo]n\sN[º + o]\s*\d{1,})                                # resoluciones
   | (?:[Ee]xpediente[s]*\sN[° + º]*\s\d{1,})                              # expedientes
   | (?:\d{1,2}\sde\s[a-z]+\sde\s\d{4})                                    # fechas
   | (?:[Ss]r\.|[Ss]ra\.)                                                  # abreviaciones
   | (?:[A-Z] + \s)+                                                       # entidades en mayusculas
   | (?:[A-Z]\.)+                           
   | \w+(?:-\w+)*                           
   | \$?\d+(?:\.\d+)?%?                     
   | \.\.\.                                 
   | [][.,;"'?():-_`]
   | (?:[.\n])
   | (?:\d+)
'''


In [61]:
# Carga de la ley 107452 usando la expresion regular definida para la tokenizacion
tokenizer = RegexpTokenizer(pattern)
corpus = PlaintextCorpusReader('../corpus/', '107452.txt', word_tokenizer=tokenizer)

tokens = list(corpus.sents())
tokens[2]

['As',
 '.',
 ',',
 '8',
 '6',
 '2005',
 'Visto',
 'los',
 'Expedientes Nº 8766',
 'y',
 'Nº',
 '9483',
 'del',
 'Registro',
 'del',
 'ENTE NACIONAL REGULADOR DEL GAS ',
 '(',
 'ENARGAS',
 ')',
 ',',
 'las',
 'disposiciones',
 'de',
 'la',
 'Ley No 24.076',
 ',',
 'la',
 'Ley Nº 25.561',
 ',',
 'la',
 'Ley Nº 25.790',
 ',',
 'y',
 'la',
 'Ley Nº 25.972',
 ',',
 'los',
 'Decretos Nº 180',
 'y',
 '181',
 'de',
 'fecha',
 '16 de febrero de 2004',
 ',',
 'los',
 'Decretos Nº 1738',
 'del',
 '18 de septiembre de 1992',
 ',',
 'Nº',
 '2731',
 'del',
 '29 de diciembre de 1993',
 ',',
 'Nº',
 '1411',
 'del',
 '18 de agosto de 1994',
 ',',
 'la',
 'Resolución Nº 265',
 'de',
 'la',
 'SECRETARIA DE ENERGIA ',
 'de',
 'fecha',
 '24 de marzo de 2004',
 ',',
 'la',
 'Disposición',
 'Nº',
 '27',
 'de',
 'la',
 'SUBSECRETARIA DE COMBUSTIBLES ',
 'de',
 'fecha',
 '29 de marzo de 2003',
 ',',
 'la',
 'Resolución',
 '208',
 'DEL MINISTERIO DE PLANIFICACION ',
 'FEDERAL',
 ',',
 'INVERSION PUBLICA Y SERV

In [62]:
nlp = spacy.load('es')
ner = nlp.get_pipe('ner')
parser = nlp.get_pipe('tagger')

doc = Doc(nlp.vocab, words=tokens[2])

ner(doc)
parser(doc)

As . , 8 6 2005 Visto los Expedientes Nº 8766 y Nº 9483 del Registro del ENTE NACIONAL REGULADOR DEL GAS  ( ENARGAS ) , las disposiciones de la Ley No 24.076 , la Ley Nº 25.561 , la Ley Nº 25.790 , y la Ley Nº 25.972 , los Decretos Nº 180 y 181 de fecha 16 de febrero de 2004 , los Decretos Nº 1738 del 18 de septiembre de 1992 , Nº 2731 del 29 de diciembre de 1993 , Nº 1411 del 18 de agosto de 1994 , la Resolución Nº 265 de la SECRETARIA DE ENERGIA  de fecha 24 de marzo de 2004 , la Disposición Nº 27 de la SUBSECRETARIA DE COMBUSTIBLES  de fecha 29 de marzo de 2003 , la Resolución 208 DEL MINISTERIO DE PLANIFICACION  FEDERAL , INVERSION PUBLICA Y SERVICIOS  del 22 de abril de 2004 , la Resolución S.E. 

In [63]:
for token in doc:
    print("token: {}, pos: {}, ner:{}".format(token.text, token.pos_, token.ent_type_))

token: As, pos: NOUN, ner:
token: ., pos: PUNCT, ner:
token: ,, pos: PUNCT, ner:
token: 8, pos: NUM, ner:
token: 6, pos: NUM, ner:
token: 2005, pos: NUM, ner:
token: Visto, pos: PROPN, ner:ORG
token: los, pos: DET, ner:
token: Expedientes Nº 8766, pos: PROPN, ner:ORG
token: y, pos: CONJ, ner:
token: Nº, pos: PROPN, ner:MISC
token: 9483, pos: NOUN, ner:MISC
token: del, pos: ADP, ner:MISC
token: Registro, pos: PROPN, ner:MISC
token: del, pos: ADP, ner:MISC
token: ENTE NACIONAL REGULADOR DEL GAS , pos: PROPN, ner:MISC
token: (, pos: PUNCT, ner:
token: ENARGAS, pos: PROPN, ner:ORG
token: ), pos: PUNCT, ner:
token: ,, pos: PUNCT, ner:
token: las, pos: DET, ner:
token: disposiciones, pos: NOUN, ner:
token: de, pos: ADP, ner:
token: la, pos: DET, ner:
token: Ley No 24.076, pos: PROPN, ner:
token: ,, pos: PUNCT, ner:
token: la, pos: DET, ner:
token: Ley Nº 25.561, pos: PROPN, ner:
token: ,, pos: PUNCT, ner:
token: la, pos: DET, ner:
token: Ley Nº 25.790, pos: PROPN, ner:
token: ,, pos: PUNCT, 