In [1]:
import spacy
import nltk
from spacy.tokens import Doc
from nltk.corpus import PlaintextCorpusReader
from nltk.tokenize import RegexpTokenizer
nltk.download('punkt')

[nltk_data] Downloading package punkt to /users/amarchi/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# Expresion regular
pattern = r'''(?x)      
   (?:\d{1,3}(?:\.\d{3})+)
   | (?:[A-Z][a-z]\.\s*[A-Z][a-z]\.)                                     # Abreviaciones tipo Bs. As. o Bs.As. 
   | (?:Nº\s*\d*.\d+)                                                    # Nº numero
   | (?:[Aa]rt[ií]culo[\sNº]*\s+\d{1,}(?:\.\d{3})*) | [Aa]rt\.[\s + \d]+   # articulos
   | (?:[Ll]ey\sN[º + o]*\s\d{1,}(?:\.\d{3})*)                             # leyes
   | (?:[Dd]ecreto[s]*\sN[º + o]\s*\d{1,})                                  # decretos
   | (?:[Rr]esoluci[óo]n\sN[º + o]\s*\d{1,})                                # resoluciones
   | (?:[Ee]xpediente[s]*\sN[° + º]*\s\d{1,})                              # expedientes
   | (?:\d{1,2}\sde\s[a-z]+\sde\s\d{4})                                    # fechas
   | (?:[Ss]r\.|[Ss]ra\.)                                                  # abreviaciones
   | (?:[A-Z] + \s)+                                                       # entidades en mayusculas
   | (?:[A-Z]\.)+                           
   | \w+(?:-\w+)*                           
   | \$?\d+(?:\.\d+)?%?                     
   | \.\.\.                                 
   | [][.,;"'?():-_`]
   | (?:[.\n])
   | (?:Nº\s*\d*.\d+)

'''


In [4]:
# Carga de la ley 107452 usando la expresion regular definida para la tokenizacion
tokenizer = RegexpTokenizer(pattern)
corpus = PlaintextCorpusReader('corpus/', '113710.txt', word_tokenizer=tokenizer)

tokens = list(corpus.sents())
tokens


[['Administración',
  'Federal',
  'de',
  'Ingresos',
  'Públicos',
  '\n',
  'IMPUESTOS\n',
  'Resolución',
  'General',
  '2000',
  '\n',
  'Impuesto',
  'al',
  'Valor',
  'Agregado',
  '.'],
 ['Operaciones', 'de', 'exportación', 'y', 'asimilables', '.'],
 ['Solicitudes',
  'de',
  'acreditación',
  ',',
  'devolución',
  'o',
  'transferencia',
  '.'],
 ['Resolución',
  'General',
  'Nº 1351',
  ',',
  'sus',
  'modificatorias',
  'y',
  'complementarias',
  '.'],
 ['Su', 'sustitución', '.'],
 ['Bs', '.'],
 ['As',
  '.',
  ',',
  '30',
  '1',
  '2006',
  '\n',
  'Ver',
  'Antecedentes',
  'Normativos',
  '\n',
  'VISTO',
  ',',
  'la',
  'Resolución',
  'General',
  'Nº 1351',
  ',',
  'sus',
  'modificatorias',
  'y',
  'complementarias',
  ',',
  'y',
  '\n',
  'CONSIDERANDO',
  ':',
  '\n',
  'Que',
  'por',
  'la',
  'mencionada',
  'resolución',
  'general',
  'se',
  'establecieron',
  'las',
  'condiciones',
  ',',
  'requisitos',
  ',',
  'plazos',
  'y',
  'formalidades',

In [5]:
nlp = spacy.load('es')
ner = nlp.get_pipe('ner')
parser = nlp.get_pipe('tagger')

doc = Doc(nlp.vocab, words=tokens[2])

ner(doc)
parser(doc)

Solicitudes de acreditación , devolución o transferencia . 

In [6]:
for token in doc:
    print("token: {}, pos: {}, ner:{}".format(token.text, token.pos_, token.ent_type_))

token: Solicitudes, pos: NOUN, ner:PER
token: de, pos: ADP, ner:
token: acreditación, pos: NOUN, ner:
token: ,, pos: PUNCT, ner:
token: devolución, pos: NOUN, ner:
token: o, pos: CONJ, ner:
token: transferencia, pos: NOUN, ner:
token: ., pos: PUNCT, ner:


In [75]:
import re

In [7]:
with open('corpus/107452.txt', 'r') as f:
    a = f.read()

In [9]:
import re
re.findall(r'''(?x)      
   (?:\d{1,3}(?:\.\d{3})+)
   | (?:[A-Z][a-z]*\.\s*[A-z][a-z]*\.)''', a)

['S.A.',
 'Bs. As.',
 '24.076',
 '25.561',
 '25.790',
 '25.972',
 'S.E.',
 '25.561',
 '25.561',
 '25.790',
 'B.O.',
 '25.790',
 '25.561',
 '25.972',
 '24.076',
 '24.076',
 'S.A.',
 'S.E.',
 'S.E.',
 '25.561',
 '24.076',
 'S.A.',
 'S.A.',
 'S.A.',
 'S.A.',
 'S.A.',
 'S.A.',
 'S.A.',
 'S.A.',
 'S.A.',
 '24.076',
 'S.A.',
 'S.A.',
 'D.\nArt.',
 'S.A.',
 'S.A.',
 '24.076',
 '24.076',
 'S.A.',
 'S.A.',
 'M. Madaro.',
 'R. Vidal.',
 'A. Abalo.',
 'B.O.']

In [10]:
s = nltk.regexp_tokenize(a, pattern)

In [11]:
sents = []
sent =[]
for i in s:
    if i != '\n':  ## Forma muy fea y noob de separar en oraciones
        sent.append(i)
    else:
        sents.append(sent)
        sent = []
sents        

[['Ente', 'Nacional', 'Regulador', 'del', 'Gas'],
 ['TARIFAS\n', 'Resolución', '3208', '2005'],
 ['Apruébanse',
  ',',
  'en',
  'forma',
  'provisoria',
  ',',
  'los',
  'Cuadros',
  'Tarifarios',
  'correspondientes',
  'a',
  'Metrogas',
  'S.A.',
  'para',
  'el',
  'período',
  'invernal',
  'mayo',
  '2005',
  'junio',
  '2005',
  '.'],
 ['Bs. As.', ',', '8', '6', '2005'],
 ['Visto',
  'los',
  'Expedientes Nº 8766',
  'y',
  'Nº 9483',
  'del',
  'Registro',
  'del',
  'ENTE NACIONAL REGULADOR DEL GAS ',
  '(',
  'ENARGAS',
  ')',
  ',',
  'las',
  'disposiciones',
  'de',
  'la',
  'Ley No 24.076',
  ',',
  'la',
  'Ley Nº 25.561',
  ',',
  'la',
  'Ley Nº 25.790',
  ',',
  'y',
  'la',
  'Ley Nº 25.972',
  ',',
  'los',
  'Decretos Nº 180',
  'y',
  '181',
  'de',
  'fecha',
  '16 de febrero de 2004',
  ',',
  'los',
  'Decretos Nº 1738',
  'del',
  '18 de septiembre de 1992',
  ',',
  'Nº 2731',
  'del',
  '29 de diciembre de 1993',
  ',',
  'Nº 1411',
  'del',
  '18 de agos