# Data Augmentation Module

Here you can find a suite of tools to work with tagged documents. You can render them or 
create synthetic documents to supersample your dataset. <br>


## Classes

### TaggedDoc

Takes a tagged document in dictionary format and creates an object. <br>

Attributes: <br>

- __TaggedDoc.document__ <br>
Returns the same dictionary that was provided.

- __TaggedDoc.displacy_ents__ <br>
Returns a list of dictionaries with every entity tagged. Each dictionary contains keys: 
`start`, `end` and `label`. <br>

- __TaggedDoc.title__ <br>
Returns the `doc_id` of the document provided. <br>

- __TaggedDoc.text__ <br> 
 Returns the entire text of the document provided. <br>
 
- __TaggedDoc.text_len__ <br>
Returns the lenght of the document measured in characters. <br>

- __TaggedDoc.ents_df__ <br>
Returns a pandas.DataFrame object with the entities tagged. <br>

Methods: <br>

- __TaggedDoc.render__
- __TaggedDoc.index_augmentation__
- __TaggedDoc.save_render__

#### Examples

In [19]:
from nlptools.data_augmentation import TaggedDoc
import pickle

In [20]:
with open(os.getcwd() +'/nlptools/src/nlptools/data/estatutos/tagged/spacy_dataset_2020-5-6.pkl', 'rb') as f:
    data = pickle.load(f)

In [29]:
tagged = TaggedDoc(data['confecom_srl.'])

In [30]:
tagged.document

{'doc_id': 'confecom_srl',
 'pages': {'0': {'text_body_coords': [[237, 348],
    [1178, 332],
    [260, 1686],
    [1201, 1671]],
   'lectura': 'O DE SOCIEDAD DE RESPONSABILIDAD LIMITADA. “CONFECOM S.\n\n12)\n\n \n\nROA, argentina, casada en primeras nupcias con Raul Alberto LESCA-\n\nNO, nacida el 10 de marzo de 1966, comerciante, titular del docu-\nmento nacional de identidad número 17.636.488, C.U.I.T.: 27-\n17636488-8, y Yamila Belén LESCANO, argentina, soltera, nacida el\n6 de marzo de 1998, comerciante, titular del documento nácional de\nidentidad número 41.048.026, C.U.I.L.: 27-41048026-9, ambos domici-\nliados en Pico 4785, Ciudad Autónoma de Buenos Aires; resuelven de-\njar constituida una sociedad de responsabilidad limitada que se re-\n\ngirá por la Ley número 19.550/22.903 y el siguiente estatuto:\n\nPRIMERA: La sociedad se denomina: "CONFECOM S.R.L."” y tiene su do-\nmicilio legal en jurisdicción de la Ciudad Autónoma de Buenos Ai-\nres, pudiendo establecer agencias o sucu

In [31]:
tagged.displacy_ents

[{'start': 106, 'end': 126, 'label': 'firmante_familiar'},
 {'start': 138, 'end': 157, 'label': 'fecha_nacimiento'},
 {'start': 223, 'end': 233, 'label': 'firmantes_dni'},
 {'start': 261, 'end': 281, 'label': 'firmantes_nombre'},
 {'start': 312, 'end': 330, 'label': 'fecha_nacimiento'},
 {'start': 396, 'end': 406, 'label': 'firmantes_dni'},
 {'start': 438, 'end': 496, 'label': 'firmante_domicilio'},
 {'start': 529, 'end': 565, 'label': 'tipicidad'},
 {'start': 669, 'end': 685, 'label': 'razon_social'},
 {'start': 736, 'end': 767, 'label': 'legal_domicilio'},
 {'start': 884, 'end': 886, 'label': 'vigencia'},
 {'start': 973, 'end': 1766, 'label': 'objeto_social'},
 {'start': 1822, 'end': 1845, 'label': 'capital'},
 {'start': 2081, 'end': 2104, 'label': 'tipo_rep_legal'},
 {'start': 2113, 'end': 2145, 'label': 'mandato_dir'},
 {'start': 2146, 'end': 2382, 'label': 'facultades_firm'},
 {'start': 2384, 'end': 2642, 'label': 'garantias_directorio'},
 {'start': 3367, 'end': 3378, 'label': 'fe

In [32]:
tagged.title

'confecom_srl'

In [33]:
tagged.text

'O DE sociedad DE RESPONSABILIDAD LIMITADA. “CONFECOM S. 12) ROA, argentina casada en primeras nupcias con Raul Alberto LESCANO, nacida el 10 de marzo de 1966, comerciante, titular del documento nacional de identidad numero 17.636.488, C.U.I.T. 27-17636488-8, y Yamila Belen LESCANO, argentina soltera, nacida el 6 de marzo de 1998, comerciante, titular del documento nacional de identidad numero 41.048.026, C.U.I.L. 27-41048026-9, ambos domiciliado en Pico 4785, ciudad autonoma de buenos Aires; resuelven dejar constituida una sociedad de responsabilidad limitada que se regira por la Ley numero 19.550/22.903 y el siguiente estatuto primera La sociedad se denomina "CONFECOM S.R.L."” y tiene su domicilio legal en jurisdiccion de la ciudad autonoma de buenos Aires, pudiendo establecer agencias o sucursales en cualquier lugar del pais o del extranjero.- segunda Su duracion es de 99 años contados a partir de la inscripcion en el registro Publico de Comercio. - TERCERA La sociedad tiene por obj

## Functions

### random_date_generator

Creates a random date in the time span provided. Returns a datetieme.date object. <br>

Parameters:

- __start_year:__ `int, optional` <br>
 The initial year of the target time span, by default 1900. <br>
 
- __start_month:__ `int, optional` <br>
The initial month of the target time span, by default 1. <br>

- __start_day:__ `int, optional` <br>
The initial day of the target time span, by default 1. <br>

- __end_year:__ `int, optional` <br>
The final year of the target time span, by default 2050. <br>

- __end_month:__ `int, optional` <br>
The final month of the target time span, by default 12. <br>

- __end_day:__ `int, optional` <br>
The final day of the target time span, by default 31. <br>

- __mapper:__ `dict, optional` <br>
A dictionary-like object with same previous arguments as keys and integer as values, by default None. <br>

- __seed:__ `int, optional` <br>
 The random seed if you're interested in replicating the results, by default None. <br>
 
Returns: <br>

- __datetime.date__ <br>
 A random datetime.date object contained in the time span provided.

In [38]:
from nlptools.data_augmentation import random_date_generator

In [40]:
random_date_generator()

datetime.date(1915, 3, 15)

In [43]:
example = {'start_year': 2005,
            'start_month': 5,
          'start_day': 10,
          'end_year': 2023,
          'end_month': 10,
          'end_day': 23}

In [44]:
random_date_generator(mapper=example)

datetime.date(2018, 4, 21)

In [48]:
date = random_date_generator(seed=5)

In [49]:
from nlptools.data_augmentation import date_formatter

### date_formatter

Fill in with docstring TBD

#### Examples

In [50]:
date_formatter(date)

'08 de Octubre de 2011'

In [51]:
date_formatter(date, include_year=True)

'ocho del mes de Octubre de dos mil once'