# Minería de textos
### Identificación de fechas en notas clínicas
Identificar correctamente todas las diferentes variantes de fecha codificadas en este conjunto de datos, normalizar y ordenar adecuadamente las fechas. Cada línea del archivo dates.txt corresponde a una nota médica. Cada nota tiene una fecha que debe extraerse, pero cada fecha está codificada en uno de muchos formatos. Aquí hay una lista de algunas de las variantes que puede encontrar en este conjunto de datos:

* 04/20/2009; 04/20/09; 4/20/09; 4/3/09
* Mar-20-2009; Mar 20, 2009; March 20, 2009; Mar. 20, 2009; Mar 20 2009;
* 20 Mar 2009; 20 March 2009; 20 Mar. 2009; 20 March, 2009
* Mar 20th, 2009; Mar 21st, 2009; Mar 22nd, 2009
* Feb 2009; Sep 2009; Oct 2010
* 6/2008; 12/2009
* 2009; 2010

Una vez que haya extraído estos patrones de fecha del texto, el siguiente paso es clasificarlos en orden cronológico ascendente de acuerdo con las siguientes reglas:
* Todas las fechas están en formato xx/xx/ xx son mm/dd/aa

* Todas las fechas en las que el año está codificado en solo dos dígitos corresponden a años posteriores a la década de 1900 (p. Ej., 1/5/89 es el 5 de enero de 1989).

* Si falta el día (p. Ej., 9/2009), suponga que es el primer día del mes (p. Ej., septiembre, 1 de 2009).

* Si falta el mes (por ejemplo, 2010), suponga que es el primero de enero de ese año (p. Ej., enero, 1 de 2010).

* Tenga cuidado con los posibles errores tipográficos, ya que este es un conjunto de datos derivados de la vida real.

Esta función debería devolver una lista de longitud 50

Entregar un archivo Python (.py) o un Notebook de Jupyter (.ipynb)

In [1]:
import re
import datetime

#### Clase Date( )
Clase que permite definir fechas

In [2]:
class Date:
    def __init__(self, month, day, year):
        self.month = int(month)
        self.day = int(day)
        self.year = int(year)
    
    def date2String(self):
        if self.day < 10:
            day = '0{}'.format(self.day)
        else:
            day = '{}'.format(self.day)
        if self.month < 10:
            month = '0{}'.format(self.month)
        else:
            month = '{}'.format(self.month)
        if self.year < 10:
            year = '0{}'.format(self.year)
        else:
            year = '{}'.format(self.year)
        date = '{}/{}/{}'.format(month, day, year)
        return date

#### Clase Date_finder( )
Clase para buscar y normalizar fechas.

In [3]:
class Date_finder:
    def __init__(self):
        #Expresiones regulares para búsqueda de fechas#
        self.DATE_RE_1 = re.compile('\d{1,2}[/-]\d{1,2}[/-]\d{2,4}')
        self.DATE_RE_2 = re.compile('\d{1,2} (?:jan|feb|mar|apr|may|jun|jul|aug|sep|oct|nov|dec)[,.]{0,1} \d{2,4}')
        self.DATE_RE_3 = re.compile('\d{1,2} (?:january|february|march|april|may|june|july|august|september|october|november|december)[,.]{0,1} \d{2,4}')
        self.DATE_RE_4 = re.compile('(?:january|february|march|april|may|june|july|august|september|october|november|december) \d{1,2}[,.]{0,1} \d{2,4}')
        self.DATE_RE_5 = re.compile('(?:jan|feb|mar|apr|may|jun|jul|aug|sep|oct|nov|dec) \d{1,2}[,.]{0,1} \d{2,4}')
        self.DATE_RE_6 = re.compile('(?:january|february|march|april|may|june|july|august|september|october|november|december) \d{2,4}')
        self.DATE_RE_7 = re.compile('\d{1,2}[/-]\d{4}')
        self.DATE_RE_8 = re.compile('\d{4}')

        # Diccionarios #
        self.MONTH_DIC = {'jan':1, 'feb':2, 'mar':3, 'apr':4, 'may':5, 'jun':6,
                          'jul':7, 'aug':8, 'sep':9, 'oct':10, 'nov':11, 'dec':12,
                          'january':1, 'february':2, 'march':3, 'april':4, 'may':5, 'june':6,
                          'july':7, 'august':8, 'september':9, 'october':10, 'november':11, 'december':12}

    
    def normalize_year(self, year):
        if len(year) == 4:
            year = year[2:]
        return int(year)
    
    def normalize_month(self, month):
        m = self.MONTH_DIC[month]
        return int(m)
    
    def normalize_day(self, day):
        index = len(day) - 1
        if day[index] == ',' or day[index] == '.':
            day = day[:index]
        return int(day)

    def normalize_date(self, date, regex):
        if regex == 1:
            d = date[0].split('/')
            if len(d)==1:
                d = date[0].split('-')
            year = self.normalize_year(d[2])
            normalized_date = Date(d[0],d[1],year)
        
        if regex == 2:
            d = date[0].split(' ')
            month = self.normalize_month(d[1])
            year = self.normalize_year(d[2])
            normalized_date = Date(month, d[0], year)
        
        if regex == 3:
            d = date[0].split(' ')
            month = self.normalize_month(d[1])
            year = self.normalize_year(d[2])
            normalized_date = Date(month, d[0], year)
        
        if regex == 4:
            d = date[0].split(' ')
            month = self.normalize_month(d[0])
            day = self.normalize_day(d[1])
            year = self.normalize_year(d[2])
            normalized_date = Date(month, day, year)
        
        if regex == 5:
            d = date[0].split(' ')
            month = self.normalize_month(d[0])
            day = self.normalize_day(d[1])
            year = self.normalize_year(d[2])
            normalized_date = Date(month, day, year)
        
        if regex == 6:
            d = date[0].split(' ')
            month = self.normalize_month(d[0])
            year = self.normalize_year(d[1])
            day = 1
            normalized_date = Date(month,day,year)
        
        if regex == 7:
            d = date[0].split('/')
            if len(d) == 1:
                d = date[0].split('-')
            day = 1
            year = self.normalize_year(d[1])
            normalized_date = Date(d[0],1, year)
        
        if regex == 8:
            year = self.normalize_year(date[0])
            normalized_date = Date(1,1,year)
        
        return normalized_date
            
            
    
    def find_date(self, text):
        text = text.lower()
        date = self.DATE_RE_1.findall(text)
        regex = 1
        if len(date) == 0:
            date = self.DATE_RE_2.findall(text)
            regex = 2
            if len(date)==0:
                date = self.DATE_RE_3.findall(text)
                regex = 3
                if len(date) == 0:
                    date = self.DATE_RE_4.findall(text)
                    regex = 4
                    if len(date) == 0:
                        date = self.DATE_RE_5.findall(text)
                        regex = 5
                        if len(date) == 0:
                            date = self.DATE_RE_6.findall(text)
                            regex = 6
                            if len(date) == 0:
                                date = self.DATE_RE_7.findall(text)
                                regex = 7
                                if len(date) == 0:
                                    date = self.DATE_RE_8.findall(text)
                                    regex = 8
        
        d = self.normalize_date(date,regex)                 
        return d

#### Apertura de archivo

In [4]:
dates_file = open('dates.txt', 'r').read().split('\n')

In [5]:
finder = Date_finder()

In [6]:
dates = []

#### Búsqueda de fechas

In [7]:
for line in dates_file:
    date = finder.find_date(line)
    dates.append(date)

#### Conversión de fechas a texto

In [8]:
text_dates = []
for date in dates:
    text_dates.append(date.date2String())

#### Ordenamiento ascendente de fechas

In [9]:
dates = [datetime.datetime.strptime(d, "%m/%d/%y") for d in text_dates]
dates.sort()
sorted_dates = [datetime.datetime.strftime(d,  "%m/%d/%y") for d in dates]

In [10]:
print("Cantidad de fechas: {}".format(len(sorted_dates)))

Cantidad de fechas: 500


In [11]:
for date in sorted_dates:
    print(date)

04/10/71
05/18/71
07/08/71
07/11/71
09/12/71
01/01/72
01/13/72
01/26/72
05/06/72
05/13/72
06/10/72
06/15/72
07/20/72
10/04/72
11/30/72
01/01/73
02/01/73
02/01/73
02/14/73
03/01/73
03/01/73
04/01/73
06/01/73
07/01/73
10/01/73
12/01/73
01/01/74
01/01/74
02/01/74
02/24/74
03/01/74
03/05/74
03/06/74
04/01/74
04/11/74
04/12/74
05/04/74
05/26/74
06/01/74
06/13/74
07/07/74
08/01/74
09/01/74
10/10/74
10/14/74
01/01/75
01/01/75
02/28/75
04/09/75
07/01/75
07/29/75
08/01/75
08/18/75
09/01/75
09/01/75
09/27/75
11/22/75
12/01/75
12/14/75
01/01/76
01/01/76
01/01/76
01/01/76
02/01/76
02/11/76
03/01/76
09/02/76
09/20/76
10/13/76
01/01/77
01/01/77
01/01/77
02/01/77
04/01/77
05/01/77
05/04/77
05/21/77
06/20/77
07/01/77
07/11/77
10/21/77
01/01/78
01/01/78
01/01/78
01/01/78
01/01/78
02/02/78
02/03/78
03/01/78
05/18/78
07/26/78
08/04/78
08/11/78
10/01/78
10/21/78
12/01/78
01/01/79
01/01/79
01/01/79
04/01/79
05/01/79
07/06/79
08/01/79
09/06/79
10/01/79
10/21/79
01/01/80
01/01/80
03/01/80
03/12/80
04/22/80
0

#### Escritura de archivo con fechas ordenadas

In [14]:
output_file = open('sorted_dates.txt', 'w')

In [15]:
for date in sorted_dates:
    output_file.write('{}\n'.format(date))

In [16]:
output_file.close()