### Problema1

Una oración es un conjunto ordenado y lineal de palabras que cumple con reglas gramáticlas y sintácticas. La estructura de una oración se conforma principalmente de dos partes **sujeto** y **predicado**, sin embargo el sujeto puede o no estar explícito en la oración. 
A un nivel más granular es posible identificar los siguientes elementos en una oración: 
- **Sustantivos.** Nombra seres vivos o personas.
- **Adjetivos.** Describen rasgos o características de los sustantivos.
- **Artículos.** Identifican el número, género y determinación de los sustantivos.
- **Pronombres.** Permiten hacer referencias a los sustantivos sin usar su nombre común o propio.
- **Verbos.** Expresan y describen las acciones. 
- **Adverbios.** Modulan o caracterizan las acciones definidas por los verbos. 
- **Conjunciones.** Permiten conectar distintas partes de la oración o enunciado. 
- **Preposiciones.** Proporcionan un sentido relacional entre las palabras. 

### Problema2

El procesamiento del lenguaje natural (NLP) es un campo de la inteligencia artificial (IA) que se enfoca en analizar y procesar lenguajes humanos por medio de técnicas y algoritmos asistidos por computadora. Para ello no busca únicamente obtener el texto, si no también identificar patrones que aporten información a través del análisis de este. Para ello NLP se apoya en etapas de preprocesamiento del texto, permitiendo prepararlo para su posterior análisis. El proceso de preprocesamiento comprende la aplicación de expresiones regulares para la identificación de patrones, la tokenización, generación de n-gramas, stemming, lematización etc. Todas estas técnicas hacen posible contar con un texto limpio que es posteriormente empleado para tareas como el análisis de sentimiento, la generación de chatbots conversacionales, identificación de noticas falsas, etc. Es por ello que NLP es un campo amplio y diverso que aporta gran valor al área de análisis de datos a través del estudio de los textos. 

### Problema3

In [None]:
pattern_1 = r'^([A-z0-9.-])+@([A-z])+\.(com|edu|org)$'
pattern_2 = r'^(https|http)(:\/\/www\.)[A-z]+[A-z0-9-_]+\.(com|org|edu)$'
pattern_3 = r'^(([A-F]|[0-9]){2}\s){6}$'
pattern_4 = r'^(((25[0-5])|(2[0-4][0-9])|(1[0-9]{2})|([1-9][0-9])|([1-9]))\.){3}((25[0-5])|(2[0-4][0-9])|(1[0-9]{2})|([1-9][0-9])|([1-9]))$'
pattern_5 = r'^((0?[1-9])|([1-2][0-9])|(3[0-1]))(\.|-|\/)((0?[1-9])|(1[0-2]))(\.|-|\/)((20)?[0-1][1-9])$'

### Problema4

In [120]:
import re
import os
import pandas as pd

In [128]:
directory = '.\Datos'
pattern = r'((?:0?[1-9])|(?:[1-2][0-9])|(?:3[0-1]))(?:\.|-|\/)((?:(?:0?[1-9])|(?:1[0-2]))|(?:JAN|FEB|MAR|APR|MAY|JUN|JUL|AUG|SEP|SEPT|OCT|NOV|DEC))(?:\.|-|\/)((?:20)?[0-1][1-9])'
month_dict = {'JAN': 1, 'FEB': 2, 'MAR': 3, 'APR': 4, 'MAY': 5, 'JUN': 6, 'JUL':7, 'AUG': 8, 'SEP': 9, 'SEPT': 9, 'OCT': 10, 'NOV': 11, 'DEC': 12}
data = {'FileName': [], 'Lines': [], 'Matches': [], 'Days': [], 'Months': [], 'Years': []}

In [129]:
for filename in os.listdir(directory):
    file = os.path.join(directory, filename)
    data['FileName'].append(filename)
    count = 0
    days = 0
    months = 0
    years = 0
    
    if os.path.isfile(file):
        with open(file) as f:
            lines = f.readlines()
            data['Lines'].append(len(lines))
            
            for line in lines:
                match = re.search(pattern, line.upper())
                if match:
                    count += 1
                    days += int(match.group(1))
                    m = match.group(2)
                    months += month_dict[m] if month_dict.get(m) else int(m)
                    years += int(match.group(3)[-2:])

    data['Matches'].append(count)
    data['Days'].append(days)
    data['Months'].append(months)
    data['Years'].append(years)       

In [130]:
df = pd.DataFrame(data)
df

Unnamed: 0,FileName,Lines,Matches,Days,Months,Years
0,D1.txt,1000,1000,15864,6432,16674
1,D10.txt,1000,1000,16247,6459,16740
2,D11.txt,1000,1000,15910,6454,16753
3,D12.txt,1000,1000,15526,6349,16689
4,D13.txt,1000,1000,15460,6489,16682
5,D14.txt,1000,1000,15310,6515,16751
6,D15.txt,1000,1000,15876,6339,16681
7,D16.txt,1000,1000,16057,6352,16678
8,D17.txt,1000,1000,15664,6499,16758
9,D18.txt,1000,1000,15705,6477,16667


In [137]:
results = df[['Matches', 'Days', 'Months', 'Years']].sum(axis=0)
results

Matches     21000
Days       328120
Months     135796
Years      350425
dtype: int64

##### Promedio resultante

In [148]:
summary = results[['Days', 'Months', 'Years']] / results['Matches']
print(summary)

Days      15.624762
Months     6.466476
Years     16.686905
dtype: float64
