In [1]:
import numpy as np
import pandas as pd

# Text Mining Introduction

## Partes de la oración (Breve Resumen - Español)

Para poder realizar un buen análisis de un texto, debemos de recordar cuales son las partes de una oración y así tener claro lo que necesitamos extraer.

Una oración es un conjunto de palabras que tiene un sentido que consta de un sujeto y un predicado.

Una oración tiene las siguientes variables:
- **Sustantivo:** Son las palabras que dan el nombre a personas, animales, y todas las cosas. Entre las categorias se encuentran
    - Comunes y propios
    - Concretos y abstractos
    - Individuales y colectivos
- **Adjetivo:** Es la palabra que acompaña al sustantivo para darle una caracteristica. Entre ellos se encuentran:
    - Posesivos
    - Demostrativos
    - Calificativo
    - Numeral
    - Indefinidos
- **Artículo:** Es la palabra que va acompañando también al sustantivo pero aparece antes de éste. Puede ser *definido* o *indefinido*
- **Pronombre:** Estas palabras representan a personas y cosas. Pueden ser:
    - Personales
    - Demostrativos
    - Numerales
    - Interrogativos
    - Posesivos
    - Exclamativos
    - Indefinidos
    - Relativos
- **Verbo:** Es la palabra que representa una acción.

y las siguientes partes que no cambian:
- **Adverbio:** Son aquellas palabras que modifican al verbo. Pueden ser de tiempo, lugar, modo, afirmación, negación, duda, entre otros.
- **Preposición:** Enlaza dos palabras de una oración. (a, de, en, hacia, ...)
- **Conjunción:** Enlaza dos oraciones. (y, aunque, ...)
- **Interjección:** Es una palabra que no es parte de la oración. Éstas pueden significar una oración completa.
    - ¡Ay!
    - ¡Eh!

## Natural Language Processing (NLP)

Natural Language Processing (NLP) is part of the Artificial Intelligence (AI) scope that analyzes the human language.

## REGEX

In [3]:
import re

### 1. Email Validation

In [3]:
emails = ['Guate.360porelmundo@miguate.com', 
          'Miercoles3@hotmail.com', 
          'Progra3.galileo@galileo.edu']
print(emails)

['Guate.360porelmundo@miguate.com', 'Miercoles3@hotmail.com', 'Progra3.galileo@galileo.edu']


In [4]:
r = re.compile('[\w]+[\w|\.|-][\w]+[\w|\.|-]\w+\@+\w+.(com|net|org|edu)')
emails_result = list(filter(r.match, emails))
print(emails_result)

['Guate.360porelmundo@miguate.com', 'Miercoles3@hotmail.com', 'Progra3.galileo@galileo.edu']


### 2. URL Validation

In [5]:
urls = ['https://www.guate360-porelmundo.com',
        'http://www.a2.net', 
        'https://www.galileo.edu', 
        'http://www.8.org']
print(urls)

['https://www.guate360-porelmundo.com', 'http://www.a2.net', 'https://www.galileo.edu', 'http://www.8.org']


In [6]:
r = re.compile('[http://|https://]+www.+[a-z]+[\d|\.|-|_]+\w+.+[com|net|org|edu]')
urls_result = list(filter(r.match, urls))
print(urls_result)

['https://www.guate360-porelmundo.com', 'http://www.a2.net', 'https://www.galileo.edu']


### 3. MAC Address Validation

In [7]:
mac = ['5A 6F AF 8C 9B 1D',
       '6D 6C 4D 3A EB 3F',
       '3A 7C FA C8 6D 4J']
print(mac)

['5A 6F AF 8C 9B 1D', '6D 6C 4D 3A EB 3F', '3A 7C FA C8 6D 4J']


In [8]:
r = re.compile('[0-9|a-f|A-F| |\:|\-]{17}')
mac_result = list(filter(r.match, mac))
print(mac_result)

['5A 6F AF 8C 9B 1D', '6D 6C 4D 3A EB 3F']


### 4. IPv4 Address Validation

In [15]:
ip = ['192.16.8.1',
      '234.56.78.90',
      '1.2.3.4',
      '192.168.45.345']
print(ip)

['192.16.8.1', '234.56.78.90', '1.2.3.4', '192.168.45.345']


In [18]:
r = re.compile('^(([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])\.){3}([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])$')
ip_result = list(filter(r.match, ip))
print(ip_result)

['192.16.8.1', '234.56.78.90', '1.2.3.4']


### 5. Date Parsing

In [5]:
dates = ['20/1/2019',
         '12.03.2005',
         '31-11-08',
         '1-1-2012',
         '12-12-22']
print(dates)

['20/1/2019', '12.03.2005', '31-11-08', '1-1-2012', '12-12-22']


In [6]:
r = re.compile('^([0]?[1-9]|[12][0-9]|3[01])[\/|\-|\.]+([0]?[0-9]|1[0-2])[\/|\-|\.]+((20)?[0-1][0-9])$')
dates_result = list(filter(r.match, dates))
print(dates_result)

['20/1/2019', '12.03.2005', '31-11-08', '1-1-2012']
