# Text Mining & Image Recognition
## Hoja de Trabajo # 3

### Problema 1:
Utilice expresiones regulares para validar las siguintes situaciones
:
1. **Validar un correo electrónico:**
   Implemente una regex para validar un correo electrónico en general. A continuación, se muestran algunos ejemplos:
   - `Guate.360-porelmundo@miguate.com`
   - `Miercoles3@hotmail.com`
   - `Progra3.galileo@galileo.edu`

2. **Validar una dirección URL:**
   Implemente una regex para validar la dirección URL de una página web con los tipos de dominio (.com, .org, .edu). Note que la URL incluye el protocolo (http o https) y los símbolos (//www.). A continuación, se muestran algunos ejemplos:
   - `https://www.guate360-porelmundo.com`
   - `http://www.a2.net`
   - `https://www.galileo.edu`
   - `http://www.8.org` (No válida)

3. **Validar una MAC Address:**
   Implemente una regex para validar una MAC Address. Notar que las MAC addresses están divididas en 6 bloques de caracteres hexadecimales, es decir, que los símbolos solo pueden variar del 0 al 9 y las letras de la A a la F. A continuación se muestran algunos ejemplos:
   - `5A 6F AF 8C 9B 1D`
   - `6D 6C 4D 3A EB 3F`
   - `3A 7C FA C8 6D 4J` (No válida porque el último bloque contiene una J)

4. **Validar una dirección IPv4:**
   Implemente una regex para validar una dirección IPv4. Notar que las direcciones IPv4 están divididas en 4 bloques de valores, los cuales solo pueden ir desde 0 hasta 255. Una IP donde algunos de sus bloques sean mayores a 255 no es válida. Además, tome en cuenta que cada bloque está separado por un punto. A continuación, se muestran algunos ejemplos:
   - `192.16.8.1`
   - `234.56.78.90`
   - `1.2.3.4`
   - `192.168.45.345` (No válida porque el último bloque es mayor a 255)

5. **Validar una fecha:**
   Implemente una regex para validar una fecha con la secuencia día - mes - año, donde el día, mes y año pueden estar separados ya sea por el carácter `/` o el carácter `-` o el carácter `.`. Notar que las fechas son válidas si los días están definidos desde el 1 al 31, el mes del 1 al 12 y el año de 2000 al 2019. También debe tomar en cuenta que los días y meses pueden estar escritos ya sea con uno o dos caracteres. Por ejemplo: Enero puede escribirse como 1 o como 01. Los años también pueden expresarse ya sea con dos o con cuatro caracteres. Por ejemplo: 19 o 2019 son válidos. A continuación se muestran algunos ejemplos:
   - `20/1/2019`
   - `12.03.2005`
   - `31-11-08`
   - `1-1-2012`
   - `12-12-22` (No válida porque el año supera al 2019).

In [7]:
import re

# 1. Validar correos electrónicos
email_regex = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
emails = [
    'Guate.360-porelmundo@miguate.com', 
    'Miercoles3@hotmail.com', 
    'Progra3.galileo@galileo.edu'
]

# 2. Validar URLs
url_regex = r'^(https?://)?(www\.)?[a-zA-Z0-9.-]+\.(com|org|edu|net)(/.*)?$'
urls = [
    'https://www.guate360-porelmundo.com',
    'http://www.a2.net',
    'https://www.galileo.edu',
    'http://www.8.org'
]

# 3. Validar MAC Addresses
mac_regex = r'^([0-9A-Fa-f]{2}([ :.-]?)?){5}[0-9A-Fa-f]{2}$'
mac_addresses = [
    '5A 6F AF 8C 9B 1D', 
    '6D 6C 4D 3A EB 3F', 
    '3A 7C FA C8 6D 4J'
]

# 4. Validar IPv4
ipv4_regex = r'^(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$'
ipv4_addresses = [
    '192.16.8.1', 
    '234.56.78.90', 
    '1.2.3.4', 
    '192.168.45.345'
]

# 5. Validar fechas
date_regex = r'^(0?[1-9]|[12][0-9]|3[01])[\/\-.](0?[1-9]|1[0-2])[\/\-.](19|20)?[0-9]{2}$'
dates = [
    '20/1/2019', 
    '12.03.2005', 
    '31-11-08', 
    '1-1-2012', 
    '12-12-22'
]

# Función para validar listas de ejemplos con una regex
def validate_with_regex(pattern, examples):
    for example in examples:
        if re.match(pattern, example):
            print(f"'{example}' is valid")
        else:
            print(f"'{example}' is NOT valid")

# Validar ejemplos
print("Validating Emails:")
validate_with_regex(email_regex, emails)

print("\nValidating URLs:")
validate_with_regex(url_regex, urls)

print("\nValidating MAC Addresses:")
validate_with_regex(mac_regex, mac_addresses)

print("\nValidating IPv4 Addresses:")
validate_with_regex(ipv4_regex, ipv4_addresses)

print("\nValidating Dates:")
validate_with_regex(date_regex, dates)

Validating Emails:
'Guate.360-porelmundo@miguate.com' is valid
'Miercoles3@hotmail.com' is valid
'Progra3.galileo@galileo.edu' is valid

Validating URLs:
'https://www.guate360-porelmundo.com' is valid
'http://www.a2.net' is valid
'https://www.galileo.edu' is valid
'http://www.8.org' is valid

Validating MAC Addresses:
'5A 6F AF 8C 9B 1D' is valid
'6D 6C 4D 3A EB 3F' is valid
'3A 7C FA C8 6D 4J' is NOT valid

Validating IPv4 Addresses:
'192.16.8.1' is valid
'234.56.78.90' is valid
'1.2.3.4' is valid
'192.168.45.345' is NOT valid

Validating Dates:
'20/1/2019' is valid
'12.03.2005' is valid
'31-11-08' is valid
'1-1-2012' is valid
'12-12-22' is valid


### Problema 2:
En la carpeta encontrará adjuntos 21 documentos que tiene 100 fechas en la secuencia días - mes - año, pero con distinto separador y distinto formato de mes, en algunos casos aparece un número y en otros el nombre del mes en inglés, por ejemplo: Enero pueden aparecer como 1 o como Jan.

Utilice Python y expresiones regulares para encontrar el día, mes y año promedio total de los 21 archivos, los resultados deben ser un double.

In [46]:
import os

# Define la ruta de la carpeta
carpeta = r'C:\Users\jcboc\Desktop\Python 2024\TMIR\TMIR_Lab3'

# Obtiene la lista de archivos en la carpeta
archivos = os.listdir(carpeta)

# Recorre cada archivo en la carpeta
for archivo in archivos:
    # Solo procesa archivos de texto
    if archivo.endswith('.txt'):
        ruta_archivo = os.path.join(carpeta, archivo)
        
        # Abre el archivo para leer y limpiar su contenido
        with open(ruta_archivo, 'r', encoding='utf-8') as f:
            contenido = f.read()

        # Elimina el BOM y otros caracteres no deseados
        contenido_limpio = contenido.replace('\ufeff', '').strip()

        # Guarda el contenido limpio en el mismo archivo (o en un nuevo archivo si prefieres)
        with open(ruta_archivo, 'w', encoding='utf-8') as f:
            f.write(contenido_limpio)

        print(f"Limpieza completada para: {archivo}")

Limpieza completada para: D1.txt
Limpieza completada para: D10.txt
Limpieza completada para: D11.txt
Limpieza completada para: D12.txt
Limpieza completada para: D13.txt
Limpieza completada para: D14.txt
Limpieza completada para: D15.txt
Limpieza completada para: D16.txt
Limpieza completada para: D17.txt
Limpieza completada para: D18.txt
Limpieza completada para: D19.txt
Limpieza completada para: D2.txt
Limpieza completada para: D20.txt
Limpieza completada para: D21.txt
Limpieza completada para: D3.txt
Limpieza completada para: D4.txt
Limpieza completada para: D5.txt
Limpieza completada para: D6.txt
Limpieza completada para: D7.txt
Limpieza completada para: D8.txt
Limpieza completada para: D9.txt
Limpieza completada para: Expresiones_Regulares.txt


In [63]:
import re
import os

# Mapeo de nombres de meses a números
month_mapping = {
    'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5,
    'Jun': 6, 'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10,
    'Nov': 11, 'Dec': 12,
}

# Regex para diferentes formatos de fecha
date_regex = re.compile(
    r'(\d{1,2})[-/. ]?(Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec|\d{1,2})[-/. ]?(\d{2,4})|'  # Formato con mes abreviado o numérico
    r'(\d{1,2})[-/. ]?(\d{1,2})[-/. ]?(\d{2,4})'  # Formato DD/MM/YYYY o DD.MM.YYYY
)

def calculate_average_dates(folder_path):
    total_days = total_months = total_years = 0
    count = 0

    for i in range(1, 22):
        filename = f'D{i}.txt'
        file_path = os.path.join(folder_path, filename)

        if os.path.exists(file_path):
            with open(file_path, 'r') as file:
                content = file.read()

                matches = date_regex.findall(content)
                for match in matches:
                    # Para formato con mes abreviado o numérico
                    if match[0]:  # DD/MM/YYYY o DD.MM.YYYY
                        day = match[0]
                        month_str = match[1]
                        year = match[2] or match[5]  # El año puede estar en el tercer o sexto grupo

                    elif match[3]:  # Para formato con mes numérico
                        day = match[3]
                        month_str = match[4]
                        year = match[5]

                    if month_str and month_str.isdigit():  # Verifica si month_str es un número
                        month_num = int(month_str)
                    else:
                        month_num = month_mapping.get(month_str, None)

                    if month_num is None:  
                        print(f'Mes no válido encontrado: {month_str} en el archivo {filename}.')
                        continue  # Salta al siguiente archivo o fila

                    if day and year:
                        day = int(day)
                        year = int(year)

                        total_days += day
                        total_months += month_num
                        total_years += year
                        count += 1

    if count == 0:
        return None

    avg_day = total_days / count
    avg_month = total_months / count
    avg_year = total_years / count

    return avg_day, avg_month, avg_year

# Ejemplo de uso
folder_path = 'C:\\Users\\jcboc\\Desktop\\Python 2024\\TMIR\\TMIR_Lab3' 
average_dates = calculate_average_dates(folder_path)

if average_dates:
    avg_day, avg_month, avg_year = average_dates
    print(f'Día promedio: {avg_day:.2f}, Mes promedio: {avg_month:.2f}, Año promedio: {avg_year:.2f}')
else:
    print('No se encontraron fechas en los archivos.')


Día promedio: 15.62, Mes promedio: 6.47, Año promedio: 2016.69
