##«*Mira y escucha. Una rosa tiembla, agitada por la brisa, y el ruiseñor le canta un himno apasionado*».
###[Omar Khayyam](https://en.wikipedia.org/wiki/Omar_Khayyam)


# SI01 Expresiones regulares

Resuelva los siguientes ejercicios con códigos que se ajusten al PEP8. Recuerde incluir los comentarios en el código y documentar las funciones con docstrings al estilo de Google.

**Descargue de [archivos datos regex](https://github.com/gabrielawad/talleresGoogleColab/tree/main/Archivo_datos/regex) el que corresponda con su número de documento de identidad**.

# Preparación del ejercicio

*   Importe las librerías requeridas
*   Lea el dataset a utilizar desde una url

**Sugerencia**: suba el dataset a un repositorio de GitHub, o al Googledrive **de su cuenta personal de gmail** y luego publíquelo en la web como un archivo *.csv. El siguiente enlace le indica cómo hacerlo: [Cómo publicar archivos de Documentos, Hojas de cálculo, Presentaciones y Formularios de Google](https://support.google.com/docs/answer/183965?hl=es-419&co=GENIE.Platform%3DDesktop).

Nota: si lo desea puede utilizar otro método para obtener la url del dataset.



In [2]:
import pandas as pd
import re
import requests

def check_library_versions():
    """
    Imprime las versiones de las librerías pandas y requests.
    """
    print("Versión de pandas:", pd.__version__)
    print("Versión de requests:", requests.__version__)


def load_dataset(url):
    """
    Carga el dataset desde la URL proporcionada.

    Args:
        url (str): La URL del dataset.

    Returns:
        pandas.DataFrame: El dataset cargado como un DataFrame de Pandas.
    """
    # Hacer una solicitud GET a la URL para obtener el contenido del archivo
    response = requests.get(url)
    
    # Leer el contenido del archivo como un DataFrame de Pandas
    dataset = pd.read_csv(url)
    
    return dataset


# URL del dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"

# Cargar el dataset
dataset = load_dataset(ruta)

# Verificar la lectura del dataset
print("Dataset cargado exitosamente:")
print(dataset.head())



Dataset cargado exitosamente:
  PYTHON 8/8/2015 http://example.com/image.png https://example.com/21 #55sr 194-229-8897 @y2tvblgzo 173.97.16.113
0  12/12/2001 https://example.com/74 681-142-9071...                                                             
1  bsanchez@icloud.com #3 54.220.113.226 http://e...                                                             
2  363-275-5531 87.120.5.187 http://example.com/i...                                                             
3  @h 140-453-8358 http://example.com/image.png 4...                                                             
4  112-567-7656 http://example.com/34 FELICIDADES...                                                             


## Ejercicio 00

Escriba un programa que lea el archivo de referencia y reporte cuántas direcciones de correo electrónico contiene en total y cuantas por cada dominio de correo electrónico.




In [3]:
import pandas as pd
import re

def count_emails_by_domain(dataset):
    """
    Cuenta cuántas direcciones de correo electrónico contiene en total el dataset
    y cuántas pertenecen a cada dominio de correo electrónico.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene las direcciones de correo electrónico.

    Returns:
        dict: Un diccionario que contiene el total de direcciones de correo electrónico y
        la cantidad por cada dominio de correo electrónico.
    """
    # Extraer todas las direcciones de correo electrónico utilizando una expresión regular
    emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', dataset.to_string())

    # Contar el total de direcciones de correo electrónico y la cantidad por cada dominio
    total_emails = len(emails)
    email_domains = {}
    for email in emails:
        domain = email.split('@')[1]
        if domain in email_domains:
            email_domains[domain] += 1
        else:
            email_domains[domain] = 1
    
    return {'total_emails': total_emails, 'emails_by_domain': email_domains}


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Contar las direcciones de correo electrónico por dominio
email_info = count_emails_by_domain(dataset)

# Imprimir resultados
print("Total de direcciones de correo electrónico:", email_info['total_emails'])
print("Direcciones por dominio:")
for domain, count in email_info['emails_by_domain'].items():
    print(f"{domain}: {count}")


Total de direcciones de correo electrónico: 28
Direcciones por dominio:
gmail.com: 5
icloud.com: 6
outlook.com: 6
hotmail.com: 6
yahoo.com: 5


## Ejercicio 01
Escriba un programa que lea el archivo de referencia y extraiga todos los números de teléfono válidos contenidos en él. Los números de teléfono válidos deben seguir el formato XXX-XXX-XXXX.

In [4]:
import pandas as pd
import re

def extract_valid_phone_numbers(dataset):
    """
    Extrae todos los números de teléfono válidos (formato XXX-XXX-XXXX) contenidos en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene los números de teléfono.

    Returns:
        list: Una lista de todos los números de teléfono válidos encontrados.
    """
    # Expresión regular para buscar números de teléfono en formato XXX-XXX-XXXX
    phone_regex = re.compile(r'\b\d{3}-\d{3}-\d{4}\b')

    # Buscar números de teléfono en el dataset y guardarlos en una lista
    valid_phone_numbers = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = phone_regex.findall(str(item))
            valid_phone_numbers.extend(matches)
    
    return valid_phone_numbers


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer los números de teléfono válidos
valid_phone_numbers = extract_valid_phone_numbers(dataset)

# Imprimir los números de teléfono válidos encontrados
print("Números de teléfono válidos encontrados:")
for phone_number in valid_phone_numbers:
    print(phone_number)


Números de teléfono válidos encontrados:
681-142-9071
363-275-5531
140-453-8358
112-567-7656
483-723-2549
477-559-7177
504-901-6937
573-119-9105
422-528-9779
311-779-5408
255-542-7038
639-832-1520
145-419-6619
911-833-3957
157-939-6417
729-799-7556
178-740-9039
275-439-2028
361-706-6279
338-851-8469
160-715-3351
733-517-6495
592-666-2985
102-888-3038
121-287-2813
338-910-8443
586-939-8780
126-265-9274
570-275-5572
793-170-8344
324-708-4864
637-156-9419
930-907-7406


## Ejercicio 02

Escriba un programa que lea el archivo de referencia y extraiga todas las fechas válidas contenidas. Las fechas válidas deben estar en formato "DD/MM/AAAA".


In [5]:
import pandas as pd
import re

def extract_valid_dates(dataset):
    """
    Extrae todas las fechas válidas (formato DD/MM/AAAA) contenidas en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene las fechas.

    Returns:
        list: Una lista de todas las fechas válidas encontradas.
    """
    # Expresión regular para buscar fechas en formato DD/MM/AAAA
    date_regex = re.compile(r'\b\d{2}/\d{2}/\d{4}\b')

    # Buscar fechas en el dataset y guardarlas en una lista
    valid_dates = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = date_regex.findall(str(item))
            valid_dates.extend(matches)
    
    return valid_dates


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer las fechas válidas
valid_dates = extract_valid_dates(dataset)

# Imprimir las fechas válidas encontradas
print("Fechas válidas encontradas:")
for date in valid_dates:
    print(date)


Fechas válidas encontradas:
12/12/2001
12/10/1959
19/11/2006
10/12/1951
25/10/2021
28/12/1966
18/10/1993


## Ejercicio 03

Escriba un programa que lea el archivo de referencia y extraiga todas las URLs válidas . Las URLs válidas deben comenzar con "http://" o "https://".

In [6]:
import pandas as pd
import re

def extract_valid_urls(dataset):
    """
    Extrae todas las URLs válidas (comenzando con "http://" o "https://") contenidas en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene las URLs.

    Returns:
        list: Una lista de todas las URLs válidas encontradas.
    """
    # Expresión regular para buscar URLs que comienzan con "http://" o "https://"
    url_regex = re.compile(r'\b(?:https?://)\S+\b')

    # Buscar URLs en el dataset y guardarlas en una lista
    valid_urls = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = url_regex.findall(str(item))
            valid_urls.extend(matches)
    
    return valid_urls


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer las URLs válidas
valid_urls = extract_valid_urls(dataset)

# Imprimir las URLs válidas encontradas
print("URLs válidas encontradas:")
for url in valid_urls:
    print(url)


URLs válidas encontradas:
https://example.com/74
http://example.com/image.jpg
http://example.com/45
http://example.com/image.png
https://example.com/19
http://example.com/image.png
http://example.com/34
http://example.com/image.jpg
http://example.com/image.png
https://example.com/62
http://example.com/image.jpg
https://example.com/41
http://example.com/13
http://example.com/image.gif
http://example.com/50
https://example.com/84
http://example.com/image.png
http://example.com/29
http://example.com/image.png
http://example.com/20
http://example.com/image.jpg
http://example.com/image.gif
http://example.com/image.gif
https://example.com/89
http://example.com/image.png
https://example.com/61
http://example.com/image.jpg
http://example.com/image.jpg
http://example.com/9
http://example.com/image.png
http://example.com/image.jpg
http://example.com/56
http://example.com/52
http://example.com/image.gif
https://example.com/12
http://example.com/image.jpg
http://example.com/98
http://example.com/i

## Ejercicio 04

Escriba un programa que lea el archivo de referencia y extraiga todas las direcciones IP válidas. Las direcciones IP válidas deben seguir el formato "XXX.XXX.XXX.XXX", donde cada parte puede tener uno, dos o tres dígitos.

In [7]:
import pandas as pd
import re

def extract_valid_ips(dataset):
    """
    Extrae todas las direcciones IP válidas (formato XXX.XXX.XXX.XXX) contenidas en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene las direcciones IP.

    Returns:
        list: Una lista de todas las direcciones IP válidas encontradas.
    """
    # Expresión regular para buscar direcciones IP en formato XXX.XXX.XXX.XXX
    ip_regex = re.compile(r'\b(?:\d{1,3}\.){3}\d{1,3}\b')

    # Buscar direcciones IP en el dataset y guardarlas en una lista
    valid_ips = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = ip_regex.findall(str(item))
            valid_ips.extend(matches)
    
    return valid_ips


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer las direcciones IP válidas
valid_ips = extract_valid_ips(dataset)

# Imprimir las direcciones IP válidas encontradas
print("Direcciones IP válidas encontradas:")
for ip in valid_ips:
    print(ip)


Direcciones IP válidas encontradas:
54.220.113.226
87.120.5.187
42.193.145.126
125.198.111.151
127.138.30.224
145.62.106.69
126.2.50.27
180.49.53.21
225.196.187.112
4.194.94.194
86.221.6.174
8.62.36.226
142.95.12.63
189.246.188.179
152.75.39.67
94.83.15.80
179.155.220.147
2.40.224.250
219.204.108.13
251.242.92.244
12.30.66.144
220.62.13.47
25.197.102.175
25.45.48.252
61.234.47.170
61.45.151.204
243.143.223.142


## Ejercicio 05

Escriba un programa que lea el archivo de referencia y extraiga todos los hashtags. Los hashtags deben comenzar con el símbolo "#" y pueden contener letras, números y guiones bajos.

In [9]:
import pandas as pd
import re

def extract_hashtags(dataset):
    """
    Extrae todos los hashtags contenidos en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene los hashtags.

    Returns:
        list: Una lista de todos los hashtags encontrados.
    """
    # Expresión regular para buscar hashtags
    hashtag_regex = re.compile(r'#\w+')

    # Buscar hashtags en el dataset y guardarlos en una lista
    hashtags = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = hashtag_regex.findall(str(item))
            hashtags.extend(matches)
    
    return hashtags


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer los hashtags
hashtags = extract_hashtags(dataset)

# Imprimir los hashtags encontrados
print("Hashtags encontrados:")
for hashtag in hashtags:
    print(hashtag)


Hashtags encontrados:
#3
#prkbqpxa
#mx8
#93r6nq
#94x_1mazry
#99hhqfpg1
#v8knn
#3ck7
#e0td6ir72
#f_ux4_n95
#_ir5ttq
#7cl
#9giemu
#0g6s
#6i
#u6j2if
#pr41hu
#1c
#3lc8894bb
#czc8nth23d
#r45vd4c
#fi10v8ba7
#uo3f
#uo4
#4
#a0gt
#97j0h4
#8rc1fz1tf
#x1bloy
#dp


## Ejercicio 06

Escriba un programa que lea el archivo de referencia y extraiga todos los nombres de usuario válidos de X. Los nombres de usuario válidos deben comenzar con el símbolo "@" y pueden contener letras, números y guiones bajos.

In [16]:
import pandas as pd
import re

def extract_valid_usernames(dataset):
    """
    Extrae todos los nombres de usuario válidos (comenzando con "@" y pueden contener letras, números y guiones bajos)
    contenidos en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene los nombres de usuario.

    Returns:
        list: Una lista de todos los nombres de usuario válidos encontrados.
    """
    # Expresión regular ajustada para buscar nombres de usuario válidos
    username_regex = re.compile(r'\B@\w+\b')

    # Buscar nombres de usuario en el dataset y guardarlos en una lista
    valid_usernames = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = username_regex.findall(str(item))
            valid_usernames.extend(matches)
    
    return valid_usernames


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer los nombres de usuario válidos
valid_usernames = extract_valid_usernames(dataset)

# Imprimir los nombres de usuario válidos encontrados
print("Nombres de usuario válidos encontrados:")
for username in valid_usernames:
    print(username)


Nombres de usuario válidos encontrados:
@l
@581kn11
@h
@_2gs9
@88me_irie
@bs80jef4b_
@11wl3uewh5
@rei9ank055
@h99_
@zd43nc_sxd
@eqwl4
@c
@r5m0
@14d
@ajhown
@ia_7q55
@bih1v
@7xz92t
@84ot
@ng6vs08i
@50guc3_
@k36p1cn
@t719d9
@_ms1x
@ao7epc9
@3p8sj16cpj
@bn
@9e4
@he6hr
@zp7qa


## Ejercicio 07

Escriba un programa que lea el archivo de referencia y extraiga todas las URLs de imágenes válidas. Las URLs de imágenes válidas pueden terminar en extensiones comunes como ".jpg", ".png" o ".gif".

In [17]:
import pandas as pd
import re

def extract_valid_image_urls(dataset):
    """
    Extrae todas las URLs de imágenes válidas (terminadas en extensiones comunes como ".jpg", ".png" o ".gif")
    contenidas en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene las URLs de imágenes.

    Returns:
        list: Una lista de todas las URLs de imágenes válidas encontradas.
    """
    # Expresión regular para buscar URLs de imágenes válidas
    image_url_regex = re.compile(r'\bhttps?://\S+\.(?:jpg|png|gif)\b')

    # Buscar URLs de imágenes en el dataset y guardarlas en una lista
    valid_image_urls = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = image_url_regex.findall(str(item))
            valid_image_urls.extend(matches)
    
    return valid_image_urls


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer las URLs de imágenes válidas
valid_image_urls = extract_valid_image_urls(dataset)

# Imprimir las URLs de imágenes válidas encontradas
print("URLs de imágenes válidas encontradas:")
for image_url in valid_image_urls:
    print(image_url)


URLs de imágenes válidas encontradas:
http://example.com/image.jpg
http://example.com/image.png
http://example.com/image.png
http://example.com/image.jpg
http://example.com/image.png
http://example.com/image.jpg
http://example.com/image.gif
http://example.com/image.png
http://example.com/image.png
http://example.com/image.jpg
http://example.com/image.gif
http://example.com/image.gif
http://example.com/image.png
http://example.com/image.jpg
http://example.com/image.jpg
http://example.com/image.png
http://example.com/image.jpg
http://example.com/image.gif
http://example.com/image.jpg
http://example.com/image.png
http://example.com/image.jpg
http://example.com/image.png
http://example.com/image.png
http://example.com/image.gif
http://example.com/image.gif
http://example.com/image.png
http://example.com/image.gif
http://example.com/image.jpg
http://example.com/image.jpg
http://example.com/image.gif


## Ejercicio 08

Escriba un programa que lea el archivo de referencia y extraiga los números de los documentos de identidad. Un número de documento de identidad válido es una cadena de siete números seguidos que no contiene comas ni puntos.

In [18]:
import pandas as pd
import re

def extract_valid_id_numbers(dataset):
    """
    Extrae todos los números de documentos de identidad válidos (cadenas de siete números seguidos que no contienen comas ni puntos)
    contenidos en el dataset.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene los números de documentos de identidad.

    Returns:
        list: Una lista de todos los números de documentos de identidad válidos encontrados.
    """
    # Expresión regular para buscar números de documentos de identidad válidos
    id_number_regex = re.compile(r'\b\d{7}\b')

    # Buscar números de documentos de identidad en el dataset y guardarlos en una lista
    valid_id_numbers = []
    for row in dataset.itertuples(index=False):
        for item in row:
            matches = id_number_regex.findall(str(item))
            valid_id_numbers.extend(matches)
    
    return valid_id_numbers


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Extraer los números de documentos de identidad válidos
valid_id_numbers = extract_valid_id_numbers(dataset)

# Imprimir los números de documentos de identidad válidos encontrados
print("Números de documentos de identidad válidos encontrados:")
for id_number in valid_id_numbers:
    print(id_number)


Números de documentos de identidad válidos encontrados:
2170167
8881133
4006873
5852594
0332444
5998339
4824913
7227667
0235124
6502801
1831573
7508113
6731713
0474308
7961657
5255039
9284882
2964886
9219538
0616371
7650049
5765875
1259944
7032827
5724845
1383196
2072191
7455805
7910614
2301230


## Ejercicio 09

Escriba un programa que lea el archivo de referencia y reporte cuántas palabras en mayúsculas contiene y cuántas veces aparece cada palabra.


In [19]:
import pandas as pd
import re
from collections import Counter

def count_uppercase_words(dataset):
    """
    Cuenta cuántas palabras en mayúsculas contiene el dataset y cuántas veces aparece cada una.

    Args:
        dataset (pandas.DataFrame): El dataset que contiene las palabras en mayúsculas.

    Returns:
        dict: Un diccionario que contiene las palabras en mayúsculas como clave y su frecuencia como valor.
    """
    # Expresión regular para buscar palabras en mayúsculas
    uppercase_word_regex = re.compile(r'\b[A-Z]+\b')

    # Buscar palabras en mayúsculas en el dataset y contar su frecuencia
    all_words = ' '.join(dataset.apply(lambda x: ' '.join(map(str, x)), axis=1))
    uppercase_words = uppercase_word_regex.findall(all_words)
    return dict(Counter(uppercase_words))


# Cargar el dataset
ruta = "https://raw.githubusercontent.com/gabrielawad/talleresGoogleColab/main/Archivo_datos/regex/regex_1146443000.csv"
dataset = pd.read_csv(ruta)

# Contar las palabras en mayúsculas y su frecuencia
uppercase_words_count = count_uppercase_words(dataset)

# Imprimir el resultado
print("Palabras en mayúsculas encontradas y su frecuencia:")
for word, count in uppercase_words_count.items():
    print(f"{word}: {count}")


Palabras en mayúsculas encontradas y su frecuencia:
CASA: 4
PYTHON: 2
FELICIDADES: 6
AMOR: 2
EJEMPLO: 2
FAMILIA: 4
PAZ: 4
