In [1]:
!pip install requests




[notice] A new release of pip is available: 23.1.2 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
from typing import Dict, List
from functools import reduce


# Función para limpiar las líneas del texto
def clean_lines(read_lines):
    # Eliminar caracteres no deseados de cada línea
    cleaned_lines = [
        ' '.join(word.strip(".,;:!?'\"()[]{}-—") for word in line.split())
        for line in read_lines
    ]
    return cleaned_lines

# Función de mapeo: contar palabras por longitud
def function_map(line: str) -> Dict[int, List[str]]:
    output = dict()
    words = line.split(" ")
    for word in words:
        length: int = len(word)
        if length not in output:
            output[length] = [word]
        else:
            output[length].append(word)
    return output

# Función de reducción: combinar resultados de mapeo
def function_reduce(element_a: Dict[int, List[str]], element_b: Dict[int, List[str]]) -> Dict[int, List[str]]:
    output: Dict[int, List[str]] = element_a.copy()
    for length in element_b:
        words = element_b[length]
        if length not in output:
            output[length] = element_b[length]
        else:
            for word in words:
                if word not in output[length]:
                    output[length].append(word)
    return output


In [4]:
import requests

# Obtener el contenido del enlace URL
url = 'https://gist.githubusercontent.com/jsdario/6d6c69398cb0c73111e49f1218960f79/raw/8d4fc4548d437e2a7203a5aeeace5477f598827d/el_quijote.txt'

response = requests.get(url)

# Verificar si la solicitud fue exitosa (código 200)
if response.status_code == 200:
    # Obtener el contenido de la respuesta
    print("Text retrieved successfuly")
    lines_rdd = response.text.splitlines()
else:
    print("No se pudo obtener el contenido del enlace")

Text retrieved successfuly


In [5]:
# Limpiar texto
cleaned_lines = clean_lines(lines_rdd)

# Mapeo -> [{longitud1: [palabra1, palabra2]}, {longitud2: [palabra3, palabra4]}, {longitud1: [palabra5]}]
result_map = map(function_map, cleaned_lines)
result = list(result_map)
print(result[0:2])

[{3: ['DON'], 7: ['QUIJOTE'], 2: ['DE', 'LA'], 6: ['MANCHA']}, {6: ['Miguel'], 2: ['de'], 9: ['Cervantes'], 8: ['Saavedra']}]


In [6]:
# Reduce -> {longitud1: [palabra1, palabra2, palabra5], longitud2: [palabra3, palabra4]}
result_reduced = dict(reduce(function_reduce, result))

print(result_reduced)

{3: ['DON', 'Que', 'del', 'que', 'los', 'Una', 'las', 'con', 'sus', 'una', 'ama', 'era', 'hay', 'por', 'aun', 'tan', 'tal', 'Con', 'muy', 'don', 'fin', 'pie', 'sin', 'mas', 'iba', 'él', 'Cid', 'Ruy', 'ver', 'dos', 'ser', 'son', 'oro', 'dar', 'dio', 'fue', 'mal', 'Fue', 'sí', 'mis', 'les', '¿no', 'voz', 'soy', 'mí', '¡Oh', 'uno', 'mes', 'Mas', 'ley', 'qeu', 'luz', 'faz', 'tú', 'sol', 'Don', 'non', 'nin', 'vos', 'etc', 'eso', 'pan', 'pro', 'Las', 'den', 'sea', 'vez', 'Los', 'dé', 'doy', 'Por', 'nos', 'amo', 'San', '¿de', 'Del', 'Eso', 'mil', 'jue', 'hoy', 'par', 'esa', 'ora', 'ojo', 'han', 'sé', 'gan', 'ese', 'vea', 'rey', '¡Ay', 'Gil', 'oye', 'vé', 'Uno', 'uun', 'ton', '¿No', 'van', 'sal', 'Iba', 'has', 'ves', 'voy', 'tus', 'vio', '¿yo', 'mar', 'paz', '¡oh', 'oí', 'Has', 'Tal', 'pon', 'Esa', 'pos', 'veo', 'Aun', 'Tan', 'ven', 'Dio', 'uso', 'cae', 'dan', 'Ese', 'Dam', 'Tú', 'sed', 'feo', 'fea', '¡ah', 'Ven', '¿De', 'val', 'Sí', 'Sea', '¿si', 'Sin', 'Ave', 'Vos', 'ten', 'das', '