## Parte técnica de la evaluación

In [5]:
# primeros parrafos de la entrada de wikipedia
texto_ejemplo = """Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.[28]
Python is dynamically typed and garbage-collected. It supports multiple programming paradigms, including structured (particularly, procedural), object-oriented and functional programming. Python is often described as a "batteries included" language due to its comprehensive standard library.[29]
Python was created in the late 1980s, and first released in 1991, by Guido van Rossum as a successor to the ABC programming language. Python 2.0, released in 2000, introduced new features, such as list comprehensions, and a garbage collection system with reference counting, and was discontinued with version 2.7 in 2020.[30] Python 3.0, released in 2008, was a major revision of the language that is not completely backward-compatible and much Python 2 code does not run unmodified on Python 3. With Python 2's end-of-life, only Python 3.6.x[31] and later are supported, with older versions still supporting e.g. Windows 7 (and old installers not restricted to 64-bit Windows).
Python interpreters are supported for mainstream operating systems and available for a few more (and in the past supported many more). A global community of programmers develops and maintains CPython, a free and open-source[32] reference implementation. A non-profit organization, the Python Software Foundation, manages and directs resources for Python and CPython development.
As of December 2020 Python ranked third in TIOBE’s index of most popular programming languages, behind C and Java.[33] """

In [28]:
## funciones base
import re
# separación de la entrada en parrafos
def separar_en_parrafos(texto, fin_parrafo = '\n'):
    """separa el texto en parrafos, usando el separador (default a \n)
    
    :texto str: texto inicial.
    :fin_parrafo str: cadena usada para detectar finales de parrafo, default '\n'
    return list[str]: lista de strings, cada elemento es un parrafo
    """
    parrafos = texto.split(fin_parrafo)
    return parrafos
# extracción de patrones
def extraccion_patron(corpus, patron):
    '''extrae extrae todas las subcadenas que cumplen el patron en cada uno de los parrafos.

    :corpus list[str]: corpus de los parrafos
    :patron str: patron a buscar en cada parrafo, e.g. cifras (r'\d+'), palabras en mayusculas (r'[A-Z]+')
    :return list[list[int, list[str]]]: cada sublista contiene el indice del parrafo como primer elemento, y las subcadenas encontradas en la segunda entrada
    '''
    salida = []
    # iteracción
    for indice, parrafo in enumerate(corpus):
        # busca el patrón
        encuentros = re.findall(patron, parrafo)
        # añade los descubrimientos:
        if(len(encuentros) >= 1):
            # si encuentra el patrón, lo añade a la salida
            salida.append([indice, encuentros])
    return salida
# extracción de patrones
def deteccion_patron(corpus, patron):
    '''detecta los parrafos que cumplen un patrón

    :corpus list[str]: corpus de los parrafos
    :patron str: patron a buscar en cada parrafo
    :return list[list[int, str]]: lista donde cada entrada es una lista, indice y parrafo, de los parrafos que cumplen el patrón,
    '''
    # inicializo la lista de salida
    salida = []
    # iteracuión
    for indice, parrafo in enumerate(corpus):
        # busca el patron
        encuentros = re.findall(patron, parrafo)
        # añade los descubrimientos, indice y parrafo
        if(len(encuentros) >= 1):
            salida.append([indice, parrafo])
    return salida
# simplificación de un corpus transformado
def simplificar(corpus_transformado, tipo):
    """simplifica un resultado, devuelve una lista con los indices, o con los valores

    :corpus_transformado list[list[int, list[str]]]: resultado de una operación al corpus
    :tipo str: tipo de simplificación, puede ser indice o valor, default a valor
    : return
    """
    if (tipo == 'indice'):
        salida = [subelemento[0] for subelemento in corpus_transformado]
    else:  
        salida = [subelemento[1] for subelemento in corpus_transformado]
    # salida
    return salida

In [2]:
# aprovechando las funciones base podemos crear otras que detecten si un patrón existe en un corpus, o extraer esos patrones

In [13]:
# detectar cifras
def extraer_cifras(corpus):
    return extraccion_patron(corpus, r'\d+')
# detectar palabras en mayusculas
def extraer_palabras_en_mayusculas(corpus):
    return extraccion_patron(corpus, patron = r'[A-Z]+')
# detectar palabras que inician con mayusculas
def extraer_palabras_que_empiezan_en_mayusculas(corpus):
    return extraccion_patron(corpus, patron = r'[A-Z][a-z]+')
# detectar frases entre parentesis
def extraer_palabras_entre_parentesis(corpus):
    return extraccion_patron(corpus, patron = r'\(.+\)')

In [25]:
# pruebo las funciones
# separación en parrafos
corpus_ejemplo = separar_en_parrafos(texto_ejemplo)
#
# print(extraer_cifras(corpus_ejemplo))
# print(extraer_palabras_que_empiezan_en_mayusculas(corpus_ejemplo))
# print(extraer_palabras_en_mayusculas(corpus_ejemplo))
print(extraer_palabras_entre_parentesis(corpus_ejemplo))

[[1, ['(particularly, procedural)']], [2, ['(and old installers not restricted to 64-bit Windows)']], [3, ['(and in the past supported many more)']]]


In [21]:
# del mismo modo se pueden crear funciones que detecten si el parrafo contiene el patrón

In [22]:
# detectar cifras
def detectar_cifras(corpus):
    return deteccion_patron(corpus, r'\d+')
# detectar palabras en mayusculas
def detectar_palabras_en_mayusculas(corpus):
    return deteccion_patron(corpus, patron = r'[A-Z]+')
# detectar palabras que inician con mayusculas
def detectar_palabras_que_empiezan_en_mayusculas(corpus):
    return deteccion_patron(corpus, patron = r'[A-Z][a-z]+')
# detectar frases entre parentesis
def detectar_palabras_entre_parentesis(corpus):
    return deteccion_patron(corpus, patron = r'\(.+\)')

In [24]:
#
print(detectar_cifras(corpus_ejemplo))
# print(detectar_palabras_que_empiezan_en_mayusculas(corpus_ejemplo))
# print(detectar_palabras_en_mayusculas(corpus_ejemplo))
# print(detectar_palabras_entre_parentesis(corpus_ejemplo))

[[0, "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.[28]"], [1, 'Python is dynamically typed and garbage-collected. It supports multiple programming paradigms, including structured (particularly, procedural), object-oriented and functional programming. Python is often described as a "batteries included" language due to its comprehensive standard library.[29]'], [2, "Python was created in the late 1980s, and first released in 1991, by Guido van Rossum as a successor to the ABC programming language. Python 2.0, released in 2000, introduced new features, such as list comprehensions, and a garbage collection system with reference counting, and was discontinued with version 2.7 in 2020.[30] Python 3.0, released in 2008, w

In [34]:
# simplificación de resultadoss
parrafos_completos_parentesis = extraer_palabras_entre_parentesis(corpus_ejemplo)
parrafos_cifras = detectar_cifras(corpus_ejemplo)
#
print(simplificar(parrafos_completos_parentesis, tipo = 'valor'))
print(simplificar(parrafos_cifras, tipo = 'indice'))


[['(particularly, procedural)'], ['(and old installers not restricted to 64-bit Windows)'], ['(and in the past supported many more)']]
[0, 1, 2, 3, 4]


# Extensión por parte del un usuario futuro

Aprovechando `extraccion_patron` y `deteccion_patron` se pueden crear más funciones, que extraigan o detecten (filtren), la clave es usar el patrón adecuado:

#### Base para extraer subcadenas que cumplen algún patrón:
```
def extract_<algo>(corpus, patron):
    return extraccion_patron(corpus, patron)
```
#### Base para detectar parrafos que cumplen un patrón:
```
def detectar_<algo>(corpus, patron):
    return deteccion_patron(corpus, patron)
```

In [1]:
type("amarillo")

str