<img src="https://drive.google.com/uc?export=view&id=1pWL34MWc1rS0peIekOBe8GGBIEUFPyrG" width="100%">

# **Taller 1: Web Scraping**
---
En este taller se evaluarán las habilidades adquiridas en manejo de archivos, manipulación de _strings_ y la obtención de textos a partir de un **HTML** (_WebScraping_) tal y como se realizó en el taller guiado de obtención de textos desde _Python_.

En este caso, usted deberá realizar algunas operaciones de extracción de información y manejo de textos a partir de una página web dada que trata la lista de laureados del premio [Nobel de fisica] (https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Physics) en Wikipedia.

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1K1hdWTnc4DbRJEDAR4vfO6IdJotczkxt" alt = "Ganadores Nobel" width = "95%">  
  </img>
</center>

Ejecute la siguiente celda para importar las librerías que permiten la ejecución del código que se desarrolle posteriormente.

In [None]:
import bs4
from IPython.display import HTML

## **Carga de Datos**

Para este primer ejercicio, debe cargar un archivo **HTML** como un fichero y realizar el código requerido para convertirlo a `beautifulsoup` para así poder analizar la información contenida en la página web en los siguientes ejercicios.

Primero, cargaremos el archivo **HTML** en un documento llamado `Nobel.html` que se almacenará localmente:

In [None]:
#TEST_CELL -> actualizar
!wget 'https://drive.google.com/uc?export=view&id=1lqKGNpX8H1mJib4LTEfe1PYMWh_CZSfn' -O Nobel.html

La siguiente celda permite visualizar el archivo `.html` dentro del notebook con las imágenes y los enlaces embebidos.

In [None]:
#TEST_CELL
HTML(filename="Nobel.html")

Leeremos el archivo recién descargado y, a partir de este, crearemos la variable `soup` que contendrá dicho documento **HTML** como un objeto `BeautifulSoup` con la finalidad de utilizarlo posteriormente.

In [None]:
with open("Nobel.html") as f:
    raw_data = f.read()
    soup = bs4.BeautifulSoup(raw_data)

## **1. Extracción de Headings**
---

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1Z60tdIdTJ11xUE0NCSbbbHFGjQmJGHFg" alt = "Headers Página" width = "95%">  
  </img>
</center>

Para este primer ejercicio, debe completar la función `get_headings` con un código válido que retorne una lista que contenga **todos** los nombres de las secciones (_headers_) del archivo **HTML** que sean del **nivel indicado**, por ejemplo, todos los títulos con la etiqueta `<h2>`.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `head_n`: número entero que indica el nivel del título requerido.

**Retorna**

* `results`: lista cuyos elementos son _strings_ que indican los nombres de los _headers_ pertenecientes al nivel del título señalado con `head_n`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Recuerde que los objetos que provengan de la librería `bs4` (`BeautifulSoup`) contienen el método _`find_all(query)`_ el cual permite filtrar el contenido y obtener _todas_ las coincidencias según lo indicado en el parámetro _`query`_.
* No debe confundir el método _`find`_ con el indicado en la pista anterior. A diferencia de este último, el método _`find`_ devuelve el primer elemento de la etiqueta dada. Para desarrollar correctamente el ejercicio, se debe analizar solamente el ***contenido*** sobre los laureados del premio Nobel de fisica que contiene la página; en el caso de Wikipedia, esta sección tiene un `id` único y específico.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_headings:

def get_headings(soup, head_n):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    results = None


    return results
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
print(get_headings(soup, 1))

**Salida esperada:**

* En este primer ejemplo, se retornan todos los títulos que sean de nivel 1 que, en el caso de Wikipedia, solo incluye el título del contenido.

```python
print(get_headings(soup, 1))
```
> `['Anexo:Ganadores del Premio Nobel de Física']`

In [None]:
#TEST_CELL
print(get_headings(soup, 2))

**Salida esperada:**

* Para el segundo ejemplo, se retornan todos los títulos que sean de nivel 2.

```python
print(get_headings(soup, 2))
```
> `['Galardonados', 'Galardonados por país', 'Véase también', 'Referencias', 'Enlaces externos']`

## **2. Extracción de Texto en un ID**
---
Para este ejercicio, debe completar la función `get_text` con un código válido que retorne una cadena de texto que incluya todo el contenido de una sección indicada del archivo **HTML**.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.

**Retorna**

* `content`: cadena de texto que contiene el contenido de la sección indicada por el parámetro `id`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Tenga en cuenta que `content` debe ser una **cadena de texto** que contenga **solamente** el contenido de la sección indicada, es decir, el resultado _no_ debe incluir las etiquetas ni el formato **HTML** que englobe a la división. Para esto se puede usar la función `get_text()`.
* Recuerde que la función _`find`_ obtiene la primera coincidencia de la etiqueta dada. Como los _id_ en **HTML** son únicos, puede resultar más fácil filtrar por este método.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_text:

def get_text(soup, id):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    content = None


    return content
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
print(get_text(soup, "firstHeading"))

**Salida esperada:**

* En el ejemplo, la función retorna el titulo de la pagina que está identificada con el _id_ `firstHeading` en forma de _string_.

```python
print(get_text(soup, "firstHeading"))
```
`Anexo:Ganadores del Premio Nobel de Física`


In [None]:
#TEST_CELL
print(get_text(soup, "footer"))

**Salida esperada:**

* La función retorna el contenido en bruto de la sección que está identificada con el _id_ `footer`.

```python
print(get_text(soup, "footer"))
```
> <br>Esta página se editó por última vez el 5 feb 2025 a las 06:26.
El texto está disponible bajo la Licencia Creative Commons Atribución-CompartirIgual 4.0; pueden aplicarse cláusulas adicionales. Al usar este sitio aceptas nuestros términos de uso y nuestra política de privacidad.Wikipedia® es una marca registrada de la Fundación Wikimedia, una organización sin ánimo de lucro.<br>
<br><br>
<br><br>
<br>Política de privacidad<br>
<br>Acerca de Wikipedia<br>
<br>Limitación de responsabilidad<br>
<br>Código de conducta<br>
<br>Desarrolladores<br>
<br>Estadísticas<br>
<br>Declaración de cookies<br>
<br>Versión para móviles<br>
<br>Edita configuración de previsualizaciones<br>

In [None]:
#TEST_CELL
print(get_text(soup, "bodyContent")[:1000])

**Salida esperada:**

* Por último, la función retorna los primeros 1000 caracteres en bruto del contenido de la sección identificada con el _id_ `bodyContent`.

```python
print(get_text(soup, "bodyContent")[:1000])
```
> <br><br>
<br><br>
<br><br>
<br><br>
<br><br>
<br>De Wikipedia, la enciclopedia libre<br>
<br><br>
<br><br>
<br>El Premio Nobel de Física fue establecido en el testamento de 1895 del químico sueco Alfred Nobel.<br>
<br>El Premio Nobel de Física (en sueco: Nobelpriset i fysik) es entregado anualmente por la Academia Sueca a «científicos que sobresalen por sus contribuciones en el campo de la física». Es uno de los cinco premios Nobel establecidos en el testamento de Alfred Nobel, en 1895, y que son dados a todos aquellos individuos que realizan contribuciones notables en la química, la física, la literatura, la paz y la fisiología o medicina.[1]​
Según lo dictado por el testamento de Nobel, este reconocimiento es administrado directamente por la Fundación Nobel y concedido por un comité conformado por cinco miembros que son elegidos por la Real Academia Sueca de las Ciencias.[2]​ El primer Premio Nobel de Física fue otorgado en 1901 a Wilhelm Conrad Röntgen, de Alemania. Cada destinatario recibe una medalla, un diploma y un premio económico que ha variado a lo l<br>

## **3. Normalización del Texto**
---
En este ejercicio se busca _normalizar_ el texto, lo que implica un proceso de transformación del mismo para estandarizarlo y hacerlo consistente antes de realizar operaciones complejas sobre este. Debe completar la función `normalize` con un código válido que retorne una cadena que incluya todo el contenido _normalizado_ de una sección indicada del archivo **HTML**. La función `normalize` debe tener en cuenta los siguientes requerimientos para la normalización:

<ol>
<li>Extraer un fragmento de texto a partir de un <i>id</i>, como se realizó en el ejercicio anterior.</li>
<li>La cadena de texto entrante debe ser separada por cada salto de línea que se encuentre.</li>
<li>Todo el texto debe estar en <b>minúsculas</b>.</li>
<li>Se deben eliminar los espacios en blanco al inicio y al final de cada línea.</li>
<li>En la cadena de texto resultante, cada línea diferente de la cadena original se une por espacios para así formar un <i>string</i> de una sola línea.</li>
</ol>

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.

**Retorna**

* `strip_text`: cadena de texto que contiene el contenido _normalizado_ de la sección indicada por el parámetro `id`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* _Python_ provee una función para las cadenas que permite su conversión a minúsculas; la misma retorna un _string_ con la transformación realizada, su sintaxis es la siguiente:
    ```python
    text.lower()
    ```
* Existe otra función que puede ayudarle en este ejercicio llamada _`split`_. La misma separa una cadena de texto indicada en un lugar en concreto; este puede ser definido por el usuario pasando un caracter o un _substring_ como argumento en el parámetro `char`, en caso contrario, se separará la cadena por espacios por defecto. Su sintaxis es la siguiente:
    ```python
    text.split(char)
    ```
Cabe resaltar que esta función retorna una lista de _tokens_ donde cada uno de estos corresponde a los segmentos de texto que hay entre la aparición de un caracter separador y otro. En caso de que utilice este método, debe **unir** estos _tokens_ según los requerimientos de normalización dados para retornar un solo _string_.
* Puede tomar la función del ejercicio anterior (`get_text`) y, a partir del resultado de la misma, empezar a trabajar en este ejercicio. Recuerde que la función `get_text` retorna una cadena de texto.

</details>

In [None]:
# FUNCIÓN CALIFICADA normalize:

def normalize(soup, id):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    strip_text = None


    return strip_text
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
print(normalize(soup, "vector-toc-pinned-container"))

**Salida esperada:**

* En el ejemplo, la función retorna el temario de la pagina _normalizada_ que está identificada con el _id_ `vector-toc-pinned-container`.

```python
print(get_text(soup, "vector-toc-pinned-container"))
```

>`   contenidos mover a la barra lateral ocultar     inicio      1 galardonados         2 galardonados por país         3 véase también         4 referencias         5 enlaces externos        `

In [None]:
#TEST_CELL
print(normalize(soup, "footer"))

**Salida esperada:**
* La función retorna el contenido _normalizado_ de la sección que está identificada con el _id_ `footer`.

```python
print(get_text(soup, "footer"))
```

>`'  esta página se editó por última vez el 5 feb 2025 a las 06:26. el texto está disponible bajo la licencia creative commons atribución-compartirigual 4.0; pueden aplicarse cláusulas adicionales. al usar este sitio aceptas nuestros términos de uso y nuestra política de privacidad.wikipedia® es una marca registrada de la fundación wikimedia, una organización sin ánimo de lucro.   política de privacidad acerca de wikipedia limitación de responsabilidad código de conducta desarrolladores estadísticas declaración de cookies versión para móviles edita configuración de previsualizaciones     '`

In [None]:
#TEST_CELL
print(normalize(soup, "bodyContent")[:1000])

**Salida esperada:**
* En este último ejemplo, la función retorna los primeros 1000 caracteres del contenido de la sección identificada con el _id_ `bodyContent`.

```python
print(get_text(soup, "bodyContent")[:1000])
```

>`'     de wikipedia, la enciclopedia libre   el premio nobel de física fue establecido en el testamento de 1895 del químico sueco alfred nobel. el premio nobel de física (en sueco: nobelpriset i fysik) es entregado anualmente por la academia sueca a «científicos que sobresalen por sus contribuciones en el campo de la física». es uno de los cinco premios nobel establecidos en el testamento de alfred nobel, en 1895, y que son dados a todos aquellos individuos que realizan contribuciones notables en la química, la física, la literatura, la paz y la fisiología o medicina.[1]​ según lo dictado por el testamento de nobel, este reconocimiento es administrado directamente por la fundación nobel y concedido por un comité conformado por cinco miembros que son elegidos por la real academia sueca de las ciencias.[2]​ el primer premio nobel de física fue otorgado en 1901 a wilhelm conrad röntgen, de alemania. cada destinatario recibe una medalla, un diploma y un premio económico que ha variado a lo l
'`

## **4. Eliminación de Palabras**
---

En este ejercicio debe realizar una eliminación de palabras con la finalidad de extraer la información relevante del texto y limpiar el mismo de palabras poco informativas a nivel léxico. Debe completar la función `delete_words` con un código válido que retorne una cadena que incluya todo el contenido _limpio_ de una sección indicada del archivo **HTML**. Para dar con la respuesta correcta, adicionalmente debe seguir los siguientes pasos para realizar la eliminación de las palabras:

<ol>

<li> Normalizar el texto de la sección indicada. </li>
<li> La cadena de texto a analizar debe separarse por espacios para poder obtener a los <i>tokens</i>. </li>
<li> Las palabras deben estar filtradas por un <i>rango de longitud</i>. </li>
<li> Se deben eliminar palabras de una lista dada y <b>no</b> arbitrariamente.</li>
<li> Los <i>tokens</i> de la cadena de texto resultante deben estar unidos por espacios para formar la cadena de texto de salida. </li>
    
</ol>

<center>
<img src = "https://drive.google.com/uc?export=view&id=1I3pjiAMCrchVYybNbStRcEM0a7S1tcK5" alt = "Cadenas con formato" width = "80%">  </img>
</center>

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.
* `min_len`: número entero que indica el límite inferior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `max_len`: número entero que indica el límite superior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `stops`: lista cuyos elementos son _strings_ o _tokens_ los cuales deben ser los que se eliminen de la cadena de texto.

**Retorna**

* `resulting_tokens`: cadena de texto que contiene el contenido de la sección indicada luego de la _eliminación de palabras_.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Esta función está basada en la utilización de **filtros**. Estos los puede realizar con sentencias `if` tradicionales, o bien, utilizar la función de _Python_ `filter`, la cual retorna un iterable con los elementos que retornen `True` a una función dada. Su sintaxis es la siguiente:
    ```python
    filter(function, iterable)
    ```

    El parámetro `function` recibe una función que retorne `True` o `False` (función _booleana_) y esta es la que permite evaluar si los elementos del parámetro `iterable` cumplen con la condición de la función o no.
    
* Para cumplir con el quinto paso dado en el enunciado del ejercicio, puede unir a los _tokens_ que estén almacenados en una lista con la función `join`:
    ```python
    string.join(iterable)
    ```

    Donde el parámetro `string` es el separador requerido (en este caso y siguiendo el inciso número 2, este debería ser un espacio `" "`) y el parámetro `iterable` es la lista que contiene a los _tokens_ a unir.
</details>

In [None]:
# FUNCIÓN CALIFICADA delete_words:

def delete_words(soup, id, min_len, max_len, stops):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    resulting_tokens = None


    return resulting_tokens
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del"]
print(delete_words(soup, "vector-toc-pinned-container", 1, 23, stops))

**Salida esperada:**

* En el ejemplo, la función retorna la tabla de contenido, que está identificada con el _id_ `toc`, se eliminan los caracteres _["de", "la", "a", "del"]_ y la longitud de cada _token_ debe estar entre 1 y 23 caracteres.

```python
stops = ["de", "la", "a", "del"]
print(delete_words(soup, "vector-toc-pinned-container", 1, 23, stops))
```

> `'contenidos mover barra lateral ocultar inicio 1 galardonados 2 galardonados por país 3 véase también 4 referencias 5 enlaces externos
'`

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
print(delete_words(soup, "footer", 3, 10, stops))

**Salida esperada:**
* En este caso, la función retorna el contenido del pie de pagina, que está identificada con el _id_ `footer`, se eliminan los artículos _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del"]
print(delete_words(soup, "footer", 3, 10, stops))
```

> `'esta página editó última vez feb 2025 06:26. texto está disponible bajo licencia creative commons 4.0; pueden aplicarse cláusulas usar este sitio aceptas nuestros términos uso nuestra política una marca registrada fundación wikimedia, una sin ánimo lucro. política privacidad acerca wikipedia limitación código conducta cookies versión para móviles edita'`

## **5. Conteo de un Listado de Nombres Sobre un Párrafo**
---
En este ejercicio se requiere realizar un conteo de la cantidad de palabras dadas que se encuentren dentro de un texto en particular, para ello, debe completar la función `count_words` con un código válido que retorne un diccionario que contenga como llave la _palabra_ deseada y como valor la _cantidad_ de ocurrencias que la palabra tiene dentro de una sección indicada del archivo **HTML**.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.
* `min_len`: número entero que indica el límite inferior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `max_len`: número entero que indica el límite superior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `stops`: lista cuyos elementos son _strings_ o _tokens_ los cuales deben ser los que se eliminen de la cadena de texto.
* `words`: lista cuyos elementos son _strings_ que indican qué palabras se desean contar dentro del texto.

**Retorna**

* `counts`: diccionario que contiene el conteo de las palabras (`words`) indicadas como argumentos.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Recuerde que en el diccionario se deben almacenar las palabras y el conteo de cada una de estas como el valor de cada elemento del diccionario. Este proceso de almacenamiento lo debe hacer _después_ de haber realizado la eliminación de palabras visto en el punto anterior.
* Puede utilizar la función `counts` de _Python_ para hacer más eficiente a la función. Su sintaxis es:
    ```python
    text.count(element)
    ```
Esta devuelve el número de veces que el elemento (`element`) especificado aparece en el texto (`text`) indicado.
</details>

In [None]:
# FUNCIÓN CALIFICADA count_words:

def count_words(
        soup, id, min_len, max_len,
        stops, words
        ):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    counts = {}


    return counts
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["nobel", "alemania"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**

* En este ejemplo, la función retorna un diccionario con el conteo de las palabras _"nobel"_ y _"alemania"_, dentro del _id_ `bodyContent`, se eliminan los artículos _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["nobel", "alemania"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))
```

> `{'nobel': 269, 'alemania': 7}`

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["academia", "física"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* En este caso, la función retorna un diccionario con el conteo de las palabras _"academia"_ y _"física"_, dentro del _id_ `bodyContent`, se eliminan los mismos artículos que el ejemplo anterior _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["academia", "física"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))
```

> `{'academia': 3, 'física': 28}`

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["alfred", "sueca", "comité", "guerra"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* Por último, se mantienen los argumentos de los ejemplos anteriores pero la función retorna un diccionario con el conteo de las palabras _"alfred"_, _"sueca"_, _"comité"_ y _"guerra"_.
```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["alfred", "sueca", "comité", "guerra"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))
```

> `{'alfred': 5, 'sueca': 4, 'comité': 1, 'guerra': 1}`

## **6. Formato de Tabla de los Conteos**
---
En este ejercicio se requiere dar un formato en forma de tabla al resultado del ejercicio anterior. Para ello, debe completar la función `print_counts` con un código válido que retorne una tabla con la _cantidad_ de ocurrencias que una palabra dada tiene dentro de una sección indicada del archivo **HTML**. Para realizar la tabla, tenga en cuenta que la separación, ancho o la longitud de cada columna es de **20 espacios o caracteres** y se debe justificar cada elemento a la izquierda.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.
* `min_len`: número entero que indica el límite inferior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `max_len`: número entero que indica el límite superior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `stops`: lista cuyos elementos son _strings_ o _tokens_ los cuales deben ser los que se eliminen de la cadena de texto.
* `words`: lista cuyos elementos son _strings_ que indican qué palabras se desean contar dentro del texto.

**Retorna**

* `values`: conteo de la cantidad de ocurrencias de una palabra en _formato de tabla (f-string)_.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* En el taller guiado `3_manipulacion_strings` se explica el formateo de _strings_ (_f-strings_) y, gracias a esto, es posible acotar el ancho de cada columna y si se debe justificar a izquierda (<) o derecha (>).
* En este ejercicio solo debe considerar dos columnas "_Palabra_", la cual contiene el listado de palabras a contar y "_Conteo_" que indica cuántas ocurrencias tuvo la palabra correspondiente dentro del texto. También tenga en cuenta que la separación entre el título y las filas de datos de la tabla formada por guiones `-` puede crearse igualmente con el formato de _f-strings_.


</details>

In [None]:
# FUNCIÓN CALIFICADA print_counts:

def print_counts(
        soup, id, min_len, max_len,
        stops, words
        ):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    values = []


    return values
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["nobel", "alemania"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**

* Al igual que el ejemplo del ejercicio anterior, la función retorna una tabla con el conteo de las palabras _"nobel"_ y _"alemania"_, dentro del _id_ `bodyContent`, se eliminan los artículos _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["nobel", "alemania"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))
```
|Palabra             |Conteo              |
|--------------------|--------------------|
|nobel               |269                 |
|alemania            |7                   |

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["academia", "física"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* En este caso, la función retorna una tabla con el conteo de las palabras _"academia"_ y _"física"_, dentro del _id_ `bodyContent`, se eliminan los mismos artículos que el ejemplo anterior _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.
```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["academia", "física"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))
```

|Palabra             |Conteo              |
|--------------------|--------------------|
|academia            |3                   |
|física              |28                  |

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["alfred", "sueca", "comité", "guerra"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* Por último, se mantienen los argumentos de los ejemplos anteriores pero la función retorna una tabla con el conteo de las palabras _"alfred"_, _"sueca"_, _"comité"_ y _"guerra"_.
```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["alfred", "sueca", "comité", "guerra"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))
```

|Palabra             |Conteo              |
|--------------------|--------------------|
|alfred              |5                   |
|sueca               |4                   |
|comité              |1                   |
|guerra              |1                   |

## Créditos
---

* **Profesor:** [Felipe Restrepo Calle](https://ferestrepoca.github.io/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
    - [Juan Sebastián Malagon Torres](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/)

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*