<img src="https://drive.google.com/uc?export=view&id=1pWL34MWc1rS0peIekOBe8GGBIEUFPyrG" width="100%">

# **Taller 1**
---
En este taller se evaluarán las habilidades adquiridas en manejo de archivos, manipulación de _strings_ y la obtención de textos a partir de un **HTML** (_WebScraping_) tal y como se realizó en el taller guiado de obtención de textos desde _Python_.

En este caso, usted deberá realizar algunas operaciones de extracción de información y manejo de textos a partir de una página web dada que trata sobre la biografía de [Noam Chomsky](https://es.wikipedia.org/wiki/Noam_Chomsky) en Wikipedia.

<center>
<img src = "https://drive.google.com/uc?export=view&id=1FZQwqmYJ98obEV9-gZLF1v7QIJ04wH8T" alt = "Cadenas con formato" width = "80%">  </img>
</center>

Ejecute la siguiente celda para importar las librerías que permiten la ejecución del código que se desarrolle posteriormente.

In [1]:
import bs4
from IPython.display import HTML

## **Carga de Datos**

Para este primer ejercicio, debe cargar un archivo **HTML** como un fichero y realizar el código requerido para convertirlo a `beautifulsoup` para así poder analizar la información contenida en la página web en los siguientes ejercicios.

Primero, cargaremos el archivo **HTML** en un documento llamado `chomsky.html` que se almacenará localmente:

In [None]:
#TEST_CELL
!wget 'https://drive.google.com/uc?export=view&id=1T1mi5iJ_l5ABVa2lFAzrAtTQPvzuK99q' -O chomsky.html

La siguiente celda permite visualizar el archivo `.html` dentro del notebook con las imágenes y los enlaces embebidos.

In [None]:
#TEST_CELL
HTML(filename="chomsky.html")

Leeremos el archivo recién descargado y, a partir de este, crearemos la variable `soup` que contendrá dicho documento **HTML** como un objeto `BeautifulSoup` con la finalidad de utilizarlo posteriormente.

In [None]:
with open("chomsky.html") as f:
    raw_data = f.read()
    soup = bs4.BeautifulSoup(raw_data)

## **1. Extracción de Headings**
---

<center>
<img src = "https://drive.google.com/uc?export=view&id=1gqbtUpan9VuoQYm1xcHT77qLlyyO5DlF" alt = "Cadenas con formato" width = "60%">  </img>
</center>


Para este primer ejercicio, debe completar la función `get_headings` con un código válido que retorne una lista que contenga **todos** los nombres de las secciones (_headers_) del archivo **HTML** que sean del **nivel indicado**, por ejemplo, todos los títulos con la etiqueta `<h2>`.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `head_n`: número entero que indica el nivel del título requerido.

**Retorna**

* `results`: lista cuyos elementos son _strings_ que indican los nombres de los _headers_ pertenecientes al nivel del título señalado con `head_n`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Recuerde que los objetos que provengan de la librería `bs4` (`BeautifulSoup`) contienen el método _`find_all(query)`_ el cual permite filtrar el contenido y obtener _todas_ las coincidencias según lo indicado en el parámetro _`query`_.
* No debe confundir el método _`find`_ con el indicado en la pista anterior. A diferencia de este último, el método _`find`_ devuelve el primer elemento de la etiqueta dada. Para desarrollar correctamente el ejercicio, se debe analizar solamente el ***contenido*** sobre _Noam Chomsky_ que contiene la página; en el caso de Wikipedia, esta sección tiene un `id` único y específico.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_headings:

def get_headings(soup, head_n):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    results=[i.get_text() for i in soup.find(id='content').find_all("h"+str(head_n))]

    return results
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
print(get_headings(soup, 1))

**Salida esperada:**

* En este primer ejemplo, se retornan todos los títulos que sean de nivel 1 que, en el caso de Wikipedia, solo incluye el título del contenido.

```python
print(get_headings(soup, 1))
```
> `['Noam Chomsky']`

In [None]:
#TEST_CELL
print(get_headings(soup, 2))

**Salida esperada:**

* Para el segundo ejemplo, se retornan todos los títulos que sean de nivel 2.

```python
print(get_headings(soup, 2))
```
> `['Índice', 'Biografía[editar]', 'Contribuciones a la lingüística[editar]', 'Activismo político y posicionamientos[editar]', 'Antiglobalización económica de Chomsky[editar]', 'Libros publicados[editar]', 'Véase también[editar]', 'Notas[editar]', 'Bibliografía[editar]', 'Enlaces externos[editar]']`

In [None]:
#TEST_CELL
print(get_headings(soup, 3))

**Salida esperada:**

* En este último caso, se retornan todos los títulos que sean de nivel 3.

```python
print(get_headings(soup, 3))
```
> `['Teoría de principios y parámetros[editar]', 'Perspectiva sobre el ateísmo, la ciencia y la religión[editar]', 'Lingüística[editar]', 'Política[editar]']`

## **2. Extracción de Texto en un ID**
---
Para este ejercicio, debe completar la función `get_text` con un código válido que retorne una cadena de texto que incluya todo el contenido de una sección indicada del archivo **HTML**.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.

**Retorna**

* `content`: cadena de texto que contiene el contenido de la sección indicada por el parámetro `id`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Tenga en cuenta que `content` debe ser una **cadena de texto** que contenga **solamente** el contenido de la sección indicada, es decir, el resultado _no_ debe incluir las etiquetas ni el formato **HTML** que englobe a la división. Para esto se puede usar la función `get_text()`.
* Recuerde que la función _`find`_ obtiene la primera coincidencia de la etiqueta dada. Como los _id_ en **HTML** son únicos, puede resultar más fácil filtrar por este método.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_text:

def get_text(soup, id):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    content = soup.find(id=id).get_text()


    return content
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
print(get_text(soup, "toc"))

**Salida esperada:**

* En el ejemplo, la función retorna la tabla de contenido que está identificada con el _id_ `toc` en forma de _string_.

```python
print(get_text(soup, "toc"))
```
> <p>Índice<br><br>1 Biografía<br>2 Contribuciones a la lingüística<br><br>2.1 Teoría de principios y parámetros<br><br><br>3 Activismo político y posicionamientos<br>4 Antiglobalización económica de Chomsky<br><br>4.1 Perspectiva sobre el ateísmo, la ciencia y la religión<br><br><br>5 Libros publicados<br><br>5.1 Lingüística<br>5.2 Política<br><br><br>6 Véase también<br>7 Notas<br>8 Bibliografía<br>9 Enlaces externos<br><br></p>

In [None]:
#TEST_CELL
print(get_text(soup, "footer"))

**Salida esperada:**

* La función retorna el contenido en bruto de la sección que está identificada con el _id_ `footer`.

```python
print(get_text(soup, "footer"))
```
> <br><br> Esta página se editó por última vez el 26 oct 2022 a las 11:04.<br>El texto está disponible bajo la Licencia Creative Commons Atribución Compartir Igual 3.0;<br>pueden aplicarse cláusulas adicionales. Al usar este sitio, usted acepta nuestros términos de uso y nuestra política de privacidad. Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin ánimo de lucro.<br><br><br>Política de privacidad<br>Acerca de Wikipedia<br>Limitación de responsabilidad<br>Versión para móviles<br>Desarrolladores<br>Estadísticas<br>Declaración de cookies<br><br><br><br><br><br>

In [None]:
#TEST_CELL
print(get_text(soup, "bodyContent")[:1000])

**Salida esperada:**

* Por último, la función retorna los primeros 1000 caracteres en bruto del contenido de la sección identificada con el _id_ `bodyContent`.

```python
print(get_text(soup, "bodyContent")[:1000])
```
> <br>De Wikipedia, la enciclopedia libre<br><br><br><br>Ir a la navegación<br>Ir a la búsqueda<br>Noam Chomsky<br>Noam Chomsky en 2017Información personalNacimiento<br>7 de diciembre de 1928  (93 años)Filadelfia, Pensilvania, Estados UnidosNacionalidad<br>EstadounidenseReligión<br>AteoFamiliaPadre<br>William Chomsky Cónyuge<br>Carol Chomsky (1949-2008)Valeria Wasserman Chomsky (desde 2014) EducaciónEducado en<br>Instituto Tecnológico de MassachusettsOak Lane Day SchoolCentral High School (hasta 1945)Universidad de Pensilvania (B.A.; 1945-1949)Universidad de Pensilvania (M.A.; 1949-1951)Universidad de Harvard (Lingüística; 1951-1955) Alumno de<br>Zellig HarrisNelson Goodman Información profesionalOcupación<br>Filósofo, lingüista, escritor político, profesor universitario, psicólogo, antropólogo, activista por los derechos humanos, pedagogo, crítico de medios, escritor, publicista, informático teórico e historiador Área<br>Lingüística, filosofía del lenguaje, psicología, Gramática generativa, teoría de la comunicación, ciencia cognitiva,

## **3. Normalización del Texto**
---
En este ejercicio se busca _normalizar_ el texto, lo que implica un proceso de transformación del mismo para estandarizarlo y hacerlo consistente antes de realizar operaciones complejas sobre este. Debe completar la función `normalize` con un código válido que retorne una cadena que incluya todo el contenido _normalizado_ de una sección indicada del archivo **HTML**. La función `normalize` debe tener en cuenta los siguientes requerimientos para la normalización:

<ol>
<li>Extraer un fragmento de texto a partir de un <i>id</i>, como se realizó en el ejercicio anterior.</li>
<li>La cadena de texto entrante debe ser separada por cada salto de línea que se encuentre.</li>
<li>Todo el texto debe estar en <b>minúsculas</b>.</li>
<li>Se deben eliminar los espacios en blanco al inicio y al final de cada línea.</li>
<li>En la cadena de texto resultante, cada línea diferente de la cadena original se une por espacios para así formar un <i>string</i> de una sola línea.</li>
</ol>

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.

**Retorna**

* `strip_text`: cadena de texto que contiene el contenido _normalizado_ de la sección indicada por el parámetro `id`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* _Python_ provee una función para las cadenas que permite su conversión a minúsculas; la misma retorna un _string_ con la transformación realizada, su sintaxis es la siguiente:
    ```python
    text.lower()
    ```
* Existe otra función que puede ayudarle en este ejercicio llamada _`split`_. La misma separa una cadena de texto indicada en un lugar en concreto; este puede ser definido por el usuario pasando un caracter o un _substring_ como argumento en el parámetro `char`, en caso contrario, se separará la cadena por espacios por defecto. Su sintaxis es la siguiente:
    ```python
    text.split(char)
    ```
Cabe resaltar que esta función retorna una lista de _tokens_ donde cada uno de estos corresponde a los segmentos de texto que hay entre la aparición de un caracter separador y otro. En caso de que utilice este método, debe **unir** estos _tokens_ según los requerimientos de normalización dados para retornar un solo _string_.
* Puede tomar la función del ejercicio anterior (`get_text`) y, a partir del resultado de la misma, empezar a trabajar en este ejercicio. Recuerde que la función `get_text` retorna una cadena de texto.

</details>

In [None]:
# FUNCIÓN CALIFICADA normalize:

def normalize(soup, id):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    txt = soup.find(id=id).get_text().lower()
    lineas=txt.split('\n')
    lineas_limpias = [linea.strip() for linea in lineas]
    strip_text = (" ").join(lineas_limpias)


    return strip_text
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
print(normalize(soup, "toc"))

**Salida esperada:**

* En el ejemplo, la función retorna la tabla de contenido _normalizada_ que está identificada con el _id_ `toc`.

```python
print(get_text(soup, "toc"))
```

>`'índice  1 biografía 2 contribuciones a la lingüística  2.1 teoría de principios y parámetros   3 activismo político y posicionamientos 4 antiglobalización económica de chomsky  4.1 perspectiva sobre el ateísmo, la ciencia y la religión   5 libros publicados  5.1 lingüística 5.2 política   6 véase también 7 notas 8 bibliografía 9 enlaces externos'`

In [None]:
#TEST_CELL
print(normalize(soup, "footer"))

**Salida esperada:**
* La función retorna el contenido _normalizado_ de la sección que está identificada con el _id_ `footer`.

```python
print(get_text(soup, "footer"))
```

>`'  esta página se editó por última vez el 26 oct 2022 a las 11:04. el texto está disponible bajo la licencia creative commons atribución compartir igual 3.0; pueden aplicarse cláusulas adicionales. al usar este sitio, usted acepta nuestros términos de uso y nuestra política de privacidad. wikipedia® es una marca registrada de la fundación wikimedia, inc., una organización sin ánimo de lucro.   política de privacidad acerca de wikipedia limitación de responsabilidad versión para móviles desarrolladores estadísticas declaración de cookies'`

In [None]:
#TEST_CELL
print(normalize(soup, "bodyContent")[:1000])

**Salida esperada:**
* En este último ejemplo, la función retorna los primeros 1000 caracteres del contenido de la sección identificada con el _id_ `bodyContent`.

```python
print(get_text(soup, "bodyContent")[:1000])
```

>`' de wikipedia, la enciclopedia libre    ir a la navegación ir a la búsqueda noam chomsky noam chomsky en 2017información personalnacimiento 7 de diciembre de 1928  (93 años)filadelfia, pensilvania, estados unidosnacionalidad estadounidensereligión ateofamiliapadre william chomsky cónyuge carol chomsky (1949-2008)valeria wasserman chomsky (desde 2014) educacióneducado en instituto tecnológico de massachusettsoak lane day schoolcentral high school (hasta 1945)universidad de pensilvania (b.a.; 1945-1949)universidad de pensilvania (m.a.; 1949-1951)universidad de harvard (lingüística; 1951-1955) alumno de zellig harrisnelson goodman información profesionalocupación filósofo, lingüista, escritor político, profesor universitario, psicólogo, antropólogo,'`

## **4. Eliminación de Palabras**
---

En este ejercicio debe realizar una eliminación de palabras con la finalidad de extraer la información relevante del texto y limpiar el mismo de palabras poco informativas a nivel léxico. Debe completar la función `delete_words` con un código válido que retorne una cadena que incluya todo el contenido _limpio_ de una sección indicada del archivo **HTML**. Para dar con la respuesta correcta, adicionalmente debe seguir los siguientes pasos para realizar la eliminación de las palabras:

<ol>

<li> Normalizar el texto de la sección indicada. </li>
<li> La cadena de texto a analizar debe separarse por espacios para poder obtener a los <i>tokens</i>. </li>
<li> Las palabras deben estar filtradas por un <i>rango de longitud</i>. </li>
<li> Se deben eliminar palabras de una lista dada y <b>no</b> arbitrariamente.</li>
<li> Los <i>tokens</i> de la cadena de texto resultante deben estar unidos por espacios para formar la cadena de texto de salida. </li>
    
</ol>

<center>
<img src = "https://drive.google.com/uc?export=view&id=1I3pjiAMCrchVYybNbStRcEM0a7S1tcK5" alt = "Cadenas con formato" width = "80%">  </img>
</center>

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.
* `min_len`: número entero que indica el límite inferior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `max_len`: número entero que indica el límite superior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `stops`: lista cuyos elementos son _strings_ o _tokens_ los cuales deben ser los que se eliminen de la cadena de texto.

**Retorna**

* `resulting_tokens`: cadena de texto que contiene el contenido de la sección indicada luego de la _eliminación de palabras_.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Esta función está basada en la utilización de **filtros**. Estos los puede realizar con sentencias `if` tradicionales, o bien, utilizar la función de _Python_ `filter`, la cual retorna un iterable con los elementos que retornen `True` a una función dada. Su sintaxis es la siguiente:
    ```python
    filter(function, iterable)
    ```

    El parámetro `function` recibe una función que retorne `True` o `False` (función _booleana_) y esta es la que permite evaluar si los elementos del parámetro `iterable` cumplen con la condición de la función o no.
    
* Para cumplir con el quinto paso dado en el enunciado del ejercicio, puede unir a los _tokens_ que estén almacenados en una lista con la función `join`:
    ```python
    string.join(iterable)
    ```

    Donde el parámetro `string` es el separador requerido (en este caso y siguiendo el inciso número 2, este debería ser un espacio `" "`) y el parámetro `iterable` es la lista que contiene a los _tokens_ a unir.
</details>

In [None]:
# FUNCIÓN CALIFICADA delete_words:

def delete_words(soup, id, min_len, max_len, stops):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    txt = soup.find(id=id).get_text().lower()
    lineas=txt.split('\n')
    lineas_limpias = [linea.strip() for linea in lineas]
    strip_text = (" ").join(lineas_limpias)
    palabras_filtradas = [palabra for palabra in strip_text.split(" ") if min_len <= len(palabra) <= max_len]
    resulting_tokens=[i for i in palabras_filtradas if i not in stops]
    resulting_tokens = " ".join(resulting_tokens)


    return resulting_tokens
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del"]
print(delete_words(soup, "toc", 1, 23, stops))

**Salida esperada:**

* En el ejemplo, la función retorna la tabla de contenido, que está identificada con el _id_ `toc`, se eliminan los artículos _["de", "la", "a", "del"]_ y la longitud de cada _token_ debe estar entre 1 y 23 caracteres.

```python
stops = ["de", "la", "a", "del"]
print(delete_words(soup, "toc", 1, 23, stops))
```

> `'índice 1 biografía 2 contribuciones lingüística 2.1 teoría principios y parámetros 3 activismo político y posicionamientos 4 antiglobalización económica chomsky 4.1 perspectiva sobre el ateísmo, ciencia y religión 5 libros publicados 5.1 lingüística 5.2 política 6 véase también 7 notas 8 bibliografía 9 enlaces externos'`

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
print(delete_words(soup, "footer", 3, 10, stops))

**Salida esperada:**
* En este caso, la función retorna la tabla de contenido, que está identificada con el _id_ `footer`, se eliminan los artículos _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del"]
print(delete_words(soup, "toc", 1, 23, stops))
```

> `'esta página editó última vez oct 2022 11:04. texto está disponible bajo licencia creative commons atribución compartir igual 3.0; pueden aplicarse cláusulas usar este sitio, usted acepta nuestros términos uso nuestra política wikipedia® una marca registrada fundación wikimedia, inc., una sin ánimo lucro. política privacidad acerca wikipedia limitación versión para móviles cookies'`

## **5. Conteo de un Listado de Nombres Sobre un Párrafo**
---
En este ejercicio se requiere realizar un conteo de la cantidad de palabras dadas que se encuentren dentro de un texto en particular, para ello, debe completar la función `count_words` con un código válido que retorne un diccionario que contenga como llave la _palabra_ deseada y como valor la _cantidad_ de ocurrencias que la palabra tiene dentro de una sección indicada del archivo **HTML**.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.
* `min_len`: número entero que indica el límite inferior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `max_len`: número entero que indica el límite superior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `stops`: lista cuyos elementos son _strings_ o _tokens_ los cuales deben ser los que se eliminen de la cadena de texto.
* `words`: lista cuyos elementos son _strings_ que indican qué palabras se desean contar dentro del texto.

**Retorna**

* `counts`: diccionario que contiene el conteo de las palabras (`words`) indicadas como argumentos.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Recuerde que en el diccionario se deben almacenar las palabras y el conteo de cada una de estas como el valor de cada elemento del diccionario. Este proceso de almacenamiento lo debe hacer _después_ de haber realizado la eliminación de palabras visto en el punto anterior.
* Puede utilizar la función `counts` de _Python_ para hacer más eficiente a la función. Su sintaxis es:
    ```python
    text.count(element)
    ```
Esta devuelve el número de veces que el elemento (`element`) especificado aparece en el texto (`text`) indicado.
</details>

In [None]:
# FUNCIÓN CALIFICADA count_words:

def count_words(
        soup, id, min_len, max_len,
        stops, words
        ):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    txt = soup.find(id=id).get_text().lower()
    lineas=txt.split('\n')
    lineas_limpias = [linea.strip() for linea in lineas]
    strip_text = (" ").join(lineas_limpias)
    palabras_filtradas = [palabra for palabra in strip_text.split(" ") if min_len <= len(palabra) <= max_len]
    resulting_tokens=[i for i in palabras_filtradas if i not in stops]
    resulting_tokens = " ".join(resulting_tokens)
    counts =dict(zip(words, [resulting_tokens.count(i) for i in words]))

    return counts
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["chomsky", "sintaxis"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**

* En este ejemplo, la función retorna un diccionario con el conteo de las palabras _"chomsky"_ y _"sintaxis"_, dentro del _id_ `bodyContent`, se eliminan los artículos _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["chomsky", "sintaxis"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))
```

> `{'chomsky': 97, 'sintaxis': 6}`

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* En este caso, la función retorna un diccionario con el conteo de las palabras _"teoría"_ y _"lenguaje"_, dentro del _id_ `bodyContent`, se eliminan los mismos artículos que el ejemplo anterior _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))
```

> `{'teoría': 21, 'lenguaje': 23}`

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje", "formal", "gramática"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* Por último, se mantienen los argumentos de los ejemplos anteriores pero la función retorna un diccionario con el conteo de las palabras _"teoría"_, _"lenguaje"_, _"formal"_ y _"gramática"_.
```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje", "formal", "gramática"]
print(count_words(soup, "bodyContent", 3, 10, stops, words))
```

> `{'teoría': 21, 'lenguaje': 23, 'formal': 3, 'gramática': 26}`

## **6. Formato de Tabla de los Conteos**
---
En este ejercicio se requiere dar un formato en forma de tabla al resultado del ejercicio anterior. Para ello, debe completar la función `print_counts` con un código válido que retorne una tabla con la _cantidad_ de ocurrencias que una palabra dada tiene dentro de una sección indicada del archivo **HTML**. Para realizar la tabla, tenga en cuenta que la separación, ancho o la longitud de cada columna es de **20 espacios o caracteres** y se debe justificar cada elemento a la izquierda.

**Parámetros**

* `soup`: este debe contener el documento **HTML** pero como un objeto de `beautifulsoup`.
* `id`: cadena de texto que indica una de las secciones del archivo **HTML** que tenga como _id_ el argumento indicado.
* `min_len`: número entero que indica el límite inferior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `max_len`: número entero que indica el límite superior del _rango de longitud_ por el cual deben estar filtradas las palabras.
* `stops`: lista cuyos elementos son _strings_ o _tokens_ los cuales deben ser los que se eliminen de la cadena de texto.
* `words`: lista cuyos elementos son _strings_ que indican qué palabras se desean contar dentro del texto.

**Retorna**

* `values`: conteo de la cantidad de ocurrencias de una palabra en _formato de tabla (f-string)_.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* En el taller guiado `3_manipulacion_strings` se explica el formateo de _strings_ (_f-strings_) y, gracias a esto, es posible acotar el ancho de cada columna y si se debe justificar a izquierda (<) o derecha (>).
* En este ejercicio solo debe considerar dos columnas "_Palabra_", la cual contiene el listado de palabras a contar y "_Conteo_" que indica cuántas ocurrencias tuvo la palabra correspondiente dentro del texto. También tenga en cuenta que la separación entre el título y las filas de datos de la tabla formada por guiones `-` puede crearse igualmente con el formato de _f-strings_.


</details>

In [None]:
# FUNCIÓN CALIFICADA print_counts:

def print_counts(
        soup, id, min_len, max_len,
        stops, words
        ):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    txt = soup.find(id=id).get_text().lower()
    lineas=txt.split('\n')
    lineas_limpias = [linea.strip() for linea in lineas]
    strip_text = (" ").join(lineas_limpias)
    palabras_filtradas = [palabra for palabra in strip_text.split(" ") if min_len <= len(palabra) <= max_len]
    resulting_tokens=[i for i in palabras_filtradas if i not in stops]
    resulting_tokens = " ".join(resulting_tokens)
    counts =dict(zip(words, [resulting_tokens.count(i) for i in words]))

    values = f"|{'Palabra':<20}|{'Conteo':<20}|\n|--------------------|--------------------|\n"
    for clave, valor in counts.items():
        values += f"|{clave:<20}|{valor:<20}|\n"


    return values.rstrip("\n")
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["chomsky", "sintaxis"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**

* Al igual que el ejemplo del ejercicio anterior, la función retorna una tabla con el conteo de las palabras _"chomsky"_ y _"sintaxis"_, dentro del _id_ `bodyContent`, se eliminan los artículos _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.

```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["chomsky", "sintaxis"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))
```
<img src="https://drive.google.com/uc?export=view&id=1VNpgBNcQ-wtPWxl5Xpb3bBvSLnqX33ib">

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* En este caso, la función retorna una tabla con el conteo de las palabras _"teoría"_ y _"lenguaje"_, dentro del _id_ `bodyContent`, se eliminan los mismos artículos que el ejemplo anterior _["de", "la", "a", "del", "por", "las"]_ y la longitud de cada _token_ debe estar entre 3 y 10 caracteres.
```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))
```
<img src="https://drive.google.com/uc?export=view&id=1-3Jcq_elxgGdUdkgtROoolVqecgz0iro">

In [None]:
#TEST_CELL
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje", "formal", "gramática"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))

**Salida esperada:**
* Por último, se mantienen los argumentos de los ejemplos anteriores pero la función retorna una tabla con el conteo de las palabras _"teoría"_, _"lenguaje"_, _"formal"_ y _"gramática"_.
```python
stops = ["de", "la", "a", "del", "por", "las"]
words = ["teoría", "lenguaje", "formal", "gramática"]
print(print_counts(soup, "bodyContent", 3, 10, stops, words))
```
<img src="https://drive.google.com/uc?export=view&id=1prX1UW5j8g35-uSHNsGii90jQCpWBPkv">

## Créditos
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*