<a href="https://colab.research.google.com/github/loresiensis/data-analysis-and-nlp/blob/main/workflow_tratamiento_de_informacion_linguistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Implantación del proceso de tratamiento de información lingüística.

Vamos a suponer que queremos trabajar sobre los datos de los museos más visitados del mundo, para ello disponemos de una lista de ellos en la siguiente dirección:
[https://es.wikipedia.org/wiki/Anexo:Museos_m%C3%A1s_visitados_del_mundo](https://es.wikipedia.org/wiki/Anexo:Museos_m%C3%A1s_visitados_del_mundo)

NOTA 1: recuerda que para los problemas de codificación, es necesario cambiar el parámetro "encoding" que se encuentra dentro de las funciones.

NOTA 2: si cambias el nombre a alguna de las funciones, es probable que tengas que cambiarlo también en otras funciones que utilicen la que has renombrado.

### Paso 1: Obtención de los datos
Obtén el archivo HTML de cualquiera de las maneras vista en clase y súbelo a Google Colab para poder trabajar con él.

#### Paso 1.1: Preparación del entorno
Instala la librería [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para poder interpretar archivos HTML. E importala para poder trabajar con ella.

En este paso también puedes declarar una variable *path* que sirva para almacenar la ruta dónde se encuentra el archivo.

In [None]:
pip install bs4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
path='/content/'

In [None]:
from bs4 import BeautifulSoup

### Paso 2: Transformación

#### Paso 2.1
Antes de recuperar la información de la tabla, comprueba cuántas tablas tiene el archivo HTML.

Para ello puedes utilizar la siguiente función.

In [None]:
def classtables(filename):
    with open(path+filename,encoding="utf-8") as infile:
        content = infile.read()
        soup = BeautifulSoup(content, 'html.parser')
        # Verifying tables and their classes
        print('Classes of each table:')
        for table in soup.find_all('table'):
          print(table.get('class'))

In [None]:
classtables('museos2.html')

Classes of each table:
['sortable', 'col1cen', 'col5der', 'col6der', 'striped']
['wikitable', 'sortable']
['hlist', 'navbox-inner']


#### Paso 2.2
Completa la siguiente función, dónde estás los ***, para poner el nombre de la tabla que contiene la información que queremos en el archivo HTML, y que has obtenido en el paso anterior.

Usa esta función para obtener la información de la tabla.

In [None]:
def precsv(filename):
    with open(path+filename,encoding="UTF-8") as infile:
        content = infile.read()
        soup = BeautifulSoup(content, 'html.parser')
        table = soup.find('table', class_=['sortable', 'col1cen', 'col5der', 'col6der', 'striped'])
        return [[cell.text for cell in row.find_all(["td","th"])] for row in table.select("tr")]

In [None]:
precsv('museos2.html')

[['\xa0', '', '', '', '', '\n'],
 ['Puesto\n',
  'Nombre de Museo\n',
  'Ciudad\n',
  'País\n',
  'N.º de visitantes\n',
  'Año\n'],
 ['01',
  'Museo del Louvre',
  'París',
  '\xa0Francia',
  '9\xa0600\xa0000',
  '2019[1]\u200b\n'],
 ['02',
  'Museo Nacional de China',
  'Beijing',
  'China\xa0China',
  '7\xa0390\xa0000',
  '2019[1]\u200b\n'],
 ['03',
  'Museos Vaticanos',
  'Roma',
  '\xa0Ciudad del Vaticano',
  '6\xa0882\xa0931',
  '2019[1]\u200b\n'],
 ['04',
  'Metropolitan Museum of Art[Nota 1]\u200b',
  'Nueva York',
  '\xa0Estados Unidos',
  '6\xa0479\xa0548',
  '2019[1]\u200b\n'],
 ['05',
  'Museo Británico',
  'Londres',
  '\xa0Reino Unido',
  '6\xa0239\xa0983',
  '2019[1]\u200b\n'],
 ['06',
  'Tate Modern',
  'Londres',
  '\xa0Reino Unido',
  '6\xa0098\xa0340',
  '2019[1]\u200b\n'],
 ['07',
  'National Gallery de Londres',
  'Londres',
  '\xa0Reino Unido',
  '6\xa0011\xa0007',
  '2019[1]\u200b\n'],
 ['08',
  'Museo de Historia Natural (Londres)',
  'Londres',
  '\xa0Reino Uni

#### Paso 2.3

La información recuperada contiene caracteres especiales. Completa la función anterior, para eliminarlos y que sean más legibles los datos.

In [None]:
def precsv(filename):
    with open(path+filename,encoding="UTF-8") as infile:
        content = infile.read()
        soup = BeautifulSoup(content, 'html.parser')
        table = soup.find('table', class_=['sortable', 'col1cen', 'col5der', 'col6der', 'striped'])
        return [[cell.text.replace('\xa0','').replace('\n','').replace('\u200b','') for cell in row.find_all(["td","th"])] for row in table.select("tr")]

In [None]:
precsv('museos2.html')

[['', '', '', '', '', ''],
 ['Puesto', 'Nombre de Museo', 'Ciudad', 'País', 'N.º de visitantes', 'Año'],
 ['01', 'Museo del Louvre', 'París', 'Francia', '9600000', '2019[1]'],
 ['02',
  'Museo Nacional de China',
  'Beijing',
  'ChinaChina',
  '7390000',
  '2019[1]'],
 ['03',
  'Museos Vaticanos',
  'Roma',
  'Ciudad del Vaticano',
  '6882931',
  '2019[1]'],
 ['04',
  'Metropolitan Museum of Art[Nota 1]',
  'Nueva York',
  'Estados Unidos',
  '6479548',
  '2019[1]'],
 ['05', 'Museo Británico', 'Londres', 'Reino Unido', '6239983', '2019[1]'],
 ['06', 'Tate Modern', 'Londres', 'Reino Unido', '6098340', '2019[1]'],
 ['07',
  'National Gallery de Londres',
  'Londres',
  'Reino Unido',
  '6011007',
  '2019[1]'],
 ['08',
  'Museo de Historia Natural (Londres)',
  'Londres',
  'Reino Unido',
  '5300000',
  '2019[3]'],
 ['09',
  'Museo del Hermitage',
  'San Petersburgo',
  'Rusia Rusia',
  '4956529',
  '2019[1]'],
 ['10',
  'American Museum of Natural History',
  'Nueva York',
  'Estados Uni

#### Paso 2.4
Una vez tengamos nuestros datos en este punto, podemos decidir si, guardarlos en un csv para luego poder procesarlos en una hoja de cálculo, o si seguir transformándolos un paso más, ya que para nuestro análisis posterior es mejor que los datos estén *tokenizados*.

Vamos a realizar las dos alternativas.

##### Paso 2.4.1: Generar un csv

Copia a continuación y utiliza la función vista en clase para generar un csv con la información de la tabla.

In [None]:
def from_html_to_csv (filename):
    with open(path+filename+"Generated.csv", "wt", encoding="utf-8") as outfile:
        for row in precsv(filename+".html"):
            outfile.write(row[0])
            for cell in row[1:]:
                outfile.write('\t'+cell)
            outfile.write('\n')

In [None]:
from_html_to_csv('museos2')

##### Paso 2.4.2: Tokenizar y generar csv

Ejecuta el siguiente código visto en clase, y utilizalo para poder generar un csv con la información tokenizada.

In [None]:
pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# importamos las librerías necesarias
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


La siguiente función tokeniza una fila:

In [None]:
def tokenize_last_cell (l):
    nminus1 = len(l)-1
    lres = []
    for i in range(nminus1):
        lres.append(l[i])
    for word in word_tokenize(l[nminus1]):
        lres.append(word)
    return lres

Se define la siguietne función, para que llame a la anterior en cada una de las filas de la tabla:

In [None]:
def precsv_tokenize (lol): # tokenizing the last cell of each row
    return [tokenize_last_cell(row) for row in lol]

Definmos la última función, con la que trabajaremos directamente con los documentos, y que envuelve a las anteriores:

In [None]:
def from_html_to_csv_through_tokenize (filename):
    with open(path+filename+"GeneratedTokenized.csv", "wt", encoding="utf-8") as outfile:
        for row in precsv_tokenize(precsv(filename+".html")):
            outfile.write(row[0])
            for cell in row[1:]:
                if cell != ',':
                    outfile.write('\t'+cell)
            outfile.write('\n')

In [None]:
from_html_to_csv_through_tokenize('museos2')

### Paso 3: Trabajar con archivos csv

Finalmente tendremos nuestros datos en un archivo csv (concretamente en dos, uno con los datos *tokenizados* y otro sin *tokenizar*.

Descarga los archivos y comprueba que la información está dentro. Puedes abrirlos con un bloc de notas o con una hoja de cálculo tipo *Excel*.

La semana que viene veremos como trabajar estos datos desde este punto.
No hace falta que entregues los archivos csv con la práctica.

Guarda este cuaderno de colab como una copia en tu repositorio de GitHub, y desde ahí yo lo podré corregir.