<a href="https://colab.research.google.com/github/loresiensis/data-analysis-and-nlp/blob/main/api_reconocimiento_de_entidades.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio

El ejercicio que debes llevar a cabo consiste en definir una función similar que a partir de cualquier enlace a la Wikipedia en español sea capaz de realizar un análisis morfológico mediante la API de [LINDAT UDPipe](https://lindat.mff.cuni.cz/services/udpipe/) y guardar el resultado en un fichero csv. Para ello sigue los pasos que se indican a continución.

Al finalizar, recuerda guardar el fichero con tu solución mediante la opción *File --> Save a copy in GitHub*.



## Pasos

Comienza cargando la librería requests.

In [None]:
import requests

A continuación definimos una frase que utilizaremos como ejemplo y la almacenamos en la variable `frase`. Puedes utilizar la misma frase que utilizamos como ejemplo en clase.

In [None]:
frase = "Antonio Gaudí nació en Cataluña y construyó la Sagrada Familia"

Definimos ahora los parámetros para usar la API  de [LINDAT UDPipe](https://lindat.mff.cuni.cz/services/udpipe/). Al igual que en el ejemplo visto en clase tienes la información en la pestaña "REST API Documentation". Deberás proporcionar una url, y un diccionario con los parámetros.

En concreto, la url es http://lindat.mff.cuni.cz/services/udpipe/api/process, y el diccionario debe contar con los siguientes pares clave-valor:
- Clave: data, valor: la frase definida previamente.
- Clave: model, valor: debes elegir uno de los modelos en Español disponible.
- Clave: tagger, valor: la cadena de texto vacía (es decir "").
- Clave: tokenizer, valor: la cadena de texto vacía.
- Clave: parser, valor: la cadena de texto vacía.


In [None]:
url = "http://lindat.mff.cuni.cz/services/udpipe/api/process"

parameters = {"data": frase, "model": "spanish-ancora-ud-2.10-220711", "tagger": '', "tokenizer": '', "parser": ''}

Ahora puedes realizar la solicitud con la librería ``request`` y almacenar el resultado en la variable ``res``.

In [None]:
res = requests.get(url,parameters)

print(res.text)

{
 "model": "spanish-ancora-ud-2.10-220711",
 "acknowledgements": [
  "http://ufal.mff.cuni.cz/udpipe/2#udpipe2_acknowledgements",
  "https://ufal.mff.cuni.cz/udpipe/2/models#universal_dependencies_210_models"
 ],
 "result": "# generator = UDPipe 2, https://lindat.mff.cuni.cz/services/udpipe\n# udpipe_model = spanish-ancora-ud-2.10-220711\n# udpipe_model_licence = CC BY-NC-SA\n# newdoc\n# newpar\n# sent_id = 1\n# text = Antonio Gaudí nació en Cataluña y construyó la Sagrada Familia\n1\tAntonio\tAntonio\tPROPN\tnp0000p\t_\t3\tnsubj\t_\t_\n2\tGaudí\tGaudí\tPROPN\t_\t_\t1\tflat\t_\t_\n3\tnació\tnacer\tVERB\tvmis3s0\tMood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin\t0\troot\t_\t_\n4\ten\ten\tADP\tsps00\t_\t5\tcase\t_\t_\n5\tCataluña\tCataluña\tPROPN\tnp00000\t_\t3\tobl\t_\t_\n6\ty\ty\tCCONJ\tcc\t_\t7\tcc\t_\t_\n7\tconstruyó\tconstruir\tVERB\tvmis3s0\tMood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin\t3\tconj\t_\t_\n8\tla\tel\tDET\tda0fs0\tDefinite=Def|Gender=Fem|Number=Sing|PronTy

Al igual que ocurría con el ejemplo visto en clase, la salida proporcionada por la librería está en el formato JSON, por lo que deberás convertirlo mediante el método ``json()``. Almacena el resultado en la variable `resultado`.

In [None]:
resultado = res.json()
resultado

{'model': 'spanish-ancora-ud-2.10-220711',
 'acknowledgements': ['http://ufal.mff.cuni.cz/udpipe/2#udpipe2_acknowledgements',
  'https://ufal.mff.cuni.cz/udpipe/2/models#universal_dependencies_210_models'],
 'result': '# generator = UDPipe 2, https://lindat.mff.cuni.cz/services/udpipe\n# udpipe_model = spanish-ancora-ud-2.10-220711\n# udpipe_model_licence = CC BY-NC-SA\n# newdoc\n# newpar\n# sent_id = 1\n# text = Antonio Gaudí nació en Cataluña y construyó la Sagrada Familia\n1\tAntonio\tAntonio\tPROPN\tnp0000p\t_\t3\tnsubj\t_\t_\n2\tGaudí\tGaudí\tPROPN\t_\t_\t1\tflat\t_\t_\n3\tnació\tnacer\tVERB\tvmis3s0\tMood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin\t0\troot\t_\t_\n4\ten\ten\tADP\tsps00\t_\t5\tcase\t_\t_\n5\tCataluña\tCataluña\tPROPN\tnp00000\t_\t3\tobl\t_\t_\n6\ty\ty\tCCONJ\tcc\t_\t7\tcc\t_\t_\n7\tconstruyó\tconstruir\tVERB\tvmis3s0\tMood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin\t3\tconj\t_\t_\n8\tla\tel\tDET\tda0fs0\tDefinite=Def|Gender=Fem|Number=Sing|PronType=Art\

La variable ``resultado`` es un diccionario. Entre sus claves se encuentra ``result`` que es la que nos proporciona el resultado. Recuerda mostrar el resultado con el método ``print`` para visualizarlo correctamente.

In [None]:
print(resultado['result'])

# generator = UDPipe 2, https://lindat.mff.cuni.cz/services/udpipe
# udpipe_model = spanish-ancora-ud-2.10-220711
# udpipe_model_licence = CC BY-NC-SA
# newdoc
# newpar
# sent_id = 1
# text = Antonio Gaudí nació en Cataluña y construyó la Sagrada Familia
1	Antonio	Antonio	PROPN	np0000p	_	3	nsubj	_	_
2	Gaudí	Gaudí	PROPN	_	_	1	flat	_	_
3	nació	nacer	VERB	vmis3s0	Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin	0	root	_	_
4	en	en	ADP	sps00	_	5	case	_	_
5	Cataluña	Cataluña	PROPN	np00000	_	3	obl	_	_
6	y	y	CCONJ	cc	_	7	cc	_	_
7	construyó	construir	VERB	vmis3s0	Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin	3	conj	_	_
8	la	el	DET	da0fs0	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	9	det	_	_
9	Sagrada	Sagrada	PROPN	np00000	_	7	obj	_	_
10	Familia	Familia	PROPN	_	_	9	flat	_	SpaceAfter=No




Vamos a guardar el resultado en un DataFrame de pandas para así poder guardarlo posteriormente en un fichero csv. Para ello lo primero que tendremos que hacer es convertir el resultado en una lista de listas.

Para ello podemos usar el código visto en la sesión de teoría, pero el único problema es que las primeras líneas del resultado anterior no contienen información, sino que son comentarios (vienen precedidos del símbolo `#`). Modifica el código visto en la sesión de teoría para añadir a la lista `resultadoListaListas` solo aquellas líneas que no contienen el símbolo `#`.

*Nota:* Si no sabes cómo modificar el código, usa directamente el código visto en la sesión de teoría, en la siguiente celda se da otra alternativa para resolver el problema.

In [None]:
resultadoListaListas = []
for line in resultado['result'].split('\n'):
  resultadoListaListas.append(line.split('\t'))

resultadoListaListas

[['# generator = UDPipe 2, https://lindat.mff.cuni.cz/services/udpipe'],
 ['# udpipe_model = spanish-ancora-ud-2.10-220711'],
 ['# udpipe_model_licence = CC BY-NC-SA'],
 ['# newdoc'],
 ['# newpar'],
 ['# sent_id = 1'],
 ['# text = Antonio Gaudí nació en Cataluña y construyó la Sagrada Familia'],
 ['1', 'Antonio', 'Antonio', 'PROPN', 'np0000p', '_', '3', 'nsubj', '_', '_'],
 ['2', 'Gaudí', 'Gaudí', 'PROPN', '_', '_', '1', 'flat', '_', '_'],
 ['3',
  'nació',
  'nacer',
  'VERB',
  'vmis3s0',
  'Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin',
  '0',
  'root',
  '_',
  '_'],
 ['4', 'en', 'en', 'ADP', 'sps00', '_', '5', 'case', '_', '_'],
 ['5', 'Cataluña', 'Cataluña', 'PROPN', 'np00000', '_', '3', 'obl', '_', '_'],
 ['6', 'y', 'y', 'CCONJ', 'cc', '_', '7', 'cc', '_', '_'],
 ['7',
  'construyó',
  'construir',
  'VERB',
  'vmis3s0',
  'Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin',
  '3',
  'conj',
  '_',
  '_'],
 ['8',
  'la',
  'el',
  'DET',
  'da0fs0',
  'Definite=Def|

Vemos que en este caso hay dos líneas de más, por lo que vamos a quedarnos con todos los elementos de la lista salvo los dos últimos.

*Nota:* Si no descartaste las líneas que contienen el símbolo '#' en el paso anterior, ahora deberías quedarte con los elementos de la lista a partir del octavo (recuerda que los índices en Python empiezan en 0) hasta los dos últimos.

In [None]:
resultadoListaListas = resultadoListaListas[:-2]
resultadoListaListas

[['# generator = UDPipe 2, https://lindat.mff.cuni.cz/services/udpipe'],
 ['# udpipe_model = spanish-ancora-ud-2.10-220711'],
 ['# udpipe_model_licence = CC BY-NC-SA'],
 ['# newdoc'],
 ['# newpar'],
 ['# sent_id = 1'],
 ['# text = Antonio Gaudí nació en Cataluña y construyó la Sagrada Familia'],
 ['1', 'Antonio', 'Antonio', 'PROPN', 'np0000p', '_', '3', 'nsubj', '_', '_'],
 ['2', 'Gaudí', 'Gaudí', 'PROPN', '_', '_', '1', 'flat', '_', '_'],
 ['3',
  'nació',
  'nacer',
  'VERB',
  'vmis3s0',
  'Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin',
  '0',
  'root',
  '_',
  '_'],
 ['4', 'en', 'en', 'ADP', 'sps00', '_', '5', 'case', '_', '_'],
 ['5', 'Cataluña', 'Cataluña', 'PROPN', 'np00000', '_', '3', 'obl', '_', '_'],
 ['6', 'y', 'y', 'CCONJ', 'cc', '_', '7', 'cc', '_', '_'],
 ['7',
  'construyó',
  'construir',
  'VERB',
  'vmis3s0',
  'Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin',
  '3',
  'conj',
  '_',
  '_'],
 ['8',
  'la',
  'el',
  'DET',
  'da0fs0',
  'Definite=Def|

Ahora ya podemos construir nuestro DataFrame en pandas, y almacenarlo en un fichero. Comienza cargando la librería ``pandas``.

In [None]:
import pandas as pd

Define el DataFrame con las siguientes [columnas](http://universaldependencies.org/docs/format.html):
- ID: La posición.
- WORD: La palabra.
- LEMMA: El lema asociado a la palabra.
- UPOSTAG: Etiqueta de la [categoría gramatical universal](http://universaldependencies.org/docs/u/pos/index.html).
- XPOSTAG: Etiqueta de la categoría gramatical específica del lenguaje.
- FEATS: lista de [características morfológicas](http://universaldependencies.org/docs/ext-feat-index.html).
- HEAD: encabezado del token actual (que es o bien un id o bien 0).
- DEPREL: relación de [dependencia universal con el encabezado](http://universaldependencies.org/docs/u/dep/index.html) (root si y solo si HEAD = 0).
- DEPS: lista de dependencias secundarias.
- MISC: Otras anotaciones.

In [None]:
df = pd.DataFrame(resultadoListaListas,columns = ['ID','WORD','LEMMA','UPODTAG','XPOSTAG','FEATS','HEAD','DEPREL','DEPS','MISC'])

Guarda el DataFrame en un fichero csv. Puedes llamar al fichero como quieras.

In [None]:
df.to_csv('resultado_dataframe.csv',index=None)
df

Unnamed: 0,ID,WORD,LEMMA,UPODTAG,XPOSTAG,FEATS,HEAD,DEPREL,DEPS,MISC
0,"# generator = UDPipe 2, https://lindat.mff.cun...",,,,,,,,,
1,# udpipe_model = spanish-ancora-ud-2.10-220711,,,,,,,,,
2,# udpipe_model_licence = CC BY-NC-SA,,,,,,,,,
3,# newdoc,,,,,,,,,
4,# newpar,,,,,,,,,
5,# sent_id = 1,,,,,,,,,
6,# text = Antonio Gaudí nació en Cataluña y con...,,,,,,,,,
7,1,Antonio,Antonio,PROPN,np0000p,_,3.0,nsubj,_,_
8,2,Gaudí,Gaudí,PROPN,_,_,1.0,flat,_,_
9,3,nació,nacer,VERB,vmis3s0,Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbF...,0.0,root,_,_


Finalmente, encapsula toda la funcionalidad en una función para simplificar su uso.

In [None]:
def morph_analysis(phrase,output):
  url = "http://lindat.mff.cuni.cz/services/udpipe/api/process"

  parameters = {"data": phrase, "model": "spanish-ancora-ud-2.10-220711", "tagger": '', "tokenizer": '', "parser": ''}

  res = requests.get(url,parameters)

  resultado = res.json()

  resultadoListaListas = []

  for line in resultado['result'].split('\n'):
    resultadoListaListas.append(line.split('\t'))

  resultadoListaListas = resultadoListaListas[:-2]

  df = pd.DataFrame(resultadoListaListas,columns = ['ID','WORD','LEMMA','UPODTAG','XPOSTAG','FEATS','HEAD','DEPREL','DEPS','MISC'])
  df.to_csv('resultado_dataframe.csv',index=None)


Prueba que la función que has definido funciona correctamente con otras frases.

In [None]:
morph_analysis("Rafael Nadal Parera (Manacor, Mallorca, España, 3 de junio de 1986), más conocido como Rafa Nadal, es un tenista profesional español.", 'resultado_dataframe.csv')
pd.read_csv('resultado_dataframe.csv')

Unnamed: 0,ID,WORD,LEMMA,UPODTAG,XPOSTAG,FEATS,HEAD,DEPREL,DEPS,MISC
0,"# generator = UDPipe 2, https://lindat.mff.cun...",,,,,,,,,
1,# udpipe_model = spanish-ancora-ud-2.10-220711,,,,,,,,,
2,# udpipe_model_licence = CC BY-NC-SA,,,,,,,,,
3,# newdoc,,,,,,,,,
4,# newpar,,,,,,,,,
5,# sent_id = 1,,,,,,,,,
6,"# text = Rafael Nadal Parera (Manacor, Mallorc...",,,,,,,,,
7,1,Rafael,Rafael,PROPN,np00000,_,26.0,nsubj,_,_
8,2,Nadal,Nadal,PROPN,_,_,1.0,flat,_,_
9,3,Parera,Parera,PROPN,_,_,1.0,flat,_,_


Para terminar, guarda el fichero en tu repositorio de GitHub con la opción *File --> Save a copy in GitHub*.