**Grupo 5**:  
Belén Sánchez Centeno  
Martín Fernández de Diego

# Práctica 1

> __Fecha de entrega: 11 de abril de 2021__


## Parte 2: similitud semántica

Una de las grandes ventajas de las representaciones estructuradas es que podemos aprovechar su estructura para calcular similitudes semánticas entre las entidades. En esta ocasión vamos a cacular la similitud entre dos conceptos como:

$$Sim(A, B) = \frac{\delta(root, C)}{\delta(root, C) + \delta(C, A) + \delta(C, B)}$$

siendo:

- $\delta(X, Y)$ el __mínimo__ número de aristas que conecta A y B, siendo A más general que B.
- $C = LCS(A, B)$ el concepto más específico de la jerarquía que es más general que A y B (_least common subsummer_).

La idea tras esta similitud queda reflejada en la siguiente imagen:

<img src="sim.png" alt="Similitud" style="width: 300px;"/>

En la práctica pueden existir distintos conceptos C que cumplen la definición de _least common subsummer_ de A y B por lo que es necesario definir cuál de ellos vamos a utilizar. En nuestro caso seleccionaremos __uno de los que maximiza el valor de similitud__. 

In [8]:
import json
prefix = 'http://www.wikidata.org/entity/'

class taxonomia(object):
    
    # Apartado 2
    # carga toda la información del JSON en distintos diccionarios solicitados
    def load(self,filename):
        with open(filename, encoding='utf-8') as f:
            data = json.load(f)
        
        listX = []
        listXLabel = []
        listY = []
        listYLabel = []
        for pair in data:
            listX.append(pair['x'][len(prefix):])
            listXLabel.append(pair['xLabel'])
            listY.append(pair['y'][len(prefix):])
            listYLabel.append(pair['yLabel'])
        
        # diccionario 1: instrumentos
        self.instrumentsDict = dict(zip(listY,listYLabel))
        # for i in range(len(listY)):
        #    self.instrumentsDict[listX[i]] = listXLabel[i]
        
        # diccionario 2: subclases directas
        # crea un diccionario de claves y y valor lista vacia
        # despues introducimos su subclase x
        # * Utilizamos la instruccion [len(prefix):] para tomar solo el ID de Wikidata
        self.subclassDict = dict()
        for y in listY:
            self.subclassDict[y] = []
        for pair in data:
            self.subclassDict[pair['y'][len(prefix):]].append(pair['x'][len(prefix):])

        # diccionario 3: superclases directas
        # simetrico al anterior
        self.superclassDict = dict()
        for x in listX:
            self.superclassDict[x] = []
        for pair in data:
            self.superclassDict[pair['x'][len(prefix):]].append(pair['y'][len(prefix):])
    
    
    # Apartado 3
    # imprime el nodo raiz del arbol
    # y llama a la funcion recursiva print_level que imprime los niveles deseados
    def print_tree(self,concept,level):
        print('0',self.instrumentsDict[concept],'('+concept+')')
        self.print_level(concept,1,level)
    
    # imprime cada hijo de la varibale concept y, si level lo pide,
    # repite la operacion a sus hijos recursivamente
    def print_level(self,concept,this_level,end_level):
        for child in self.subclassDict[concept]:
            print(' '*this_level,this_level,self.instrumentsDict[child],'('+child+')')
            if this_level < end_level and child in self.subclassDict:
                self.print_level(child,this_level+1,end_level)
    
    
    # Apartado 4
    # almacena en la lista superConcept los conceptos más generales al concept dado
    def more_general(self,concept,superConcept):
        if concept in self.superclassDict:
            for father in self.superclassDict[concept]:
                superConcept.append(father)
                self.more_general(father,superConcept)
    
    # interseca las listas superConcept de ambos conceptos concept1 y concept2
    # luego elimina de la lista interseccion aquellos conceptos que son superclase de otros
    # así obtenemos los conceptos comunes inmediatamente superiores
    # * Utilizamos la estructura de datos set para poder intersecar conjuntos
    def LCS(self,concept1,concept2):
        if concept1 == concept2:
            print({concept1})
        else:
            moreGeneral1 = []
            moreGeneral2 = []
            self.more_general(concept1,moreGeneral1)
            self.more_general(concept2,moreGeneral2)
            intersection = set(moreGeneral1).intersection(moreGeneral2)
            sol = []
            for concept in intersection:
                is_superconcept = False
                for concept_aux in intersection:
                    if concept_aux in self.superclassDict and concept in self.superclassDict[concept_aux]:
                        is_superconcept = True
                if not is_superconcept:
                    sol.append(concept)   
            print(set(sol))
            
            
    # Apartado 5
    def path(self, a, b):
        if a == b:
            return [a]
        
        visited = dict()
        predecesor = dict()
        for key in self.instrumentsDict:
            visited[key] = False

        queue = []
 
        queue.append(a)
        visited[a] = True
        
        found = False
        
        while queue and not found:

            s = queue.pop(0)
            #print (s)
            
            if s in self.subclassDict:
                for i in self.subclassDict[s]:
                    if i == b:
                        found = True
                        predecesor[i] = s
                        #print(s,'es predecedesor de',i)
                    elif visited[i] == False:
                        queue.append(i)
                        visited[i] = True
                        predecesor[i] = s
                        #print(s,'es predecedesor de',i)
                        
        if not found:
            return []
        
        sol = [b]
        i = b
        while (i != a):
            sol.append(predecesor[i])
            i = predecesor[i] 
        
        return (sol[::-1])
    
    
    # Apartado 6
    def similarity(self,concept1,concept2):
        lcs_list = self.LCS(concept1,concept2)
        max_raiz_to_lcs = []
        max_lcs_to_concept1 = []
        max_lcs_to_concept2 = []
        max_sim=0;
        for lcs in lcs_list:
            raiz_to_lcs = self.path(Raiz,lcs)
            lcs_to_concept1 = self.path(lcs,concept1)
            lcs_to_concept2 = self.path(lcs,concept2)
            sim = (len(raiz_to_lcs)-1)/((len(raiz_to_lcs)-1)+(len(lcs_to_concept1)-1)+(len(lcs_to_concept2)-1))
            if sim > max_sim:
                max_sim = sim
                max_raiz_to_lcs = raiz_to_lcs
                max_lcs_to_concept1 = lcs_to_concept1
                max_lcs_to_concept2 = lcs_to_concept2
                
        print(max_sim)
        print(max_raiz_to_lcs)
        print(max_lcs_to_concept1)
        print(max_lcs_to_concept2)

In [9]:
t = taxonomia()

### 1) Obtener la taxonomía con la que vamos a trabajar

Utiliza el [punto el acceso](https://query.wikidata.org/) SPARQL de Wikidata para ejecutar una consulta que devuelva todos los pares de entidades $(x, y)$ tal que $x$ es subconcepto directo de $y$ y ambos son un tipos de [instrumentos musicales (Q34379)](https://www.wikidata.org/wiki/Q34379). Debes recuperar tantos las URIs de la entidades como sus etiquetas.

Escribe en la siguiente celda la consulta que has utilizado comentada adecuadamente.

A continuación descarga todas las respuestas en formato _Archivo JSON_ y guardalo en el mismo directorio de la práctica.

_Nota profesor: en el momento de realizar esta práctica obtuve 4727 resultados pero el número puede variar al ser Wikidata una base de conocimiento dinámica._

_Nota alumno: en el momento de realizar esta práctica obtuve 4543 resultados._

### 2) Cargar la taxonomía en memoria

Vamos a cargar la taxonomía de clases en memoria para poder operar con ella. Representaremos la jerarquía de clases mediante las siguientes estructuras:

- Un diccionario que asocia a cada identificador su etiqueta (por ejemplo 'Q34379' -> 'musical instrument')
- Un diccionario que asocia cada clase con sus subclases directas (por ejemplo 'Q17172850' -> {'Q101436564', 'Q1067089', 'Q186506', 'Q210970', 'Q223166', ...}, )
- Un diccionario que asocia cada clase con sus superclases directas (por ejemplo 'Q5994' -> {'Q3152898', 'Q4951628', 'Q52954'})

Tienes libertad para elegir cómo quieres representar la taxonomía en Python:

- Puedes usar una clase. En ese caso tendrás que ir añadiendo métodos a la clase para completar cada uno de los apartados de la práctica. Escribe el código de la clase en una única celda y utiliza los métodos que necesites en cada uno de los apartados.
- Puedes usar 3 variables globales para representar la taxonomía. En ese caso deberás escribir las operaciones como funciones en cada uno de los apartados de la práctica.

En cualquier caso recuerda documentar adecuadamente el código y trata de que sea sencillo de entender.

Crea una operación _load_ que reciba el nombre del fichero json y cargue el grafo en memoria usando las estructuras anteriores.

Recuerda que puedes cargar cualquier estructura en formato json usando el siguiente código:

```python
import json

with open(filename, encoding='utf-8') as f:
    data = json.load(f)
```

**Ejecución del *load***

In [10]:
t.load("musical_instrument_query.json")

*Ejemplo de comprobación*

In [11]:
t.instrumentsDict['Q34379']

'instrumento musical'

*Ejemplo de comprobación*

In [12]:
t.subclassDict['Q207821']

['Q890870', 'Q58878971', 'Q17088628', 'Q874501']

*Ejemplo de comprobación*

In [13]:
t.superclassDict['Q5994']

['Q3152898', 'Q4951628', 'Q52954']

### 3) Imprimir un subárbol de la taxonomía

Crea una operación _print_tree_ que imprimir la jerarquía de clases a partir de un concepto y hasta un nivel de profundidad determinado.

Por ejemplo, a continuación podemos ver el principio de la jerarquía de [voces](https://www.wikidata.org/wiki/Q17172850) con 3 niveles de profundidad:

```
0 voz (Q17172850)
  1 operatic vocal (Q101436564)
  1 alto (Q6983813)
   2 mezzosoprano ligera (Q6012300)
   2 boy alto (Q53395277)
   2 alto castrato (Q53395016)
   2 contralto (Q37137)
  1 contralto (Q37137)
   2 contralto cómica (Q5785182)
   2 lyric contralto (Q54635214)
   2 Tenorino (Q6141663)
   2 contralto de coloratura (Q54635184)
   2 deep contralto (Q54635335)
   2 contralto dramática (Q5785183)
  1 bajo (Q27911)
   2 heavy acting bass (Q54636271)
   2 bajo profundo (Q2532487)
   2 bajo buffo (Q1002146)
   ...
```

Como ocurre en todas las grandes bases de conocimiento, dentro de Wikidata hay información que no ha sido bien introducida o está mal clasificada. ¿Puedes encontrar algún ejemplo concreto dentro de la jerarquía de instrumentos?

Por un lado, hay constantes claros ejemplos donde el nivel de clasificación no es el más adecuado. Véase en la taxonomía de [instrumentos de viento](https://www.wikidata.org/wiki/Q173453)

```
0 instrumento de viento (Q173453)
  1 Ney-anbān (Q3339215)
  1 wind instrument with keyboard (Q11712894)
   2 órgano (Q281460)
   2 armonio (Q12460259)
   2 flauta travesera (Q209554)
  1 aeolodion (Q22266768)
  ...
```

donde el instrumento [Ney-anbān](https://www.wikidata.org/wiki/Q3339215), una especie de gaita iraní, tendría una clasficiación más adecuada si se encontrara como subclase del concepto [gaita](https://www.wikidata.org/wiki/Q8347). 

Por otro lado, así como existe una categoría en el nivel 1 llamada *instrumento de viento-metal*, no existe otra análoga llamada *instrumento de viento-madera*. Esto se debe, quizás, a la generación dinámica de las superclases a medida que se añaden conceptos a la base de datos; lo cual, conlleva a una clasficación menos homogénea y más caótica de la taxonomía.

También encontramos mismas categorías con diferente identificador

```
0 instrumento de viento (Q173453)
  1 horn instrument (Q1126540)
   2 oliphant (Q95976560)
   2 Corneta de posta (Q996531)
   2 hunting horn (Q1678302)
   2 Vienna horn (Q2568945)
   2 corno da tirarsi (Q16951760)
   2 corneta natural (Q1628293)
   2 Carnyx (Q277670)
   2 German horn (Q25043174)
   2 French horn (Q97477525)
   2 olifante (Q1335907)
   2 bugle-horn (Q94572957)
  1 cuerno (Q2665724)
   2 Berrante (Q58318973)
   2 Q3354343 (Q3354343)
   2 Shofar (Q48298)
  ...
```

Y, por último, no sería excepcional que encontrásemos algún error de clasificación. Aunque no parece ser de los más común, ya que como hemos dicho, al instrumento se le asigna una superclase y, si no existiese una lo más acorde posible, simplemente pasaría a estar al mismo nivel que otros conceptos mucho más generales.

*Ejemplo de comprobación*

In [14]:
t.print_tree('Q173453',2)

0 instrumento de viento (Q173453)


KeyError: 'Q3339215'

### 4) Obtener los LCS

Crea una operación _lcs_ que devuelva todos los LCS de dos conceptos determinados. Recuerda que un concepto C es LCS(A, B) si es más general que ambos y no se puede especializar más sin dejar de serlo.

Para implementarlo seguramente te resulte útil tener otro método que devuelva todos los conceptos más generales que uno dado. _Pista: es fácil de implementar usando operaciones entre conjuntos_. 

Ejemplos:

```
mezzosoprano dramática (Q6012297), mezzosoprano ligera (Q54634726), mezzosoprano (Q186506)
LCS('Q6012297', 'Q54634726') = {'Q186506'}

grave (Q5885030), mezzosoprano ligera (Q6012300), voz (Q17172850)
LCS('Q5885030', 'Q6012300') = {'Q17172850'}

tenor (Q27914)
LCS('Q27914', 'Q27914') = {'Q27914'}

viola eléctrica (Q15336282), bajo eléctrico (Q64166304), instrumento de cuerda (Q1798603), electrófono (Q105738), necked box lutes (Q55724840)
LCS('Q15336282', 'Q64166304') = {'Q55724840', 'Q105738', 'Q1798603}
```

*Ejemplo de comprobación*

In [153]:
t.LCS('Q6012297','Q54634726')

{'Q186506'}


*Ejemplo de comprobación*

In [154]:
t.LCS('Q15336282','Q64166304')

{'Q105738', 'Q1798603', 'Q55724840'}


### 5) Obtener caminos mínimos

Crea una operación _path_ que calcule el camino mínimo entre dos conceptos A y B siendo A más o igual de general que B. Como la taxonomía no tiene ciclos puedes implementarlo como una búsqueda en profunidad. Ten en cuenta que los caminos sólo pueden contener conceptos más específicos o iguales a A y más generales o iguales a B.

Ejemplos:

```
path('Q186506', 'Q54634726') = [mezzosoprano (Q186506), mezzosoprano ligera (Q54634726)]

path('Q17172850', 'Q6012300') = [voz (Q17172850), alto (Q6983813), mezzosoprano ligera (Q6012300)]

path('Q27914', 'Q27914') = [tenor (Q27914)]

path('Q34379', 'Q105738') = [instrumento musical (Q34379), cordófono (Q1051772), composite chordophones (Q19588495), lutes (Q1808578), handle lutes (Q30038759), necked lutes (Q55724833), necked box lutes (Q55724840)]
 ```

### 6) Calcular la similitud

Implementa una operación _similarity_ que calcule la similtud entre dos conceptos. Debe devolver tanto el valor númerico de similitud como los caminos desde la raiz al LCS y desde el LCS a cada uno de los dos conceptos.

Ten en cuenta que debes usar un LCS que maximice el valor de similitud. Si la información de Wikidata no ha cambiado, los valores de similitud deberían coincidir con los que aparecen en los ejemplos pero los caminos no tienen por qué. Y recuerda que no es lo mismo el números de aristas de un camino que el número de nodos del camino.

Ejemplos:

```
similarity('Q6012297', 'Q54634726')
0.5
[instrumento musical (Q34379), voz (Q17172850), mezzosoprano (Q186506)]
[mezzosoprano (Q186506), mezzosoprano dramática (Q6012297)]
[mezzosoprano (Q186506), mezzosoprano ligera (Q54634726)]

similarity('Q186506', 'Q54634726')
0.6666666666666666
[instrumento musical (Q34379), voz (Q17172850), mezzosoprano (Q186506)]
[mezzosoprano (Q186506)]
[mezzosoprano (Q186506), mezzosoprano ligera (Q54634726)]

similarity('Q27914', 'Q27914')
1.0
[instrumento musical (Q34379), voz (Q17172850), high voice (Q98116969), tenor (Q27914)]
[tenor (Q27914)]
[tenor (Q27914)]

similarity('Q76239', 'Q78987')
0.42857142857142855
[instrumento musical (Q34379), cordófono (Q1051772), instrumento de cuerda (Q1798603), instrumento de cuerda pulsada (Q230262)]
[instrumento de cuerda pulsada (Q230262), cítara (Q76239)]
[instrumento de cuerda pulsada (Q230262), plucked necked box lutes (Q57306162), guitarra (Q6607), guitarra eléctrica (Q78987)]
```

### 7) Análisis de las similitudes

Calcula la similitud 2 a 2 de los siguientes instrumentos y explica razonadamente si los valores obtenidos tienen sentido de acuerdo a tu intuición sobre si se parecen o no.

```
piano (Q5994), guitarra (Q6607), guitarra eléctrica (Q78987), flauta (Q11405), trompeta (Q8338)
```

In [159]:
similarity('Q5994', 'Q6607')

NameError: name 'similarity' is not defined