# Parte 2. Recuperación de información

## Apartado a)

**Empezaremos utilizando una representación de la bolsa de palabras con las frecuencias de cada una en cada mensaje**

Cargamos los datos y los dividimos en train y test:

In [1]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

In [2]:
train_data = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)
test_data = fetch_20newsgroups(subset='test')

print("Training texts:", len(train_data.data))
print("Test texts:", len(test_data.data))

Training texts: 11314
Test texts: 7532


Podemos observar 20 clases diferentes de mensajes :

In [3]:
print(len(train_data.target_names))
print(train_data.target_names)

20
['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


A continuación creamos un dataframe que contiene los elementos de test. Por cada mensaje, tenemos la clase a la que pertenece y su id

In [4]:
import numpy as np
import pandas as pd

mensajes = {'Mensaje': test_data.data,
        'clase': test_data.target,
        'id': list(range(len(test_data.data)))}
df = pd.DataFrame(mensajes, columns=['Mensaje', 'clase','id'])
df.head()

Unnamed: 0,Mensaje,clase,id
0,From: v064mb9k@ubvmsd.cc.buffalo.edu (NEIL B. ...,7,0
1,From: Rick Miller <rick@ee.uwm.edu>\nSubject: ...,5,1
2,From: mathew <mathew@mantis.co.uk>\nSubject: R...,0,2
3,From: bakken@cs.arizona.edu (Dave Bakken)\nSub...,17,3
4,From: livesey@solntze.wpd.sgi.com (Jon Livesey...,19,4


**A continuación vamos a crear nuestra bolsa de palabras con ayuda de CountVectorizer. Le pasamos el diccionario que lo cargamos desde "words.txt" y lo configuramos para que use las frecuencias de aparición de cada palabra(considerando solo monogramas):**

In [5]:
# Pasamos el fichero a una lista (una línea por item)
with open('Datos/words.txt') as f:
    dictionary = f.read().splitlines()

vectorizer = CountVectorizer(vocabulary=dictionary, stop_words='english',
                             binary=False,ngram_range=(1,1))
# Tomamos los textos del conjunto de entrenamiento y los transformamos en 
# una matriz de datos (palabras) según el diccionario estándar
train_vector_data=vectorizer.fit_transform(train_data.data)

In [6]:
test_vector_data=vectorizer.transform(test_data.data)

In [7]:
feature_names = vectorizer.get_feature_names()

print(len(feature_names))

466551


**A continuación tomamos 3 mensajes de cada clase del conjunto de test(es decir, para cada tema)**

Usaremos cada uno de estos mensajes como consulta para recuperar los mensajes del conjunto de entrenamiento que mas se parezcan a la consulta:

In [8]:
##Función que nos devuelve 3 mensajes de cada clase

def mensajes_por_clase():
    lista_mensajes = []
    for i in range(0,len(test_data.target_names)):
        df2 = df[df['clase'] == i]
        new=[]
        for j in range(0,3):
            new.append(df2.iloc[j,2])
        lista_mensajes.append(new)

    return lista_mensajes

Obtenemos una lista que contiene 3 mensajes de cada clase (en nuestro caso, los primeros que se encuentren en el dataframe al aplicar un filtro para mostrar los datos por clases):

In [9]:
lista_mensajes = mensajes_por_clase()
lista_mensajes

[[2, 14, 49],
 [9, 17, 20],
 [10, 15, 41],
 [24, 29, 33],
 [16, 32, 37],
 [1, 8, 11],
 [18, 21, 38],
 [0, 27, 28],
 [13, 42, 50],
 [36, 53, 69],
 [56, 61, 72],
 [26, 44, 48],
 [84, 109, 120],
 [5, 25, 52],
 [23, 34, 46],
 [6, 7, 87],
 [19, 58, 86],
 [3, 12, 22],
 [65, 66, 71],
 [4, 63, 73]]


Vemos como por ejemplo, para la clase 0(atheism) hemos seleccionado los documentos con descriptores 2,14 y 49 del conjunto de test.

**A continuación definiremos dos funciones:**
    
    - calculate_cosine_similarity: calcula la distancia del conseno entre los mensajes de consulta seleccionados previamente y todos los mensajes del conjunto train
    
    - get_relevants(X): nos devuelve los X primeros términos más relevantes(ordenando de mayor a menor las similitudes entre dos mensajes)

In [10]:
from sklearn.metrics import pairwise

"""Tenemos los mensajes seleccionados del conjunto de test que usaremos como consultas en la lista
"lista_mensajes" obtenida anteriormente.

Recibe como parametros los datos de test y de entrenamiento que contienen los elementos entre los
que se quiere calcular la distancia del coseno.

Devuelve una matriz con las similitudes entre cada uno de los 60 mensajes de consulta y todo el conjunto
de train
"""
def calculate_cosine_similarity(test_vector,train_vector):
    similarities=[]
    #Por cada clase tenemos 3 mensajes
    for clase in lista_mensajes:
        #Mensajes usados como consultas
        for id_mensaje in clase:
            similarities.append(pairwise.cosine_similarity(
                    test_vector[id_mensaje],train_vector)[0])
    return similarities


In [11]:
"""
X : nivel de exhaustividad
cosine_similarities : matriz de distancias del coseno

Devuelve una lista con los descriptores de los X primeros terminos más relevantes

"""
def get_relevants(X,cosine_similarities):
    
    array_posiciones=[]
    
    i = 0 #variable usada para identificar las 20 clases (de la 0 a la 19)
    contador=0 #variable para identificar cada uno de los 60 vectores de distancias del coseno
   
    #Por cada clase tenemos 3 mensajes usados como consulta
    for clase in lista_mensajes:  
        
        #Por cada clase tendremos 3 listas(1 por consulta) , y cada una de estas contienen
        # los id's de los X mensajes más relevantes recuperados de train  para esa consulta:
        clases =[]
        print("CONSULTAS CLASE ", i,'\n')
        
        for id_mensaje in clase:
            
            ## s contiene el array de distancias del conseno entre el  mensaje "id_mensaje" 
            ##y el conjunto train
            s = cosine_similarities[contador] 
            contador+=1
            
            # best contiene los id de los X elementos con mayor valor de s
            best = s.argsort()[:-(X+1):-1] 
            clases.append(best)
            
            ## INICIO INFORMACIÓN DE LAS CONSULTAS
            print("Mensaje consulta nª ",id_mensaje)
            print("=========================")
            print("--Id's documentos recuperados:")
            print(best)
            print("--Similitudes entre los documentos recuperados y la consulta:")
            print(s[best])
            print("\n")
            ##FIN INFORMACIÓN DE LAS CONSULTAS
            
        #añadimos la matriz calculada anteriormente a la lista que finalmente retornaremos y la cual
        #contiene los mensajes recuperados de las 20 clases y con las 60 consultas
        array_posiciones.append(clases)
        i+=1
        
    return array_posiciones

    


**Calculamos la similitud del coseno entre todos los mensajes seleccionados del conjunto de test, con todos el conjunto de train(le pasamos el vector de test entero por que la propia funcion ya se encarga de seleccionar los mensajes)**

In [12]:
cosine_similarities = calculate_cosine_similarity(test_vector_data,train_vector_data)

In [13]:
len(cosine_similarities)


60

In [14]:
cosine_similarities

[array([0.09723056, 0.06338657, 0.06299408, ..., 0.09449112, 0.07142857,
        0.10182663]),
 array([0.13667962, 0.03144855, 0.11720181, ..., 0.04102063, 0.1107453 ,
        0.02526008]),
 array([0.06716403, 0.03502847, 0.09138039, ..., 0.05874453, 0.05180781,
        0.04220332]),
 array([0.12126781, 0.03952847, 0.09820928, ..., 0.08838835, 0.05567943,
        0.10583344]),
 array([0.12126781, 0.09882118, 0.05892557, ..., 0.08838835, 0.05011148,
        0.0952501 ]),
 array([0.06179126, 0.10070744, 0.04128459, ..., 0.0337783 , 0.05106799,
        0.14560229]),
 array([0.08696566, 0.05669467, 0.04225771, ..., 0.06338657, 0.04791574,
        0.09107651]),
 array([0.05535093, 0.10825318, 0.11296201, ..., 0.03227486, 0.04269563,
        0.03478042]),
 array([0.16502459, 0.10758287, 0.04811252, ..., 0.07216878, 0.10910895,
        0.17282528]),
 array([0.07048548, 0.07352146, 0.07534954, ..., 0.05137468, 0.12427395,
        0.08858079]),
 array([0.20008168, 0.0931695 , 0.18055556, ..., 0

**Calculamos la precisión de la lista con niveles de exhaustividad 3 y 10 para obtener los 3 y 10 primeros documentos más relevantes de cada consulta**

In [15]:
three_relevants = get_relevants(3,cosine_similarities)

CONSULTAS CLASE  0 

Mensaje consulta nª  2
--Id's documentos recuperados:
[3172 7539 6909]
--Similitudes entre los documentos recuperados y la consulta:
[0.47172818 0.45275437 0.40089186]


Mensaje consulta nª  14
--Id's documentos recuperados:
[9623 4066 6596]
--Similitudes entre los documentos recuperados y la consulta:
[0.35698807 0.33829381 0.32846258]


Mensaje consulta nª  49
--Id's documentos recuperados:
[3621  582  192]
--Similitudes entre los documentos recuperados y la consulta:
[0.35750785 0.34445018 0.33957856]


CONSULTAS CLASE  1 

Mensaje consulta nª  9
--Id's documentos recuperados:
[10221   569  2497]
--Similitudes entre los documentos recuperados y la consulta:
[0.31945757 0.30139814 0.29933304]


Mensaje consulta nª  17
--Id's documentos recuperados:
[2882 3933 4696]
--Similitudes entre los documentos recuperados y la consulta:
[0.30935922 0.29462783 0.2941742 ]


Mensaje consulta nª  20
--Id's documentos recuperados:
[6056 8292 3916]
--Similitudes entre los docume

In [17]:
ten_relevants = get_relevants(10,cosine_similarities)

CONSULTAS CLASE  0 

Mensaje consulta nª  2
--Id's documentos recuperados:
[3172 7539 6909 7201 6875 8810 7687 2398 8007 7831]
--Similitudes entre los documentos recuperados y la consulta:
[0.47172818 0.45275437 0.40089186 0.36596253 0.34743961 0.34646743
 0.34156503 0.33722664 0.31339159 0.30966177]


Mensaje consulta nª  14
--Id's documentos recuperados:
[ 9623  4066  6596  6552  1862  4421  6432 11187   210  4295]
--Similitudes entre los documentos recuperados y la consulta:
[0.35698807 0.33829381 0.32846258 0.31964129 0.31619096 0.31270282
 0.31151958 0.30911784 0.30885736 0.30806671]


Mensaje consulta nª  49
--Id's documentos recuperados:
[ 3621   582   192  1379  6116   980  5733 10575   931  3742]
--Similitudes entre los documentos recuperados y la consulta:
[0.35750785 0.34445018 0.33957856 0.33417007 0.33391244 0.32714757
 0.32544164 0.31802671 0.31642548 0.30809929]


CONSULTAS CLASE  1 

Mensaje consulta nª  9
--Id's documentos recuperados:
[10221   569  2497 11235   335  7

Como podemos ver en el siguiente ejemplo, si queremos ver los documentos recuperados para las consultas de la clase 0:

In [18]:
three_relevants[0]

[array([3172, 7539, 6909], dtype=int64),
 array([9623, 4066, 6596], dtype=int64),
 array([3621,  582,  192], dtype=int64)]

In [19]:
ten_relevants[0]

[array([3172, 7539, 6909, 7201, 6875, 8810, 7687, 2398, 8007, 7831],
       dtype=int64),
 array([ 9623,  4066,  6596,  6552,  1862,  4421,  6432, 11187,   210,
         4295], dtype=int64),
 array([ 3621,   582,   192,  1379,  6116,   980,  5733, 10575,   931,
         3742], dtype=int64)]

Vemos como para la primera consulta de la clase 0 hemos recuperado los mensajes con id [3172, 7539, 6909], para la segunda [9623, 4066, 6596] y para la tercera [3621,  582,  192].

Igual pasaría con los ten_relevants pero recuperando 10 mensajes en vez de 3

**A continuación crearemos dos funciones auxiliares:**

    -Una para obtener la precisión al decidir la clase de un conjunto de documentos
    - Otra para calcular la precisión media para cada clase del conjunto de datos(3 mensajes por clase)

In [20]:
##relevant_documents es un array que contiene id's de documentos
##target es la clase a la que deberían pertenecer los documentos 
def precision_consulta(target, relevant_documets):
    hits = 0
    total = 0
    for d in relevant_documets:
        #Si la clase de un documento es igual a la que le pasamos por target, entonces es un acierto 
        if train_data.target[d] == target:
            hits+=1
            
        total+=1
        
    return hits/total

In [21]:


#Por parámetro recibe a la matriz de documentos recuperados por cada mensaje de cada clase

def print_precision_table(relevants_documents):
    
    target = 0
    ##Recorremos la matriz por clases
    for clase in relevants_documents:
        precision_media=0   
        #Ahora, por cada una de las 3 listas de documentos recuperados por cada clase calculamos su precisión media
        for consulta in clase:
            ## la siguiente funcion me calcula la precision de esa consulta
            precision = precision_consulta(target,consulta)
            precision_media += precision
            
        print("Precision media clase",target,"(",train_data.target_names[target],"):"
              ,precision_media/len(clase))
        target+=1
        
    

In [22]:
print_precision_table(three_relevants)

Precision media clase 0 ( alt.atheism ): 0.3333333333333333
Precision media clase 1 ( comp.graphics ): 0.2222222222222222
Precision media clase 2 ( comp.os.ms-windows.misc ): 0.2222222222222222
Precision media clase 3 ( comp.sys.ibm.pc.hardware ): 0.5555555555555555
Precision media clase 4 ( comp.sys.mac.hardware ): 0.0
Precision media clase 5 ( comp.windows.x ): 0.3333333333333333
Precision media clase 6 ( misc.forsale ): 0.7777777777777777
Precision media clase 7 ( rec.autos ): 0.3333333333333333
Precision media clase 8 ( rec.motorcycles ): 0.8888888888888888
Precision media clase 9 ( rec.sport.baseball ): 0.7777777777777777
Precision media clase 10 ( rec.sport.hockey ): 0.6666666666666666
Precision media clase 11 ( sci.crypt ): 0.5555555555555555
Precision media clase 12 ( sci.electronics ): 0.4444444444444444
Precision media clase 13 ( sci.med ): 0.7777777777777777
Precision media clase 14 ( sci.space ): 0.7777777777777777
Precision media clase 15 ( soc.religion.christian ): 0.7777

In [23]:
print_precision_table(ten_relevants)

Precision media clase 0 ( alt.atheism ): 0.2333333333333333
Precision media clase 1 ( comp.graphics ): 0.19999999999999998
Precision media clase 2 ( comp.os.ms-windows.misc ): 0.3
Precision media clase 3 ( comp.sys.ibm.pc.hardware ): 0.5
Precision media clase 4 ( comp.sys.mac.hardware ): 0.06666666666666667
Precision media clase 5 ( comp.windows.x ): 0.3
Precision media clase 6 ( misc.forsale ): 0.5666666666666668
Precision media clase 7 ( rec.autos ): 0.3
Precision media clase 8 ( rec.motorcycles ): 0.7333333333333333
Precision media clase 9 ( rec.sport.baseball ): 0.7666666666666666
Precision media clase 10 ( rec.sport.hockey ): 0.5666666666666668
Precision media clase 11 ( sci.crypt ): 0.3666666666666667
Precision media clase 12 ( sci.electronics ): 0.5
Precision media clase 13 ( sci.med ): 0.5333333333333333
Precision media clase 14 ( sci.space ): 0.7333333333333334
Precision media clase 15 ( soc.religion.christian ): 0.5
Precision media clase 16 ( talk.politics.guns ): 0.399999999

## PREGUNTAS:
Contesta a lo siguiente:

    •¿Hay muchas diferencias entre los valores de precisión medios para las distintas clases del conjunto de datos? ¿A qué crees que se deben?
    
    •Identifica la clase que haya tenido peores resultados de precisión y para alguna de sus consultas muestra alguno de los mensajes que recuperó erróneamente en las primeras X posiciones.¿Con qué clases se ha confundido más dicha consulta?¿A qué crees que se deben los malos resultados?

Si miramos la tabla de precisión( tanto en la que recuperamos 3 documentos como en la que recuperamos 10) vemos que la clase que tiene peores resultados es la número 4 (comp.sys.mac.hardware). Como podemos ver a no ha recuperado ningún documento de su misma clase correctamente

In [35]:
print("Mensajes de consulta para la clase 4: ")
print(lista_mensajes[4])
print("\nMensajes recuperados ")
three_relevants[4]

Mensajes de consulta para la clase 4: 
[16, 32, 37]

Mensajes recuperados 


[array([10591,  4055,  8216], dtype=int64),
 array([4453, 6680, 6452], dtype=int64),
 array([10966,  2695,  4696], dtype=int64)]

In [36]:
for i in range(0,3):
    print(train_data.target[three_relevants[4][i]])

[2 2 2]
[ 5  6 12]
[18  5 18]


Como podemos ver, la clase con la que más se ha confundido ha sido la clase 2 (comp.os.ms-windows.misc).
La precisión más baja al recuperar los 10 elementos más relevantes es también la de la clase 4, aunque en este caso tiene un valor ligeramente mayor que 0.0, ya que ahora tiene una precisión de 0.066666.

In [37]:
print("Mensajes de consulta para la clase 4: ")
print(lista_mensajes[4])
print("\nMensajes recuperados ")
ten_relevants[4]

Mensajes de consulta para la clase 4: 
[16, 32, 37]

Mensajes recuperados 


[array([10591,  4055,  8216,  5090,  3405,  7264,  4267,  6221,  8156,
         8945], dtype=int64),
 array([4453, 6680, 6452,  159, 4992, 9692, 4278, 3502, 2331,  969],
       dtype=int64),
 array([10966,  2695,  4696,  5571,  2331,  8484,  2433,  4474,  5962,
         9294], dtype=int64)]

In [38]:
for i in range(0,3):
    print(train_data.target[ten_relevants[4][i]])

[2 2 2 2 2 2 2 4 2 2]
[ 5  6 12 15  5  6  6  5 12  4]
[18  5 18  6 12  6  1  6  6  7]


Vemos que las clases con las que más se confunden estos mensajes son la 2 y la 6 (misc.forsale)

In [39]:
print(train_data.data[10591])

From: rcs1@crux3.cit.cornell.edu (R Craig Stevenson)
Subject: W4W: printing envelops on DJ550C (not 500C!)
Nntp-Posting-Host: crux3.cit.cornell.edu
Organization: Cornell University
Lines: 19

I've got a probelm with printing envelops on my deskjet 550C from Word
for Windows.

History: when I had a Deskjet 500, I had to modify the macro so that
it would disable reverse printing since there seemed to be a bug that
interferred with printing envelops.  That bug is still present, however...

Now: the problem I have is that my DeskJet 550 print driver (came with
the printer I bought in December) still wants to print the envelops in
PORTRAIT mode.  However, the DeskJet 550 feeds envelops the from the
narrow end (i.e. landscape mode).  How do I get the printer to print
the envelops in the correct orientation?

PLEASE PLEASE PLEASE do not post this to the net since:
    (a) due to end of the semester cruch, I can't keep up on these groups,
and (b) I will summarize the best answer(s) to the net 

In [40]:
print(train_data.data[4055])

From: cca20@keele.ac.uk (J. Atherton)
Subject: serial printing in Windows
Lines: 12
Distribution: world
NNTP-Posting-Host: seq1.cc.keele.ac.uk
X-Newsreader: TIN [version 1.1 PL6]

I am getting Garbled output when serial printing thru Windows & works
etc.  This has occurred on several systems and goes if a LaserJet 4 is
used.  I suspect that there is no need for handshaking in this case due
to the capacity (memory/speed) of it.  There is no problem printing from
DOS.  Are there any obvious tweaks I'm missing.  I'm sure its not JUST
me with this problem.  Thanks for reading....  John Atherton









In [41]:
print(train_data.data[2695])

From: egan@phony25.cc.utah.edu (Egan F. Ford)
Subject: color xterm
Keywords: color xterm
Reply-To: egan%phony25.cc.utah.edu@hellgate.utah.edu
Organization: Call Business Systems
Lines: 9

I'm look for current patches for color xterm for X11R5 pl19 ro higher.  Could
someone please tell me where to get them for e-mail them to me.

Thanks.


-- 
Egan F. Ford
egan%phony25.cc.utah.edu@hellgate.utah.edu



In [42]:
print(train_data.data[6680])

From: gt4661a@prism.gatech.EDU (gt4661a gt4661a PAOLO,MARC ANTHONY)
Subject: Computer For Sale
Distribution: atl
Organization: Georgia Institute of Technology
Lines: 5

-- 
PAOLO,MARC ANTHONY
Georgia Institute of Technology, Atlanta Georgia, 30332
uucp:     ...!{allegra,amd,hplabs,ut-ngp}!gatech!prism!gt4661a
Internet: gt4661a@prism.gatech.edu



## Apartado b)

**Ahora realizaremos lo mismo pero en vez de con las frecuencias las palabras, lo haremos con una bolsa de palabras con TF/IDF**

In [43]:
# Calculamos el valor TF-IDF para nuestros dos vectores
tfidfer = TfidfTransformer()
train_preprocessed = tfidfer.fit_transform(train_vector_data)
test_preprocessed=tfidfer.transform(test_vector_data)

**Calculamos la distancia del coseno entre los 60 mensajes del conjunto test (3 mensajes por cada una de las 20 clases) y el cojunto de train.**

In [44]:
cosine_similarities_tdidf = calculate_cosine_similarity(test_preprocessed,train_preprocessed)

**Obtenemos los 3 y los 10 documentos más relevantes de cada consulta:**

In [45]:
three_relevants_tfidf = get_relevants(3,cosine_similarities_tdidf)

CONSULTAS CLASE  0 

Mensaje consulta nª  2
--Id's documentos recuperados:
[7539 3172 6875]
--Similitudes entre los documentos recuperados y la consulta:
[0.41469713 0.38118576 0.32666042]


Mensaje consulta nª  14
--Id's documentos recuperados:
[ 210 8795 9623]
--Similitudes entre los documentos recuperados y la consulta:
[0.18181959 0.16976696 0.16739938]


Mensaje consulta nª  49
--Id's documentos recuperados:
[ 192 3621 6116]
--Similitudes entre los documentos recuperados y la consulta:
[0.30162446 0.29884185 0.27010764]


CONSULTAS CLASE  1 

Mensaje consulta nª  9
--Id's documentos recuperados:
[ 569 2497 3106]
--Similitudes entre los documentos recuperados y la consulta:
[0.2584884  0.21679884 0.21237681]


Mensaje consulta nª  17
--Id's documentos recuperados:
[2172 6387 7608]
--Similitudes entre los documentos recuperados y la consulta:
[0.21755868 0.21277376 0.1952026 ]


Mensaje consulta nª  20
--Id's documentos recuperados:
[5018 8936 6056]
--Similitudes entre los documento

In [46]:
ten_relevants_tfidf = get_relevants(10,cosine_similarities_tdidf)

CONSULTAS CLASE  0 

Mensaje consulta nª  2
--Id's documentos recuperados:
[ 7539  3172  6875  7201  6909  8007 10749  2095  8810  2398]
--Similitudes entre los documentos recuperados y la consulta:
[0.41469713 0.38118576 0.32666042 0.29853306 0.29111836 0.26190998
 0.25422292 0.2370712  0.2280488  0.22685931]


Mensaje consulta nª  14
--Id's documentos recuperados:
[ 210 8795 9623 1749 6013 6552 2840  221 5200 7480]
--Similitudes entre los documentos recuperados y la consulta:
[0.18181959 0.16976696 0.16739938 0.16649032 0.15579455 0.15504036
 0.15349439 0.15041995 0.14910271 0.14754671]


Mensaje consulta nª  49
--Id's documentos recuperados:
[ 192 3621 6116  582 5733 3742 1497  931  980 5144]
--Similitudes entre los documentos recuperados y la consulta:
[0.30162446 0.29884185 0.27010764 0.25812669 0.25595316 0.25022165
 0.23934987 0.23285171 0.23268068 0.22360311]


CONSULTAS CLASE  1 

Mensaje consulta nª  9
--Id's documentos recuperados:
[  569  2497  3106  1083   709 10747 10221 

**Calculamos los valores de precisión media para cada clase del conjunto de datos**

Precisión para un nivel de exhaustividad 3:

In [47]:
print_precision_table(three_relevants_tfidf)

Precision media clase 0 ( alt.atheism ): 0.2222222222222222
Precision media clase 1 ( comp.graphics ): 0.1111111111111111
Precision media clase 2 ( comp.os.ms-windows.misc ): 0.1111111111111111
Precision media clase 3 ( comp.sys.ibm.pc.hardware ): 0.6666666666666666
Precision media clase 4 ( comp.sys.mac.hardware ): 0.3333333333333333
Precision media clase 5 ( comp.windows.x ): 0.3333333333333333
Precision media clase 6 ( misc.forsale ): 0.4444444444444444
Precision media clase 7 ( rec.autos ): 0.4444444444444444
Precision media clase 8 ( rec.motorcycles ): 0.7777777777777778
Precision media clase 9 ( rec.sport.baseball ): 1.0
Precision media clase 10 ( rec.sport.hockey ): 1.0
Precision media clase 11 ( sci.crypt ): 0.5555555555555555
Precision media clase 12 ( sci.electronics ): 0.4444444444444444
Precision media clase 13 ( sci.med ): 0.7777777777777777
Precision media clase 14 ( sci.space ): 1.0
Precision media clase 15 ( soc.religion.christian ): 0.7777777777777777
Precision media c

In [49]:
print_precision_table(three_relevants)

Precision media clase 0 ( alt.atheism ): 0.3333333333333333
Precision media clase 1 ( comp.graphics ): 0.2222222222222222
Precision media clase 2 ( comp.os.ms-windows.misc ): 0.2222222222222222
Precision media clase 3 ( comp.sys.ibm.pc.hardware ): 0.5555555555555555
Precision media clase 4 ( comp.sys.mac.hardware ): 0.0
Precision media clase 5 ( comp.windows.x ): 0.3333333333333333
Precision media clase 6 ( misc.forsale ): 0.7777777777777777
Precision media clase 7 ( rec.autos ): 0.3333333333333333
Precision media clase 8 ( rec.motorcycles ): 0.8888888888888888
Precision media clase 9 ( rec.sport.baseball ): 0.7777777777777777
Precision media clase 10 ( rec.sport.hockey ): 0.6666666666666666
Precision media clase 11 ( sci.crypt ): 0.5555555555555555
Precision media clase 12 ( sci.electronics ): 0.4444444444444444
Precision media clase 13 ( sci.med ): 0.7777777777777777
Precision media clase 14 ( sci.space ): 0.7777777777777777
Precision media clase 15 ( soc.religion.christian ): 0.7777

Precisión para un nivel de exhaustividad 10:

In [48]:
print_precision_table(ten_relevants_tfidf)

Precision media clase 0 ( alt.atheism ): 0.26666666666666666
Precision media clase 1 ( comp.graphics ): 0.3
Precision media clase 2 ( comp.os.ms-windows.misc ): 0.26666666666666666
Precision media clase 3 ( comp.sys.ibm.pc.hardware ): 0.5666666666666668
Precision media clase 4 ( comp.sys.mac.hardware ): 0.20000000000000004
Precision media clase 5 ( comp.windows.x ): 0.4333333333333333
Precision media clase 6 ( misc.forsale ): 0.39999999999999997
Precision media clase 7 ( rec.autos ): 0.5
Precision media clase 8 ( rec.motorcycles ): 0.7333333333333333
Precision media clase 9 ( rec.sport.baseball ): 0.8666666666666667
Precision media clase 10 ( rec.sport.hockey ): 1.0
Precision media clase 11 ( sci.crypt ): 0.3666666666666667
Precision media clase 12 ( sci.electronics ): 0.6
Precision media clase 13 ( sci.med ): 0.6666666666666666
Precision media clase 14 ( sci.space ): 0.8666666666666667
Precision media clase 15 ( soc.religion.christian ): 0.6
Precision media clase 16 ( talk.politics.gu

In [50]:
print_precision_table(ten_relevants)

Precision media clase 0 ( alt.atheism ): 0.2333333333333333
Precision media clase 1 ( comp.graphics ): 0.19999999999999998
Precision media clase 2 ( comp.os.ms-windows.misc ): 0.3
Precision media clase 3 ( comp.sys.ibm.pc.hardware ): 0.5
Precision media clase 4 ( comp.sys.mac.hardware ): 0.06666666666666667
Precision media clase 5 ( comp.windows.x ): 0.3
Precision media clase 6 ( misc.forsale ): 0.5666666666666668
Precision media clase 7 ( rec.autos ): 0.3
Precision media clase 8 ( rec.motorcycles ): 0.7333333333333333
Precision media clase 9 ( rec.sport.baseball ): 0.7666666666666666
Precision media clase 10 ( rec.sport.hockey ): 0.5666666666666668
Precision media clase 11 ( sci.crypt ): 0.3666666666666667
Precision media clase 12 ( sci.electronics ): 0.5
Precision media clase 13 ( sci.med ): 0.5333333333333333
Precision media clase 14 ( sci.space ): 0.7333333333333334
Precision media clase 15 ( soc.religion.christian ): 0.5
Precision media clase 16 ( talk.politics.guns ): 0.399999999


## PREGUNTAS:
A continuación contesta a lo siguiente.

    •¿Han cambiado los valores de precisión media para las clases del conjunto de datos?¿Qué clases han mejorado? ¿Cuáles han empeorado?
    
    •Encuentra una consulta donde el uso de la ponderación TF-IDF haya sido efectivo y haya mejorado los resultados. Explica por qué ha sido efectivo.