#### Participantes: 
Campoverde Méndez, Marlon y Mateos Pérez, Ventura 
#### Grupo: 
Grupo 14 

In [106]:
from sklearn.datasets import fetch_20newsgroups
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.metrics.pairwise import cosine_similarity

In [107]:
train_data = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)
test_data = fetch_20newsgroups(subset='test')

In [108]:
test_df = pd.DataFrame({"Data":test_data.data, "Target":test_data.target})
train_df = pd.DataFrame({"Data":train_data.data, "Target":train_data.target})

In [109]:
with open('words.txt') as f: # Pasamos el fichero a una lista (una línea por item)
    dictionary = f.read().splitlines()
    
vectorizer = CountVectorizer(vocabulary=dictionary, stop_words='english')# El diccionario cargado lo pasamos en el parámetro vocabulary    

---
##### ***get3Mensajes(index)***

Esta función sirve para extraer 3 textos del conjunto de test, lo hago a partir de un dataFrame ya que es muy fácil su uso y con un par de líneas se puede hacer una cosulta de este tipo, dado un numero optenemos todos los elementos cuya clase sea igul a la que buscamos. 

In [110]:
def get3Mensajes(index):
    df1 = test_df[test_df['Target'] == index]
    df1.reset_index(drop=True, inplace=True)
    result = []
    result.append(df1["Data"][0])
    result.append(df1["Data"][1])
    result.append(df1["Data"][2])
    return result

---
##### ***optenerXelementos(level, matrizResult):***
Uso esta función para que extraiga los X elementos cuyo valor de la distnacia coseno sean los más altos. Se usa esta funcion en vez de las funciones de numpy de ordenar de mayor a menor que son muy útilies pero perdemos el índice en el que estan situados estos valores. 
Dado que las cosultas con la distancia coseno se hacen en orden según estan los datos del train_data.data, nos son de ayuda sus indices ya que posteriormente nos seran de utilidad para ver a que clase pertenece cada valor y así determinar la precisión. 

Devolvemos una lista con 3 posiciones, una por cada texto. Cada una de esas 3 posiciones contendrá una lista de X elementos dependiendo el nivel de exhaustividad que usemos, en esa lista habrán tuplas donde el primer elementos es la distancia coseno y el segundo será el indice del texto de entrenamiento que se ha usado del conjunto de train_data.data

In [111]:
def optenerXelementos(level, matrizResult): 
    result = []
    for i in range (len(matrizResult)):
        resultAux = []
        for j in range (level): 
            aux = np.where(max(matrizResult[i]) == matrizResult[i])
            indiceMax = aux[0][0]
            resultAux.append([matrizResult[i][indiceMax], indiceMax])
            matrizResult[i][indiceMax] = 0
        result.append(resultAux)
    return result

---
##### ***getResultados(mejoresXlist, indexClase):***

Esta función nos sirve para obtener los resultados, es decir,  devuelve una lista de dos posiciones. 
En la primera posición es una lista con 3 posiciones, una por cada texto del conjunto de test. Estas posiciones contienen el número de coicidencias que ha habído a la hora de hacer la distancia coseno y de las X mejores cuales coinciden con la clase que estamos consultando. 

La segunda posición es otra lista que contiene todas las clases con las que se ha confundido dicha consulta. 

In [112]:
def getResultados(mejoresXlist, indexClase):
    resultados = [] 
    clases = []
    indexResult = []
    for i in range (len(mejoresXlist)): # analizamos los resultados del primer mensaje 
        mensaje = mejoresXlist[i] # extraemos los datos del primer mensaje para que sea mas facil el manejo de ellos 
        acum = 0
        for j in range (len(mensaje)): # analizamos los X mejores datos dependiendo del nivel de exhaustividad
            classIndex = mensaje[j][1] # extraemos el indice del mensaje de entrenamiento para asi poder consultar cual es su clase 
            clases.append(train_data.target[classIndex])
            indexResult.append(classIndex)
            if(indexClase == train_data.target[classIndex]): 
                acum += 1
        resultados.append(acum)  
    clasesConfundidas = confusionConClaseBuscada(clases, indexClase)
    return [resultados, clasesConfundidas]

---
##### ***confusionConClaseBuscada(clasesEncotradas, indexClassConsulta):***

Esta clase es llamada por "getResultados()" para sacar las clases con las que se ha confundido la consulta, nos ayuda a sacar el segundo parametro que devuelve getResultados()

In [113]:
def confusionConClaseBuscada(clasesEncotradas, indexClassConsulta):
    result = []
    unique, counts = np.unique(clasesEncotradas, return_counts=True)
    for i in range (len(unique)): 
        if(unique[i] != indexClassConsulta):
            result.append((unique[i],counts[i])) #tupla donde (indice de la clase, veces que ha aparecido) 
    return result

---
##### ***mostrarResultados(result,indexClaseConsulta, levelEx):***
Esta función sirve para mostras los datos anteriormente obtenido, el nivel de precisión de cada uno de los textos así como las clases con las que se ha confundido la consulta

In [119]:
def mostrarResultados(result,indexClaseConsulta, levelEx): 
    mensajes = result[0]
    confundidos = result[1]
    total = 0
    printmd("#### __Clase a consultar: " + test_data.target_names[indexClaseConsulta] + "__")
    print("Los niveles de exhaustividad para cada texto son: ")
    print("Texto 1:","{0:.2f}".format((mensajes[0]/levelEx) *100) ,"% | ", "Texto 2:","{0:.2f}".format((mensajes[1]/levelEx) *100) ,"% | ", "Texto 3:","{0:.2f}".format((mensajes[2]/levelEx) *100) ,"%")
    #print("Texto 2: ","{0:.2f}".format((mensajes[1]/levelEx) *100) ,"%")
    #print("Texto 3: ","{0:.2f}".format((mensajes[2]/levelEx) *100) ,"%")
    #print("\n")
    if len(confundidos) > 0: 
        print("La/Las clases que se han confundido con la consulta son:")
        for j in range (len(confundidos)):
            print(train_data.target_names[confundidos[j][0]])
    else: 
        print("No se ha confundido con ninguna otra clase")

---
##### ***consultaDistanciaCoseno(indexClassConsulta, nivelExhaustividad):***
Esta función es la que llama a todas las demás funciones que estan arriba. 

1. Por un lado, sacamos 3 mensajes del conjunto de test dado un indice (es el que detemina la clase que estamos buscando) 
2. Creamos los vectores de palabras para el conjunto de entrenamiento 
3. Creamos los vectores de palabras para el conjunto de test
4. Calculamos la distancia coseno para esa consulta
5. Hallamos los X valores mas relevantes
6. Obtenemos los resultados 
7. Mostramos los resultados 

Esta función devuleve el numero de veces que se acertado con la consulta por cada texto para posteriormente sacar la precisión media por consulta


In [115]:
def consultaDistanciaCoseno(indexClassConsulta, nivelExhaustividad, IDF):
    tresMensajes = get3Mensajes(indexClassConsulta)
    
    #Creamos la matriz de palabras para el conjunto de entrenamiento  
    train_vec_data = vectorizer.fit_transform(train_data.data)# AGREGAR train_data.data
    #Calculamos el valor TF/IDF para el conjunto de entrenamiento
    tfidfer = TfidfTransformer()
    train_IDF = tfidfer.fit_transform(train_vec_data)
    
    #Creamos la Matriz de palabras para el conjunto de test
    test_vec_data = vectorizer.transform(tresMensajes)
    #Calculamos el valor TF/IDF para el conjunto de test
    test_IDF = tfidfer.transform(test_vec_data)
    
    # Dependiendo si queremos usar la distancia coseno con IDF o no, segun nos venga el argumento de la funcion
    if IDF == True: 
        resultCoseno = cosine_similarity(test_IDF,train_IDF)
    else: 
        resultCoseno = cosine_similarity(test_vec_data,train_vec_data)
    
    #        ORDENAMOS LOS RESULTADOS para un nivel X 
    precisionXList = optenerXelementos(nivelExhaustividad,resultCoseno)
    # CALCULAMOS LA PRECISION DE LA LSITA A UN NIVEL DE EXHAUSTIVIDAD X
    result = getResultados(precisionXList, indexClassConsulta) 
    precision = np.array(result[0])
    mostrarResultados(result, indexClassConsulta, nivelExhaustividad)
    
    return precision.sum()

---
##### ***Apartado2(nivelX):***

Nos sirve para que dado un nivel de exhaustividad nos saque toodos los resultados para dicho nivel en las 20 clases. 

IDF es un valor booleano que determina si calculamos la inversa(el valor IDF) 

In [123]:
def Apartado2(nivelX, IDF): 
    resultados = []
    
    for i in range (0,20): 
        re = consultaDistanciaCoseno(i, nivelX, IDF)
        resultados.append(re) 
        
    print("-----------------------------------------------")   
    printmd("##### ***Precisión media de las 20 clases:***")
    for j in range (len(resultados)):
        aux = resultados[j]/(3*nivelX)
        printmd("{0:.2f}".format(aux*100) + "% precisión media para la clase " + "***" + train_data.target_names[j] + "***")

In [124]:
# Para excribir textos en markdown 
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

---

## Apartado a) 

In [125]:
printmd("### Sin TfidfTransformer y nivel 3 de exhaustividad")
printmd("---")
Apartado2(3, False)

### Sin TfidfTransformer y nivel 3 de exhaustividad

---

#### __Clase a consultar: alt.atheism__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
sci.crypt
soc.religion.christian
talk.politics.mideast
talk.politics.misc


#### __Clase a consultar: comp.graphics__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 66.67 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
comp.sys.ibm.pc.hardware
rec.sport.baseball
sci.electronics
soc.religion.christian
talk.politics.misc


#### __Clase a consultar: comp.os.ms-windows.misc__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 66.67 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
comp.sys.ibm.pc.hardware
comp.windows.x


#### __Clase a consultar: comp.sys.ibm.pc.hardware__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 0.00 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
comp.sys.mac.hardware
misc.forsale


#### __Clase a consultar: comp.sys.mac.hardware__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
comp.windows.x
misc.forsale
sci.electronics
talk.politics.misc


#### __Clase a consultar: comp.windows.x__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 33.33 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
comp.sys.mac.hardware
sci.space
talk.religion.misc


#### __Clase a consultar: misc.forsale__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 66.67 % |  Texto 2: 66.67 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.windows.x
sci.electronics


#### __Clase a consultar: rec.autos__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 0.00 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.sys.ibm.pc.hardware
comp.sys.mac.hardware
misc.forsale
soc.religion.christian
talk.religion.misc


#### __Clase a consultar: rec.motorcycles__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 100.00 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
misc.forsale


#### __Clase a consultar: rec.sport.baseball__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 66.67 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
alt.atheism
rec.sport.hockey


#### __Clase a consultar: rec.sport.hockey__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 66.67 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
comp.sys.mac.hardware
talk.religion.misc


#### __Clase a consultar: sci.crypt__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 33.33 % |  Texto 3: 33.33 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
sci.electronics
talk.politics.guns


#### __Clase a consultar: sci.electronics__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
comp.sys.ibm.pc.hardware
rec.autos
rec.sport.hockey


#### __Clase a consultar: sci.med__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.windows.x


#### __Clase a consultar: sci.space__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 66.67 % |  Texto 2: 100.00 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
sci.crypt
sci.electronics


#### __Clase a consultar: soc.religion.christian__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.graphics


#### __Clase a consultar: talk.politics.guns__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 66.67 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
misc.forsale
sci.crypt
talk.religion.misc


#### __Clase a consultar: talk.politics.mideast__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 33.33 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
alt.atheism
rec.motorcycles
sci.crypt
sci.med
soc.religion.christian
talk.politics.guns
talk.politics.misc


#### __Clase a consultar: talk.politics.misc__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 66.67 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
comp.sys.mac.hardware
misc.forsale
rec.sport.baseball
soc.religion.christian
talk.politics.guns


#### __Clase a consultar: talk.religion.misc__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 33.33 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
alt.atheism
rec.sport.hockey
soc.religion.christian
talk.politics.guns
talk.politics.misc
-----------------------------------------------


##### ***Precisión media de las 20 clases:***

33.33% precisión media para la clase ***alt.atheism***

22.22% precisión media para la clase ***comp.graphics***

22.22% precisión media para la clase ***comp.os.ms-windows.misc***

55.56% precisión media para la clase ***comp.sys.ibm.pc.hardware***

0.00% precisión media para la clase ***comp.sys.mac.hardware***

33.33% precisión media para la clase ***comp.windows.x***

77.78% precisión media para la clase ***misc.forsale***

33.33% precisión media para la clase ***rec.autos***

88.89% precisión media para la clase ***rec.motorcycles***

77.78% precisión media para la clase ***rec.sport.baseball***

66.67% precisión media para la clase ***rec.sport.hockey***

55.56% precisión media para la clase ***sci.crypt***

44.44% precisión media para la clase ***sci.electronics***

77.78% precisión media para la clase ***sci.med***

77.78% precisión media para la clase ***sci.space***

77.78% precisión media para la clase ***soc.religion.christian***

55.56% precisión media para la clase ***talk.politics.guns***

22.22% precisión media para la clase ***talk.politics.mideast***

33.33% precisión media para la clase ***talk.politics.misc***

33.33% precisión media para la clase ***talk.religion.misc***

### Resultados para nivel de exhaustividad 3 

#### ¿Hay muchas diferencias entre los valores de precisión medios para las distintas clases del conjunto de datos? ¿A qué crees que se deben?
Si, los hay. Puede ser por los temas que tratan cada uno ya que hay algunas clases que tratan temas muy parecidos y por lo tanto usan un vocabulario muy similar como son totas aquellas que estan relacionadas con la tecnologia. 
Se puede observar como ninguna de las clases obtiene el 100 %. 

#### Identifica la clase que haya tenido peores resultados de precisión y para alguna de sus consultas muestra alguno de los mensajes que recuperó erróneamente en las primeras X posiciones.
 - ¿Con qué clases se ha confundido más dicha consulta?
 
 La clase comp.sys.mac.hardware, se ha confundido con: comp.os.ms-windows.misc, comp.windows.x, misc.forsale, sci.electronics, talk.politics.misc. Esta clase es la que peores resultados ha dado, no ha encontrado ninguna coincidencia. 
 Podemos destacar también que esta clase ha obtenido la peor puntuación con 0% de precisión. 
 - ¿A qué crees que se deben los malos resultados?
 
 Puede ser debido a que tienen otras clases muy relacionadas, comprten vocavulario y es por ello que a la hora de calcular la distancia coseno nos da resultados erroneo. 


In [126]:
#Con un nivel de exhaustividad 10 sin TfidfTransformer
#printmd("### Sin TfidfTransformer y nivel 10 de exhaustividad")
#printmd("---")
#Apartado2(10, False)
#Descomentar las lineas para ver los resultados

### Resultados para nivel de exhaustividad 10
Del mismo modo que con el nivel 3 de exhaustividad podemos ver resultados muy parecidodos. 

## Apartado b) 

In [127]:
#Con un nivel de exhaustividad 3 con TfidfTransformer
printmd("### Con TfidfTransformer y nivel 3 de exhaustividad")
printmd("---")
Apartado2(3, True)

### Con TfidfTransformer y nivel 3 de exhaustividad

---

#### __Clase a consultar: alt.atheism__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 66.67 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
sci.crypt
soc.religion.christian
talk.politics.mideast


#### __Clase a consultar: comp.graphics__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
comp.sys.mac.hardware
comp.windows.x
sci.electronics
sci.space


#### __Clase a consultar: comp.os.ms-windows.misc__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 0.00 % |  Texto 3: 0.00 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
comp.sys.ibm.pc.hardware
comp.windows.x
sci.space


#### __Clase a consultar: comp.sys.ibm.pc.hardware__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 66.67 % |  Texto 3: 33.33 %
La/Las clases que se han confundido con la consulta son:
comp.sys.mac.hardware
misc.forsale
sci.crypt


#### __Clase a consultar: comp.sys.mac.hardware__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 33.33 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
misc.forsale
soc.religion.christian


#### __Clase a consultar: comp.windows.x__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 66.67 % |  Texto 3: 33.33 %
La/Las clases que se han confundido con la consulta son:
comp.os.ms-windows.misc
comp.sys.mac.hardware
sci.electronics
sci.space
talk.religion.misc


#### __Clase a consultar: misc.forsale__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 66.67 % |  Texto 3: 33.33 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
comp.sys.mac.hardware
comp.windows.x
sci.electronics
sci.med


#### __Clase a consultar: rec.autos__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
comp.sys.ibm.pc.hardware
misc.forsale
soc.religion.christian


#### __Clase a consultar: rec.motorcycles__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 100.00 % |  Texto 3: 33.33 %
La/Las clases que se han confundido con la consulta son:
comp.sys.ibm.pc.hardware
comp.windows.x


#### __Clase a consultar: rec.sport.baseball__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 100.00 % |  Texto 3: 100.00 %
No se ha confundido con ninguna otra clase


#### __Clase a consultar: rec.sport.hockey__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 100.00 % |  Texto 3: 100.00 %
No se ha confundido con ninguna otra clase


#### __Clase a consultar: sci.crypt__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 33.33 % |  Texto 3: 33.33 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
comp.sys.mac.hardware
talk.politics.guns


#### __Clase a consultar: sci.electronics__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.sys.ibm.pc.hardware
comp.sys.mac.hardware
comp.windows.x
talk.politics.guns


#### __Clase a consultar: sci.med__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
soc.religion.christian


#### __Clase a consultar: sci.space__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 100.00 % |  Texto 3: 100.00 %
No se ha confundido con ninguna otra clase


#### __Clase a consultar: soc.religion.christian__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 100.00 % |  Texto 2: 33.33 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
comp.graphics
talk.politics.guns


#### __Clase a consultar: talk.politics.guns__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 66.67 % |  Texto 2: 66.67 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
sci.crypt
talk.politics.mideast
talk.religion.misc


#### __Clase a consultar: talk.politics.mideast__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 100.00 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
alt.atheism
sci.crypt


#### __Clase a consultar: talk.politics.misc__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 33.33 % |  Texto 2: 100.00 % |  Texto 3: 66.67 %
La/Las clases que se han confundido con la consulta son:
talk.politics.guns


#### __Clase a consultar: talk.religion.misc__

Los niveles de exhaustividad para cada texto son: 
Texto 1: 0.00 % |  Texto 2: 0.00 % |  Texto 3: 100.00 %
La/Las clases que se han confundido con la consulta son:
alt.atheism
comp.graphics
misc.forsale
soc.religion.christian
talk.politics.misc
-----------------------------------------------


##### ***Precisión media de las 20 clases:***

22.22% precisión media para la clase ***alt.atheism***

11.11% precisión media para la clase ***comp.graphics***

11.11% precisión media para la clase ***comp.os.ms-windows.misc***

66.67% precisión media para la clase ***comp.sys.ibm.pc.hardware***

33.33% precisión media para la clase ***comp.sys.mac.hardware***

33.33% precisión media para la clase ***comp.windows.x***

44.44% precisión media para la clase ***misc.forsale***

44.44% precisión media para la clase ***rec.autos***

77.78% precisión media para la clase ***rec.motorcycles***

100.00% precisión media para la clase ***rec.sport.baseball***

100.00% precisión media para la clase ***rec.sport.hockey***

55.56% precisión media para la clase ***sci.crypt***

44.44% precisión media para la clase ***sci.electronics***

77.78% precisión media para la clase ***sci.med***

100.00% precisión media para la clase ***sci.space***

77.78% precisión media para la clase ***soc.religion.christian***

66.67% precisión media para la clase ***talk.politics.guns***

77.78% precisión media para la clase ***talk.politics.mideast***

66.67% precisión media para la clase ***talk.politics.misc***

33.33% precisión media para la clase ***talk.religion.misc***

#### ¿Han cambiado los valores de precisión media para las clases del conjunto de datos? ¿Qué clases han mejorado? ¿Cuáles han empeorado?
Han cambaido los valores respecto a la precisión media. Las clases que hay una mejora considerable son "rec.sport.baseball", "rec.sport.hockey" y "sci.space". 
Las clases que se han visto reducido un poco la precisión media son las relacionadas con la politica. 
Mientras que las clases relacionadas con la tecnologia han fluctuado un poco algunas han subido mienstras que otras han bajado.

#### Encuentra una consulta donde el uso de la ponderación TF-IDF haya sido efectivo y haya mejorado los resultados. Explica por qué ha sido efectivo.
La clase "rec.sport.baseball" ha alcanzado un 100%, esto quiere decir que los 3 textos han servido para hallar coincidencias. Esto puede ser debido a que al utilizar la ponderación TF-IDF se ha reducido las palabras corrientes en el vocavulario local debido a su frecuente aparición(les ha quitado peso) haciendo que otras más especificas relacionadas con el tema a tratar tenga mucho más peso haciendo que sean palabras más discriminantes

In [128]:
#Con un nivel de exhaustividad 10 con TfidfTransformer
#Apartado1(10, True) #Descomentar para ver resultados 

In [None]:
#printmd("### Con TfidfTransformer y nivel 10 de exhaustividad")
#printmd("---")
#Apartado2(10, True)
#Descomentar para ver los resultados