# Introducción

En el siguiente trabajo vamos a usar los datos etiquetados y no etiquetados para elaborar clasificadores semi y no supervisados.

Primero vamos a retomar lo que hicimos en el práctico combinado de Analisis y Visualización y Curación y vamos a armar dos grafos distintos con dos criterios distintos. Uno de usuarios según los retweets y otro con un criterio elegido por ustedes.

Luego vamos a correr un algoritmo para encontrar comunidades en esos grafos. Las comunidades nos van a permitir dividir el conjunto de entrenamiento en clusters.

Una vez que tenemos las comunidades/clusters definidos, debemos asignar cada uno a una clase. Cada elemento perteneciente a una comunidad asociada a una clase será etiquetado como de esa clase. Luego usaremos esos ejemplos para entrenar nuestro clasificador.

Vamos a hacer esto para los tres tópicos: aborto, cambio climático y feminismo.

### Cobertura

In [None]:
# Acá copien lo que hicieron de cobertura del primer práctico

## Grafo

#### De retweets

In [None]:
g = #TODO

#### Alternativo

In [None]:
g2 = # TODO

# Comunidades

Como método para detectar las comunidades vamos a usar el algoritmo de Louvain
https://es.wikipedia.org/wiki/M%C3%A9todo_de_Louvain

Louvain es un método iterativo que busca armar comunidades en función de maximizar la modularidad. A grandes rasgos, arma comunidades tales que hagan que la mayor cantidad de aristas conecten dos nodos que sean de la misma comunidad. El problema es que la solución ideal a esta modularidad es muy costosa computacionalmente. Por lo tanto, Louvain es una heurística iterativa (en cada iteración se acerca un poco más a una solución mejor sin necesariamente llegar a alcanzar una solución ideal). Al ser un método iterativo no es exacto: correrlo varias veces con los mismos parámetros puede dar distintos resultados. El algoritmo termina cuando logra estabilidad, es decir, un valor de modularidad que considera aceptable.

Nosotros vamos a trabajar con un parámetro específico de este algoritmo que es la resolución. La resolución afecta la estabilidad del sistema: a mayor resolución, se necesitan más iteraciones para lograr estabilidad. En particular, lo que a nosotros nos interesa, es que **a mayor resolución, el algoritmo encuentra menos comunidades de mayor tamaño** (se polariza).

Lo que nosotros queremos hacer es encontrar el menor valor de la resolución que nos de como resultado únicamente  dos comunidades polares que tengan más de una cierta cantidad de usuarios (definida en la variable users_threshold)

In [1]:
# https://pypi.org/project/cylouvain/
import cylouvain
import time
from collections import Counter

# Devuelve todas las particiones según la resolución. Si hay una particion ideal
# (la menor particion que genere 2 o menos comunidades), la devuelve. Sino devuelve -1
def findPartitions(g, user_threshold, resolutions):
    resolutions.sort()
    best_resolution = -1
    found_best = False
    for resolution in resolutions:
        print("resolución {:.2f}".format(resolution), end="")

        partition = cylouvain.best_partition(g, resolution=resolution)

        num_partitions = len(set(partition.values()))
        counter = Counter(partition.values())

        # Aca le está diciendo que cuente cuantas son las que tienen usuarios mayores al threshold
        important_partitions = len([_ for x in counter.items() if x[1] > user_threshold])


        if important_partitions <= 2 and not found_best:
            best_resolution = resolution
            found_best = True
            
        print("---> {} particiones ({} con más de {} usuarios)".format(
            num_partitions,
            important_partitions,
            user_threshold,
        ))
        #print("Tiempo: {:.2f} minutos".format((end - begin) / 60))
        partitions[resolution] = partition
    return partitions, best_resolution

In [None]:
# Ejemplo
partitions, resolution = findPartitions(g, 100,  [1.0, 1.5, 2.0, 3.0, 5.0, 6.0, 7.0, 10.0, 15.0])

In [None]:
# Aca paso del formato lista de tupla<nodo, Número de comunidad> a un mapa que para cada comunidad tiene la lista de los nodos que pertenecen
if resolution != -1:
    partition = partitions[resolution]
    partition_to_ids = {partition_number:[] for partition_number in range(len(set(partition.values())))}

    num_partitions = len(set(partition.values()))
    for user_id, user_partition in partition.items():
        partition_to_ids[user_partition].append(user_id)
else:
    print("Hay más de dos particiones principales")
    


### Ejercicio 1

Prueben distintos valores de user_threshold y distintas resoluciones evaluando cosas como cuantos (y cuales) nodos del grafo (sean los nodos usuarios u otra cosa) les quedan por fuera de las dos comunidades más grandes (no necesariamente es malo que queden muchos nodos afuera si verdaderamente no tienen una postura clara sobre el tópico); que proporcion tienen esas dos comunidades más grandes: ¿son parejas entre sí o no?; en el caso de que los nodos sean usuarios, además de los usuarios, ¿son parejas la cantidad de tweets que postean esos usuarios? ¿Cuántos tweets hay de cada comunidad?

### Ejercicio 2

Armen un script que para cada comunidad muestre datos que permitan evaluar cuan bien se ajusta a la clase a la que la queremos asignar. Algunos ejemplos pueden ser: usuarios con más cantidad de retweets, tweets más retwiteados, tweets de los usuarios con más cantidad de tweets, etc. Tiene que ser algo que de un panorama de qué es esa comunidad pero a su vez sencillo de ver y que convenza a alguien que lo ve desde afuera que usar esas comunidades puede servir.

### Ejercicio 3

Hagan una nube de palabras con los tweets de cada comunidad y analicen cuan fácil o difícil es inferir la clase de esa comunidad mirando la nube.

### Ejercicio 4

Decidan una clase para cada comunidad. Justifiquen su decisión planteando cuán ajustada les parece que es la asignación en función de los ejercicios anteriores

### Ejercicio 5

Hacer los ejercicios anteriores para los tres tópicos y comparar los resultados entre sí: ¿hay tópicos para los cuales las comunidades reflejan mejor o peor la polaridad respecto al posicionamiento? ¿Por qué les parece que esto sucede así?

### Ejercicio 6

Generar un dataset con todos los tweets asociados a cada comunidad, cada uno etiquetado según la comunidad a la que pertenece. Usar esos datasets como entrenamiento de algun clasificador basado en alguno de los tres algoritmos que vieron en el práctico pasado: SVM's, Random Forests o Red Neuronal. Reportar las mismas métricas (Accuracy, F1 micro, macro y average)

### Ejercicio 7

Para uno de los tres tópicos, exploren un enfoque mixto supervisado/semi-supervisado. El enfoque mixto puede ser: o bien un Voting Classifier con dos clasificadores que usen el corpus supervisado y uno basado en comunidades (o uno y dos, como prefieran), o un clasificador entrenado con una mitad de ejemplos tomados del corpus de tweets etiquetados y la otra mitad de comunidades. La idea es que definan ustedes alguna manera de usar todos los datos: los etiquetados y los no etiquetados. Luego comparen los resultados obtenidos con las versiones puramente supervisadas o puramente basadas en comunidades.