# Topicando (AlPHA)
Topicando es un proyecto que busca ayudar a obtener los tópicos más comentados por un grupo de personas, obteniendo palabras clave en forma de ranking y grafos, para poder analizar necesidades, reclamos, comentarios, tendencias e ideas de la comunidad de forma masiva.

En base a un array de frases como input se procesarán y analizarán los datos recolectados para poder tener un contexto de un tema de debate o discusión, siendo asi que:
- Presenta en una lista ordenada de mayor a menor las palabras más utilizadas diferenciadas con stemming o lemmatizing
- En base a las x palabras más usadas escogidas por estadistica o por número fijo, se crean clusters con KNN, KMeans, etc o solo con que contengan a esta palabra y se muestran grafos por cada palabra elegida como centroide
- De cada cluster o agrupación se debe mostrar las palabras más usadas

In [22]:
import IPython.display
import ipywidgets
import io
import pandas as pd
from topicando import TopicandoV1
import numpy as np

## Elije un archivo csv

In [2]:
fileUploader = ipywidgets.FileUpload( accept = '.csv', multiple = False )
display(fileUploader)

FileUpload(value=(), accept='.csv', description='Upload')

In [3]:
data = pd.read_csv(io.BytesIO(fileUploader.value[0].content), delimiter=';')
data = data.dropna()
data.head()

Unnamed: 0,Tipo,Estado,F.Solicitud,Origen,Unidad,Provincia,Referencia
0,Queja,Contestado,2021-12-17,WEB,CONSEJERIA DE EDUCACION,SERVICIOS CENTRALES,Ayudas becas comedor centros docentes concertados
1,Queja,Contestado,2021-12-16,WEB,CONSEJERIA DE EDUCACION,SERVICIOS CENTRALES,Rechazado por ser cuestión de la Consejería de...
2,Queja,Contestado,2021-12-15,WEB,CONSEJERIA DE EDUCACION,BURGOS,No está de acuerdo con cantar villancicos en l...
3,Queja,Contestado,2021-12-14,OAMR,CONSEJERIA DE EDUCACION,SALAMANCA,solicitud de tablets por medios electronicos
4,Queja,Contestado,2021-12-05,WEB,CONSEJERIA DE EDUCACION,SALAMANCA,falta vacuna covid de tres trabajadores ies pe...


## Elija una columna del dataframe

In [4]:
columnSelector = ipywidgets.Dropdown(
    options=data.columns.values,
    value=data.columns.values[0],
    description='CSV Column:',
    disabled=False,
)
display(columnSelector)

Dropdown(description='CSV Column:', options=('Tipo', 'Estado', 'F.Solicitud', 'Origen', 'Unidad', 'Provincia',…

In [5]:
phrases = data[columnSelector.value].values

## Functions

In [23]:
topicando = topicando.TopicandoV1("es_core_news_lg", phrases)

In [24]:
topicando.getMostUsedWordsInCorpus(useLemma = True)

[('escolar', 7),
 ('ESCOLAR', 6),
 ('CEIP', 6),
 ('infantil', 6),
 ('centro', 5),
 ('programa', 5),
 ('Cierre', 5),
 ('Santa', 5),
 ('María', 5),
 ('comedor', 4),
 ('solicitud', 4),
 ('IES', 4),
 ('escuela', 4),
 ('colegio', 3),
 ('interesado', 3),
 ('quejar', 3),
 ('clase', 3),
 ('TRANSPORTE', 3),
 ('tratar', 3),
 ('RELEO', 3),
 ('PLUS', 3),
 ('atencion', 3),
 ('información', 3),
 ('problema', 3),
 ('Ayudas', 2),
 ('beca', 2),
 ('Educación', 2),
 ('vacuna', 2),
 ('covid', 2),
 ('inadecuado', 2),
 ('meteorológico', 2),
 ('solicitar', 2),
 ('suspensión', 2),
 ('Profesor', 2),
 ('inclemencia', 2),
 ('RUTA', 2),
 ('AUTOBUS', 2),
 ('servicio', 2),
 ('DISTANCIA', 2),
 ('transporte', 2),
 ('COVID', 2),
 ('19', 2),
 ('administración', 2),
 ('texto', 2),
 ('recibido', 2),
 ('menor', 2),
 ('PCR', 2),
 ('CENTRO', 2),
 ('BILINGÜISMO', 2),
 ('ingl', 2),
 ('hijo', 2),
 ('docente', 1),
 ('concertado', 1),
 ('rechazado', 1),
 ('cuestión', 1),
 ('Consejería', 1),
 ('Becas', 1),
 ('cantar', 1),
 ('vill

In [25]:
topicando.searchEntitiesAndRelations()

In [26]:
topicando.getWordCountOfEntitiesAndRelations()

{'beca': 2,
 'comedor': 2,
 'cuestión': 1,
 'rechazado': 1,
 'acuerdo': 2,
 'villancico': 1,
 'solicitud': 4,
 'tablet': 1,
 'trabajadores covid de peñarandir': 1,
 'trabajador': 1,
 'interesado': 2,
 'trato': 1,
 'problema': 3,
 'centro': 2,
 'intersado': 1,
 'suspensión': 2,
 '': 41,
 'fibra': 1,
 'óptico': 1,
 'italiano': 1,
 'informático': 1,
 'obsoleto': 1,
 'Programa': 1,
 'capacidad': 1,
 'cierre': 1,
 'funcionamiento': 1,
 'motivo': 1,
 'Cierre  centro': 1,
 'inclemencia': 1,
 'queja': 3,
 'RUTA': 1,
 '-ceip': 1,
 'llamada': 1,
 'clase': 1,
 'cambio': 1,
 'alzador': 2,
 'teléfono': 1,
 'inadecuado': 1,
 'exposición': 1,
 'conservatorio': 1,
 'CEIP': 1,
 'obligación': 1,
 'escolar': 4,
 'desacuerdo': 1,
 'servicio': 2,
 'error': 1,
 'CURSO  bachillerato': 1,
 'curso': 1,
 'transporte': 1,
 'RECIBIDO': 1,
 'incidente': 1,
 'grado': 1,
 'SUPERIOR': 1,
 'administración': 1,
 'finanza': 1,
 'religión': 1,
 'listado': 1,
 'provisional': 1,
 'programa': 4,
 'gratuidad': 1,
 'colegio':

In [27]:
topicando.getMostUsedWordsOfEntitiesAndRelations()

{'haber': 71,
 '': 41,
 'tratar': 5,
 'solicitud': 4,
 'escolar': 4,
 'programa': 4,
 'escuela': 4,
 'infantil': 4,
 'problema': 3,
 'queja': 3,
 'beca': 2,
 'comedor': 2,
 'acuerdo': 2,
 'interesado': 2,
 'centro': 2,
 'suspensión': 2,
 'alzador': 2,
 'servicio': 2,
 'información': 2,
 'quejar': 2,
 'solicitar': 2,
 'cuestión': 1,
 'rechazado': 1,
 'villancico': 1,
 'tablet': 1,
 'trabajadores covid de peñarandir': 1,
 'trabajador': 1,
 'trato': 1,
 'intersado': 1,
 'fibra': 1,
 'óptico': 1,
 'italiano': 1,
 'informático': 1,
 'obsoleto': 1,
 'Programa': 1,
 'capacidad': 1,
 'cierre': 1,
 'funcionamiento': 1,
 'motivo': 1,
 'Cierre  centro': 1,
 'inclemencia': 1,
 'RUTA': 1,
 '-ceip': 1,
 'llamada': 1,
 'clase': 1,
 'cambio': 1,
 'teléfono': 1,
 'inadecuado': 1,
 'exposición': 1,
 'conservatorio': 1,
 'CEIP': 1,
 'obligación': 1,
 'desacuerdo': 1,
 'error': 1,
 'CURSO  bachillerato': 1,
 'curso': 1,
 'transporte': 1,
 'RECIBIDO': 1,
 'incidente': 1,
 'grado': 1,
 'SUPERIOR': 1,
 'admi

In [28]:
kg_df = topicando.getSourceEdgeTargetEdgeDataFrame()
kg_df2 = topicando.getSourceEdgeTargetEdgeDataFrame(sourcesToSearch=["limpio","baño"])
print(kg_df[0:5])
print(kg_df2[0:5])

      source target   edge
0       beca  haber  haber
1    comedor  haber  haber
2   cuestión    ser    ser
3  rechazado    ser    ser
4    acuerdo  estar  estar
Empty DataFrame
Columns: [source, target, edge]
Index: []


## Html Output

In [29]:
from IPython.display import Javascript
import json

In [30]:
%%javascript
require.config({
    packages: [{
        name: 'highcharts',
        main: 'highcharts'
    }],
    paths: {
        'highcharts': 'https://code.highcharts.com',
        'networkgraph': 'https://code.highcharts.com/modules/networkgraph.js'
    }
});

<IPython.core.display.Javascript object>

In [31]:
topicando.getSourcesTargetsArray()

[['beca', 'comedor'],
 ['cuestión', 'rechazado'],
 ['acuerdo', 'villancico'],
 ['acuerdo', 'villancico'],
 ['solicitud', 'tablet'],
 ['trabajadores covid de peñarandir', 'trabajador'],
 ['trabajadores covid de peñarandir', 'trabajador'],
 ['interesado', 'trato'],
 ['problema', 'centro'],
 ['intersado', 'suspensión'],
 ['fibra', 'óptico'],
 ['informático', 'obsoleto'],
 ['Programa', 'capacidad'],
 ['cierre', 'centro'],
 ['funcionamiento', 'motivo'],
 ['Cierre  centro', 'inclemencia'],
 ['queja', 'suspensión'],
 ['RUTA', '-ceip'],
 ['llamada', 'clase'],
 ['teléfono', 'inadecuado'],
 ['interesado', 'exposición'],
 ['CEIP', 'obligación'],
 ['comedor', 'escolar'],
 ['desacuerdo', 'servicio'],
 ['CURSO  bachillerato', 'curso'],
 ['transporte', 'escolar'],
 ['grado', 'SUPERIOR'],
 ['administración', 'finanza'],
 ['listado', 'provisional'],
 ['programa', 'gratuidad'],
 ['colegio', 'trabajadora'],
 ['Asitencia', 'acto'],
 ['acoso', 'escolar'],
 ['menor', 'servicio'],
 ['bus', 'acceso'],
 ['conv

In [32]:
chart_data = []
nodes_filtered = []
for i in topicando.getSourcesTargetsArray():
    if i[0] not in nodes_filtered:
        nodes_filtered.append(i[0])
    if i[1] not in nodes_filtered:
        nodes_filtered.append(i[1])
    chart_data.append([i[0],i[1]])

Javascript("window.chartData={};".format(json.dumps(chart_data)))

<IPython.core.display.Javascript object>

In [33]:
topicando.getWordCountOfEntitiesAndRelations()   

{'beca': 2,
 'comedor': 2,
 'cuestión': 1,
 'rechazado': 1,
 'acuerdo': 2,
 'villancico': 1,
 'solicitud': 4,
 'tablet': 1,
 'trabajadores covid de peñarandir': 1,
 'trabajador': 1,
 'interesado': 2,
 'trato': 1,
 'problema': 3,
 'centro': 2,
 'intersado': 1,
 'suspensión': 2,
 '': 41,
 'fibra': 1,
 'óptico': 1,
 'italiano': 1,
 'informático': 1,
 'obsoleto': 1,
 'Programa': 1,
 'capacidad': 1,
 'cierre': 1,
 'funcionamiento': 1,
 'motivo': 1,
 'Cierre  centro': 1,
 'inclemencia': 1,
 'queja': 3,
 'RUTA': 1,
 '-ceip': 1,
 'llamada': 1,
 'clase': 1,
 'cambio': 1,
 'alzador': 2,
 'teléfono': 1,
 'inadecuado': 1,
 'exposición': 1,
 'conservatorio': 1,
 'CEIP': 1,
 'obligación': 1,
 'escolar': 4,
 'desacuerdo': 1,
 'servicio': 2,
 'error': 1,
 'CURSO  bachillerato': 1,
 'curso': 1,
 'transporte': 1,
 'RECIBIDO': 1,
 'incidente': 1,
 'grado': 1,
 'SUPERIOR': 1,
 'administración': 1,
 'finanza': 1,
 'religión': 1,
 'listado': 1,
 'provisional': 1,
 'programa': 4,
 'gratuidad': 1,
 'colegio':

In [34]:
valMin = min([topicando.dictWords[word] for word in topicando.dictWords.keys() if word != '' and word in nodes_filtered])
valMax = max([topicando.dictWords[word] for word in topicando.dictWords.keys() if word != '' and word in nodes_filtered])

valMinNormalized = 5
valMaxNormalized = 50

In [37]:
nodes = []
for word in topicando.dictWords.keys():
    if word != '' and word in nodes_filtered:
        nodes.append({
            "id": word,
            "marker": {
                "count": topicando.dictWords[word],
                "radius": np.interp(topicando.dictWords[word],[valMin,valMax],[valMinNormalized,valMaxNormalized])
            }
        })

Javascript("window.nodes={};".format(json.dumps(nodes)))
Javascript("window.valMinNormalized=0;".format(json.dumps(valMinNormalized)))
Javascript("window.valMaxNormalized=0;".format(json.dumps(valMaxNormalized)))

<IPython.core.display.Javascript object>

In [36]:
%%javascript
// Since I append the div later, sometimes there are multiple divs.
$("#container").remove();

// Make the cdiv to contain the chart.
element.append('<div id="container" style="min-width: 310px; min-height: 600px; margin: 0 auto"></div>');

console.log("init");
console.log(window.chartData);
console.log(window.nodes);

// Require highcarts and make the chart.
require([
    'highcharts',
    'highcharts/modules/exporting',
    'highcharts/modules/accessibility',
    'highcharts/modules/networkgraph'
], function (Highcharts) {

    console.log("WORKING");
    $('#container').highcharts({
        chart: {
        type: 'networkgraph',
        height: '100%'
      },
      title: {
        text: ''
      },
      subtitle: {
        text: ''
      },
        tooltip: {
    formatter: function () {
        console.log(this)
      return "<b>" + this.key + "</b>: " + this.point.marker.count;
    }
  },
      plotOptions: {
        networkgraph: {
          keys: ['from', 'to'],
          layoutAlgorithm: {
            enableSimulation: false,//true
            friction: -0.9
          }
        }
      },
      series: [{
          colorByPoint: true,
        accessibility: {
          enabled: false
        },
        dataLabels: {
          enabled: true,
          linkFormat: '',
        },
        id: 'lang-tree',
        data: window.chartData,
        nodes: window.nodes
      }]
    });
});

<IPython.core.display.Javascript object>