In [1]:
from tqdm import tqdm
from tqdm.notebook import tqdm_notebook
tqdm.pandas()

import pandas as pd

In [3]:
from utils import filter_by_media
from utils import cluster_by_month
#from utils import preprocess

df = pd.read_csv("../../data/loslagos-comunas.csv")
df = cluster_by_month(filter_by_media(df))
df = df.drop_duplicates(subset='content', keep="first")

## 1. Modelado de tópicos con BERTopic

In [4]:
from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer
import spacy
from umap import UMAP
from hdbscan import HDBSCAN

nlp = spacy.load("es_core_news_md", exclude=['tagger', 'parser', 'ner', 
                                             'attribute_ruler', 'lemmatizer'])

In [5]:
df['topic'] = ""
docs = df.content.tolist()
df.head()

Unnamed: 0,date,media_outlet,url,title,text,content,comuna,date_clustering,topic
0,2021-10-01,elheraldoaustral,https://www.eha.cl/noticia/local/reconocen-a-g...,Reconocen a guardaparques de la Región de Los ...,Distintos protagonistas de los parques naciona...,reconocen guardaparques región lagos actores c...,"['puyehue', 'chaiten']",2021-10,
1,2021-10-01,elheraldoaustral,https://www.eha.cl/noticia/local/con-nuevos-ma...,Con nuevos materiales comienza plan piloto en ...,Centro de negocios Sercotec coordina acuerdos ...,nuevos materiales comienza plan piloto saltos ...,['puerto varas'],2021-10,
2,2021-10-01,elheraldoaustral,https://www.eha.cl/noticia/local/centro-de-sal...,Centro de Salud Familiar CESFAM Puerto Varas i...,Las horas se solicitan en el SOME o bien a tra...,centro salud familiar cesfam puerto varas invi...,['puerto varas'],2021-10,
3,2021-10-01,elheraldoaustral,https://www.eha.cl/noticia/local/alcalde-tomas...,Alcalde Tomás Gárate presidió por primera vez ...,Los y las consejeras destacaron el hecho de vo...,alcalde tomás gárate presidió primera vez octa...,"['castro', 'puerto varas']",2021-10,
4,2021-10-01,elheraldoaustral,https://www.eha.cl/noticia/local/galeria-de-ar...,Galería de Arte Machacoya realizará remate de ...,"Hoy viernes a las 18:30 horas, en Machacoya At...",galería arte machacoya realizará remate obras ...,,2021-10,


## UMAP y HDBSCAN

[UMAP](https://pair-code.github.io/understanding-umap/) es un algoritmo que sirve para reducir la dimensionalidad de los datos y, en concjunto con HDBSCAN, ayuda en la generación de clusters.

Ambos algoritmos tienen un gran número de parámetros. Sin embargo, los más notables son los  siguientes:

|Algoritmo|Parametro|Descripción|
|---|----|----|
|UMAP|n_neighbors|is the numer of neighboring sample points used when making the manifold approximation. Increasing this value typically results in a more global view of the embedding structure whilst smaller values result in a more local view. Increasing this value often results in larger clusters being created.|
|UMAP|n_components|refers to the dimensionality of the embeddings after reducing them. This is set as a default to 5 in order to reduce dimensionality as much as possible whilst trying to maximize the information kept in the resulting embeddings. Although lowering or increasing this value has an influence on the quality of embeddings, its effect is largest on the performance of HDBSCAN. Increasing this value too much and HDBSCAN will have a hard time clustering the high-dimensional embeddings. Lower this value too much and too little information in the resulting embeddings is available to create proper clusters. If you want to increase this value, I would advise setting using a metric for HDBSCAN that works well in high dimensional data.|
|UMAP|metric|refers to the method used to compute the distances in high dimensional space. The default is cosine as we are dealing with high dimensional data. However, BERTopic is also able to use any input, even regular tabular data, to cluster the documents. Thus, you might want to change the metric to something that fits with your use case.|
|UMAP|low_memory|is used when datasets may consume a lot of memory. Using millions of documents can lead to memory issues and setting this value to True might alleviate some of the issues.|
|HDBSCAN|min_cluster_size|is arguably the most important parameter in HDBSCAN. It controls the minimum size of a cluster and thereby the amount of clusters that will be generated. It is set to 10 as a default. Increasing this value results in less clusters but of larger size whereas decreasing this value results in more micro clusters being generated. Typically, I would advise on increasing this value rather than decreasing it.|
|HDBSCAN|min_samples| is automatically set to min_cluster_size and controls the amount of outliers are generated. Setting this value significantly lower than min_cluster_size might help you reduce the amount of noise you will get. Do note that outliers are typically to be expected and forcing the output to have no outliers may not properly represent the data.|
|HDBSCAN|metric|like with HDBSCAN is used to calculate the distances. Here, we went with euclidean as, after reducing the dimensionality, we have low dimensional data and not much optimization is necessary. However, if you increase n_components in UMAP, then it would be advised to look into metrics that work with high dimensional data.|
|HDBSCAN|prediction_data|Make sure you always set this value to True as it is needed to predict new points later on. You can set this to False if you do not wish to predict any unseen datapoints.|


In [17]:
neighbors=[10, 15, 30, 50]
components=[4,5,6]

cluster_size=[8,10,15]

vectorizer_model = CountVectorizer(ngram_range=(1, 3), stop_words=None)

umap_model = UMAP(n_neighbors=15, n_components=5, 
                  metric='cosine', random_state=42) # random_state = 42 porque queremos resultados determinísticos

hdbscan_model = HDBSCAN(min_cluster_size=10, metric='euclidean', 
                        prediction_data=True, min_samples=5)

In [20]:
for n in neighbors:
    for c in components:
        for cs in cluster_size:
            print("n_neighbors: ",n)
            print("n_components: ",c)
            print("min_cluster_size: ",cs)

            umap_model = UMAP(n_neighbors=n, n_components=c, 
                                  metric='cosine', random_state=42) 
                
            hdbscan_model = HDBSCAN(min_cluster_size=cs, metric='euclidean', 
                                        prediction_data=True, min_samples=5)

            topic_model = BERTopic(embedding_model=nlp,
                                        vectorizer_model=vectorizer_model,
                                        umap_model=umap_model,
                                        hdbscan_model=hdbscan_model,
                                        #calculate_probabilities=True,verbose=True
                                  )

            topics, probs = topic_model.fit_transform(docs)
                
            print(topic_model.get_topic_info())

n_neighbors:  10
n_components:  4
min_cluster_size:  8


2022-11-03 18:05:51,700 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:06:27,584 - BERTopic - Reduced dimensionality
2022-11-03 18:06:44,386 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12075                      -1_años_puerto_personas_parte
1        0    479                         0_ucrania_rusia_ruso_putin
2        1    354                    1_kast_boric_candidato_gobierno
3        2    229        2_fuente_fuente cooperativa_gobierno_retiro
4        3    201  3_teléfono 652534903652534904_pérez domicilio_...
..     ...    ...                                                ...
540    539      8  539_brigada_centro veterinario municipal_veter...
541    540      8               540_colo_jugadores_plantel_colo colo
542    541      8         541_agua potable_potable_agua_colonia tres
543    542      8  542_fndr_organizaciones_fondo concursable fndr...
544    543      8                  543_senadores_votos_aportes_mesas

[545 rows x 3 columns]
n_neighbors:  10
n_components:  4
min_cluster_size:  10


2022-11-03 18:12:19,290 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:13:08,805 - BERTopic - Reduced dimensionality
2022-11-03 18:13:28,201 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10421                      -1_años_personas_puerto_parte
1        0   3095                         0_colo_partido_equipo_club
2        1    479                         1_ucrania_rusia_ruso_putin
3        2    428                    2_boric_kast_candidato_gobierno
4        3    229    3_fuente_gobierno_fuente cooperativa_presidente
..     ...    ...                                                ...
404    403     10  403_escuelas especiales_escuelas_especiales_su...
405    404     10  404_vehicular_semáforos_restricción vehicular_...
406    405     10      405_imputados_operativo_legalidad_incautación
407    406     10  406_derecho aprovechamiento_aprovechamiento_ag...
408    407     10  407_turismo_agroecología_sustentable_reactivación

[409 rows x 3 columns]
n_neighbors:  10
n_components:  4
min_cluster_size:  15


2022-11-03 18:17:38,766 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:18:01,533 - BERTopic - Reduced dimensionality
2022-11-03 18:18:02,506 - BERTopic - Clustered reduced embeddings


     Topic  Count                                              Name
0       -1  10167                     -1_personas_años_puerto_parte
1        0   3095                        0_colo_partido_equipo_club
2        1    623      1_desarrollo_estudiantes_innovación_programa
3        2    479                        2_ucrania_rusia_ruso_putin
4        3    372              3_incendio_bomberos_emergencia_fuego
..     ...    ...                                               ...
255    254     15  254_transporte_transporte público_línea_ovejería
256    255     15      255_economista_pompón_industria_trabajadores
257    256     15  256_licitación_oposición_gobierno_financiamiento
258    257     15          257_presupuesto_inversión_pesos_millones
259    258     15   258_migrantes_policía_manifestantes_inmigrantes

[260 rows x 3 columns]
n_neighbors:  10
n_components:  5
min_cluster_size:  8


2022-11-03 18:22:10,269 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:23:49,795 - BERTopic - Reduced dimensionality
2022-11-03 18:23:51,604 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10568                      -1_años_personas_salud_puerto
1        0   3094                         0_colo_partido_equipo_club
2        1    311                      1_kast_boric_candidato_sichel
3        2    310               2_incendio_bomberos_emergencia_fuego
4        3    227        3_fuente_gobierno_fuente cooperativa_retiro
..     ...    ...                                                ...
478    477      8            477_diálisis_hpm_atención_quimioterapia
479    478      8  478_vehículo_comisaría puerto montt_comisaría ...
480    479      8  479_desigualdad_población inmigrante_ingresos_...
481    480      8            480_nuevos_casos_contagios_casos nuevos
482    481      8  481_pymes_visor pymes barrio_visor pymes_pymes...

[483 rows x 3 columns]
n_neighbors:  10
n_components:  5
min_cluster_size:  10


2022-11-03 18:28:02,783 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:28:22,562 - BERTopic - Reduced dimensionality
2022-11-03 18:28:35,308 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10620                      -1_años_personas_puerto_parte
1        0   3094                         0_colo_partido_equipo_club
2        1    311                    1_kast_boric_candidato_gobierno
3        2    310               2_incendio_bomberos_emergencia_fuego
4        3    227    3_fuente_gobierno_fuente cooperativa_presidente
..     ...    ...                                                ...
395    394     10  394_retrocederán_paso_retrocederán preparación...
396    395     10           395_viajes_caminata_variación_transporte
397    396     10       396_establecimientos_clases_gutiérrez_liceos
398    397     10                        397_nauco_burbujas_ríos_río
399    398     10                         398_rayan_nora_leviev_said

[400 rows x 3 columns]
n_neighbors:  10
n_components:  5
min_cluster_size:  15


2022-11-03 18:32:42,167 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:33:01,269 - BERTopic - Reduced dimensionality
2022-11-03 18:33:02,428 - BERTopic - Clustered reduced embeddings


     Topic  Count                                           Name
0       -1  10522                  -1_años_personas_puerto_parte
1        0   3094                     0_colo_partido_equipo_club
2        1    448                   1_teatro_cultural_artes_arte
3        2    440                2_casos_contagios_salud_covid19
4        3    311                3_kast_boric_candidato_gobierno
..     ...    ...                                            ...
273    272     15                272_rusia_ucrania_putin_militar
274    273     15  273_casinos_casinos populares_populares_corte
275    274     15          274_tuberculosis_acv_salud_enfermedad
276    275     15      275_accidente_conductor_lesiones_colisión
277    276     15               276_víctima_mujer_pareja_machete

[278 rows x 3 columns]
n_neighbors:  10
n_components:  6
min_cluster_size:  8


2022-11-03 18:37:08,087 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:37:28,118 - BERTopic - Reduced dimensionality
2022-11-03 18:37:29,566 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12013                      -1_años_puerto_personas_parte
1        0    506                       0_boric_kast_chile_candidato
2        1    472                         1_ucrania_rusia_ruso_putin
3        2    249                       2_betis_inter_league_minutos
4        3    227        3_fuente_fuente cooperativa_gobierno_retiro
..     ...    ...                                                ...
536    535      8  535_piloto pardo_marinos piloto pardo_marinos ...
537    536      8             536_postes_saesa_suministro_fontecilla
538    537      8    537_shk1_acuicultura_macroalgas_shk1 estimulada
539    538      8  538_ambiental_comisión descentralización_conse...
540    539      8             539_agua_pompón_extracción_litros agua

[541 rows x 3 columns]
n_neighbors:  10
n_components:  6
min_cluster_size:  10


2022-11-03 18:41:40,555 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:42:00,586 - BERTopic - Reduced dimensionality
2022-11-03 18:42:01,960 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10632                      -1_años_personas_puerto_parte
1        0   3092                         0_colo_partido_equipo_club
2        1    506                         1_boric_kast_chile_derecho
3        2    472                         2_ucrania_rusia_ruso_putin
4        3    227    3_fuente_gobierno_fuente cooperativa_presidente
..     ...    ...                                                ...
391    390     10         390_chiloé_chiloé región_consejeros_región
392    391     10  391_libertad condicional_condicional_libertad_...
393    392     10     392_agua_agua potable_potable_redes sanitarias
394    393     10           393_nave_salmones_marítima_robo salmones
395    394     10                394_universidades_debate_rector_oui

[396 rows x 3 columns]
n_neighbors:  10
n_components:  6
min_cluster_size:  15


2022-11-03 18:46:11,216 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:46:31,204 - BERTopic - Reduced dimensionality
2022-11-03 18:46:32,444 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10820                      -1_años_personas_puerto_salud
1        0   3092                         0_colo_partido_equipo_club
2        1    523                     1_teatro_cultural_artes_música
3        2    472                         2_ucrania_rusia_ruso_putin
4        3    308                    3_kast_boric_candidato_gobierno
..     ...    ...                                                ...
267    266     15  266_mascotas_tenencia responsable_fondos_respo...
268    267     15                  267_matrimonio_álvarez_pcr_examen
269    268     15  268_convención_constitucional_convención const...
270    269     15  269_puntra_carreras clandestinas_clandestinas_...
271    270     15               270_facebook_spotify_instagram_rogan

[272 rows x 3 columns]
n_neighbors:  15
n_components:  4
min_cluster_size:  8


2022-11-03 18:50:40,565 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:51:44,210 - BERTopic - Reduced dimensionality
2022-11-03 18:52:05,453 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  11152                      -1_personas_años_salud_puerto
1        0   3103                         0_colo_partido_equipo_club
2        1    512                         1_ucrania_rusia_ruso_putin
3        2    328                         2_película_the_serie_cinta
4        3    320                    3_kast_boric_candidato_gobierno
..     ...    ...                                                ...
408    407      8  407_homicidio_homicidios_homicidios frustrados...
409    408      8                  408_kast_cómo ve_sichel_candidato
410    409      8  409_indespa_acuicultura_acuicultores_pequeña e...
411    410      8         410_turismo_montaña_turismo montaña_palena
412    411      8       411_humedal_humedales_impacto ambiental_agua

[413 rows x 3 columns]
n_neighbors:  15
n_components:  4
min_cluster_size:  10


2022-11-03 18:56:13,698 - BERTopic - Transformed documents to Embeddings
2022-11-03 18:56:34,519 - BERTopic - Reduced dimensionality
2022-11-03 18:56:35,540 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  11261                      -1_personas_años_salud_puerto
1        0   3103                         0_colo_partido_equipo_club
2        1    512                         1_ucrania_rusia_ruso_putin
3        2    320                    2_kast_boric_candidato_gobierno
4        3    284                   3_teatro_cultural_artes_festival
..     ...    ...                                                ...
344    343     10         343_chiloé_chiloé región_consejeros_región
345    344     10      344_playas_denuncias_bienes nacionales_bienes
346    345     10  345_subvencionados_particulares subvencionados...
347    346     10                    346_saesa_pda_calefactores_leña
348    347     10     347_turismo_sernatur_sernatur lagos_turísticos

[349 rows x 3 columns]
n_neighbors:  15
n_components:  4
min_cluster_size:  15


2022-11-03 19:00:47,675 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:01:11,206 - BERTopic - Reduced dimensionality
2022-11-03 19:01:12,145 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12997                      -1_años_personas_puerto_parte
1        0    559                         0_minutos_partido_gol_colo
2        1    493                      1_casos_contagios_salud_dosis
3        2    382                    2_boric_kast_gobierno_candidato
4        3    284                   3_teatro_cultural_artes_festival
..     ...    ...                                                ...
270    269     15      269_playa_bienes nacionales_bienes_nacionales
271    270     15            270_ues_universidades_derecho_educación
272    271     15               271_tribunal_oral_juicio_juicio oral
273    272     15  272_hospital puerto montt_hospital puerto_proc...
274    273     15  273_derechos_constitución_derecho_nueva consti...

[275 rows x 3 columns]
n_neighbors:  15
n_components:  5
min_cluster_size:  8


2022-11-03 19:05:28,227 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:05:51,825 - BERTopic - Reduced dimensionality
2022-11-03 19:05:53,263 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10998                      -1_personas_años_puerto_salud
1        0   3108                         0_colo_partido_equipo_club
2        1    529                         1_ucrania_rusia_ruso_putin
3        2    483                   2_teatro_cultural_artes_festival
4        3    339                    3_imputado_tribunal_juicio_oral
..     ...    ...                                                ...
393    392      8                 392_fase_paso_comunas_retrocederán
394    393      8    393_futaleufú_ceremonia_palena_provincia palena
395    394      8              394_acusación_votos_naranjo_oposición
396    395      8  395_llanada_llanada grande_hughes_trabajo soci...
397    396      8           396_china_xi_cooperación_cumbre américas

[398 rows x 3 columns]
n_neighbors:  15
n_components:  5
min_cluster_size:  10


2022-11-03 19:11:38,497 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:12:13,414 - BERTopic - Reduced dimensionality
2022-11-03 19:12:51,324 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10841                      -1_personas_años_puerto_salud
1        0   3108                         0_colo_partido_equipo_club
2        1    529                         1_ucrania_rusia_ruso_putin
3        2    503                   2_teatro_cultural_artes_festival
4        3    339                  3_imputado_tribunal_juicio_delito
..     ...    ...                                                ...
312    311     10     311_marihuana_percepción riesgo_percepción_thc
313    312     10  312_principio probidad_arrendatarios_diputado_...
314    313     10  313_forestal_incendio_incendio forestal_propor...
315    314     10   314_ambulancias_salud_móviles_nuevas ambulancias
316    315     10  315_retrocederán_paso_retrocederán preparación...

[317 rows x 3 columns]
n_neighbors:  15
n_components:  5
min_cluster_size:  15


2022-11-03 19:20:22,216 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:22:47,461 - BERTopic - Reduced dimensionality
2022-11-03 19:23:04,401 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  10575                     -1_personas_años_puerto_región
1        0   3108                         0_colo_partido_equipo_club
2        1    529                         1_ucrania_rusia_ruso_putin
3        2    503                   2_teatro_cultural_artes_festival
4        3    453              3_estudiantes_educación_niños_escuela
..     ...    ...                                                ...
219    218     15                    218_rusia_ucrania_putin_militar
220    219     15                            219_casos_salud_pcr_uci
221    220     15  220_camiones_aljibes_camiones aljibes_cerca 15...
222    221     15   221_niñez_servicio_mejor niñez_servicio nacional
223    222     15         222_retén_vehículos_policiales_carabineros

[224 rows x 3 columns]
n_neighbors:  15
n_components:  6
min_cluster_size:  8


2022-11-03 19:30:51,302 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:32:01,178 - BERTopic - Reduced dimensionality
2022-11-03 19:32:20,907 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12810                      -1_años_personas_puerto_parte
1        0    386                    0_imputado_tribunal_delito_oral
2        1    304               1_incendio_bomberos_emergencia_fuego
3        2    261                      2_víctima_mujer_hombre_pareja
4        3    245                3_casos_dosis_contagios_positividad
..     ...    ...                                                ...
438    437      8                437_piloto_r2_piloto osornino_pérez
439    438      8  438_emprendedores_emprendimiento_emprende_banc...
440    439      8  439_hospital_moller pérez_moller pérez cotapos...
441    440      8  440_apoyos_apoyos derecho_derecho_defensor pueblo
442    441      8        441_eventos vivo_cultura_aforos_panorama ve

[443 rows x 3 columns]
n_neighbors:  15
n_components:  6
min_cluster_size:  10


2022-11-03 19:38:36,750 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:39:11,556 - BERTopic - Reduced dimensionality
2022-11-03 19:39:27,632 - BERTopic - Clustered reduced embeddings


     Topic  Count                                             Name
0       -1  11244                    -1_personas_años_salud_puerto
1        0   3079                       0_colo_partido_equipo_club
2        1    386                  1_imputado_tribunal_delito_oral
3        2    374                  2_boric_kast_candidato_gobierno
4        3    304             3_incendio_bomberos_emergencia_fuego
..     ...    ...                                              ...
329    328     10      328_rd_universidad_enzo jaramillo_jaramillo
330    329     10  329_libro_geológica_gonzález subiabre_ilustrado
331    330     10                   330_lotes_lote_aduanas_subasta
332    331     10          331_ravanales_bertín_keim_zonas rurales
333    332     10                   332_casos_contagios_camas_ayer

[334 rows x 3 columns]
n_neighbors:  15
n_components:  6
min_cluster_size:  15


2022-11-03 19:44:50,428 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:45:21,107 - BERTopic - Reduced dimensionality
2022-11-03 19:45:25,577 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  11225                       -1_personas_años_salud_parte
1        0   3079                         0_colo_partido_equipo_club
2        1    484                       1_teatro_cultural_artes_arte
3        2    386                 2_imputado_tribunal_delito_víctima
4        3    374                    3_boric_kast_gobierno_candidato
..     ...    ...                                                ...
226    225     15         225_boric_presidente_gabriel boric_gabriel
227    226     15               226_teatro_orquesta_concierto_música
228    227     15        227_humedal_humedales_humedal urbano_urbano
229    228     15  228_tormentas_alerta_eléctricas_tormentas eléc...
230    229     15   229_títulos_dominio_títulos dominio_jorge moreno

[231 rows x 3 columns]
n_neighbors:  30
n_components:  4
min_cluster_size:  8


2022-11-03 19:49:31,324 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:50:00,084 - BERTopic - Reduced dimensionality
2022-11-03 19:50:01,163 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12374                      -1_personas_años_puerto_salud
1        0   3101                         0_colo_partido_equipo_club
2        1    322                    1_boric_kast_candidato_gobierno
3        2    294                2_estudiantes_educación_niños_niñas
4        3    273                3_vecinos_alcalde_vivienda_regional
..     ...    ...                                                ...
353    352      8  352_trata personas_explotación sexual_venezola...
354    353      8  353_hijos ilustres_ilustres_mario barrientos_d...
355    354      8       354_seguros_agroseguros_agricultores_riesgos
356    355      8                   355_joven_igor barría_lucas_igor
357    356      8                   356_provincia_cuales_total_covid

[358 rows x 3 columns]
n_neighbors:  30
n_components:  4
min_cluster_size:  10


2022-11-03 19:54:12,731 - BERTopic - Transformed documents to Embeddings
2022-11-03 19:55:17,574 - BERTopic - Reduced dimensionality
2022-11-03 19:55:21,502 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12619                      -1_personas_años_salud_puerto
1        0   3101                         0_colo_partido_equipo_club
2        1    322                    1_boric_kast_candidato_gobierno
3        2    294                2_estudiantes_educación_niños_niñas
4        3    273                3_vecinos_alcalde_vivienda_regional
..     ...    ...                                                ...
290    289     10  289_salmón_antibióticos_seafood watch_salmón a...
291    290     10         290_mm_normal_temperaturas_precipitaciones
292    291     10             291_retiro_fondos_quinto retiro_sichel
293    292     10     292_presupuesto_pesos_inversión_millones pesos
294    293     10                      293_boric_cadem_kast_encuesta

[295 rows x 3 columns]
n_neighbors:  30
n_components:  4
min_cluster_size:  15


2022-11-03 19:59:34,279 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:00:00,690 - BERTopic - Reduced dimensionality
2022-11-03 20:00:01,565 - BERTopic - Clustered reduced embeddings


   Topic  Count                                               Name
0     -1     12  -1_pcr_interesados deben dirigirse_gratuita ex...
1      0  22501                      0_años_personas_región_puerto
2      1   3101                         1_equipo_partido_colo_club
3      2    219                 2_gobierno_presidente_fuente_chile
4      3    201  3_castro_carabineros133 investigaciones134_bla...
5      4     35                    4_sal_aceite_aceite oliva_oliva
6      5     33                     5_ingredientes_aceite_sal_taza
7      6     25  6_derecho aprovechamiento_aprovechamiento_agua...
n_neighbors:  30
n_components:  5
min_cluster_size:  8


2022-11-03 20:04:08,492 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:04:36,810 - BERTopic - Reduced dimensionality
2022-11-03 20:04:37,976 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12561                      -1_personas_años_puerto_salud
1        0   3094                         0_colo_partido_equipo_club
2        1    464                         1_ucrania_rusia_ruso_putin
3        2    293                  2_imputado_tribunal_delito_juicio
4        3    277                      3_kast_boric_candidato_sichel
..     ...    ...                                                ...
329    328      8  328_fiscalizaciones_senda_conductores_carabineros
330    329      8  329_nueva seremi agricultura_seremi agricultur...
331    330      8                 330_concierto_orquesta_música_coro
332    331      8  331_corte_apelaciones_apelaciones puerto montt...
333    332      8           332_hospital_queilen_serviu_moller pérez

[334 rows x 3 columns]
n_neighbors:  30
n_components:  5
min_cluster_size:  10


2022-11-03 20:08:46,859 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:09:14,795 - BERTopic - Reduced dimensionality
2022-11-03 20:09:15,899 - BERTopic - Clustered reduced embeddings


     Topic  Count                                              Name
0       -1  12438                    -1_personas_años_puerto_región
1        0   3094                        0_colo_partido_equipo_club
2        1    464                        1_ucrania_rusia_ruso_putin
3        2    399             2_cáncer_enfermedad_pacientes_estudio
4        3    293                 3_imputado_tribunal_delito_juicio
..     ...    ...                                               ...
257    256     10                  256_quilineja_raquel_fibra_telar
258    257     10                  257_cuotas_pymes_fogape_créditos
259    258     10                 258_boric_kast_adherentes_jackson
260    259     10  259_evacuación médica_evacuación_médica_paciente
261    260     10                  260_inversión_millones_mil_obras

[262 rows x 3 columns]
n_neighbors:  30
n_components:  5
min_cluster_size:  15


2022-11-03 20:13:18,923 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:13:46,856 - BERTopic - Reduced dimensionality
2022-11-03 20:13:47,841 - BERTopic - Clustered reduced embeddings


   Topic  Count                                               Name
0     -1     16  -1_pcr_mediante operativos realizan_activa cas...
1      0  22505                      0_años_personas_región_puerto
2      1   3094                         1_equipo_partido_colo_tras
3      2    221                 2_gobierno_presidente_fuente_chile
4      3    201  3_castro_carabineros133 investigaciones134_bla...
5      4     33                    4_sal_aceite_aceite oliva_oliva
6      5     32                     5_ingredientes_aceite_sal_taza
7      6     25  6_derecho aprovechamiento_aprovechamiento_agua...
n_neighbors:  30
n_components:  6
min_cluster_size:  8


2022-11-03 20:19:19,741 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:19:49,291 - BERTopic - Reduced dimensionality
2022-11-03 20:19:51,020 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12551                      -1_personas_años_salud_puerto
1        0   3090                         0_colo_partido_equipo_club
2        1    460                         1_ucrania_rusia_ruso_putin
3        2    384             2_cáncer_enfermedad_pacientes_síntomas
4        3    248            3_accidente_conductor_vehículo_tránsito
..     ...    ...                                                ...
329    328      8  328_problemas salud mental_asperger_problemas ...
330    329      8                 329_empleo_súmate agro_agro_súmate
331    330      8        330_saludables_productos_conekta_innovación
332    331      8                      331_peces_incar_oligómeros_dr
333    332      8  332_puerto montt adelante_montt adelante_isla ...

[334 rows x 3 columns]
n_neighbors:  30
n_components:  6
min_cluster_size:  10


2022-11-03 20:23:57,204 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:24:26,004 - BERTopic - Reduced dimensionality
2022-11-03 20:24:27,336 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12451                      -1_personas_años_salud_puerto
1        0   3090                         0_colo_partido_equipo_club
2        1    460                         1_ucrania_rusia_ruso_putin
3        2    384             2_cáncer_enfermedad_pacientes_síntomas
4        3    336                    3_boric_kast_gobierno_candidato
..     ...    ...                                                ...
266    265     10              265_carabineros_lugar_brigada_peritos
267    266     10          266_seminario_festival osorno_jazz_osorno
268    267     10  267_imputado_prisión preventiva_prisión_preven...
269    268     10      268_junji_jardines_jardín_jardines infantiles
270    269     10      269_acuicultura_pequeña escala_pequeña_escala

[271 rows x 3 columns]
n_neighbors:  30
n_components:  6
min_cluster_size:  15


2022-11-03 20:28:37,304 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:29:06,809 - BERTopic - Reduced dimensionality
2022-11-03 20:29:08,008 - BERTopic - Clustered reduced embeddings


   Topic  Count                                               Name
0     -1     16    -1_ingredientes_avena_pcr_disponibilidad partir
1      0  22509                      0_años_personas_región_puerto
2      1   3090                         1_equipo_partido_colo_tras
3      2    221                 2_gobierno_presidente_fuente_chile
4      3    202  3_castro_propietario sociedad periodística_652...
5      4     33                    4_sal_aceite_aceite oliva_oliva
6      5     31                     5_ingredientes_aceite_sal_taza
7      6     25  6_derecho aprovechamiento_aprovechamiento_agua...
n_neighbors:  50
n_components:  4
min_cluster_size:  8


2022-11-03 20:33:13,388 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:33:48,343 - BERTopic - Reduced dimensionality
2022-11-03 20:33:49,401 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12515                      -1_años_personas_puerto_parte
1        0   3084                         0_colo_partido_equipo_club
2        1    480                         1_ucrania_rusia_ruso_putin
3        2    350              2_cáncer_enfermedad_pacientes_estudio
4        3    345                3_casos_contagios_salud_positividad
..     ...    ...                                                ...
282    281      8         281_israel_rosenberg_alcaldesa_diplomática
283    282      8            282_retén_vehículos_policiales_tenencia
284    283      8  283_reloncaví_ambulancias_nueve ambulancias_in...
285    284      8                284_mariscos_angelmó_ventas_precios
286    285      8  285_chinquihue_becas_enseñanza_enseñanza superior

[287 rows x 3 columns]
n_neighbors:  50
n_components:  4
min_cluster_size:  10


2022-11-03 20:38:00,930 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:38:33,747 - BERTopic - Reduced dimensionality
2022-11-03 20:38:34,772 - BERTopic - Clustered reduced embeddings


     Topic  Count                                             Name
0       -1  12688                    -1_años_personas_puerto_parte
1        0   3084                       0_colo_partido_equipo_club
2        1    480                       1_ucrania_rusia_ruso_putin
3        2    353                  2_boric_kast_gobierno_candidato
4        3    350            3_cáncer_enfermedad_pacientes_estudio
..     ...    ...                                              ...
232    231     10  231_mariscador_buzo mariscador_falleció_57 años
233    232     10                232_fieles_parroquias_misa_crucis
234    233     10   233_paso_retrocederán_plan paso paso_plan paso
235    234     10     234_pausini_warhol_laura pausini_andy warhol
236    235     10    235_teletón_puerto_deportes náuticos_náuticos

[237 rows x 3 columns]
n_neighbors:  50
n_components:  4
min_cluster_size:  15


2022-11-03 20:42:43,371 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:43:16,462 - BERTopic - Reduced dimensionality
2022-11-03 20:43:17,627 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12564                      -1_años_personas_puerto_parte
1        0   3084                         0_colo_partido_equipo_club
2        1    480                         1_ucrania_rusia_ruso_putin
3        2    399             2_estudiantes_educación_niños_programa
4        3    353                   3_boric_kast_gobierno_presidente
..     ...    ...                                                ...
166    165     15                      165_precios_bitcoin_kushki_us
167    166     15  166_hospital_hospital puerto montt_hospital pu...
168    167     15                 167_gas_precio_gas licuado_licuado
169    168     15                  168_agua_riego_agricultores_indap
170    169     15  169_clases_establecimientos_clases presenciale...

[171 rows x 3 columns]
n_neighbors:  50
n_components:  5
min_cluster_size:  8


2022-11-03 20:47:23,886 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:47:57,314 - BERTopic - Reduced dimensionality
2022-11-03 20:47:58,471 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  13094                      -1_personas_años_puerto_parte
1        0   3084                         0_colo_partido_equipo_club
2        1    404             1_estudiantes_educación_niños_programa
3        2    345                       2_teatro_cultural_artes_arte
4        3    345               3_cáncer_enfermedad_pacientes_riesgo
..     ...    ...                                                ...
289    288      8  288_subdere_futaleufú_cierre perimetral_perime...
290    289      8   289_aislamiento_coronavirus_provincia_infectados
291    290      8  290_senda_carabineros_fiscalizaciones_conductores
292    291      8    291_libro_geológica_ilustrado_gonzález subiabre
293    292      8  292_transparencia_portal transparencia_cplt_nu...

[294 rows x 3 columns]
n_neighbors:  50
n_components:  5
min_cluster_size:  10


2022-11-03 20:52:05,137 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:52:39,084 - BERTopic - Reduced dimensionality
2022-11-03 20:52:40,214 - BERTopic - Clustered reduced embeddings


     Topic  Count                                            Name
0       -1  12793                   -1_personas_años_puerto_parte
1        0   3084                      0_colo_partido_equipo_club
2        1    430                   1_casos_dosis_contagios_salud
3        2    404          2_estudiantes_educación_niños_programa
4        3    345                    3_teatro_cultural_artes_arte
..     ...    ...                                             ...
223    222     10    222_agua_limpieza ríos_ríos_ríos damas rahue
224    223     10       223_vehicular_vehículo_curaco vélez_vélez
225    224     10            224_concierto_orquesta_música_teatro
226    225     10     225_alerta tsunami_alerta_tsunami_marejadas
227    226     10  226_matrimonio_convencional_constitucional_ley

[228 rows x 3 columns]
n_neighbors:  50
n_components:  5
min_cluster_size:  15


2022-11-03 20:56:52,050 - BERTopic - Transformed documents to Embeddings
2022-11-03 20:57:26,784 - BERTopic - Reduced dimensionality
2022-11-03 20:57:27,858 - BERTopic - Clustered reduced embeddings


   Topic  Count                                               Name
0     -1     17                             -1_sal_pcr_aceite_vino
1      0  22521                      0_años_personas_región_puerto
2      1   3084                         1_equipo_partido_colo_tras
3      2    217                 2_gobierno_presidente_fuente_chile
4      3    201  3_castro_carabineros133 investigaciones134_bla...
5      4     36                    4_aceite_sal_aceite oliva_oliva
6      5     26                     5_ingredientes_aceite_sal_taza
7      6     25  6_derecho aprovechamiento_aprovechamiento_agua...
n_neighbors:  50
n_components:  6
min_cluster_size:  8


2022-11-03 21:01:35,309 - BERTopic - Transformed documents to Embeddings
2022-11-03 21:02:24,720 - BERTopic - Reduced dimensionality
2022-11-03 21:02:26,411 - BERTopic - Clustered reduced embeddings


     Topic  Count                                            Name
0       -1  12600                   -1_personas_años_puerto_parte
1        0   3081                      0_colo_partido_equipo_club
2        1   1198                    1_película_disco_the_canción
3        2    497                   2_casos_dosis_contagios_salud
4        3    454                      3_ucrania_rusia_ruso_putin
..     ...    ...                                             ...
272    271      8                271_quilineja_raquel_telar_fibra
273    272      8  272_microbasurales_contenedores_cámaras_basura
274    273      8              273_álvarez_examen_jenny_vacunarse
275    274      8               274_eei_espacial_astronautas_nasa
276    275      8                  275_robos_banda_robo_detenidos

[277 rows x 3 columns]
n_neighbors:  50
n_components:  6
min_cluster_size:  10


2022-11-03 21:06:33,664 - BERTopic - Transformed documents to Embeddings
2022-11-03 21:07:09,507 - BERTopic - Reduced dimensionality
2022-11-03 21:07:10,827 - BERTopic - Clustered reduced embeddings


     Topic  Count                                               Name
0       -1  12799                      -1_personas_años_puerto_parte
1        0   3081                         0_colo_partido_equipo_club
2        1   1198                       1_película_disco_the_canción
3        2    497                      2_casos_dosis_contagios_salud
4        3    454                         3_ucrania_rusia_ruso_putin
..     ...    ...                                                ...
222    221     10        221_carabineros_conductor_personal_policial
223    222     10        222_maquinarias_ataque_incendiario_máquinas
224    223     10               223_hospital_niño_frutillar_paciente
225    224     10              224_cristo_hogar_obreros_hogar cristo
226    225     10  225_incendios_conaf_incendios forestales_fores...

[227 rows x 3 columns]
n_neighbors:  50
n_components:  6
min_cluster_size:  15


2022-11-03 21:11:16,288 - BERTopic - Transformed documents to Embeddings
2022-11-03 21:11:55,721 - BERTopic - Reduced dimensionality
2022-11-03 21:11:56,946 - BERTopic - Clustered reduced embeddings


   Topic  Count                                               Name
0     -1     16                     -1_aceite_ingredientes_sal_pcr
1      0  22523                      0_años_personas_región_puerto
2      1   3081                         1_equipo_partido_colo_tras
3      2    217                 2_gobierno_presidente_fuente_chile
4      3    201  3_castro_carabineros133 investigaciones134_bla...
5      4     37                    4_sal_aceite_aceite oliva_oliva
6      5     27                     5_ingredientes_taza_aceite_sal
7      6     25  6_derecho aprovechamiento_aprovechamiento_agua...
