In [0]:
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *

#Fuente

In [0]:
institucion_educativa_df = spark.read.format('csv') \
                                     .option('header', 'true') \
                                     .option('inferSchema', 'true') \
                                     .load('/FileStore/tables/2023_04_11T04_36_02_388Zinstituciones_educativas.csv')

In [0]:
universidades_homolac_df = spark.read.format('csv') \
                                     .option('header', 'true') \
                                     .option('inferSchema', 'true') \
                                     .load('/FileStore/tables/universidades_krowdy.csv')

#Transformacion

In [0]:
universidades_homolac_df = universidades_homolac_df.withColumn("siglas_min", trim(lower(col('Siglas ')))) \
                                                   .withColumn("nombre_min", trim(lower(col('Nombre ')))) \
                                                   .withColumn("id_inei", trim(col('código INEI'))).drop('código INEI')

In [0]:
df_homologado = institucion_educativa_df.withColumn("value_homologada", trim(lower(regexp_replace(col('value'), "\s+", " "))))

In [0]:
df_array = df_homologado.select("value_homologada", array("cod_inei").alias("cod_inei"))

import json
lista_dict = df_array.collect()

# Convertir cada elemento de la lista en un diccionario de Python
diccionario = {}
for elem in lista_dict:
    cadena_json = json.dumps(elem.asDict())
    dict_elem = json.loads(cadena_json)
    diccionario[dict_elem["value_homologada"]] = dict_elem["cod_inei"]

In [0]:
def homologate_name(value_homologada):
    if value_homologada in diccionario:
        return diccionario[value_homologada][0]  # Reemplazar con el primer sinónimo/abreviatura encontrado
    else:
        return value_homologada

# Aplicar la homologación
homologate_udf = udf(homologate_name, StringType())
df_homologado = df_homologado.withColumn("synonym_name", homologate_udf(col("value_homologada"))) \
                             .drop('cod_inei')

In [0]:
data_homologada = df_homologado.join(universidades_homolac_df, universidades_homolac_df.id_inei == df_homologado.synonym_name,'left') \
                               .select('candidateId','value',col('Nombre ').alias('universidad_homologada')) \
                               .filter(col('Nombre ').isNotNull())

In [0]:
data_homologada.display()

candidateId,value,universidad_homologada
630633fa1e599d0009d6dee0,Ucv,Universidad César Vallejo S.A.C.
63063bda29da5b00089fb224,Universidad Peruana De Ciencias Aplicadas - Upc,Universidad Peruana de Ciencias Aplicadas S.A.C.
630665b8594e18004af047fc,"I. E 00 María Auxiliadora, Cercado De Lima",Universidad María Auxiliadora S.A.C.
630665b8594e18004af04816,Universidad Privada Del Norte - Upn,Universidad Privada del Norte S.A.C.
630665b8594e18004af04825,Universidad Nacional Agraria La Molina,Universidad Nacional Agraria La Molina
630665b8594e18004af04835,Universidad Privada San Juan Bautista,Universidad Privada San Juan Bautista S.A.C.
630665b8594e18004af04842,Universidad Peruana De Ciencias Aplicadas (upc),Universidad Peruana de Ciencias Aplicadas S.A.C.
630665b8594e18004af0485d,Universidad De Ciencias Aplicadas,Universidad Peruana de Ciencias Aplicadas S.A.C.
630665b8594e18004af04864,Universidad Peruana De Ciencias Aplicadas - Upc,Universidad Peruana de Ciencias Aplicadas S.A.C.
630665b8594e18004af0489e,Universidad Cesar Vallejo,Universidad César Vallejo S.A.C.


#Transormacion Diccionario

In [0]:
unpivot = "stack(1, 'value',value) as (ex_colum, value)"

unpivot_data = data_homologada.select(col("universidad_homologada"), expr(unpivot)).distinct() \
                              .drop('ex_colum')


df_array_data = unpivot_data.groupBy("universidad_homologada").agg(collect_list("value").alias("value"))

# Crear la lista de diccionarios
lista_sinonimos = []
for row in df_array_data.collect():
    universidad = row.universidad_homologada
    sinonimos = row.value
    sinonimos_dict = {"nombre_universidad": universidad, "sinonimos": sinonimos}
    lista_sinonimos.append(sinonimos_dict)

# Imprimir la lista
print(lista_sinonimos)