In [None]:
from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType

# Supongamos que 'peso_var1' es el peso de la única variable que estamos considerando
# y que 'nivel_juridica' es la columna con los niveles jurídicos.

# Ajustamos el peso de la variable al 95% de su valor
df = df.withColumn('peso_var1_ajustado', col('peso_var1') * 0.95)

# Definimos una función para obtener el valor ponderado de la entidad jurídica
def obtener_valor_juridico(nivel):
    # Aquí debes definir cómo se traduce el nivel jurídico a un valor numérico
    # Por ejemplo, podrías tener un diccionario o una función que asigne un valor
    valor_juridico = ... # Implementa la lógica para obtener el valor numérico
    return valor_juridico

# Definimos la función para calcular el riesgo total
def calcular_riesgo_total(peso_var1, valor_juridico):
    # Calculamos el riesgo total con el nuevo peso
    riesgo_total = peso_var1 + (valor_juridico * 0.05)

    # Clasificamos el riesgo total
    if riesgo_total < 35:
        return 'riesgo bajo'
    elif 35 <= riesgo_total < 90:
        return 'riesgo medio'
    else:
        return 'riesgo alto'

# Convertimos las funciones en UDFs de PySpark
obtener_valor_juridico_udf = udf(obtener_valor_juridico, StringType())
calcular_riesgo_total_udf = udf(calcular_riesgo_total, StringType())

# Aplicamos la UDF para obtener el valor jurídico
df = df.withColumn('valor_juridico', obtener_valor_juridico_udf(col('nivel_juridica')))

# Aplicamos la UDF para calcular el riesgo total y clasificarlo
df_con_riesgo_total = df.withColumn('clasificacion_riesgo_total', calcular_riesgo_total_udf(df['peso_var1_ajustado'], df['valor_juridico']))

df_con_riesgo_total.show()


In [None]:
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# Definimos la función para calcular el riesgo total
def calcular_riesgo_total(peso_var1, peso_var2, valor_juridico):
    # Calculamos el riesgo total con el nuevo peso
    riesgo_total = peso_var1 + peso_var2 + (valor_juridico * 0.05)

    # Clasificamos el riesgo total
    if riesgo_total < 35:
        return 'riesgo bajo'
    elif 35 <= riesgo_total < 90:
        return 'riesgo medio'
    else:
        return 'riesgo alto'

# Convertimos la función en una UDF de PySpark
calcular_riesgo_total_udf = udf(calcular_riesgo_total, StringType())


In [None]:
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
import numpy as np


import pandas as pd


df = pd.read_csv('/content/kmeans2.csv')

# Normalizar los datos
scaler = StandardScaler()
X = scaler.fit_transform(df)

# Ajustar un modelo de mezcla gaussiana con dos componentes
gmm = GaussianMixture(n_components=5)
gmm.fit(X)

# Mostrar los parámetros aprendidos
print("Medias aprendidas: \n", gmm.means_)
print("Covarianzas aprendidas: \n", gmm.covariances_)

# Calcular el coeficiente de silueta
labels = gmm.predict(X)
silhouette = silhouette_score(X, labels)
print("Coeficiente de silueta: ", silhouette)

# Visualizar los resultados
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis')
plt.title('Visualización de GMM')
plt.show()

from sklearn.mixture import GaussianMixture
import matplotlib.pyplot as plt


n_components = np.arange(1, 5)
models = [GaussianMixture(n, covariance_type='full', random_state=12345).fit(X)
          for n in n_components]

plt.plot(n_components, [m.bic(X) for m in models], label='BIC')
plt.plot(n_components, [m.aic(X) for m in models], label='AIC')
plt.legend(loc='best')
plt.xlabel('numero_componentes');
