In [None]:
from pyspark.ml.stat import Correlation
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.functions import col

# Supongamos que tienes un DataFrame de Spark 'df' con las columnas 'col1', 'col2', 'col3'
columnas = ['col1', 'col2', 'col3']

# Combina las columnas en una sola columna de vectores
assembler = VectorAssembler(inputCols=columnas, outputCol="combined")
df_vector = assembler.transform(df).select("combined")

# Calcula la matriz de correlación de Spearman
matrix = Correlation.corr(df_vector, "combined", method="spearman").collect()[0][0]

# Recorre la matriz de correlación y elimina las columnas con correlación >= 0.4
for i in range(len(columnas)):
    for j in range(i+1, len(columnas)):
        if abs(matrix[i, j]) >= 0.4:
            df = df.drop(columnas[j])

# Ahora 'df' es tu DataFrame con las columnas correlacionadas eliminadas


ModuleNotFoundError: No module named 'pyspark'

In [None]:
from pyspark.sql import SparkSession

# Supongamos que tienes un DataFrame de Spark 'df' con las columnas 'col1', 'col2', 'col3'
columnas = df.columns

# Crea un diccionario para almacenar los valores distintos de cada columna
valores_distintos = {}

# Recorre cada columna y obtén los valores distintos
for col in columnas:
    valores_distintos[col] = df.select(col).distinct().rdd.flatMap(lambda x: x).collect()

# Ahora 'valores_distintos' es un diccionario donde las claves son los nombres de las columnas
# y los valores son listas con los valores distintos de cada columna


In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression

# Iniciar sesión de Spark
spark = SparkSession.builder.appName("RegresionLogisticaMultinomial").getOrCreate()

# Cargar datos
df = spark.read.csv("ruta/a/tu/dataset.csv", header=True, inferSchema=True)

# Lista de variables y sus pesos iniciales
variables = ['variable1', 'variable2', 'variable3']
pesos = {'variable1': 0.3, 'variable2': 0.5, 'variable3': 0.2}

# Asignar pesos a las variables
for variable in variables:
    df = df.withColumn(variable, df[variable] * pesos[variable])

# VectorAssembler para combinar las variables en una sola columna de características
assembler = VectorAssembler(inputCols=variables, outputCol="features")
df = assembler.transform(df)

# Definir y entrenar el modelo de regresión logística multinomial
lr = LogisticRegression(featuresCol="features", labelCol="nivel_riesgo", family="multinomial")

# Ajustar el modelo
modelo = lr.fit(df)

# Predecir los niveles de riesgo
predicciones = modelo.transform(df)

# Mostrar los resultados
predicciones.select("features", "nivel_riesgo", "prediction").show()

# Cerrar sesión de Spark
spark.stop()





In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Iniciar sesión de Spark
spark = SparkSession.builder.appName("ImportanciaVariables").getOrCreate()

# Cargar datos
df = spark.read.csv("ruta/a/tu/dataset.csv", header=True, inferSchema=True)

# Lista de variables
variables = ['variable1', 'variable2', 'variable3']

# VectorAssembler para combinar las variables en una sola columna de características
assembler = VectorAssembler(inputCols=variables, outputCol="features")
df = assembler.transform(df)

# Definir el modelo de Random Forest
rf = RandomForestClassifier(featuresCol="features", labelCol="nivel_riesgo")

# Ajustar el modelo
modelo = rf.fit(df)

# Obtener la importancia de las características
importancias = modelo.featureImportances

# Mostrar la importancia de cada variable
print("Importancia de las variables:")
for i in range(len(variables)):
    print(f"{variables[i]}: {importancias[i]}")

# Cerrar sesión de Spark
spark.stop()


In [None]:
from pyspark.sql import SparkSession
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator
from pyspark.sql.functions import col

# Iniciar sesión de Spark
spark = SparkSession.builder.appName("RegresionLogisticaMultinomial").getOrCreate()

# Cargar datos
df = spark.read.csv("ruta/a/tu/dataset.csv", header=True, inferSchema=True)

# Lista de variables predictoras
variables = ['variable1', 'variable2', 'variable3', ...]

# Preparar los datos para el modelo
assembler = VectorAssembler(inputCols=variables, outputCol="features")
df = assembler.transform(df)

# Definir el modelo de regresión logística multinomial
lr = LogisticRegression(featuresCol="features", labelCol="nivel_riesgo", family="multinomial")

# Ajustar el modelo
modelo = lr.fit(df)

# Coeficientes y Interceptos
print("Coeficientes:")
print(modelo.coefficientMatrix)
print("Interceptos:")
print(modelo.interceptVector)

# Evaluar el modelo
evaluator = MulticlassClassificationEvaluator(labelCol="nivel_riesgo", predictionCol="prediction")

# Precisión del modelo
accuracy = evaluator.evaluate(modelo.transform(df), {evaluator.metricName: "accuracy"})
print("Precisión del modelo:", accuracy)

# Log-Likelihood del modelo ajustado
llh = modelo.summary.objectiveHistory[-1]
print("Log-Likelihood del modelo ajustado:", llh)

# Log-Likelihood del modelo nulo
# Para el modelo nulo, se puede calcular manualmente o ajustar un modelo sin características
# Aquí se muestra cómo calcularlo manualmente
total_count = df.count()
positive_count = df.filter(col("nivel_riesgo") == 1).count()
negative_count = df.filter(col("nivel_riesgo") == 0).count()
llh_nulo = positive_count * math.log(positive_count/total_count) + negative_count * math.log(negative_count/total_count)
print("Log-Likelihood del modelo nulo:", llh_nulo)

# Pseudo R2 de McFadden
pseudo_r2_mcfadden = 1 - (llh/llh_nulo)
print("Pseudo R2 de McFadden:", pseudo_r2_mcfadden)

# Cerrar sesión de Spark
spark.stop()
