# Actividad 4 | Métricas de calidad de resultados
Identificar métricas para la medición de la calidad de resultados derivados de la aplicación de modelos de aprendizaje, ya sea supervisado o no supervisado, orientado al procesamiento de grandes volúmenes de datos, que permitan la selección de los modelos que mejor se ajusten a la tarea de aprendizaje a resolver.



## Informacion del Equipo o Persona

Alejandro González Almazán - A00517113

--------------------------------------------------------------------------------

# Impotacion de Librerias

In [2]:
# PySpark
import findspark
findspark.init()
findspark.find()
from pyspark.sql import SparkSession
"""
# omitir para ejecutar de forma local
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.1-bin-hadoop3.2"
"""
#Librerias de codigo
import kagglehub


### Inicializar entorno PySpark

In [3]:
spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Analisis_Steam") \
    .getOrCreate()

spark.conf.set("spark.sql.repl.eagerEval.enabled", True)

spark

### Lectura de datos

In [4]:
file_path = kagglehub.dataset_download("najzeko/steam-reviews-2021")



In [5]:
print(file_path)

C:\Users\alexa\.cache\kagglehub\datasets\najzeko\steam-reviews-2021\versions\1


In [6]:
print(f"{file_path}/steam_reviews.csv")

C:\Users\alexa\.cache\kagglehub\datasets\najzeko\steam-reviews-2021\versions\1/steam_reviews.csv


In [9]:
df = spark.read.option("header", "true") \
    .option("inferSchema", "true") \
    .option("multiLine", "true") \
    .option("sep", ",").option("escape", "\"").csv(f"{file_path}/steam_reviews.csv")

new_columns = [col_name.replace(".", "_") for col_name in df.columns]
df = df.toDF(*new_columns)

### 1. Construcción de la muestra M (Particiones Mi) con PySpark
Para construir una muestra M representativa de la población P (dataset de reseñas de Steam), se generarán particiones Mi basadas en variables de caracterización clave. El objetivo es asegurar que cada Mi mantenga proporcionalidad respecto a la distribución original, evitando sesgos.

#### Variables de Particionamiento
Se utilizaron las siguientes variables categóricas identificadas en el análisis previo:

1. **recommended:** Si el usuario recomienda el juego (True/False).

2. **received_for_free:** Si el juego fue recibido gratis (True/False).

3. **language:** Idioma de la reseña (ej. english, spanish, russian).

#### Combinaciones relevantes:
Estas variables generan 12 particiones únicas (ej: `reseñas en español`,` no recomendadas`, `recibidas gratis`).

### Muestreo Estratificado Proporcional
Para evitar sesgos:
1. **Particiones (Mi)**: Se generaron combinando `language`, `received_for_free` y `recommended`.
2. **Proporciones**: Cada Mi conserva su frecuencia original en el dataset (ej: inglés + gratis + recomendado = 14.2% → 14.2% en M).
3. **Mínimo tamaño**: Particiones con <1,500 registros se incluyen completas.

### Cálculo de Fracciones de Muestreo por Estrato

Para construir una muestra `M` representativa y de tamaño controlado (`TAMAÑO_M`):

1. **Fracción por estrato**:
   - Se calcula como `(TAMAÑO_M * proporción_original) / conteo_original`.
   - Esto asegura que cada estrato contribuya a `M` en proporción a su peso en el dataset original.

2. **Límite del 100%**:
   - Si un estrato es demasiado pequeño para contribuir al tamaño deseado sin superar el 100%, se incluye completo.

3. **Diccionario de estratos**:
   - Clave: Tupla `(language, received_for_free, recommended)`.
   - Valor: Fracción de muestreo (ej: `0.3` para tomar el 30% del estrato).

In [17]:
from pyspark.sql.functions import col

# Calcular conteos y proporciones originales
conteos_originales = df.groupBy("language", "received_for_free", "recommended") \
    .count() \
    .withColumn("proportion", col("count") / df.count())

# Mostrar estratos y sus proporciones
conteos_originales.orderBy("proportion", ascending=False).show()

+---------+-----------------+-----------+-------+--------------------+
| language|received_for_free|recommended|  count|          proportion|
+---------+-----------------+-----------+-------+--------------------+
|  english|            false|       true|8335990| 0.38331024012051845|
| schinese|            false|       true|2832942|  0.1302659526064093|
|  russian|            false|       true|1998749| 0.09190761494803211|
|  english|            false|      false|1020063| 0.04690511786459154|
| schinese|            false|      false| 844851|0.038848419884867924|
|brazilian|            false|       true| 756037|   0.034764523950964|
|  spanish|            false|       true| 728861| 0.03351490164029482|
|   german|            false|       true| 650176|0.029896763153578424|
|  turkish|            false|       true| 552688|0.025414014411213198|
|  koreana|            false|       true| 502263| 0.02309534334058126|
|   french|            false|       true| 477191|0.021942468356290056|
|   po

### Calcular los estratos

In [None]:
# 2. Definir tamaño deseado para M (ej: 2M registros)
TAMAÑO_M = 2_000_000

# 3. Calcular fracción de muestreo para cada estrato (evitando RDDs)
estratos_df = conteos_originales.withColumn(
    "fraccion",
    (TAMAÑO_M * col("proportion")) / col("count")
).withColumn(
    "fraccion",
    col("fraccion").cast("double")  # Asegurar tipo numérico
)

# 4. Limitar fracciones a 1.0 (100%)
estratos_df = estratos_df.withColumn(
    "fraccion",
    when(col("fraccion") > 1.0, 1.0).otherwise(col("fraccion"))
)

# 5. Convertir a diccionario (opcional, si necesitas las fracciones en Python)
estratos = {
    (row["language"], row["received_for_free"], row["recommended"]): row["fraccion"]
    for row in estratos_df.collect()
}

# Mostrar fracciones calculadas
estratos_df.show()

In [None]:
# --------------------------
# 1. Construcción de M (muestra estratificada)
# --------------------------
# Generar M
muestras = [
    df.filter(
        (col("language") == l) &
        (col("received_for_free") == f) &
        (col("recommended") == r)
    ).sample(fraction=fr, seed=42)
    for (l, f, r), fr in estratos.items()
]

M = spark.createDataFrame(spark.sparkContext.emptyRDD(), df.schema).unionByName(*muestras)

# Validar proporciones en M
print("Proporciones en M:")
M.groupBy("language", "received_for_free", "recommended") \
    .count() \
    .withColumn("proportion", col("count") / M.count()) \
    .orderBy("proportion", ascending=False) \
    .show()

In [None]:
# Verificar proporciones en M vs P
print("Distribución en P (original):")
df.groupBy("recommended").count().show()

print("Distribución en M (muestra estratificada):")
M.groupBy("recommended").count().show()

In [None]:
x = 5