# Compute summary statistics on a Spark DataFrame using .summary() or dbutils data summaries


In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, DoubleType

# Crear SparkSession
spark = SparkSession.builder.appName("ResumenVinos").getOrCreate()

# Definir esquema
schema = StructType([
    StructField("nombre", StringType(), True),
    StructField("tipo", StringType(), True),
    StructField("alcohol", DoubleType(), True),
    StructField("acidez", DoubleType(), True),
    StructField("dulzor", DoubleType(), True)
])

# Datos de ejemplo
datos = [
    ("Frutal Rosado", "joven", 11.5, 3.2, 4.0),
    ("Dulce Mora", "joven", 12.0, 3.5, 6.0),
    ("C√≠trico Blanco", "joven", 10.8, 3.8, 2.5),
    ("Suave Tropical", "joven", 11.2, 3.3, 5.0),
    ("Vino de Uva", "joven", 12.2, 3.6, 3.5)
]

# Crear DataFrame
df = spark.createDataFrame(data=datos, schema=schema)

In [0]:
# Aplicar describe
# df.describe().show()

# Aplicar summary (m√°s completo)
df.summary().show()

In [0]:
dbutils.data.summarize(df)

In [0]:
display(df)

In [0]:
df

## üìå Puntos clave
**.summary() (PySpark)**
‚úÖ Se usa para obtener estad√≠sticas resumidas de todas las columnas (num√©ricas y no num√©ricas).
‚úÖ Proporciona: 'count', 'mean', 'stddev', 'min', '25%', '50%', '75%', 'max'
‚úÖ Incluye percentiles ‚Üí mejor que .describe().
‚úÖ Requiere .show() para visualizar

**.describe() (comparaci√≥n)(PySpark)**
Solo da: 'count', 'mean', 'stddev', 'min', 'max'
‚ùå No incluye percentiles
‚ùå Menos completa ‚Üí no es suficiente para an√°lisis exploratorio completo

**dbutils.data.summarize(df) (Databricks)**
‚úÖ Abre una vista visual interactiva del DataFrame.
‚úÖ Muestra autom√°ticamente:
    Distribuci√≥n de cada columna (gr√°ficos)
    Estad√≠sticas b√°sicas y tipo de variable
    Recuentos para categor√≠as
    Detecci√≥n de outliers
‚úÖ No necesita show(), pero solo funciona dentro de notebooks Databricks.

**display(df) (Databricks)**
Muestra la tabla con paginaci√≥n.
Permite elegir visualizaciones:

‚úÖ Histogram
‚úÖ Bar chart
‚úÖ Line chart
‚úÖ Box plot
‚úÖ Scatter plot
‚úÖ Map (si hay coordenadas)
‚ùå No imprime estad√≠sticas num√©ricas autom√°ticamente

# Remove outliers from a Spark DataFrame based on standard deviation or IQR


##  Standard deviation

Un valor es outlier si est√° fuera del rango: **Œº ¬± k ‚ãÖ œÉ**

Donde:
- Œº es la media
- œÉ es la desviaci√≥n est√°ndar
- k suele ser 2 o 3

Pasos en PySpark:
- Calcular mean y stddev con .agg()
- Filtrar con .filter() los valores fuera del rango

In [0]:
from pyspark.sql.functions import mean, stddev

mean_std = df.select(mean("price").alias("mean"), stddev("price").alias("stddev")).collect()[0]
mean_val, stddev_val = mean_std["mean"], mean_std["stddev"]
# Rango permitido
lower_bound = mean_val - 2 * stddev_val
upper_bound = mean_val + 2 * stddev_val
filtered_df = df.filter((df["price"] >= lower_bound) & (df["price"] <= upper_bound))

## IQR (Interquartile Range)

Usa los cuartiles Q1, Q3 y el IQR:

**IQR = Q3 ‚àí Q1**

Outliers:
- menores que Q1 ‚àí 1.5 ‚ãÖ IQR
- mayores que Q3 + 1.5 ‚ãÖ IQR

Pasos en PySpark:
- Obtener cuartiles con .approxQuantile()
- Calcular IQR
- Filtrar fuera de los l√≠mites

### Pyspark con .approxQuantile()

In [0]:
q1, q3 = df.approxQuantile("price", [0.25, 0.75], 0.0)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
filtered_df = df.filter((df["price"] >= lower_bound) & (df["price"] <= upper_bound))

### Pandas con .quantile()

In [0]:
# ejemplo en pandas 

Q1 = df['col'].quantile(0.25)
Q3 = df['col'].quantile(0.75)
IQR = Q3 - Q1
filtered_df = df[(df['col'] >= Q1 - 1.5 * IQR) & (df['col'] <= Q3 + 1.5 * IQR)]

## üìå Puntos clave
¬øCu√°ndo usar cada m√©todo?

| M√©todo                  | Cu√°ndo usar                                                                    |
| ----------------------- | ------------------------------------------------------------------------------ |
| **Desviaci√≥n est√°ndar** | Cuando la variable sigue una distribuci√≥n **normal o sim√©trica**               |
| **IQR**                 | Cuando la variable tiene una distribuci√≥n **sesgada o con outliers** evidentes |

**Nota:**

- **Distribuci√≥n normal o sim√©trica:** Se representa gr√°ficamente como una curva en forma de campana
- **Distribuci√≥n sesgada con outliers:** Una distribuci√≥n est√° sesgada cuando una de las colas de la curva es m√°s larga que la otra

**Data Cleaning for Machine Learning** 
https://community.databricks.com/t5/technical-blog/data-cleaning-for-machine-learning/ba-p/95410#:~:text=Removing%20outliers%3A%20Using%20statistical%20methods,the%20overall%20impact%20of%20outliers


# Create visualizations for categorical or continuous features

## A. Con display(df) en notebooks
M√©todo nativo de Databricks.

Muestra una tabla interactiva ‚Üí puedes cambiar el tipo de gr√°fico desde el men√∫.
Soporta:
Bar chart
Histogram
Line chart
Box plot
Scatter plot
Maps (si hay datos de coordenad)

## B. Con pandas API on Spark (pyspark.pandas) o conversi√≥n a Pandas
Esto te permite usar .plot() como en pandas normal:

In [0]:
import pyspark.pandas as ps
psdf = df.pandas_api()
psdf["age"].plot(kind="hist")

####
pdf = df.toPandas()
pdf["price"].plot(kind="box")

## üìå Puntos Clave

| Tipo de variable | Ejemplo                    | Tipo de gr√°fico m√°s adecuado                    |
| ---------------- | -------------------------- | ----------------------------------------------- |
| **Categ√≥rica**   | g√©nero, pa√≠s, clase social | Bar chart, Pie chart, Count plot                |
| **Continua**     | edad, precio, ingreso      | Histogram, Box plot, Density plot, Scatter plot |

**Tipo de gr√°fico seg√∫n el objetivo**

** - Para variables categ√≥ricas:**

| Gr√°fico                            | Cu√°ndo usar                              | Funci√≥n                              |
| ---------------------------------- | ---------------------------------------- | ------------------------------------ |
| **Bar chart**                      | Comparar frecuencias de categor√≠as       | `display()` ‚Üí selecciona ‚ÄúBar chart‚Äù |
| **Pie chart**                      | Comparar proporciones (pocas categor√≠as) | ‚ö†Ô∏è Pocas veces √∫til                  |
| **Count plot** (en pandas/seaborn) | Contar ocurrencias                       | `sns.countplot()`                    |

** - Para variables continuas:**

| Gr√°fico          | Cu√°ndo usar                                       | Funci√≥n                                       |
| ---------------- | ------------------------------------------------- | --------------------------------------------- |
| **Histogram**    | Ver distribuci√≥n                                  | `display()` o `psdf["col"].plot(kind="hist")` |
| **Box plot**     | Detectar outliers y asimetr√≠a                     | `display()` o `.plot(kind="box")`             |
| **Density plot** | Visualizar suavemente la forma de la distribuci√≥n | `sns.kdeplot()` (pandas/seaborn)              |
| **Scatter plot** | Relaci√≥n entre dos variables num√©ricas            | `display(df)` ‚Üí ‚ÄúScatter‚Äù                     |


https://docs.databricks.com/aws/en/visualizations




# Compare two categorical or two continuous features using the appropriate method

## 1. Comparar dos variables categ√≥ricas

Usa una tabla de contingencia y un test de chi-cuadrado si quieres evaluar independencia.


Ejemplo: Comparar genero y compra_realizada

Supongamos este DataFrame:

In [0]:
data = [
    ("F", "S√≠"), ("M", "No"), ("F", "S√≠"), ("M", "S√≠"),
    ("F", "No"), ("M", "No"), ("F", "S√≠"), ("M", "S√≠")
]
df_spark = spark.createDataFrame(data, ["genero", "compra_realizada"])
df_spark.show()

a) Tabla de contingencia

In [0]:
pd.crosstab(df['genero'], df['compra_realizada'], margins=True)

b) Prueba de chi-cuadrado

In [0]:
# una forma 
from scipy.stats import chi2_contingency

tabla = pd.crosstab(df['genero'], df['compra_realizada'])
chi2, p, dof, expected = chi2_contingency(tabla)

print(f"Chi2: {chi2}, p-valor: {p}")

In [0]:
# con spark 
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.stat import ChiSquareTest

# Convertir texto a num√©rico
indexer1 = StringIndexer(inputCol="genero", outputCol="genero_idx")
indexer2 = StringIndexer(inputCol="compra_realizada", outputCol="compra_idx")

df_indexed = indexer1.fit(df_spark).transform(df_spark)
df_indexed = indexer2.fit(df_indexed).transform(df_indexed)

# Crear vector de caracter√≠sticas
assembler = VectorAssembler(inputCols=["genero_idx"], outputCol="features")
df_features = assembler.transform(df_indexed)

# Aplicar prueba chi-cuadrado
chi_result = ChiSquareTest.test(df_features, "features", "compra_idx")
chi_result.select("pValues", "degreesOfFreedom", "statistics").show(truncate=False)

Si el p-valor < 0.05, hay relaci√≥n significativa entre las dos variables categ√≥ricas.

## 2. Comparar dos variables continuas

Usa la correlaci√≥n (Pearson o Spearman).

Ejemplo: Comparar edad vs ingresos

In [0]:
data_continua = [
    (25, 2200), (32, 2700), (47, 3500), (51, 4000), (38, 3000)
]
df_continuo = spark.createDataFrame(data_continua, ["edad", "ingresos"])
df_continuo.show()

a) Correlaci√≥n de Pearson

In [0]:
# Pearson (lineal)
df_continuo.stat.corr("edad", "ingresos", method="pearson")

b) Correlaci√≥n de Spearman (si no es lineal)

In [0]:
# Spearman (mon√≥tona)
df_continuo.stat.corr("edad", "ingresos", method="spearman")

## üìå Puntos clave

**Comparaci√≥n final de m√©todos**

| Tipo de variables        | M√©todo recomendado           | Visualizaci√≥n                       |
| ------------------------ | ---------------------------- | ----------------------------------- |
| Categ√≥rica vs categ√≥rica | `crosstab`, chi-cuadrado     | Heatmap de frecuencias, stacked bar |
| Continua vs continua     | Pearson/Spearman correlation | Scatter plot                        |

**Conceptos clave que debes dominar para el examen**
| Concepto                     | Detalle                                                               |
| ---------------------------- | --------------------------------------------------------------------- |
| `df.stat.crosstab()`         | √önico m√©todo de Spark para conteo entre categor√≠as                    |
| `chi2_contingency()` (scipy) | No est√° en Spark nativo, pero evaluado conceptualmente                |
| `df.stat.corr()`             | Aplica Pearson o Spearman en Spark                                    |
| Pearson vs Spearman          | Pearson: lineal + normalidad<br>Spearman: ordinal o relaci√≥n mon√≥tona |

| Funci√≥n clave                                | Qu√© hace                                                       |
| -------------------------------------------- | -------------------------------------------------------------- |
| `df.stat.crosstab(col1, col2)`               | Frecuencia entre dos columnas categ√≥ricas                      |
| `df.stat.corr(col1, col2, method="pearson")` | Correlaci√≥n de Pearson o Spearman                              |
| `df.groupBy(...).count()`                    | Tambi√©n puede usarse para agrupaciones categ√≥ricas simples     |
| `display(df)`                                | Permite hacer scatter plot para ver relaci√≥n entre 2 num√©ricas |


# Compare and contrast imputing missing values with the mean or median or mode value
(Impute missing values with the mode, mean, or median value)

Imputar = reemplazar valores faltantes (nulls / NaNs) con alg√∫n valor que represente el resto de la distribuci√≥n.
¬øPor qu√© imputar?

- Muchos modelos no aceptan datos nulos.
- Evita perder informaci√≥n si eliminas filas.
- El m√©todo elegido afecta el sesgo y la varianza del modelo.

| M√©todo               | Se aplica a                                 | Ventajas                                             | Desventajas                                      | Cu√°ndo usar                                                  |
| -------------------- | ------------------------------------------- | ---------------------------------------------------- | ------------------------------------------------ | ------------------------------------------------------------ |
| **Mean (media)**     | Variables num√©ricas continuas               | F√°cil de calcular, mantiene media de la distribuci√≥n | Afectado por *outliers* y sesgo                  | Cuando la variable tiene distribuci√≥n **sim√©trica**          |
| **Median (mediana)** | Variables num√©ricas continuas               | Robusta a *outliers* y sesgo                         | No conserva la media original                    | Cuando la variable tiene **distribuci√≥n sesgada o outliers** |
| **Mode (moda)**      | Variables categ√≥ricas o num√©ricas discretas | Mejor para categor√≠as; representa el valor m√°s com√∫n | No siempre es representativo si hay varias modas | Cuando la variable es **categ√≥rica o discreta**              |


## A. Con .fillna() ‚Üí uso directo, manual

In [0]:
df.fillna({"age": 30, "gender": "Male"})

## B. Con Imputer (Spark ML) ‚Üí solo num√©ricas

In [0]:
from pyspark.ml.feature import Imputer

imputer = Imputer(
    inputCols=["age", "income"],
    outputCols=["age_imputed", "income_imputed"]
).setStrategy("mean")  # o "median"

model = imputer.fit(df)
df_imputed = model.transform(df)


## üìå Puntos clave

| Concepto                                    | Detalle clave                                         |
| ------------------------------------------- | ----------------------------------------------------- |
| `mode` no est√° en `Imputer`                 | Debes calcularlo manualmente y usar `.fillna()`       |
| `median` es m√°s robusta que `mean`          | Se usa cuando hay outliers o datos sesgados           |
| `mean` puede deformar la distribuci√≥n       | Especialmente en variables de ingresos, precios, etc. |
| `Imputer` solo sirve con columnas num√©ricas | Para categ√≥ricas, debes usar otras t√©cnicas           |
| Para variables categ√≥ricas                  | Solo **mode** es v√°lido como imputaci√≥n simple        |



# Use one-hot encoding for categorical features

(Identify and explain the model types or data sets for which one-hot encoding is or is not
appropriate.)

## Spark
En Spark, el one-hot encoding se hace t√≠picamente en dos pasos con el m√≥dulo de MLlib:

In [0]:
# 1. Indexar la columna categ√≥rica (convertir a n√∫meros)
from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol="color", outputCol="color_index")
df_indexed = indexer.fit(df).transform(df)

# 2. Aplicar OneHotEncoder
from pyspark.ml.feature import OneHotEncoder

encoder = OneHotEncoder(inputCols=["color_index"], outputCols=["color_ohe"])
df_encoded = encoder.fit(df_indexed).transform(df_indexed)


## üìå Puntos clave

| Punto                                                              | Explicaci√≥n                                                              |
| ------------------------------------------------------------------ | ------------------------------------------------------------------------ |
| Puede crear muchas columnas si la variable tiene muchas categor√≠as | ‚Üí Aumenta dimensionalidad y puede causar overfitting                     |
| No es ideal para √°rboles de decisi√≥n o random forest en Spark      | ‚Üí Spark ML maneja los √≠ndices de categor√≠a directamente en estos modelos |
| No funciona con valores nulos                                      | ‚Üí Debes imputar o filtrar primero                                        |


‚úÖ √ösalo cuando:

La variable es categ√≥rica sin orden (nominal)
Usas modelos que no aceptan variables categ√≥ricas directamente, como regresi√≥n lineal, log√≠stica, redes neuronales

‚ùå Evita si:

Hay muchas categor√≠as ‚Üí usar feature hashing o embedding
Est√°s usando tree-based models en Spark ML (como Random Forest o GBT) ‚Üí estos aceptan directamente √≠ndices de StringIndexer

# Identify scenarios where log scale transformation is appropriate


¬øQu√© es una transformaci√≥n logar√≠tmica?
Es una transformaci√≥n matem√°tica que aplica la funci√≥n logaritmo (por ejemplo, log base 10 o log natural) a una variable:

In [0]:
from pyspark.sql.functions import log
df = df.withColumn("log_income", log(df["income"]))

Esta t√©cnica reduce la escala de los valores grandes y puede ayudar a que los datos cumplan mejor los supuestos de ciertos modelos.

**Objetivo de la transformaci√≥n logar√≠tmica**
- Reducir sesgo hacia la derecha (right-skewed data)
- Estabilizar la varianza (heterocedasticidad)
- Mejorar relaciones lineales entre variables
- Permitir que el modelo aprenda mejor patrones exponenciales

**Casos t√≠picos donde s√≠ es apropiado aplicar log**
| Variable                                                  | Motivo                                                                     | Resultado esperado                         |
| --------------------------------------------------------- | -------------------------------------------------------------------------- | ------------------------------------------ |
| `income`, `house_price`, `sales`, `population`            | Datos muy **sesgados a la derecha**, con valores grandes y dispersi√≥n alta | Distribuci√≥n m√°s sim√©trica, m√°s linealidad |
| `count` de eventos, como accesos por hora                 | Muchos ceros + valores extremos                                            | Compresi√≥n de valores grandes              |
| Relaci√≥n exponencial (ej: y crece exponencialmente con x) | Mejora la linealidad                                                       | Permite usar regresi√≥n lineal              |

**Casos donde NO debes aplicar log**
| Caso                               | Por qu√© evitarlo                                |
| ---------------------------------- | ----------------------------------------------- |
| Valores ‚â§ 0 (negativos o ceros)    | No se puede aplicar log a 0 o n√∫meros negativos |
| Variables ya normales o sim√©tricas | No necesitas transformar                        |
| Variables categ√≥ricas              | No tiene sentido aplicar log                    |



## üìå Puntos clave

| Situaci√≥n                                                 | ¬øAplicar log? | Motivo                       |
| --------------------------------------------------------- | ------------- | ---------------------------- |
| Datos num√©ricos muy sesgados positivamente (right-skewed) | ‚úÖ S√≠          | Reduce la asimetr√≠a          |
| Rangos muy amplios                                        | ‚úÖ S√≠          | Normaliza la escala          |
| Exponenciales                                             | ‚úÖ S√≠          | Facilita modelado lineal     |
| Ceros o negativos                                         | ‚ùå No          | log(x) indefinido para x ‚â§ 0 |
| Categ√≥ricos                                               | ‚ùå No          | No tiene sentido             |
