# 1. Configuraci√≥n de entorno

En esta secci√≥n validamos que nuestro entorno de trabajo est√© correctamente configurado antes de comenzar el an√°lisis.  
Los pasos incluyen:

1. **Versi√≥n de Python**  
   - Se verifica que est√© instalada la versi√≥n **3.11 o superior** (se recomienda 3.13).  
   - Esto garantiza compatibilidad con librer√≠as modernas de an√°lisis de datos y machine learning.

2. **Importaci√≥n de librer√≠as base**  
   - Se cargan librer√≠as fundamentales:  
     - `numpy`, `pandas`: manipulaci√≥n y an√°lisis de datos.  
     - `matplotlib`, `seaborn`: visualizaci√≥n de datos.  
     - `scipy`: funciones estad√≠sticas.  
   - Adem√°s se configuran estilos gr√°ficos y opciones de visualizaci√≥n en pandas para trabajar con tablas m√°s grandes.

3. **Verificaci√≥n de versiones cr√≠ticas**  
   - Se comprueba que `scikit-learn` est√© instalado y en una versi√≥n **>= 1.0.1**.  
   - Esto es esencial ya que `scikit-learn` se usar√° para el modelado (baseline y posteriores).

Con esta configuraci√≥n inicial aseguramos que el entorno sea reproducible y que todas las dependencias necesarias est√©n listas antes de continuar con el **EDA** y el **baseline**.


In [None]:
import sys
import warnings
warnings.filterwarnings('ignore')

assert sys.version_info >= (3, 11), "Este notebook trabajo con python 3.11 o superiores (recomendado 3.13)"

print(f"Python {sys.version_info.major}.{sys.version_info.minor} instalado correctamente")

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from scipy import stats

plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("Librer√≠as importadas exitosamente")

In [None]:
# Verificar versiones de librer√≠as cr√≠ticas
from packaging import version
import sklearn

assert version.parse(sklearn.__version__) >= version.parse("1.0.1"), "Requiere scikit-learn >= 1.0.1"
print(f"scikit-learn {sklearn.__version__} instalado")

# 2. Metodolog√≠a CRISP-DM
## 2.1. Comprensi√≥n del Negocio
El problema de Google Play Store  

**Contexto:**  
Es 2025. El mercado de aplicaciones m√≥viles es altamente competitivo: millones de apps conviven en Google Play Store.  
Los desarrolladores buscan mejorar la visibilidad de sus aplicaciones y los usuarios dependen del **rating promedio** para decidir qu√© descargar.  

**Problema actual:**  
- El rating se conoce **solo despu√©s** de que los usuarios descargan y rese√±an.  
- Las valoraciones son **altamente variables** y pueden depender de m√∫ltiples factores (categor√≠a, descargas, precio, tama√±o, tipo de app).  
- Los desarrolladores carecen de una herramienta para **estimar la calificaci√≥n potencial** de una app antes o durante su lanzamiento.  
- La competencia es muy alta: una diferencia de d√©cimas en rating puede significar miles de descargas menos.  

---

### 2.1.1. Soluci√≥n propuesta  
Construir un **sistema autom√°tico de predicci√≥n de rating** de apps a partir de sus caracter√≠sticas disponibles en el dataset de Google Play Store.  

---

### 2.1.2. Definiendo el √©xito  

**M√©trica de negocio:**  
- Ayudar a los desarrolladores a anticipar la valoraci√≥n probable de su app.  
- Reducir la dependencia de pruebas de mercado costosas o lentas.  
- Identificar caracter√≠sticas clave que favorecen una alta valoraci√≥n (‚â• 4.3).  

**M√©trica t√©cnica:**  
- Lograr un **Error Absoluto Medio (MAE) < 0.5 estrellas** en la predicci√≥n de rating.  
- Para la versi√≥n de clasificaci√≥n (alta vs. baja calificaci√≥n): obtener un **F1-score > 0.70**.  

**¬øPor qu√© estos valores?**  
- El rating va de 1 a 5 ‚Üí un error de 0.5 equivale a 10% de la escala.  
- Una diferencia de medio punto puede marcar la visibilidad de la app en el ranking.  
- Tasadores humanos (usuarios) tambi√©n muestran variabilidad similar en sus calificaciones.  

---

### 2.1.3 Preguntas cr√≠ticas antes de empezar  

1. **¬øRealmente necesitamos ML?**  
   - Alternativa 1: Calcular el promedio de ratings por categor√≠a ‚Üí demasiado simple, no captura variabilidad.  
   - Alternativa 2: Reglas heur√≠sticas (ej. ‚Äúsi es gratis y tiene muchas descargas, tendr√° rating alto‚Äù) ‚Üí insuficiente.  
   - **Conclusi√≥n:** S√≠, ML es apropiado para capturar relaciones no lineales y m√∫ltiples factores.  

2. **¬øQu√© pasa si el modelo falla?**  
   - Transparencia: aclarar que es una estimaci√≥n autom√°tica.  
   - Complementar con rangos de predicci√≥n (ej: intervalo de confianza).  
   - Mantener como referencia comparativa, no como √∫nico criterio de √©xito.  

3. **¬øC√≥mo mediremos el impacto?**  
   - Capacidad de anticipar apps con alta probabilidad de √©xito.  
   - Ahorro de tiempo en validaciones preliminares.  
   - Insights para desarrolladores sobre qu√© factores influyen m√°s en el rating.  

---


## 2.2. Comprensi√≥n de los Datos  

El objetivo de esta fase es explorar y entender el dataset de Google Play Store antes de construir modelos **(an√°lisis exploratorio)**.  
Nos centraremos en:  

1. **Vista r√°pida del dataset**  
   - Identificar dimensiones (filas √ó columnas).  
   - Tipos de datos (num√©ricos, categ√≥ricos, texto, fechas).  
   - Valores faltantes obvios y rangos sospechosos.

2. **Descripci√≥n de variables**  
   - Revisar cada columna y entender su significado.  
   - Detectar qu√© variables podr√≠an ser √∫tiles como predictores y cu√°l ser√° la variable objetivo (rating).  

3. **Detecci√≥n de problemas en los datos**  
   - An√°lisis de valores faltantes.  
   - Estrategias: eliminar filas/columnas, imputar valores o crear indicadores de ‚Äúdato faltante‚Äù.  

4. **Estad√≠sticas descriptivas y univariadas**  
   - Media vs mediana (sesgo de la distribuci√≥n).  
   - Desviaci√≥n est√°ndar (variabilidad, posibles outliers).  
   - M√≠nimos/m√°ximos sospechosos.  
   - Histogramas para ver forma (normal, sesgada, bimodal, uniforme, picos extra√±os).  

5. **An√°lisis de variables categ√≥ricas**  
   - Distribuci√≥n de categor√≠as (ej. categor√≠as de apps, tipo de app, content rating).  
   - Detecci√≥n de clases dominantes o categor√≠as poco representadas.  

6. **Correlaciones y relaciones entre variables**  
   - Matriz de correlaci√≥n de Pearson para variables num√©ricas.  
   - Identificar relaciones fuertes, moderadas o d√©biles.  
   - Importante: recordar que **correlaci√≥n ‚â† causalidad**.  
7. ** An√°lisis de outliers **
   -  Tipos e identificaci√≥n de outliers a trav√©s de diferentes m√©todos.

---

**Nota:**  
No siempre es necesario aplicar todos los pasos con igual profundidad.  
- Para este proyecto, el foco est√° en **identificar variables relevantes para predecir el rating** y **limpiar datos inconsistentes**.  
- Otros an√°lisis m√°s complejos (ej. NLP sobre descripciones) se pueden dejar como trabajo futuro (seg√∫n trabajos de referencia investigados).

---


### 2.2.1 Descarga de datos  

En este paso descargamos el dataset de Google Play Store desde Kaggle y lo organizamos en la estructura de carpetas del proyecto.  

1. Usamos la librer√≠a `kagglehub` para acceder al dataset p√∫blico **`lava18/google-play-store-apps`** directamente desde Kaggle.  
2. Se define una ruta clara dentro del proyecto para almacenar los datos originales: `../data/original/google-play-store/`. Esto ayuda a mantener la reproducibilidad y una estructura organizada.  
3. Con la funci√≥n `shutil.copytree` copiamos los archivos descargados a la carpeta destino. De esta forma, el dataset queda disponible en nuestro directorio de trabajo para su an√°lisis posterior.  


In [None]:
import kagglehub
import shutil

def download_data(origin_repository, target_folder):
    # Descargar dataset
    path = kagglehub.dataset_download(origin_repository)
    
    # Copiar los archivos descargados
    shutil.copytree(path, target_folder, dirs_exist_ok=True)
    

download_data("lava18/google-play-store-apps", "../data/original/google-play-store")

### 2.2.2 Carga de datos  

En este paso realizamos la **lectura del archivo CSV** que contiene el dataset descargado previamente.  

- Definimos una funci√≥n `load_data(path, file)` que recibe la ruta y el nombre del archivo, y lo carga con `pandas.read_csv()`.  
- Cargamos el dataset principal en la variable `applications_data` desde la carpeta `../data/original/google-play-store/`.  
- Incluimos una verificaci√≥n simple:  
  - Si el dataset se carga con √©xito, se imprime `"Dataset loaded"`.  
  - En caso contrario, se muestra un mensaje de error.  

Con esta validaci√≥n aseguramos que el archivo est√© disponible y correctamente le√≠do antes de continuar con el an√°lisis exploratorio.


In [None]:
import pandas as pd
import numpy as np

def load_data(path, file):
    return pd.read_csv(f"{path}/{file}")

def convert_numeric_columns(df: pd.DataFrame) -> pd.DataFrame:
    """
    Convierte a num√©ricas solo las columnas que deber√≠an serlo, sin tocar 'Size'.
    Usa to_numeric(errors='coerce') para evitar ValueError si aparece texto.
    """
    df = df.copy()

    # Rating
    if "Rating" in df.columns:
        df["Rating"] = pd.to_numeric(df["Rating"], errors="coerce")

    # Reviews: quitar comas y cualquier car√°cter no num√©rico/punto
    if "Reviews" in df.columns:
        df["Reviews"] = (
            df["Reviews"].astype(str)
            .str.replace(r"[^\d.]", "", regex=True)
            .pipe(pd.to_numeric, errors="coerce")
        )

    # Installs: quitar +, comas y cualquier car√°cter no num√©rico/punto
    if "Installs" in df.columns:
        df["Installs Numeric"] = (
            df["Installs"].astype(str)
            .str.replace(r"[^\d.]", "", regex=True)
            .pipe(pd.to_numeric, errors="coerce")
        )

    # Price: quitar $ y cualquier car√°cter no num√©rico/punto
    if "Price" in df.columns:
        df["Price"] = (
            df["Price"].astype(str)
            .str.replace(r"[^\d.]", "", regex=True)
            .pipe(pd.to_numeric, errors="coerce")
        )


    if "Size" in df.columns:
        def parse_size(x):
            if isinstance(x, str):
                x = x.strip()
                if x.endswith("M"):
                    return float(x[:-1])
                elif x.endswith("k") or x.endswith("K"):
                    return float(x[:-1]) / 1024  # KB -> MB
                else:
                    return np.nan
            return np.nan
        df["Size"] = df["Size"].apply(parse_size)

    return df


temp_applications_data = load_data("../data/original/google-play-store", "googleplaystore.csv")
applications_data = convert_numeric_columns(temp_applications_data)


if len(applications_data):
    print("Dataset cargado")
else:
    print("Error cargando dataset")


### 2.2.3 Vista r√°pida del dataset

**Dimensiones y columnas**
- Registros: **10,841** filas.
- Columnas: actualmente **14**; **originalmente eran 13** y se **a√±adi√≥** una columna derivada: **`Installs Numeric`** para an√°lisis con describe.
- Memoria aproximada: **~1.2 MB**.

**Tipos de datos (y transformaciones realizadas)**
- Num√©ricas (`float64`): `Rating`, `Reviews`, `Size`, `Price`, **`Installs Numeric`**.
- Categ√≥ricas / texto (`object`): `App`, `Category`, `Installs` *(forma original con ‚Äú1,000+‚Äù)*, `Type`, `Content Rating`, `Genres`, `Last Updated`, `Current Ver`, `Android Ver`.
- Transformaciones ya aplicadas:
  - **`Installs`** se **conserv√≥** en su formato original (categ√≥rico con ‚Äú+‚Äù y comas) **y** se cre√≥ **`Installs Numeric`** mapeando esos rangos a n√∫meros (0 ‚Ä¶ 1,000,000,000).
  - **`Price`**, **`Reviews`** y **`Size`** fueron normalizadas/parseadas a **num√©rico** para an√°lisis y modelado.

**Valores faltantes (no-null count ‚Üí faltantes aprox.)**
- `Rating`: 9,367 ‚Üí **1,474 faltantes (~13.6%)**.
- `Size`: 9,145 ‚Üí **1,696 faltantes (~15.6%)**.
- `Current Ver`: 10,833 ‚Üí **8 faltantes (~0.07%)**.
- `Android Ver`: 10,838 ‚Üí **3 faltantes (~0.03%)**.
- `Content Rating`: 10,840 ‚Üí **1 faltante (~0.01%)**.
- `Price`: 10,840 ‚Üí **1 faltante (~0.01%)**.
- `Installs Numeric`: 10,840 ‚Üí **1 faltante (~0.01%)**.
- Resto de columnas: **sin faltantes**.

**Duplicados:**
-   Se identificaron **483 filas duplicadas** (‚âà **4.46%** del
    dataset).\
-   Ejemplos de duplicados incluyen apps como:
    -   *Quick PDF Scanner + OCR FREE*\
    -   *Box*\
    -   *Google My Business*\
    -   *ZOOM Cloud Meetings*\
    -   *join.me -- Simple Meetings*\

**Rangos y valores sospechosos (seg√∫n `describe()`)**
- `Rating`: **min = 1.0**, **max = 19.0** ‚Üí **19** es inv√°lido para la escala 1‚Äì5 (error de dato a corregir).
- `Reviews`: media ~ **444k**, **p75 ‚âà 54,768**, **max ‚âà 78M** ‚Üí valores altos plausibles; tratar como **outliers**.
- `Size` (MB): media ~ **21.5**, **p50 = 13**, **p75 = 30**, **max = 100** ‚Üí distribuci√≥n sesgada a la derecha; m√≠nimos muy bajos (**0.01**) a revisar.
- `Price` (USD): **mediana = 0** y **p75 = 0** ‚Üí la mayor√≠a son **apps gratuitas**; **max = 400** sugiere outliers de precio.
- `Installs Numeric`: **p25 = 1,000**, **p50 = 100,000**, **p75 = 5,000,000**, **max = 1,000,000,000** ‚Üí escala muy amplia; conviene usar **transformaciones log** o **binning** en el EDA/modelado.

**Conclusi√≥n inicial**
- Los **faltantes** m√°s relevantes est√°n en `Rating` y `Size`; habr√° que decidir estateg√≠a para aumentar, imputar o nivelar los datos.
- Existen **outliers (no leg√≠timos)** (ej. `Rating = 19`) y variables con **colas largas** (ej. `Reviews`, `Installs Numeric`, `Price`).
- Eliminar **duplicados** para evitar sesgos de an√°lisis y que no introduzcan ruidos.


In [None]:
print("=" * 80)
print("INFORMACI√ìN GENERAL DEL DATASET".center(80))
print("=" * 80)

display(applications_data.head().style.background_gradient(cmap='RdYlGn', subset=['Rating']))

# Informaci√≥n detallada
print("\n" + "=" * 80)
print("ESTRUCTURA DE DATOS".center(80))
print("=" * 80)
applications_data.info()

# Estad√≠sticas descriptivas
print("\n" + "=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS".center(80))
print("=" * 80)
display(applications_data.describe().round(2).T)

print("\n" + "=" * 80)
print("DATOS DUPLICADOS".center(80))
print("=" * 80)

# Contar duplicados
num_duplicados = applications_data.duplicated().sum()
print(f"Total de registros duplicados: {num_duplicados}")

# Mostrar ejemplos de duplicados si existen
if num_duplicados > 0:
    print("\nEjemplos de filas duplicadas:\n")
    display(applications_data[applications_data.duplicated()].head())
else:
    print("No se encontraron registros duplicados.")


### 2.2.4 Descripci√≥n de las variables

In [None]:
variables = [
    'App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price',
    'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver',
    'Installs Numeric'
]

tipos = [
    'Categ√≥rica',          # App
    'Categ√≥rica',          # Category
    'Num√©rica (Target)',   # Rating
    'Num√©rica',            # Reviews
    'Num√©rica (MB)',       # Size
    'Categ√≥rica (rango)',  # Installs
    'Categ√≥rica',          # Type
    'Num√©rica (USD)',      # Price
    'Categ√≥rica',          # Content Rating
    'Categ√≥rica',          # Genres
    'Texto (fecha)',       # Last Updated (parseable a fecha)
    'Texto',               # Current Ver
    'Texto',               # Android Ver
    'Num√©rica',            # Installs Numeric
]

descripciones = [
    'Nombre de la aplicaci√≥n.',
    'Categor√≠a oficial de la app en Google Play.',
    'Calificaci√≥n promedio de usuarios (1 a 5).',
    'N√∫mero de rese√±as reportadas.',
    'Tama√±o aproximado de la app en MB.',
    'Instalaciones en rango (p.ej., "1,000+").',
    'Tipo de app (Free / Paid).',
    'Precio en USD (0 para gratuitas).',
    'Clasificaci√≥n de contenido (Everyone, Teen, etc.).',
    'G√©nero(s) de la app.',
    'Fecha de √∫ltima actualizaci√≥n (texto en origen).',
    'Versi√≥n actual declarada por el desarrollador.',
    'Versi√≥n m√≠nima de Android requerida.',
    'Instalaciones convertidas a n√∫mero para an√°lisis.'
]

valores_faltantes = [applications_data[col].isnull().sum() if col in applications_data.columns else None for col in variables]

metadata = {
    'Variable': variables,
    'Tipo': tipos,
    'Descripci√≥n': descripciones,
    'Valores Faltantes': valores_faltantes
}

df_metadata = pd.DataFrame(metadata)

# Mostrar con resaltado de faltantes
styled = df_metadata.style.applymap(
    lambda x: 'background-color: #ffcccc' if isinstance(x, (int, float)) and x > 0 else '',
    subset=['Valores Faltantes']
)

display(styled)

# Resumen de dtypes originales (informativo)
dtypes_resumen = applications_data[variables].dtypes.astype(str).reset_index()
dtypes_resumen.columns = ['Variable', 'dtype pandas']
display(dtypes_resumen)

### 2.2.5 Detecci√≥n de problemas en los datos 

**Resumen de hallazgos (valores faltantes):**
- `Size` ‚âà 15.6% y `Rating` ‚âà 13.6% concentran la mayor√≠a de los faltantes.
- Faltantes puntuales (‚âà0.01%): `Type`, `Price`, `Content Rating`, `Installs Numeric` ocurren en la misma(s) fila(s) ‚Üí patr√≥n conjunto.
- `Android Ver` (0.03%) y `Current Ver` (0.07%) con faltantes residuales, parcialmente correlacionados con el grupo anterior.

**Heatmap de correlaci√≥n de patrones de faltantes (interpretaci√≥n):**
- Correlaci√≥n 1.00 entre `Type`, `Price`, `Content Rating`, `Installs Numeric`: las ausencias co-ocurren en el/los mismos registros. Acciones coordinadas.
- `Android Ver` muestra correlaci√≥n moderada (~0.58) con ese grupo: algunas veces falta junto con ellos.
- `Size`, `Rating`, `Current Ver` tienen patrones de faltantes independientes del grupo anterior (correlaciones cercanas a 0), lo que sugiere causas distintas.

#### Posibles estrategias de correcci√≥n

- Limpieza b√°sica
  - Eliminar duplicados (483 filas) para evitar sesgos.
  - Validar y corregir outliers imposibles, p. ej., `Rating = 19` ‚Üí convertir a NaN para tratarlo como faltante.

- Imputaci√≥n (conservadora y por grupos)
  - `Rating` (target): para modelado, eliminar filas sin `Rating`; para EDA descriptivo, imputar mediana por `Category` solo para visualizaci√≥n.
  - `Size`: imputar mediana por `Category √ó Type` y crear indicador `size_missing`.
  - `Android Ver`, `Current Ver`: imputar moda por `Category` y crear indicadores `androidver_missing`, `currentver_missing`.
  - Faltantes conjuntos (`Type`, `Price`, `Content Rating`, `Installs Numeric`):
    - Si es 1 fila: eliminarla es lo m√°s simple y seguro.
    - Alternativa (si se prefiere imputar):
      - `Type`: inferir desde `Price` (0 ‚Üí Free, >0 ‚Üí Paid).
      - `Price`: 0 si `Type == Free`, si `Paid` usar mediana por `Category`.
      - `Content Rating`: moda por `Category`.
      - `Installs Numeric`: mediana por `Category √ó Type` o por bin de `Installs`.



#### Estrategias de ‚Äúnivelaci√≥n‚Äù seg√∫n los porcentajes observados

- Size (~15.6% faltantes, >5% y <<60%)
  - Acci√≥n: imputar mediana por grupo `Category √ó Type`.
  - A√±adir flag: `size_missing = 1` cuando falte (conserva se√±al de ausencia).
  - Justificaci√≥n: volumen relevante; la mediana por grupos respeta diferencias entre tipos/categor√≠as.

- Rating (~13.6% faltantes, >5% y <<60%) [variable objetivo]
  - Para modelado: eliminar filas sin `Rating` (evita sesgo por imputaci√≥n del target).
  - Para EDA descriptivo: si se requiere visualizar completos, imputar mediana por `Category` solo para gr√°ficos/tablas (no para entrenamiento).
  - Justificaci√≥n: imputar el target puede distorsionar m√©tricas.

- Current Ver (0.07%) y Android Ver (0.03%) (<5%)
  - Acci√≥n: imputar con la moda por `Category`. Flags opcionales `currentver_missing` y `androidver_missing`.
  - Justificaci√≥n: impacto √≠nfimo; moda es suficiente y estable.

- Faltantes ‚Äúen bloque‚Äù en la misma fila: Type, Price, Content Rating, Installs Numeric (‚âà0.01% cada uno; correlaci√≥n 1.00)
  - Si es 1 fila: eliminarla directamente.
  - Si hubiera m√°s en el futuro y se prefiriera imputar coordinadamente:
    - `Type` desde `Price` (0 ‚Üí Free, >0 ‚Üí Paid),
    - `Price` = 0 si `Free`, si `Paid` usar mediana por `Category`,
    - `Content Rating` = moda por `Category`,
    - `Installs Numeric` = mediana por `Category √ó Type`.
  - Justificaci√≥n: co-ocurren; eliminar 1 fila no afecta el conjunto y evita inconsistencias.

- Transformaciones para estabilizar distribuciones (complementarias a la imputaci√≥n)
  - `Reviews` y `Installs Numeric`: aplicar `log1p` para an√°lisis y futuros modelos. *****************************
  - `Installs` (rangos): tratar como ordinal/bins en el EDA.

- Limpieza previa necesaria
  - Eliminar duplicados (483 filas).
  - Corregir valores imposibles detectados en el EDA (ej. `Rating = 19` ‚Üí NaN) y re-entrar al flujo de imputaci√≥n/nivelaci√≥n anterior.

In [None]:
def analyze_missing_values(df: pd.DataFrame) -> pd.DataFrame:
    """An√°lisis completo de valores faltantes con visualizaciones."""
    missing_counts = df.isnull().sum()
    missing_pct = (missing_counts / len(df)) * 100

    missing_df = pd.DataFrame({
        'Columna': df.columns,
        'Valores_Faltantes': missing_counts.values,
        'Porcentaje': missing_pct.values,
        'Tipo_Dato': df.dtypes.values
    })

    missing_df = missing_df[missing_df['Valores_Faltantes'] > 0].sort_values('Porcentaje', ascending=False)

    if len(missing_df) == 0:
        print("No hay valores faltantes en el dataset")
        return missing_df

    # Visualizaci√≥n: barras y correlaci√≥n de patrones de faltantes
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 5))

    # Gr√°fico de barras de % faltantes
    ax1.bar(missing_df['Columna'], missing_df['Porcentaje'], color='coral')
    ax1.set_xlabel('Columna')
    ax1.set_ylabel('Porcentaje de Valores Faltantes (%)')
    ax1.set_title('Valores Faltantes por Columna')
    ax1.axhline(y=5, color='r', linestyle='--', label='Umbral 5%')
    ax1.axhline(y=60, color='purple', linestyle='--', label='Umbral 60%')
    ax1.tick_params(axis='x', rotation=90)
    ax1.legend()

    # Heatmap de correlaci√≥n de patrones de faltantes
    mask_df = df[missing_df['Columna'].tolist()].isnull().astype(int)
    if mask_df.shape[1] >= 2:
        corr = mask_df.corr()
        sns.heatmap(corr, annot=True, fmt='.2f', cmap='coolwarm', vmin=-1, vmax=1, ax=ax2)
        ax2.set_title('Correlaci√≥n de Patrones de Valores Faltantes')
    else:
        ax2.axis('off')
        ax2.set_title('Correlaci√≥n de faltantes (no aplica: 1 columna)')

    plt.tight_layout()
    plt.show()

    return missing_df

missing_analysis = analyze_missing_values(applications_data)
if missing_analysis is not None and not missing_analysis.empty:
    display(missing_analysis)

### 2.2.6 Estadisticas descriptivas y univariadas (n√∫merico)

A partir de la tabla de estad√≠sticas y los gr√°ficos generados para `Rating`, `Reviews`, `Size`, `Price` e `Installs Numeric`, se observan los siguientes puntos clave.

- Rating
  - Media ‚âà 4.19 y mediana ‚âà 4.30 ‚Üí ligera cola a la izquierda (m√°s apps con rating alto). Hay un valor imposible (‚âà19), confirmado en el boxplot/Q-Q como outlier extremo.
  - Outliers: ~5% por IQR, dominados por el valor inv√°lido y algunos ratings bajos.
  - Q-Q plot: desviaci√≥n frente a normalidad, esperable para una variable acotada [1,5].
  - Implicaci√≥n/acci√≥n: eliminar filas sin `Rating` para modelado; corregir `Rating=19 ‚Üí NaN` y excluir; no aplicar transformaciones (la escala es ya interpretables).

- Reviews
  - Media ‚â´ mediana (pico en 0‚Äìpocos miles; m√°ximo ‚âà 78M) ‚Üí cola muy larga a la derecha.
  - Boxplot: ~18% outliers por IQR (muchas apps con rese√±as muy altas).
  - Q-Q plot: gran desviaci√≥n de normalidad (heavy tail).
  - Relaci√≥n con Rating: correlaci√≥n positiva muy d√©bil (~0.07), tendencia casi plana.
  - Implicaci√≥n/acci√≥n: usar `log1p(Reviews)` para estabilizar la distribuci√≥n en an√°lisis/modelado; considerar winsorizar p99.9 para vistas tabulares si se desea.

- Size (MB)
  - Media > mediana (‚âà 21.5 vs 13) ‚Üí sesgo a la derecha; valores hasta 100 MB.
  - ~6% outliers por IQR, especialmente en colas altas.
  - Q-Q plot: curvatura en colas; no normal.
  - Relaci√≥n con Rating: correlaci√≥n positiva d√©bil (~0.08); se√±al muy tenue.
  - Implicaci√≥n/acci√≥n: imputar faltantes por `Category √ó Type` y a√±adir `size_missing`; opcionalmente probar `log1p(Size)` o binning para robustecer.

- Price (USD)
  - Mediana = 0 (mayor√≠a gratis) y cola a la derecha con m√°ximos altos (‚âà 400).
  - ~7% outliers por IQR; Q-Q muestra heavy tail.
  - Relaci√≥n con Rating: correlaci√≥n negativa muy d√©bil (~-0.02).
  - Implicaci√≥n/acci√≥n: crear `is_free = (Price == 0)` y, si se usa `Price` continuo, considerar `log1p(Price)` para las pocas apps pagas; validar coherencia `Type=Free ‚áí Price=0`.

- Installs Numeric
  - Media ‚â´ mediana (100k) con m√°ximo 1e9 ‚Üí distribuci√≥n extremadamente sesgada a la derecha.
  - ~7‚Äì8% outliers por IQR; Q-Q muy alejado de normalidad.
  - Relaci√≥n con Rating: correlaci√≥n d√©bil positiva (~0.05) y tendencia casi plana.
  - Implicaci√≥n/acci√≥n: usar `log1p(Installs Numeric)` o bins ordinales para an√°lisis; verificar coherencia con `Installs` textual.

Recomendaciones transversales
- Eliminar duplicados antes de resumir para evitar sesgos.
- Tratar outliers evidentes no-leg√≠timos (p. ej. `Rating=19`). Para colas largas leg√≠timas (`Reviews`, `Installs Numeric`, `Price`): preferir `log1p` o winsorizaci√≥n solo para visualizaciones.
- Mantener consistencia: `Type=Free ‚áí Price=0`; `Installs Numeric` coherente con el rango de `Installs`.
- Para relaciones con `Rating`, las correlaciones lineales observadas son d√©biles; la se√±al puede emerger mejor con interacciones (p. ej., `is_free √ó installs_bin`) o modelos no lineales.



In [None]:
from scipy import stats

# Selecci√≥n de columnas num√©ricas relevantes
numeric_cols = [c for c in ['Rating', 'Reviews', 'Size', 'Price', 'Installs Numeric'] if c in applications_data.columns]

# Tabla de estad√≠sticas b√°sicas (media, mediana, std, min, p25, p50, p75, max)
describe_tbl = applications_data[numeric_cols].describe(percentiles=[0.25, 0.5, 0.75]).T

# M√©tricas adicionales robustas
extra = pd.DataFrame(index=numeric_cols)
extra['mad'] = [stats.median_abs_deviation(applications_data[c].dropna()) for c in numeric_cols]
extra['skew'] = [applications_data[c].skew(skipna=True) for c in numeric_cols]
extra['kurtosis'] = [applications_data[c].kurtosis(skipna=True) for c in numeric_cols]
extra['cv'] = [applications_data[c].std(skipna=True) / applications_data[c].mean(skipna=True) if applications_data[c].mean(skipna=True) not in [0, np.nan] else np.nan for c in numeric_cols]

stats_table = describe_tbl.join(extra)
display(stats_table.round(3))


def univariate_analysis(df: pd.DataFrame, column: str, target: str | None = None):
    """An√°lisis univariado con histograma, boxplot, Q-Q plot y relaci√≥n con target."""
    series = df[column].dropna()
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))

    # 1) Histograma con l√≠neas de media y mediana
    ax1 = axes[0, 0]
    ax1.hist(series, bins=50, edgecolor='black', alpha=0.7)
    ax1.axvline(series.mean(), color='red', linestyle='--', label=f"Media: {series.mean():.2f}")
    ax1.axvline(series.median(), color='green', linestyle='--', label=f"Mediana: {series.median():.2f}")
    ax1.set_title(f"Distribuci√≥n de {column}")
    ax1.set_xlabel(column)
    ax1.set_ylabel('Frecuencia')
    ax1.legend()
    ax1.grid(alpha=0.3)

    # 2) Boxplot + conteo de outliers (IQR)
    ax2 = axes[0, 1]
    bp = ax2.boxplot(series, vert=True, patch_artist=True)
    bp['boxes'][0].set_facecolor('lightblue')
    Q1, Q3 = series.quantile(0.25), series.quantile(0.75)
    IQR = Q3 - Q1
    outliers_mask = (series < Q1 - 1.5 * IQR) | (series > Q3 + 1.5 * IQR)
    n_out = int(outliers_mask.sum())
    pct_out = 100 * n_out / len(series) if len(series) else 0
    ax2.set_title(f"Boxplot de {column}")
    ax2.set_ylabel(column)
    ax2.grid(alpha=0.3)
    ax2.text(1.1, Q3, f"Outliers: {n_out} ({pct_out:.1f}%)", fontsize=10)

    # 3) Q-Q plot normal
    ax3 = axes[1, 0]
    stats.probplot(series, dist='norm', plot=ax3)
    ax3.set_title('Q-Q Plot (Normalidad)')
    ax3.grid(alpha=0.3)

    # 4) Relaci√≥n con target si aplica
    ax4 = axes[1, 1]
    if target is not None and target in df.columns and column != target:
        valid = df[[column, target]].dropna()
        ax4.scatter(valid[column], valid[target], alpha=0.4, s=10)
        ax4.set_xlabel(column)
        ax4.set_ylabel(target)
        ax4.set_title(f"{column} vs {target}")
        # L√≠nea de tendencia (ajuste lineal simple)
        if len(valid) > 1:
            z = np.polyfit(valid[column], valid[target], 1)
            p = np.poly1d(z)
            xs = np.linspace(valid[column].min(), valid[column].max(), 200)
            ax4.plot(xs, p(xs), 'r--', alpha=0.8, label='Tendencia')
            corr = valid[column].corr(valid[target])
            ax4.text(0.05, 0.95, f"Correlaci√≥n: {corr:.3f}", transform=ax4.transAxes,
                     fontsize=10, bbox=dict(boxstyle='round', facecolor='wheat'))
            ax4.legend()
    else:
        ax4.axis('off')
        ax4.grid(alpha=0.3)

    plt.suptitle(f"An√°lisis Univariado: {column}", fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

# Ejecutar an√°lisis univariado para cada m√©trica num√©rica, relacionando con Rating
for col in numeric_cols:
    univariate_analysis(applications_data, col, target='Rating')

### 2.2.7. An√°lisis Univariado Categ√≥rico
- Category
  - Distribuci√≥n: alta concentraci√≥n en `FAMILY` (~19%) y `GAME` (~12%). El resto de categor√≠as tienen menor peso individual; el grupo `Others` acumula ~31% del total.
  - Rating por categor√≠a: diferencias moderadas; la **mediana** suele estar entre 4.2‚Äì4.4. Algunas categor√≠as muestran desviaci√≥n est√°ndar mayor (p. ej., `PRODUCTIVITY`, `LIFESTYLE`), indicando m√°s variabilidad de valoraci√≥n.
  - Implicaciones: riesgo de sesgo por categor√≠as mayoritarias en an√°lisis agregados. Para modelado, conviene usar dummies Top-K o codificaci√≥n ordinal/target encoding con cuidado (evitar fuga). Agrupar colas largas en `Others` es adecuado para visualizaci√≥n.

- Content Rating
  - Distribuci√≥n: `Everyone` domina (~79%), seguido por `Teen` (~12%); `Mature 17+` y `Everyone 10+` suman ~9% en conjunto; clases raras casi nulas.
  - Rating por nivel de contenido: medias similares (‚âà4.1‚Äì4.3). `Teen` tiende a mediana 4.3 y variabilidad algo menor; `Mature 17+` muestra algo m√°s de dispersi√≥n.
  - Implicaciones: por el fuerte desbalance, esta variable aporta se√±al limitada por s√≠ sola. √ötil como interacci√≥n con `Category`/`Genres`.

- Type
  - Distribuci√≥n: `Free` ‚âà 93%, `Paid` ‚âà 7% (clase muy desbalanceada); existe un registro an√≥malo (valor 0) en los gr√°ficos que debe eliminarse/corregirse.
  - Rating por tipo: medias muy cercanas (Free ‚âà 4.19, Paid ‚âà 4.27). La diferencia es peque√±a y probablemente no significativa sin controlar otras variables (p. ej., `Category`).
  - Implicaciones: por el desbalance extremo, conviene usar `is_free` como binaria y, si se modela interacci√≥n con `Installs` o `Price`, puede emerger se√±al. Validar regla `Type=Free ‚áí Price=0`.

- Genres Main (primer g√©nero)
  - Distribuci√≥n: gran cola larga; `Others` concentra ~48%. Entre Top-12, `Tools`, `Entertainment` y `Education` destacan en frecuencia.
  - Rating por g√©nero: diferencias peque√±as (medianas ~4.2‚Äì4.4), con algunas variaciones en dispersi√≥n (p. ej., `Medical` y `Lifestyle` m√°s variables).
  - Implicaciones: por la alta cardinalidad y colas largas, mantener Top-K + `Others` en EDA ayuda a la legibilidad. Para modelado, preferir codificaci√≥n que reduzca dimensionalidad (Top-K dummies, hashing, o target encoding con validaci√≥n adecuada).

In [None]:
def analyze_categorical_compact(df: pd.DataFrame, cat_col: str, target_col: str, top_n: int = 12):
    """
    Versi√≥n compacta para variables con muchas categor√≠as:
    - Ordena por frecuencia, muestra top_n y agrupa el resto en "Others".
    - Barras horizontales, pie chart compacto, boxplot y tabla para top_n.
    """
    data = df[[cat_col, target_col]].dropna(subset=[cat_col, target_col]).copy()
    if data.empty:
        print(f"Sin datos para {cat_col} y {target_col}")
        return

    counts = data[cat_col].value_counts()
    top_cats = counts.head(top_n)
    others_count = counts.iloc[top_n:].sum()

    # Mapeo a top_n + Others
    mapping = {c: c for c in top_cats.index}
    data['__cat__'] = data[cat_col].where(data[cat_col].isin(top_cats.index), other='Others')

    # Recalcular conteos con Others
    counts_compact = data['__cat__'].value_counts()
    order = list(top_cats.index) + (['Others'] if 'Others' in counts_compact.index else [])

    fig, axes = plt.subplots(2, 2, figsize=(14, 10))

    # 1) Barras horizontales (mejor legibilidad)
    ax1 = axes[0, 0]
    vals = counts_compact.loc[order]
    ax1.barh(range(len(vals)), vals.values, color=plt.cm.Set3(range(len(vals))))
    ax1.set_yticks(range(len(vals)))
    ax1.set_yticklabels(order)
    ax1.invert_yaxis()
    ax1.set_title(f'Distribuci√≥n (Top {top_n}) de {cat_col}')
    ax1.set_xlabel('Frecuencia')
    for i, v in enumerate(vals.values):
        ax1.text(v, i, f'  {v} ({v/len(data)*100:.1f}%)', va='center')

    # 2) Pie chart compacto
    ax2 = axes[0, 1]
    ax2.pie(vals.values, labels=order, autopct='%1.1f%%', startangle=140,
            colors=plt.cm.Set3(range(len(vals))))
    ax2.set_title(f'Proporci√≥n (Top {top_n} + Others) de {cat_col}')

    # 3) Boxplot del target por categor√≠a (solo top_n)
    ax3 = axes[1, 0]
    top_mask = data['__cat__'] != 'Others'
    data_top = data[top_mask]
    data_top.boxplot(column=target_col, by='__cat__', ax=ax3)
    ax3.set_title(f'{target_col} por {cat_col} (Top {top_n})')
    ax3.set_xlabel(cat_col)
    ax3.set_ylabel(target_col)
    plt.sca(ax3)
    plt.xticks(rotation=30, ha='right')

    # 4) Tabla de estad√≠sticas por categor√≠a (solo top_n y Others si existe)
    ax4 = axes[1, 1]
    ax4.axis('off')
    stats_by_cat = data.groupby('__cat__')[target_col].agg(['count', 'mean', 'median', 'std']).loc[order].round(2)
    table = ax4.table(cellText=stats_by_cat.reset_index().values,
                      colLabels=['Categor√≠a', 'N', 'Media', 'Mediana', 'Desv.Est.'],
                      cellLoc='center', loc='center', colWidths=[0.35, 0.12, 0.16, 0.16, 0.16])
    table.auto_set_font_size(False)
    table.set_fontsize(9)
    table.scale(1.05, 1.25)
    for i in range(5):
        table[(0, i)].set_facecolor('#40E0D0')
        table[(0, i)].set_text_props(weight='bold')

    plt.suptitle(f'An√°lisis Categ√≥rico Compacto: {cat_col}', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

# Ejecutar la versi√≥n compacta para las categ√≥ricas clave
for cat in [c for c in ['Category', 'Content Rating', 'Type', 'Genres Main', 'Installs'] if c in applications_data.columns]:
    analyze_categorical_compact(applications_data, cat, 'Rating', top_n=12)

### 2.2.8. An√°lisis de correlaci√≥n entre variables

#### 2.2.8.1. Variables con Mayor Relaci√≥n
- Existe una fuerte correlaci√≥n positiva entre **Installs Numeric** y **Reviews**:
  - Pearson: 0.64 (relaci√≥n lineal moderada-fuerte).
  - Spearman: 0.97 (relaci√≥n mon√≥tonica muy fuerte).
- Esto implica que a mayor n√∫mero de instalaciones, mayor n√∫mero de rese√±as.

#### 2.2.8.2. Correlaci√≥n de Pearson
- En general, las correlaciones de Pearson muestran relaciones m√°s d√©biles que Spearman, lo cual indica que las relaciones lineales no son tan marcadas.
- **Installs Numeric y Reviews** presentan la correlaci√≥n lineal m√°s alta (0.64), siendo moderada-fuerte.
- **Size y Reviews** muestran una correlaci√≥n positiva baja/D√©bil (0.24).
- El resto de variables (Rating, Price) tienen correlaciones casi nulas con las dem√°s, lo que refleja poca relaci√≥n lineal.

#### 2.2.8.3. Correlaci√≥n de Spearman
- **Installs Numeric y Reviews** tienen la correlaci√≥n m√°s fuerte (0.97).
- **Size** muestra correlaci√≥n moderada con **Reviews** (0.37) y con **Installs Numeric** (0.35).
- **Price** presenta correlaciones negativas con **Reviews** (-0.17) e **Installs Numeric** (-0.24).

#### 2.2.8.4. Observaciones Clave
- El n√∫mero de instalaciones y las rese√±as son las variables m√°s relacionadas, lo cual es l√≥gico, ya que m√°s usuarios generan m√°s interacciones.
- El tama√±o de la aplicaci√≥n influye ligeramente en rese√±as e instalaciones, pero no de forma determinante.
- El precio no solo carece de relaci√≥n positiva, sino que parece tener un impacto negativo sobre la popularidad (menos instalaciones y rese√±as).

#### 2.2.8.5. Conclusi√≥n
- **Installs Numeric** y **Reviews** son las m√©tricas m√°s cr√≠ticas en el dataset de **Google Play Store**, ya que reflejan el √©xito y la popularidad de la aplicaci√≥n.
- **Size** es un factor secundario con cierta relaci√≥n.

In [None]:
# An√°lisis de correlaci√≥n mejorado para el proyecto de Google Play Store
def correlation_analysis(df):
    """An√°lisis de correlaci√≥n con m√∫ltiples m√©tricas"""
    
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    
    fig, axes = plt.subplots(1, 2, figsize=(20, 6))
    
    # 1. Correlaci√≥n de Pearson
    corr_pearson = df[numeric_cols].corr(method='pearson')
    mask = np.triu(np.ones_like(corr_pearson), k=1)
    sns.heatmap(corr_pearson, mask=mask, annot=True, fmt='.2f', 
               cmap='coolwarm', center=0, ax=axes[0],
               vmin=-1, vmax=1, cbar_kws={"shrink": 0.8})
    axes[0].set_title('Correlaci√≥n de Pearson (Lineal)')
    
    # 2. Correlaci√≥n de Spearman  
    corr_spearman = df[numeric_cols].corr(method='spearman')
    sns.heatmap(corr_spearman, mask=mask, annot=True, fmt='.2f',
               cmap='coolwarm', center=0, ax=axes[1],
               vmin=-1, vmax=1, cbar_kws={"shrink": 0.8})
    axes[1].set_title('Correlaci√≥n de Spearman (Monot√≥nica)')
    
    plt.suptitle('An√°lisis de Correlaci√≥n Multi-m√©trica', 
                fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    # Tabla de correlaciones importantes
    print("\nüîó Correlaciones Significativas:")
    print("=" * 50)
    for method, corr_matrix in zip(['Pearson', 'Spearman'], [corr_pearson, corr_spearman]):
        print(f"\n{method}:")
        significant_corr = corr_matrix[(abs(corr_matrix) > 0.3) & (corr_matrix != 1)].stack()
        for (var1, var2), corr in significant_corr.items():
            strength = "Fuerte" if abs(corr) > 0.5 else "Moderada" if abs(corr) > 0.3 else "D√©bil"
            direction = "Positiva" if corr > 0 else "Negativa"
            print(f"  ‚Ä¢ {var1} y {var2}: {corr:+.3f} ({strength} {direction})")
    
# Ejecutar el an√°lisis de correlaci√≥n
correlation_analysis(applications_data)

#### 2.2.9. An√°lisis de Outliers (IQR, Z-Score e Isolation Forest)
**Resumen cuantitativo**
- Total de registros analizados: **10,841**.
- Filas marcadas como outlier por m√©todo:
  - IQR: **3,489** filas (32.18%) ‚Üí refleja colas largas especialmente en `Reviews`, `Installs Numeric`, `Price`.
  - Z-Score (> |3|): **654** filas (6.03%) ‚Üí mucho m√°s selectivo, captura extremos verdaderamente alejados tras estandarizaci√≥n.
  - Isolation Forest (contaminaci√≥n=10%): **1,084** filas (10.0%) ‚Üí patr√≥n no lineal de anomal√≠as combinadas.
- Consenso entre m√©todos:
  - Detectadas por los 3 m√©todos: **502** filas (casos altamente an√≥malos).
  - Detectadas exactamente por 2 m√©todos: **731** filas (an√≥malas consistentes, revisar antes de decidir acci√≥n).

**Variables m√°s afectadas (IQR)**
- `Reviews`: **1,925** outliers ‚Üí distribuci√≥n extremadamente sesgada; valores muy altos representan apps masivas (probablemente leg√≠timos).
- `Installs Numeric`: **828** outliers ‚Üí escalas de descargas masivas (1e7‚Äì1e9).
- `Price`: **800** outliers ‚Üí pocos productos de precio elevado (‚â• p75 + 1.5¬∑IQR); revisar si son apps premium leg√≠timas.
- `Size`: **564** outliers ‚Üí tama√±os extremos (muy grandes o inusualmente peque√±os).
- `Rating`: **504** outliers ‚Üí incluye valores extremos bajos y el caso inv√°lido (`Rating=19`).

**Interpretaci√≥n y criterios**
- Muchos outliers provienen de fen√≥menos de cola larga t√≠picos (popularidad extrema o modelo freemium/premium).
- No se recomienda eliminar masivamente outliers de `Reviews` o `Installs Numeric` sin antes transformar (`log1p`) o agrupar (binning), para no perder informaci√≥n sobre apps exitosas.
- El valor inv√°lido `Rating=19` debe normalizarse a `NaN` y excluirse de modelado. Otros ratings muy bajos pueden mantenerse (aportan contraste).
- Outliers en `Price` podr√≠an segmentarse: gratis (0), bajo costo (0 < p ‚â§ 10), premium (10 < p ‚â§ 50), ultra premium (>50).


**Conclusi√≥n**
El comportamiento extremo de `Reviews` e `Installs Numeric` refleja la naturaleza desigual del mercado (unas pocas apps concentran gran parte de la atenci√≥n). Un manejo cuidadoso (transformaciones y flags) preservar√° informaci√≥n √∫til sin distorsionar el entrenamiento. Se prioriza limpieza puntual (ratings inv√°lidos) sobre eliminaci√≥n agresiva de outliers.

In [None]:
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler

def detect_outliers(df):
    """Detecci√≥n de outliers usando m√∫ltiples m√©todos"""
    
    numeric_df = df.select_dtypes(include=[np.number])
    
    # M√©todo 1: IQR
    outliers_iqr = pd.DataFrame()
    for col in numeric_df.columns:
        Q1 = numeric_df[col].quantile(0.25)
        Q3 = numeric_df[col].quantile(0.75)
        IQR = Q3 - Q1
        outliers = ((numeric_df[col] < Q1 - 1.5 * IQR) | 
                   (numeric_df[col] > Q3 + 1.5 * IQR))
        outliers_iqr[col] = outliers
    
    # M√©todo 2: Z-Score
    from scipy import stats
    z_scores = np.abs(stats.zscore(numeric_df.fillna(numeric_df.median())))
    outliers_zscore = (z_scores > 3)
    
    # M√©todo 3: Isolation Forest
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(numeric_df.fillna(numeric_df.median()))
    iso_forest = IsolationForest(contamination=0.1, random_state=42)
    outliers_iso = iso_forest.fit_predict(scaled_data) == -1
    
    # Visualizaci√≥n
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    
    # Plot 1: Outliers por columna (IQR)
    ax1 = axes[0, 0]
    outlier_counts = outliers_iqr.sum()
    ax1.bar(range(len(outlier_counts)), outlier_counts.values)
    ax1.set_xticks(range(len(outlier_counts)))
    ax1.set_xticklabels(outlier_counts.index, rotation=45, ha='right')
    ax1.set_title('Outliers por Variable (M√©todo IQR)')
    ax1.set_ylabel('N√∫mero de Outliers')
    
    # Plot 2: Distribuci√≥n de outliers por m√©todo
    ax2 = axes[0, 1]
    methods_comparison = pd.DataFrame({
        'IQR': outliers_iqr.any(axis=1).sum(),
        'Z-Score': outliers_zscore.any(axis=1).sum(),
        'Isolation Forest': outliers_iso.sum()
    }, index=['Outliers'])
    methods_comparison.T.plot(kind='bar', ax=ax2, legend=False)
    ax2.set_title('Comparaci√≥n de M√©todos de Detecci√≥n')
    ax2.set_ylabel('N√∫mero de Outliers Detectados')
    ax2.set_xlabel('M√©todo')
    
    # Plot 3: Heatmap de outliers
    ax3 = axes[1, 0]
    sample_outliers = outliers_iqr.head(100)
    sns.heatmap(sample_outliers.T, cmap='RdYlBu_r', cbar=False, ax=ax3,
               yticklabels=True, xticklabels=False)
    ax3.set_title('Mapa de Outliers (Primeras 100 filas)')
    ax3.set_xlabel('Observaciones')
    
    # Plot 4: Resumen estad√≠stico
    ax4 = axes[1, 1]
    ax4.axis('off')
    summary_text = f"""
    Resumen de Detecci√≥n de Anomal√≠as:
    
    ‚Ä¢ Total de observaciones: {len(df):,}
    ‚Ä¢ Outliers por IQR: {outliers_iqr.any(axis=1).sum():,} ({outliers_iqr.any(axis=1).sum()/len(df)*100:.1f}%)
    ‚Ä¢ Outliers por Z-Score: {outliers_zscore.any(axis=1).sum():,} ({outliers_zscore.any(axis=1).sum()/len(df)*100:.1f}%)
    ‚Ä¢ Outliers por Isolation Forest: {outliers_iso.sum():,} ({outliers_iso.sum()/len(df)*100:.1f}%)
    
    Variables m√°s afectadas:
    {chr(10).join([f'  - {col}: {count:,} outliers' 
                   for col, count in outlier_counts.nlargest(3).items()])}
    
    Investigar outliers antes de eliminar. 
    Pueden contener informaci√≥n valiosa.
    """
    ax4.text(0.1, 0.5, summary_text, transform=ax4.transAxes,
            fontsize=11, verticalalignment='center',
            bbox=dict(boxstyle='round', facecolor='lightyellow'))
    
    plt.suptitle('An√°lisis de Outliers y Anomal√≠as', fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    return outliers_iqr, outliers_zscore, outliers_iso

# Ejecutar la detecci√≥n de outliers en el dataset de aplicaciones
outliers_iqr, outliers_zscore, outliers_iso = detect_outliers(applications_data)