# Explicación de las funciones `describe_df` y `tipifica_variables`

## **Función `describe_df(df)`**
Esta función genera un resumen descriptivo de un DataFrame y devuelve un nuevo DataFrame con información clave sobre cada columna. Es útil para obtener una visión general de las características de las columnas.

### **¿Qué hace cada parte?**
1. **`type`:**
   Muestra el tipo de datos de cada columna usando `df.dtypes` (e.g., `int`, `float`, `object`).

2. **`null_percentage`:**
   Calcula el porcentaje de valores nulos (faltantes) en cada columna:
   ```python
   df.isnull().mean() * 100

- **`df.isnull()`**:  
  Devuelve un DataFrame booleano indicando los valores nulos.

- **`.mean() * 100`**:  
  Calcula la proporción de valores nulos y la convierte en porcentaje.

- **`unique_values`**:  
  Cuenta el número de valores únicos en cada columna usando `df.nunique()`.

- **`cardinality_percentage`**:  
  Calcula el porcentaje de cardinalidad (número de valores únicos dividido entre el total de filas) para cada columna:
  ```python
  (df.nunique() / len(df)) * 100


# Explicación de la función `tipifica_variables`

## **Función `tipifica_variables(df, umbral_categoria, umbral_continua)`**
Esta función clasifica las columnas de un DataFrame según un tipo sugerido en función del número de valores únicos (cardinalidad) y su porcentaje relativo al total de filas. Esto es muy útil para el preprocesamiento de datos o análisis estadístico, ya que permite categorizar las variables según su naturaleza.

### **Parámetros:**
1. **`df`:**  
   El DataFrame que se analizará.

2. **`umbral_categoria`:**  
   Define el límite máximo de valores únicos para que una columna sea considerada categórica.  
   Por ejemplo: Si `umbral_categoria = 10`, las columnas con menos de 10 valores únicos serán consideradas categóricas, excepto si tienen exactamente 2 valores, ya que serán binarias.

3. **`umbral_continua`:**  
   Define el porcentaje mínimo de cardinalidad (número de valores únicos dividido entre el número de filas) necesario para que una columna numérica sea clasificada como continua.  
   Si no se alcanza este porcentaje, será considerada numérica discreta.

### **¿Qué hace la función?**
1. **Calcula métricas básicas:**
   - `unique_counts`: Número de valores únicos en cada columna (`df.nunique()`).
   - `cardinality_percentage`: Porcentaje de cardinalidad de cada columna calculado como:
     ```python
     (unique_counts / len(df)) * 100
     ```

2. **Clasifica cada columna:**
   Itera por las columnas del DataFrame y determina el tipo sugerido para cada una:
   - **Binaria:** Si la columna tiene exactamente 2 valores únicos.
   - **Categórica:** Si la columna tiene menos valores únicos que el `umbral_categoria`.
   - **Numérica continua:** Si el porcentaje de cardinalidad es mayor o igual al `umbral_continua`.
   - **Numérica discreta:** Si no cumple las condiciones anteriores para ser continua.

3. **Devuelve un DataFrame:**  
   Crea un DataFrame con dos columnas:
   - `nombre_variable`: Nombre de la columna.
   - `tipo_sugerido`: Tipo sugerido para la columna basado en los criterios definidos.

---

# Uso conjunto de las funciones

## **Flujo recomendado:**
1. **Primero, usar `describe_df(df)`**
   - Permite obtener un resumen inicial del DataFrame, identificando:
     - Tipos de datos.
     - Porcentaje de valores nulos.
     - Cardinalidad (valores únicos y porcentaje relativo).
   - Este paso ayuda a detectar posibles problemas en los datos, como columnas con demasiados valores nulos o cardinalidad excesiva.

2. **Luego, usar `tipifica_variables(df, umbral_categoria, umbral_continua)`**
   - Clasifica automáticamente las columnas en diferentes tipos:
     - **Binarias:** Por ejemplo, columnas de tipo "Sí/No" o "0/1".
     - **Categóricas:** Ideal para aplicar técnicas como `one-hot encoding`.
     - **Numéricas continuas:** Útiles para normalización o escalado.
     - **Numéricas discretas:** Pueden requerir análisis específico o transformación.

## **Beneficio del uso conjunto:**
El uso de estas dos funciones proporciona:
- Una visión completa del estado inicial del DataFrame (`describe_df`).
- Una clasificación automática y personalizada de las columnas para facilitar el análisis y preprocesamiento (`tipifica_variables`).

Esto permite preparar los datos de manera eficiente antes de realizar cualquier modelado o análisis estadístico. 🚀
