# **Programación II: Introducción a Pandas y Polars**

### **¿Qué es Pandas?**

`Pandas` es una biblioteca de Python ampliamente utilizada para la manipulación y análisis de datos estructurados. Es una herramienta poderosa para trabajar con tablas (DataFrames) y series (Series), proporcionando una interfaz intuitiva para realizar operaciones comunes como:
- Filtrar datos.
- Combinar tablas.
- Manejar valores nulos.
- Calcular estadísticas descriptivas.

Pandas está construido sobre NumPy, lo que lo hace eficiente para manejar grandes volúmenes de datos.

---

### **Características Clave de Pandas**
1. **Estructuras de Datos Flexibles**:
   - `Series`: Array unidimensional con etiquetas (similar a una columna en Excel).
   - `DataFrame`: Tabla bidimensional etiquetada (similar a una hoja de cálculo o tabla de SQL).

2. **Soporte para Diversos Formatos de Archivo**:
   - Leer y escribir datos en formatos como CSV, Excel, JSON, Parquet, etc.

3. **Manipulación y Transformación**:
   - Filtrado, agrupación, pivot, y más.

4. **Compatibilidad**:
   - Integración perfecta con otras bibliotecas como NumPy, Matplotlib y Scikit-learn.

---

### **¿Qué es Polars?**

`Polars` es una biblioteca emergente para el manejo de DataFrames, conocida por su velocidad y eficiencia. A diferencia de Pandas, Polars utiliza paralelización y evaluación tardía para optimizar el rendimiento, especialmente en grandes volúmenes de datos.

---

### **Diferencias Clave entre Pandas y Polars**

| **Característica**          | **Pandas**                       | **Polars**                                      |
|-----------------------------|-----------------------------------|------------------------------------------------|
| **Velocidad**               | Buena para datasets pequeños.    | Excelente para grandes volúmenes de datos.     |
| **Ejecución**               | Operaciones inmediatas.           | Evaluación tardía y paralelización.            |
| **Memoria**                 | Consume más memoria.             | Ligero y eficiente en memoria.                |
| **Sintaxis**                | Más simple para principiantes.   | Similar a PySpark, orientada a SQL.            |

---

### **¿Por qué Aprender Pandas y Polars?**

Ambas bibliotecas son fundamentales para el análisis de datos moderno:

- **Pandas** es ideal para trabajar en notebooks y manejar datasets pequeños o medianos.
- **Polars** se destaca en proyectos donde el rendimiento y la escalabilidad son prioritarios.

En este notebook, exploraremos las capacidades de ambas bibliotecas, sus similitudes, diferencias, y cómo aprovecharlas en diferentes escenarios de análisis de datos.


In [2]:
# Importar la librería
import pandas as pd

# **1. Estructuras de Datos en Pandas**

Pandas ofrece dos estructuras de datos principales para trabajar de manera eficiente con datos:

1. **Series**: Un array unidimensional con etiquetas.
2. **DataFrames**: Tablas bidimensionales que combinan múltiples Series.

En esta sección, nos centraremos en las **Series**, explorando su creación, indexación y las operaciones básicas que se pueden realizar con ellas.

---

## **1.1. ¿Qué es una Serie?**

Una `Serie` en Pandas es un array unidimensional que combina los siguientes elementos:
- **Datos:** Pueden ser de cualquier tipo (números, cadenas, etc.).
- **Índices:** Etiquetas asociadas a cada dato, que permiten un acceso más intuitivo.

Es similar a:
- Un array de NumPy, pero con etiquetas.
- Una columna en un DataFrame.

Las Series son ideales para representar variables individuales o listas con semántica adicional.


In [3]:
# Crear una Serie de ejemplo
serie = pd.Series([0.25, 0.5, 0.75, 1.0])

# Imprimir la Serie
print("Serie de ejemplo:")
print(serie)

Serie de ejemplo:
0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


---

## **1.2. Índices en las Series**

Cada elemento de una Serie tiene un índice asociado. Estos índices pueden ser:
1. **Posicionales:** Similar al acceso en listas o arrays.
2. **Etiquetados:** Personalizados para facilitar el acceso a los datos.

Por defecto, Pandas asigna índices numéricos consecutivos (0, 1, 2...).

In [4]:
# Acceso por índice posicional
print("Elemento en la posición 2:", serie[2])

# Acceso por índice personalizado
serie.index = ['A', 'B', 'C', 'D']
print("Serie con índices personalizados:")
print(serie)

# Acceso usando etiquetas
print("Elemento con etiqueta 'B':", serie['B'])


Elemento en la posición 2: 0.75
Serie con índices personalizados:
A    0.25
B    0.50
C    0.75
D    1.00
dtype: float64
Elemento con etiqueta 'B': 0.5


## **1.3. Operaciones con Series**

Las Series permiten realizar operaciones matemáticas, de comparación y transformación directamente sobre sus datos. Estas operaciones son vectorizadas, lo que significa que se aplican a todos los elementos de la Serie de manera eficiente.

---

### **¿Cuándo usar métodos de Pandas vs NumPy?**

- **Métodos de Pandas (`serie.method()`):**
  - Si trabajas con datos indexados que requieren conservar la relación entre índice y valor.
  - Cuando necesitas métodos diseñados específicamente para Series, como `value_counts()` o `describe()`.

- **Métodos de NumPy (`np.method(serie)`):**
  - Si buscas un enfoque más eficiente para cálculos puramente numéricos, donde el índice no sea relevante.
  - Cuando necesites aplicar funciones avanzadas de NumPy no disponibles directamente en Pandas.

---

### **1.3.1. Operaciones Matemáticas con Series**

Las Series de Pandas permiten realizar operaciones matemáticas de manera eficiente y vectorizada, aplicando la operación a cada elemento de la Serie sin necesidad de bucles explícitos.

#### **¿Qué hace esto útil?**
1. **Eficiencia:** Las operaciones son rápidas y están optimizadas gracias a la implementación subyacente en NumPy.
2. **Compatibilidad:** Las operaciones mantienen la estructura de la Serie, incluyendo sus índices, lo que facilita el análisis de datos.
3. **Flexibilidad:** Puedes usar operaciones estándar de Python, métodos de Pandas o funciones de NumPy.

#### **Tipos de Operaciones Matemáticas:**
1. **Operaciones Aritméticas Básicas**: Suma, resta, multiplicación, división, etc.
2. **Operaciones Relativas**: Potencias, raíces cuadradas, etc.
3. **Redondeo y Truncamiento**: Operaciones para manejar la precisión de los datos.

En esta sección, exploraremos las principales operaciones matemáticas con Series y explicaremos su utilidad con ejemplos prácticos.




## **Operaciones Básicas**

#### **Suma (`+` o `add`)**
Permite sumar un escalar o los elementos de dos Series. Se utiliza para ajustar valores o realizar combinaciones entre datos.

**Definición:**  
`serie + valor` o `serie.add(valor)`

In [5]:
# Suma de un escalar
serie = pd.Series([1, 2, 3, 4])
suma_escalar = serie + 10

# Suma de dos Series
otra_serie = pd.Series([10, 20, 30, 40])
suma_series = serie + otra_serie

# Suma con un escalar (add)
suma_escalar = serie.add(10)

# Suma entre Series (add)
suma_series = serie.add(otra_serie)

print("Suma con escalar:\n", suma_escalar)
print("Suma entre Series:\n", suma_series)


print("Serie original:\n", serie)
print("Suma con escalar:\n", suma_escalar)
print("Suma entre Series:\n", suma_series)


Serie original:
 0    1
1    2
2    3
3    4
dtype: int64
Suma con escalar:
 0    11
1    12
2    13
3    14
dtype: int64
Suma entre Series:
 0    11
1    22
2    33
3    44
dtype: int64


#### **Resta (`-` o `subtract`)**
Permite restar un escalar o los elementos de dos Series. Útil para calcular diferencias o ajustar valores.

**Definición:**  
`serie - valor` o `serie.subtract(valor)`


In [None]:
# Resta de un escalar (operador -)
resta_escalar_op = serie - 2

# Resta de dos Series (operador -)
resta_series_op = serie - otra_serie

# Resta con un escalar (subtract)
resta_escalar = serie.subtract(2)

# Resta entre Series (subtract)
resta_series = serie.subtract(otra_serie)

print("Serie original:\n", serie)
print("Resta con escalar (operador -):\n", resta_escalar_op)
print("Resta entre Series (operador -):\n", resta_series_op)
print("Resta con escalar (subtract):\n", resta_escalar)
print("Resta entre Series (subtract):\n", resta_series)


#### **Multiplicación (`*` o `multiply`)**
Realiza la multiplicación elemento a elemento en una Serie. Ideal para escalas o cálculos proporcionales.

**Definición:**  
`serie * valor` o `serie.multiply(valor)`


In [None]:
# Multiplicación por un escalar (operador *)
multiplicacion_escalar_op = serie * 3

# Multiplicación entre Series (operador *)
multiplicacion_series_op = serie * otra_serie

# Multiplicación con un escalar (multiply)
multiplicacion_escalar = serie.multiply(3)

# Multiplicación entre Series (multiply)
multiplicacion_series = serie.multiply(otra_serie)

print("Serie original:\n", serie)
print("Multiplicación con escalar (operador *):\n", multiplicacion_escalar_op)
print("Multiplicación entre Series (operador *):\n", multiplicacion_series_op)
print("Multiplicación con escalar (multiply):\n", multiplicacion_escalar)
print("Multiplicación entre Series (multiply):\n", multiplicacion_series)


#### **División (`/` o `divide`)**
Divide los elementos de la Serie por un escalar o entre dos Series. Maneja divisiones por cero devolviendo `NaN`.

**Definición:**  
`serie / valor` o `serie.divide(valor)`


In [None]:
# División por un escalar (operador /)
division_escalar_op = serie / 2

# División entre Series (operador /)
division_series_op = serie / otra_serie

# División con un escalar (divide)
division_escalar = serie.divide(2)

# División entre Series (divide)
division_series = serie.divide(otra_serie)

print("Serie original:\n", serie)
print("División con escalar (operador /):\n", division_escalar_op)
print("División entre Series (operador /):\n", division_series_op)
print("División con escalar (divide):\n", division_escalar)
print("División entre Series (divide):\n", division_series)


# **TABLA RESÚMEN:**

| **Operación**         | **Método**                     | **Descripción**                                     |
|-----------------------|-------------------------------|---------------------------------------------------|
| Suma                 | `serie + valor` / `serie.add(valor)` | Suma cada elemento con el valor dado.             |
| Resta                | `serie - valor` / `serie.subtract(valor)` | Resta cada elemento con el valor dado.           |
| Multiplicación       | `serie * valor` / `serie.multiply(valor)` | Multiplica cada elemento por el valor dado.      |
| División             | `serie / valor` / `serie.divide(valor)` | Divide cada elemento entre el valor dado.        |


## **Operaciones Relativas**

#### **Potencias (`**` o `pow`)**
Eleva cada elemento de la Serie a una potencia dada.

**Definición:**  
`serie ** valor` o `serie.pow(valor)`


In [None]:
# Potencia con un escalar (operador **)
potencia_escalar_op = serie ** 2

# Potencia entre Series (operador **)
potencia_series_op = serie ** otra_serie

# Potencia con un escalar (pow)
potencia_escalar = serie.pow(2)

# Potencia entre Series (pow)
potencia_series = serie.pow(otra_serie)

print("Serie original:\n", serie)
print("Potencia con escalar (operador **):\n", potencia_escalar_op)
print("Potencia entre Series (operador **):\n", potencia_series_op)
print("Potencia con escalar (pow):\n", potencia_escalar)
print("Potencia entre Series (pow):\n", potencia_series)


#### **Raíz Cuadrada (`sqrt`)**
Calcula la raíz cuadrada de cada elemento en la Serie.

**Definición:**  
`np.sqrt(serie)`


In [None]:
import numpy as np

# Raíz cuadrada
raices = np.sqrt(serie)

print("Serie original:\n", serie)
print("Raíz cuadrada de la Serie:\n", raices)

#### **Raíz Cúbica (`np.cbrt`)**

Calcula la raíz cúbica de cada elemento de la Serie.

**Definición:**  
`np.cbrt(serie)`


In [None]:
# Calcular la raíz cúbica
raiz_cubica = np.cbrt(serie)

print("Serie original:\n", serie)
print("Raíz cúbica de cada elemento:\n", raiz_cubica)

#### **Exponencial (`np.exp`)**

Calcula \( e^x \) para cada elemento de la Serie.

**Definición:**  
`np.exp(serie)`

In [None]:
# Calcular el exponencial
exponencial = np.exp(serie)

print("Serie original:\n", serie)
print("Exponencial (e^x) de cada elemento:\n", exponencial)

#### **Logaritmo Natural (`np.log`)**

Calcula el logaritmo natural ln(x) de cada elemento. **Nota:** Solo se puede calcular para valores positivos.

**Definición:**  
`np.log(serie)`

In [None]:
# Calcular el logaritmo natural (solo valores positivos)
logaritmo_natural = np.log(serie[serie > 0])

print("Serie original:\n", serie)
print("Logaritmo natural de los valores positivos:\n", logaritmo_natural)

#### **Logaritmo Base 10 (`np.log10`)**

Calcula el logaritmo en base 10 de cada elemento. **Nota:** Solo se puede calcular para valores positivos.

**Definición:**  
`np.log10(serie)`


In [None]:
# Calcular el logaritmo base 10 (solo valores positivos)
logaritmo_base_10 = np.log10(serie[serie > 0])

print("Serie original:\n", serie)
print("Logaritmo base 10 de los valores positivos:\n", logaritmo_base_10)

#### **Valor Absoluto (`np.abs` o `serie.abs()`)**

Devuelve el valor absoluto de cada elemento de la Serie.

**Definición:**  
`np.abs(serie)` o `serie.abs()`

In [None]:
# Calcular el valor absoluto
valor_absoluto = np.abs(serie)

print("Serie original:\n", serie)
print("Valor absoluto de cada elemento:\n", valor_absoluto)

#### **Signo (`np.sign`)**

Devuelve -1 para valores negativos, 1 para valores positivos y 0 para ceros.

**Definición:**  
`np.sign(serie)`

In [None]:
# Calcular el signo de cada elemento
signo = np.sign(serie)

print("Serie original:\n", serie)
print("Signo de cada elemento:\n", signo)

# **TABLA RESÚMEN:**

| **Operación**         | **Método**                     | **Descripción**                                     |
|-----------------------|-------------------------------|---------------------------------------------------|
| Potencia             | `serie ** valor` / `serie.pow(valor)` | Eleva cada elemento de la Serie a una potencia.   |
| Raíz Cuadrada        | `np.sqrt(serie)`               | Calcula la raíz cuadrada de cada elemento.         |
| Raíz Cúbica             | `np.cbrt(serie)`                | Calcula la raíz cúbica de cada elemento.        |
| Exponencial             | `np.exp(serie)`                 | Calcula \( e^x \) para cada elemento.           |
| Logaritmo Natural       | `np.log(serie)`                 | Calcula \( \ln(x) \) para cada elemento.        |
| Logaritmo Base 10       | `np.log10(serie)`               | Calcula el logaritmo base 10 de cada elemento.  |
| Valor Absoluto          | `np.abs(serie)` / `serie.abs()` | Devuelve el valor absoluto de cada elemento.    |
| Signo                   | `np.sign(serie)`                | Devuelve -1, 0 o 1 según el signo del elemento. |


## **Redondeo o Truncamiento**

#### **Redondeo (`round`)**
Redondea los elementos de una Serie al número de decimales especificado.

**Definición:**  
`serie.round(decimales)`


In [None]:
# Serie con decimales
serie_decimales = pd.Series([1.234, 2.456, 3.678])

# Redondear a 1 decimal
redondeo = serie_decimales.round(1)

print("Serie original:\n", serie_decimales)
print("Serie redondeada:\n", redondeo)

#### **Truncamiento (`apply`)**
Permite truncar los valores aplicando una función personalizada.

**Definición:**  
`serie.apply(funcion)`


In [None]:
# Truncar los valores al entero más cercano hacia abajo
truncado = serie_decimales.apply(lambda x: int(x))

print("Serie original:\n", serie_decimales)
print("Serie truncada:\n", truncado)

#### **Ceil (`np.ceil`)**

Redondea hacia arriba cada elemento de la Serie al entero más cercano.

**Definición:**  
`np.ceil(serie)`


In [None]:
# Redondear hacia arriba
redondeo_arriba = np.ceil(serie_decimales)

print("Serie original:\n", serie_decimales)
print("Serie redondeada hacia arriba:\n", redondeo_arriba)

#### **Floor (`np.floor`)**

Redondea hacia abajo cada elemento de la Serie al entero más cercano.

**Definición:**  
`np.floor(serie)`

In [None]:
# Redondear hacia abajo
redondeo_abajo = np.floor(serie_decimales)

print("Serie original:\n", serie_decimales)
print("Serie redondeada hacia abajo:\n", redondeo_abajo)

#### **Trunc (`np.trunc`)**

Trunca los valores de una Serie eliminando su parte decimal.

**Definición:**  
`np.trunc(serie)`

In [None]:
# Truncar eliminando la parte decimal
truncamiento = np.trunc(serie_decimales)

print("Serie original:\n", serie_decimales)
print("Serie truncada eliminando la parte decimal:\n", truncamiento)

# **TABLA RESÚMEN:**

| **Operación**       | **Método**                    | **Descripción**                                      |
|---------------------|------------------------------|----------------------------------------------------|
| Redondeo           | `serie.round(decimales)`      | Redondea cada elemento al número de decimales especificado. |
| Truncamiento       | `serie.apply(funcion)`        | Aplica una función personalizada para truncar valores.      |
| Redondeo Hacia Arriba | `np.ceil(serie)`            | Redondea cada elemento hacia arriba al entero más cercano.  |
| Redondeo Hacia Abajo | `np.floor(serie)`            | Redondea cada elemento hacia abajo al entero más cercano.   |
| Truncamiento (Decimales) | `np.trunc(serie)`        | Elimina la parte decimal de cada elemento.                  |



### **Conclusión**

Las operaciones matemáticas en Pandas permiten trabajar de forma eficiente con datos numéricos. Entender cuándo usar operaciones básicas, relativas o de redondeo es clave para realizar análisis precisos.  
- Usa métodos de Pandas para mantener índices y estructura.
- Recurre a NumPy para cálculos avanzados o si los índices no son relevantes.

---

#### **1.3.2 Comparaciones y Filtrado**

Las Series de Pandas permiten realizar comparaciones y generar máscaras booleanas que facilitan el filtrado de datos. Estas máscaras se aplican elemento a elemento, devolviendo `True` o `False` según la condición especificada.

---

### **¿Para qué usar comparaciones y filtrado?**
1. **Comparaciones:** Identificar elementos que cumplan condiciones específicas.
2. **Filtrado:** Extraer subconjuntos relevantes de datos basados en condiciones.

---

### **Principales Operaciones de Comparación**
- **Igual a (`==`)**
- **Diferente de (`!=`)**
- **Mayor que (`>`)**
- **Menor que (`<`)**
- **Mayor o igual a (`>=`)**
- **Menor o igual a (`<=`)**

También puedes combinar múltiples condiciones usando:
- **AND lógico (`&`)**
- **OR lógico (`|`)**
- **NOT lógico (`~`)**

#### **Casos de Uso:**
- **Series:** Para filtrar manteniendo los índices de los datos relevantes.
- **NumPy:** Si necesitas aplicar condiciones más complejas o trabajar con arrays en paralelo.

---

#### **Igualdad (`==`)**

Devuelve `True` para los elementos que son iguales al valor especificado.

**Definición:**  
`serie == valor`


In [None]:
# Crear una Serie de ejemplo
serie = pd.Series([1, 2, 3, 4, 5])

# Comparar con igualdad
igual_a_3 = serie == 3

print("Serie original:\n", serie)
print("Máscara de igualdad con 3:\n", igual_a_3)

#### **Operadores de Comparación**

Las Series de Pandas permiten usar operadores de comparación para generar máscaras booleanas, incluyendo:

- **Mayor que (`>`)**: Devuelve `True` para valores mayores.
- **Menor que (`<`)**: Devuelve `True` para valores menores.
- **Igual a (`==`)**: Devuelve `True` para valores iguales.
- **Diferente de (`!=`)**: Devuelve `True` para valores distintos.
- **Mayor o igual a (`>=`)**: Devuelve `True` para valores mayores o iguales.
- **Menor o igual a (`<=`)**: Devuelve `True` para valores menores o iguales.

**Definición:**  
`serie operador valor`


In [None]:
# Crear una Serie de ejemplo
serie = pd.Series([10, 20, 30, 40, 50])

# Comparaciones
mayor_que = serie > 30
menor_que = serie < 30
igual_a = serie == 30
diferente_de = serie != 30
mayor_o_igual = serie >= 30
menor_o_igual = serie <= 30

# Filtrado usando máscaras booleanas
filtrado = serie[mayor_que | menor_o_igual]

print("Serie original:\n", serie)
print("\nMayor que 30:\n", mayor_que)
print("Menor que 30:\n", menor_que)
print("Igual a 30:\n", igual_a)
print("Diferente de 30:\n", diferente_de)
print("Mayor o igual a 30:\n", mayor_o_igual)
print("Menor o igual a 30:\n", menor_o_igual)
print("\nFiltrado (mayor que 30 o menor o igual a 30):\n", filtrado)

#### **AND lógico (`&`)**

Combina dos condiciones para devolver `True` solo si ambas son verdaderas.

**Definición:**  
`(serie > valor1) & (serie < valor2)`

In [None]:
# Combinar condiciones con AND
entre_2_y_4 = (serie > 2) & (serie < 4)

print("Serie original:\n", serie)
print("Máscara para valores entre 2 y 4:\n", entre_2_y_4)

#### **OR lógico (`|`)**

Combina dos condiciones para devolver `True` si al menos una es verdadera.

**Definición:**  
`(serie < valor1) | (serie > valor2)`

In [None]:
# Combinar condiciones con OR
menor_a_2_o_mayor_a_4 = (serie < 2) | (serie > 4)

print("Serie original:\n", serie)
print("Máscara para valores menores a 2 o mayores a 4:\n", menor_a_2_o_mayor_a_4)

#### **NOT lógico (`~`)**

Invierte una condición booleana. Devuelve `True` donde la condición original es `False`.

**Definición:**  
`~condicion`

In [None]:
# Invertir la condición "mayor a 3"
no_mayores_a_3 = ~mayor_a_3

print("Serie original:\n", serie)
print("Valores NO mayores a 3:\n", serie[no_mayores_a_3])

#### **Máscaras Booleanas en Series**

En Pandas, las **máscaras booleanas** son esenciales para trabajar con datos de forma selectiva. Aplicadas a Series, permiten:
1. **Filtrar valores:** Extraer elementos que cumplen ciertas condiciones.
2. **Identificar patrones:** Detectar valores específicos o rangos.
3. **Aplicar modificaciones:** Cambiar elementos específicos de forma eficiente.

---

### **1. Crear Máscaras Booleanas**

Las máscaras booleanas son Series de valores `True` o `False` generadas a partir de una condición.

**Definición:**  
`serie[condicion]`

#### **Ejemplo: Máscara Booleana con Condición Simple**

Filtrar los valores mayores a un umbral específico.

In [None]:
# Crear una Serie de ejemplo
serie = pd.Series([10, 20, 30, 40, 50])

# Máscara booleana: valores mayores a 30
mayores_a_30 = serie > 30

# Filtrar usando la máscara
filtrado = serie[mayores_a_30]

print("Serie original:\n", serie)
print("\nMáscara booleana (valores > 30):\n", mayores_a_30)
print("\nValores filtrados:\n", filtrado)

### **2. Máscaras Booleanas Combinadas**

Las máscaras pueden combinarse usando operadores lógicos:
- **AND (`&`)**
- **OR (`|`)**
- **NOT (`~`)**

Esto permite construir filtros más complejos.

#### **Ejemplo: Combinar Condiciones**

Filtrar valores que están en un rango específico o fuera de otro.


In [None]:
# Combinar condiciones: valores entre 20 y 40
entre_20_y_40 = (serie > 20) & (serie < 40)

# Combinar condiciones: valores menores a 20 o mayores a 40
menor_a_20_o_mayor_a_40 = (serie < 20) | (serie > 40)

print("Valores entre 20 y 40:\n", serie[entre_20_y_40])
print("\nValores menores a 20 o mayores a 40:\n", serie[menor_a_20_o_mayor_a_40])

### **3. Modificar Valores con Máscaras Booleanas**

Puedes usar máscaras booleanas para cambiar valores específicos en una Serie.

#### **Ejemplo: Modificar Valores Selectivamente**

Incrementar ciertos valores basados en una condición.


In [None]:
# Incrementar valores mayores a 30 en un 10%
serie[serie > 30] *= 1.10

print("Serie después de modificar valores mayores a 30:\n", serie)

### **4. Invertir Máscaras con `~`**

El operador `~` invierte una máscara booleana, cambiando `True` a `False` y viceversa.

#### **Ejemplo: Invertir una Condición**

Filtrar los valores que NO cumplen una condición.

In [None]:
# Invertir la máscara para obtener valores menores o iguales a 30
no_mayores_a_30 = ~mayores_a_30

print("Valores que NO son mayores a 30:\n", serie[no_mayores_a_30])

### **Conclusión**

- Las máscaras booleanas son clave para realizar análisis y manipulaciones rápidas en Series.
- Combinando condiciones con operadores lógicos (`&`, `|`, `~`) puedes construir filtros avanzados.
- Su flexibilidad permite no solo filtrar, sino también modificar valores de forma eficiente.

### **1.3.3. Operaciones de Agregación**

Las Series ofrecen métodos para calcular valores agregados como suma, promedio, y más. Estos cálculos preservan la semántica de Pandas.

#### **Casos de Uso:**
- **Series:** Cuando necesitas trabajar con datos etiquetados y mantener metadatos como los índices.
- **NumPy:** Para operaciones más rápidas en grandes volúmenes de datos, sin preocuparte por los índices.

Las operaciones de agregación permiten obtener valores resumidos a partir de los datos en una Serie. Estas operaciones son útiles para:
1. **Obtener estadísticas básicas:** Suma, promedio, máximo, mínimo, etc.
2. **Evaluar la distribución:** Calcular varianza, desviación estándar, etc.

En Pandas, estas operaciones son métodos que se aplican directamente sobre las Series.



#### **Suma de los Valores (`sum`)**

Calcula la suma de todos los elementos de la Serie.

**Definición:**  
`serie.sum()`

In [None]:
# Calcular la suma
suma = serie.sum()

print("Suma de los valores:", suma)

#### **Promedio de los Valores (`mean`)**

Calcula el promedio (media aritmética) de los valores de la Serie.

**Definición:**  
`serie.mean()`


In [None]:
# Calcular el promedio
promedio = serie.mean()

print("Promedio de los valores:", promedio)

#### **Valor Máximo (`max`)**

Devuelve el valor máximo de la Serie.

**Definición:**  
`serie.max()`

In [None]:
# Calcular el máximo
maximo = serie.max()

print("Valor máximo:", maximo)

#### **Valor Mínimo (`min`)**

Devuelve el valor mínimo de la Serie.

**Definición:**  
`serie.min()`


In [None]:
# Calcular el mínimo
minimo = serie.min()

print("Valor mínimo:", minimo)

#### **Desviación Estándar (`std`)**

Calcula la desviación estándar de los valores de la Serie, que mide la dispersión de los datos.

**Definición:**  
`serie.std()`


In [None]:
# Calcular la desviación estándar
desviacion = serie.std()

print("Desviación estándar:", desviacion)

#### **Varianza (`var`)**

Calcula la varianza de los valores de la Serie, que es el cuadrado de la desviación estándar.

**Definición:**  
`serie.var()`

In [None]:
# Calcular la varianza
varianza = serie.var()

print("Varianza:", varianza)

#### **Conteo de Elementos No Nulos (`count`)**

Devuelve el número de elementos no nulos en la Serie.

**Definición:**  
`serie.count()`

In [None]:
# Contar los elementos no nulos
conteo = serie.count()

print("Número de elementos no nulos:", conteo)

#### **Mediana (`median`)**

Calcula la mediana (valor central) de los valores en la Serie.

**Definición:**  
`serie.median()`

In [None]:
# Calcular la mediana
mediana = serie.median()

print("Mediana:", mediana)

### **Tabla Resumen:**

| **Operación**       | **Método**       | **Descripción**                                       |
|---------------------|------------------|-----------------------------------------------------|
| Suma               | `serie.sum()`    | Calcula la suma de todos los elementos de la Serie. |
| Promedio           | `serie.mean()`   | Calcula la media aritmética de los elementos.       |
| Máximo             | `serie.max()`    | Devuelve el valor máximo de la Serie.              |
| Mínimo             | `serie.min()`    | Devuelve el valor mínimo de la Serie.              |
| Desviación Estándar| `serie.std()`    | Calcula la dispersión de los datos.                |
| Varianza           | `serie.var()`    | Calcula la variabilidad de los datos.              |
| Conteo             | `serie.count()`  | Cuenta los elementos no nulos en la Serie.         |
| Mediana            | `serie.median()` | Devuelve el valor central de los elementos.        |


### **Conclusión**

Las operaciones de agregación en Series de Pandas son similares a las de NumPy, pero ofrecen una integración perfecta con las estructuras de Pandas, como los índices, para un análisis más detallado y eficiente.

### **1.3.4. Métodos Específicos de Pandas**

Pandas incluye métodos únicos para Series que no están disponibles en NumPy. Estos métodos son útiles para análisis rápidos o para explorar datos categóricos.

---

### **Métodos Específicos Incluidos**
1. `value_counts()`
2. `unique()`
3. `rank()`
4. `nunique()`
5. `isnull()` y `notnull()`
6. `replace()`
7. `clip()`

#### **Casos de Uso:**
Siempre que necesites información adicional sobre las frecuencias, unicidad o rangos en una Serie, estos métodos son esenciales.


#### **Frecuencia de Valores (`value_counts`)**

Devuelve una Serie que muestra la frecuencia de cada valor único en la Serie original.

**Definición:**  
`serie.value_counts(normalize=False, sort=True)`

- **`normalize`**: Si es `True`, devuelve proporciones en lugar de conteos.
- **`sort`**: Si es `True`, ordena los valores por frecuencia.

In [None]:
# Crear una Serie de ejemplo
serie = pd.Series(['A', 'B', 'A', 'C', 'B', 'A'])

# Contar la frecuencia de cada valor
frecuencia = serie.value_counts()

print("Frecuencia de cada valor:\n", frecuencia)

#### **Valores Únicos (`unique`)**

Devuelve un array de NumPy con los valores únicos de la Serie.

**Definición:**  
`serie.unique()`

In [None]:
# Obtener los valores únicos
valores_unicos = serie.unique()

print("Valores únicos en la Serie:\n", valores_unicos)

#### **Rango de Valores (`rank`)**

Asigna un rango a cada elemento basado en su orden en la Serie. 

**Definición:**  
`serie.rank(method='average', ascending=True)`

- **`method`**: Cómo manejar empates (`average`, `min`, `max`, `first`, `dense`).
- **`ascending`**: Si es `True`, ordena en orden ascendente.

In [None]:
# Crear una Serie de ejemplo con valores repetidos
serie_rango = pd.Series([100, 200, 200, 300])

# Calcular los rangos
rango = serie_rango.rank()

print("Serie original:\n", serie_rango)
print("Rangos asignados:\n", rango)

#### **Número de Valores Únicos (`nunique`)**

Devuelve el número de valores únicos en la Serie.

**Definición:**  
`serie.nunique()`

In [None]:
# Calcular el número de valores únicos
numero_unicos = serie.nunique()

print("Número de valores únicos:", numero_unicos)

#### **Identificar Valores Nulos (`isnull` y `notnull`)**

- **`isnull`**: Devuelve una máscara booleana indicando dónde hay valores nulos.
- **`notnull`**: Devuelve una máscara booleana indicando dónde NO hay valores nulos.

**Definición:**  
`serie.isnull()`  
`serie.notnull()`

In [None]:
# Crear una Serie con valores nulos
serie_nulos = pd.Series([1, None, 2, None, 3])

# Identificar valores nulos
nulos = serie_nulos.isnull()

# Identificar valores no nulos
no_nulos = serie_nulos.notnull()

print("Valores nulos:\n", nulos)
print("Valores no nulos:\n", no_nulos)

#### **Reemplazar Valores (`replace`)**

Reemplaza valores específicos en la Serie por otros valores.

**Definición:**  
`serie.replace(to_replace, value)`

In [None]:
# Reemplazar valores específicos
serie_reemplazada = serie.replace('A', 'Z')

print("Serie original:\n", serie)
print("Serie después de reemplazar 'A' por 'Z':\n", serie_reemplazada)

#### **Limitar Valores (`clip`)**

Limita los valores de la Serie a un rango especificado.

**Definición:**  
`serie.clip(lower, upper)`

In [None]:
# Crear una Serie numérica
serie_numerica = pd.Series([1, 2, 3, 4, 5])

# Limitar valores entre 2 y 4
serie_clipeada = serie_numerica.clip(2, 4)

print("Serie original:\n", serie_numerica)
print("Serie después de limitar valores entre 2 y 4:\n", serie_clipeada)


### **Tabla Resumen:**

| **Método**        | **Descripción**                                                                 |
|--------------------|---------------------------------------------------------------------------------|
| `value_counts()`  | Devuelve la frecuencia de cada valor único en la Serie.                        |
| `unique()`        | Devuelve un array con los valores únicos en la Serie.                          |
| `rank()`          | Asigna un rango a cada elemento basado en su orden en la Serie.                |
| `nunique()`       | Devuelve el número de valores únicos en la Serie.                              |
| `isnull()`        | Devuelve una máscara booleana indicando dónde hay valores nulos.               |
| `notnull()`       | Devuelve una máscara booleana indicando dónde NO hay valores nulos.            |
| `replace()`       | Reemplaza valores específicos en la Serie por otros valores.                   |
| `clip()`          | Limita los valores de la Serie a un rango especificado.                        |


### **Conclusión**

Los métodos específicos de Pandas para Series son herramientas poderosas que permiten:
1. Analizar datos categóricos (`value_counts`, `unique`, `nunique`).
2. Transformar y ajustar datos (`replace`, `clip`).
3. Trabajar con datos nulos (`isnull`, `notnull`).
4. Calcular rangos y estadísticas personalizadas (`rank`).

Estos métodos ofrecen capacidades avanzadas que no están disponibles en bibliotecas como NumPy.


## **Conclusión General**

- Usa **métodos de Pandas** cuando necesites trabajar con datos indexados o quieras aprovechar funciones específicas como `value_counts()`.
- Usa **NumPy** cuando la eficiencia o las operaciones matemáticas avanzadas sean más importantes que los índices.

Las operaciones básicas con Series son esenciales para manipular y analizar datos de manera eficiente en Pandas.

Las Series son la base de muchas operaciones en Pandas. Representan una forma poderosa de trabajar con datos unidimensionales, combinando la flexibilidad de los índices con las capacidades matemáticas de los arrays.

---

# **2. DataFrames en Pandas**

Un **DataFrame** es la estructura de datos principal en Pandas. Es una tabla bidimensional etiquetada con filas e índices, que combina múltiples Series. Es ideal para manejar datos tabulares como:
- Hojas de cálculo.
- Tablas SQL.
- Datasets de análisis de datos.

---

### **Características Clave de los DataFrames**
1. **Columnas y Filas:** Cada columna es una `Serie`, y cada fila está etiquetada con un índice.
2. **Tipos de Datos Mixtos:** Permite diferentes tipos de datos en las columnas.
3. **Operaciones Flexibles:** Facilita el filtrado, agrupación, unión y agregación de datos.

---

## **2.1. Creación de DataFrames**

Un **DataFrame** es una tabla bidimensional en Pandas, con filas e índices etiquetados. Es la estructura principal de la biblioteca y permite trabajar con datos tabulares de forma eficiente.

---

### **¿Qué es un DataFrame?**

Un DataFrame combina:
1. **Filas etiquetadas:** Representan instancias de datos (índices).
2. **Columnas etiquetadas:** Cada columna es una Serie y representa una variable o atributo.
3. **Datos heterogéneos:** Permite mezclar tipos de datos (números, cadenas, booleanos, etc.).

---

### **Características Clave**
- **Flexibilidad:** Soporta operaciones complejas como filtrado, agrupación y combinaciones.
- **Compatibilidad:** Fácil integración con archivos de datos (CSV, JSON, Excel, etc.).
- **Optimización:** Diseñado para manejar grandes volúmenes de datos eficientemente.

---

### **Métodos de Creación**

Los DataFrames se pueden crear de diversas formas en Pandas. A continuación, exploramos los métodos más comunes.

---


### **1. Desde Diccionarios**

Un diccionario convierte sus claves en nombres de las columnas y los valores en los datos correspondientes.

**Definición:**  
`pd.DataFrame(data)`

In [None]:
# Crear un DataFrame desde un diccionario
data = {
    'Nombre': ['Juan', 'Ana', 'Luis'],
    'Edad': [25, 32, 19],
    'Salario': [3000, 4000, 1500]
}

df = pd.DataFrame(data)

print("DataFrame creado desde un diccionario:\n", df)

### **2. Desde Listas o Listas Anidadas**

Cada lista interna se convierte en una fila del DataFrame.

**Definición:**  
`pd.DataFrame(data, columns=[nombres_columnas])`


In [None]:
# Crear un DataFrame desde listas anidadas
data = [
    [1, 'Juan', 3000],
    [2, 'Ana', 4000],
    [3, 'Luis', 1500]
]

df = pd.DataFrame(data, columns=['ID', 'Nombre', 'Salario'])

print("DataFrame creado desde listas anidadas:\n", df)

### **3. Desde Matrices de NumPy**

Las matrices se convierten en el contenido del DataFrame, y puedes etiquetar columnas e índices opcionalmente.

**Definición:**  
`pd.DataFrame(data, index=[nombres_filas], columns=[nombres_columnas])`

In [None]:
# Crear una matriz de NumPy
matriz = np.array([
    [1, 25, 3000],
    [2, 32, 4000],
    [3, 19, 1500]
])

# Convertir la matriz en un DataFrame
df = pd.DataFrame(matriz, columns=['ID', 'Edad', 'Salario'])

print("DataFrame creado desde una matriz de NumPy:\n", df)

### **4. Desde Archivos**

Puedes importar datos desde archivos como CSV, Excel o JSON.

**Definición:**  
`pd.read_csv(filepath)`  
`pd.read_excel(filepath)`  
`pd.read_json(filepath)`

In [None]:
# Importar un DataFrame desde un archivo CSV
# Nota: Proporciona la ruta al archivo en tu sistema para ejecutar esto.

# ruta = "ruta/al/archivo.csv"
# df = pd.read_csv(ruta)

# print("DataFrame importado desde un archivo CSV:\n", df)

### **Tabla Resumen: Métodos de Creación de DataFrames**

| **Método**            | **Definición**                           | **Descripción**                                           |
|------------------------|-------------------------------------------|-----------------------------------------------------------|
| Desde Diccionarios     | `pd.DataFrame(data)`                     | Convierte claves en nombres de columnas y valores en datos.|
| Desde Listas           | `pd.DataFrame(data, columns=[])`         | Cada lista interna representa una fila del DataFrame.      |
| Desde Matrices de NumPy| `pd.DataFrame(data, columns=[], index=[])`| Convierte la matriz en un DataFrame con columnas e índices opcionales.|
| Desde Archivos         | `pd.read_csv(filepath)`                  | Importa datos desde archivos como CSV, Excel o JSON.       |

### **Conclusión**

Los DataFrames son la estructura principal de Pandas para manejar datos tabulares. Su flexibilidad permite crearlos desde múltiples fuentes:
- Diccionarios para datos estructurados.
- Listas o matrices de NumPy para datos organizados.
- Archivos como CSV, JSON o Excel para datos externos.

Entender cómo crearlos es el primer paso para manipular y analizar datos de manera eficiente.

---


# **2.2. Acceso y Selección de Datos**

Una de las características más importantes de los DataFrames en Pandas es la facilidad para acceder, seleccionar y modificar datos. Estas operaciones son esenciales para el análisis y manipulación de datos, ya que permiten extraer subconjuntos relevantes, aplicar transformaciones específicas y realizar análisis detallados.

### **¿Por qué es importante?**
1. **Filtrar Información Relevante:** Extraer datos específicos para análisis focalizados.
2. **Modificar y Actualizar Datos:** Realizar ajustes en valores o estructuras según sea necesario.
3. **Flexibilidad:** Permite trabajar con datos tanto a nivel de filas como de columnas, manteniendo la semántica y estructura del DataFrame.

### **¿Qué aprenderás en esta sección?**
- Métodos básicos y avanzados para acceder a datos.
- Uso de slicing y máscaras booleanas para filtrar subconjuntos.
- Modificación de valores en filas, columnas o subconjuntos.

Este módulo te guiará desde las operaciones más simples hasta técnicas avanzadas para que tengas control total sobre los datos en tus DataFrames.


## **2.2.1. Acceso Básico a Filas y Columnas**

El acceso básico a los datos en un DataFrame de Pandas se realiza principalmente usando corchetes `[]`. Este enfoque es directo y sencillo, pero tiene ciertas limitaciones en comparación con los métodos avanzados como `.loc` y `.iloc`.

---

### **Acceso a Columnas usando `[]`**

En Pandas, los nombres de las columnas se utilizan como claves para acceder a sus datos. Esto es similar a cómo funcionan los diccionarios en Python.

**Definición:**  
`dataframe['nombre_columna']`

- Devuelve una `Serie` con los datos de la columna especificada.
- Si se pasan varios nombres de columna en una lista, se devuelve un nuevo DataFrame.

---


In [None]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Ana', 'Luis'], 'Edad': [25, 32, 19], 'Salario': [3000, 4000, 1500]}
df = pd.DataFrame(data)

# Acceso a una columna
columna_edad = df['Edad']

# Acceso a varias columnas
columnas_seleccionadas = df[['Nombre', 'Salario']]

print("Columna 'Edad':\n", columna_edad)
print("\nColumnas 'Nombre' y 'Salario':\n", columnas_seleccionadas)

### **Acceso a Filas por Índices Numéricos**

Para acceder a filas individuales o subconjuntos por sus índices numéricos, se utiliza slicing básico. Esto es similar a cómo se manejan las listas en Python.

**Definición:**  
`dataframe[inicio:fin]`

- **Inicio:** Índice inicial (incluido).
- **Fin:** Índice final (excluido).

---

In [None]:
# Acceso a una sola fila por índice numérico
fila_unica = df[1:2]  # Devuelve la fila 1

# Acceso a un rango de filas
rango_filas = df[0:2]  # Devuelve las filas 0 y 1

print("Fila única (índice 1):\n", fila_unica)
print("\nRango de filas (índices 0 a 2, excluyendo el 2):\n", rango_filas)

### **Conclusión**

El acceso básico con `[]` es una herramienta sencilla y rápida para trabajar con columnas o filas en un DataFrame. Sin embargo, para operaciones más avanzadas o específicas, se recomienda usar métodos como `.loc` o `.iloc`.


##  **2.2.2. Acceso Avanzado con `.loc` y `.iloc`**

Los métodos `.loc` y `.iloc` permiten acceder a datos en un DataFrame de manera más avanzada, precisa y flexible. A diferencia del acceso básico con `[]`, estos métodos ofrecen soporte completo para:
- Selección de filas y columnas simultáneamente.
- Uso de índices y etiquetas personalizadas.
- Operaciones más complejas como condiciones y máscaras booleanas.

---

### **Uso de `.loc` para Acceder por Etiquetas**

El método `.loc` selecciona datos basándose en etiquetas de índices o nombres de columnas. Es útil cuando los índices tienen significado o los nombres de las columnas son importantes.

**Definición:**  
`dataframe.loc[fila, columna]`

- **Fila:** Nombre o etiqueta del índice.
- **Columna:** Nombre de la columna.

---


In [None]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Ana', 'Luis'], 'Edad': [25, 32, 19], 'Salario': [3000, 4000, 1500]}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

# Seleccionar una fila por etiqueta
fila_a = df.loc['a']

# Seleccionar un elemento específico
elemento = df.loc['b', 'Salario']

# Seleccionar múltiples filas y columnas
subconjunto = df.loc[['a', 'b'], ['Nombre', 'Edad']]

print("Fila 'a':\n", fila_a)
print("\nElemento en fila 'b', columna 'Salario':", elemento)
print("\nSubconjunto de filas y columnas:\n", subconjunto)

### **Uso de `.iloc` para Acceder por Posiciones**

El método `.iloc` selecciona datos basándose en posiciones numéricas. Es útil para acceso por índices enteros, sin importar sus etiquetas.

**Definición:**  
`dataframe.iloc[fila, columna]`

- **Fila:** Posición numérica del índice.
- **Columna:** Posición numérica de la columna.

---

In [None]:
# Seleccionar una fila por posición numérica
fila_0 = df.iloc[0]

# Seleccionar un elemento específico
elemento = df.iloc[1, 2]

# Seleccionar múltiples filas y columnas
subconjunto = df.iloc[0:2, 0:2]

print("Fila 0:\n", fila_0)
print("\nElemento en fila 1, columna 2:", elemento)
print("\nSubconjunto de filas y columnas:\n", subconjunto)

### **Comparativa entre `.loc` y `.iloc`**

- **`.loc`:** Accede a los datos basándose en etiquetas de índice y nombres de columnas.
- **`.iloc`:** Accede a los datos basándose en posiciones numéricas.
- **Uso Combinado:** Ambos pueden utilizarse según sea necesario, dependiendo del tipo de acceso requerido.

**Tabla Comparativa:**

| **Método** | **Acceso**                | **Ejemplo**              |
|------------|---------------------------|--------------------------|
| `.loc`     | Por etiquetas.            | `df.loc['a', 'Salario']` |
| `.iloc`    | Por posiciones numéricas. | `df.iloc[0, 2]`          |

### **Conclusión**

Los métodos `.loc` y `.iloc` ofrecen una forma poderosa y precisa de acceder a los datos en un DataFrame. Su flexibilidad permite seleccionar filas, columnas o elementos específicos, ya sea por etiquetas o posiciones numéricas.


## **2.2.4. Filtrado Condicional**

El filtrado condicional en Pandas permite seleccionar subconjuntos de datos basados en condiciones específicas. Esto se logra mediante máscaras booleanas, que son arrays de valores `True` o `False` aplicados al DataFrame.

---

### **¿Qué es una Máscara Booleana?**

Una máscara booleana es una Serie o DataFrame de valores `True` y `False`, que se genera evaluando una condición sobre los datos. Se utiliza para:
1. **Filtrar Filas:** Seleccionar solo las filas que cumplen ciertas condiciones.
2. **Filtrar Columnas:** Aplicar condiciones a columnas específicas.

**Definición:**  
`dataframe[condicion]`

---

### **Uso de Máscaras Booleanas para Filtrar Filas**

Puedes aplicar una condición a una columna para generar una máscara booleana y usarla para filtrar filas.

**Ejemplo Básico:**  
Filtrar filas donde los valores en una columna sean mayores a un umbral.


In [None]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Ana', 'Luis', 'María'], 'Edad': [25, 32, 19, 45], 'Salario': [3000, 4000, 1500, 5000]}
df = pd.DataFrame(data)

# Máscara booleana para filtrar filas con edad > 30
filtro_edad = df['Edad'] > 30
resultado = df[filtro_edad]

print("Máscara booleana (Edad > 30):\n", filtro_edad)
print("\nFiltrado (Edad > 30):\n", resultado)

### **Filtrado con Condiciones Múltiples**

Las máscaras booleanas pueden combinarse usando operadores lógicos para crear filtros más complejos:
- **AND (`&`)**: Devuelve `True` si ambas condiciones son verdaderas.
- **OR (`|`)**: Devuelve `True` si al menos una condición es verdadera.
- **NOT (`~`)**: Invierte una condición (de `True` a `False` y viceversa).

**Ejemplo: Filtrar empleados con edad > 20 y salario > 3000.**

In [None]:
# Filtrar con múltiples condiciones (AND lógico)
filtro_combinado = (df['Edad'] > 20) & (df['Salario'] > 3000)
resultado_combinado = df[filtro_combinado]

print("Filtrado (Edad > 20 y Salario > 3000):\n", resultado_combinado)

### **Filtrado con Condiciones sobre Columnas**

Además de las filas, puedes aplicar condiciones específicas a las columnas del DataFrame.

**Ejemplo:** Filtrar filas basándose en valores en múltiples columnas.

In [None]:
# Filtrar filas donde el salario sea mayor que la edad multiplicada por 100
filtro_columnas = df['Salario'] > (df['Edad'] * 100)
resultado_columnas = df[filtro_columnas]

print("Filtrado (Salario > Edad * 100):\n", resultado_columnas)

### **Filtrado Inverso con `~`**

El operador `~` invierte una condición booleana, seleccionando los elementos que **NO** cumplen con la condición.

**Ejemplo:** Filtrar empleados cuya edad NO sea mayor a 30.

In [None]:
# Filtrar empleados cuya edad NO sea mayor a 30
filtro_inverso = ~(df['Edad'] > 30)
resultado_inverso = df[filtro_inverso]

print("Filtrado (Edad NO > 30):\n", resultado_inverso)

### **Conclusión**

El filtrado condicional en Pandas es una herramienta poderosa que permite extraer subconjuntos de datos con gran precisión. Combinar máscaras booleanas con operadores lógicos ofrece flexibilidad para construir filtros avanzados y trabajar eficientemente con grandes volúmenes de datos.

## **2.2.5. Modificación de Valores**

Pandas permite modificar valores en un DataFrame de manera directa, ya sea en filas, columnas o subconjuntos específicos. Esta funcionalidad es esencial para actualizar datos, realizar correcciones o ajustar valores según condiciones.

---

### **Modificación de Valores en Filas Específicas**

Puedes modificar valores en filas específicas utilizando los índices de las filas. Esto se hace accediendo directamente a las filas con `.loc` o `.iloc`.

**Ejemplo:** Cambiar los valores de una fila completa.


In [None]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Ana', 'Luis'], 'Edad': [25, 32, 19], 'Salario': [3000, 4000, 1500]}
df = pd.DataFrame(data)

# Modificar todos los valores de la fila con índice 1
df.loc[1] = ['Ana María', 33, 4200]

print("DataFrame después de modificar la fila 1:\n", df)

### **Modificación de Valores en Columnas Específicas**

Para modificar los valores de una columna específica, puedes asignar directamente nuevos valores a esa columna.

**Ejemplo:** Incrementar los salarios en un 10%.

In [None]:
# Incrementar los valores de la columna 'Salario' en un 10%
df['Salario'] *= 1.10

print("DataFrame después de modificar la columna 'Salario':\n", df)

### **Modificación de Valores en Subconjuntos Filtrados**

Puedes modificar valores selectivamente aplicando condiciones o máscaras booleanas para identificar las filas o columnas a modificar.

**Ejemplo:** Aumentar los salarios para empleados con edad mayor a 30.

In [None]:
# Incrementar el salario en un 15% para empleados mayores de 30 años
df.loc[df['Edad'] > 30, 'Salario'] *= 1.15

print("DataFrame después de modificar salarios para empleados mayores de 30 años:\n", df)

### **Conclusión**

Pandas ofrece herramientas directas y flexibles para modificar valores en filas, columnas o subconjuntos filtrados. Esto permite mantener los datos actualizados y ajustados según las necesidades del análisis o transformación.


# **2.3. Manipulación de Estructuras**

En Pandas, los DataFrames son estructuras altamente flexibles que permiten realizar modificaciones dinámicas en su contenido y organización. La capacidad de añadir, eliminar o renombrar columnas y filas es fundamental para preparar los datos antes de analizarlos.

### **¿Qué incluye la manipulación de estructuras?**
1. **Añadir:** Crear nuevas columnas basadas en cálculos o agregar filas adicionales.
2. **Eliminar:** Quitar columnas o filas no relevantes para el análisis.
3. **Renombrar:** Ajustar los nombres de las columnas o índices para mayor claridad.

### **¿Por qué es importante?**
Estas operaciones permiten estructurar los datos según las necesidades específicas del análisis, asegurando que los DataFrames sean fáciles de interpretar y manejar.

En este módulo, exploraremos las herramientas clave para realizar estas tareas de forma eficiente y flexible.


## **2.3.1. Añadir Columnas y Filas**

En Pandas, puedes agregar nuevas columnas y filas a un DataFrame de manera flexible para expandir la estructura y enriquecer los datos. Estas operaciones son comunes cuando se realizan cálculos o se combinan diferentes datasets.

---

#### **Agregar Columnas Calculadas**

Puedes agregar columnas basadas en cálculos realizados con otras columnas existentes.

**Definición:**  
`dataframe['nueva_columna'] = operacion_sobre_columnas`


In [8]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Ana', 'Luis'], 'Edad': [25, 32, 19], 'Salario': [3000, 4000, 1500]}
df = pd.DataFrame(data)

# Agregar una columna calculada
df['Impuestos'] = df['Salario'] * 0.15

print("DataFrame con columna calculada:\n", df)

DataFrame con columna calculada:
   Nombre  Edad  Salario  Impuestos
0   Juan    25     3000      450.0
1    Ana    32     4000      600.0
2   Luis    19     1500      225.0


#### **Agregar Filas Individuales**

Puedes agregar una fila al final del DataFrame utilizando `loc` o `append`.

**Definición:**  
`dataframe.loc[indice] = valores`  
`dataframe.append({clave: valor}, ignore_index=True)`


In [None]:
# Agregar una fila utilizando loc
df.loc[len(df)] = ['María', 28, 3500, 525, 'Marketing']

print("DataFrame después de agregar una fila con loc:\n", df)

## **Agregar Columnas con Valores Constantes**

Puedes agregar columnas con un valor constante para todas las filas.

**Definición:**  
`dataframe['nueva_columna'] = valor_constante`

In [9]:
# Agregar una columna con un valor constante
df['Departamento'] = 'Ventas'

print("DataFrame con columna de valores constantes:\n", df)

DataFrame con columna de valores constantes:
   Nombre  Edad  Salario  Impuestos Departamento
0   Juan    25     3000      450.0       Ventas
1    Ana    32     4000      600.0       Ventas
2   Luis    19     1500      225.0       Ventas


## **Concatenar Filas Múltiples**

Cuando necesitas agregar varias filas simultáneamente, utiliza `pd.concat` para combinar DataFrames.

**Definición:**  
`pd.concat([dataframe, nuevo_dataframe], ignore_index=True)`

In [None]:
# Crear un nuevo DataFrame con filas adicionales
nuevas_filas = pd.DataFrame({
    'Nombre': ['Carlos', 'Laura'],
    'Edad': [30, 27],
    'Salario': [3700, 4200],
    'Impuestos': [555, 630],
    'Departamento': ['Ventas', 'Marketing']
})

# Concatenar el nuevo DataFrame con el existente
df = pd.concat([df, nuevas_filas], ignore_index=True)

print("DataFrame después de concatenar filas:\n", df)

# **2.3.2. Eliminar Columnas y Filas**

La eliminación de columnas y filas en Pandas es una operación común para limpiar y ajustar los datos en un DataFrame. Estas operaciones te permiten:
1. **Optimizar los datos:** Quitar columnas o filas innecesarias.
2. **Preparar datos para el análisis:** Eliminar elementos irrelevantes o no deseados.
3. **Refinar estructuras:** Ajustar la información según las necesidades del proyecto.

Pandas ofrece métodos flexibles para estas tareas:
- **`drop`:** Permite eliminar columnas o filas especificando sus nombres o índices.
- **`pop`:** Elimina columnas devolviendo su contenido como una Serie.
- **Máscaras booleanas:** Facilitan la eliminación de filas según condiciones.

---


## **Eliminar Columnas Usando `drop`**

El método `drop` permite eliminar columnas especificando sus nombres.

**Definición:**  
`dataframe.drop(columns=['nombre_columna'])`

In [None]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'Ana', 'Luis'], 'Edad': [25, 32, 19], 'Salario': [3000, 4000, 1500]}
df = pd.DataFrame(data)

# Eliminar la columna 'Salario'
df_sin_salario = df.drop(columns=['Salario'])

print("DataFrame después de eliminar la columna 'Salario':\n", df_sin_salario)

## **Eliminar Columnas Usando `pop`**

El método `pop` elimina una columna y devuelve los datos de esa columna como una Serie.

**Definición:**  
`serie = dataframe.pop('nombre_columna')`

In [None]:
# Eliminar la columna 'Edad' y devolverla como una Serie
columna_edad = df.pop('Edad')

print("Columna 'Edad' eliminada:\n", columna_edad)
print("\nDataFrame después de eliminar la columna 'Edad':\n", df)


## **Eliminar Filas por Índice Usando `drop`**

Puedes eliminar filas especificando sus índices.

**Definición:**  
`dataframe.drop(index=['indice_fila'])`

In [None]:
# Crear un DataFrame de ejemplo con índices personalizados
df = pd.DataFrame(data, index=['a', 'b', 'c'])

# Eliminar la fila con índice 'b'
df_sin_fila_b = df.drop(index=['b'])

print("DataFrame después de eliminar la fila 'b':\n", df_sin_fila_b)


## **Eliminar Filas Usando Máscaras Booleanas**

Las máscaras booleanas permiten eliminar filas que cumplan ciertas condiciones.

**Definición:**  
`dataframe = dataframe[~condicion]`

In [None]:
# Eliminar filas donde 'Salario' sea menor a 3000
df_filtrado = df[df['Salario'] >= 3000]

print("DataFrame después de eliminar filas con 'Salario' < 3000:\n", df_filtrado)

### **Tabla Resumen: Métodos para Eliminar Columnas y Filas**

| **Método**            | **Objetivo**                                    | **Ejemplo**                                |
|------------------------|------------------------------------------------|--------------------------------------------|
| `drop(columns=[])`    | Eliminar columnas por nombre.                   | `df.drop(columns=['columna'])`             |
| `pop()`               | Eliminar columnas y devolver su contenido.      | `serie = df.pop('columna')`                |
| `drop(index=[])`      | Eliminar filas especificando índices.           | `df.drop(index=['indice'])`                |
| Máscaras Booleanas    | Eliminar filas según una condición lógica.       | `df = df[~condicion]`                      |

### **Conclusión**

La capacidad de eliminar columnas y filas en Pandas te permite personalizar y optimizar tus DataFrames para el análisis. Dependiendo del caso, puedes usar:
- **`drop`** para eliminaciones basadas en nombres o índices.
- **`pop`** para extraer y guardar columnas eliminadas.
- **Máscaras booleanas** para eliminar filas dinámicamente según condiciones.

Estas herramientas hacen que Pandas sea ideal para la preparación y limpieza de datos antes del análisis.


# **2.3.3. Renombrar Columnas e Índices**

La capacidad de renombrar columnas e índices en Pandas es clave para mejorar la claridad y el significado de los datos en un DataFrame. Esto permite ajustar los nombres de las columnas para que sean más descriptivos o adaptar los índices para facilitar el acceso a las filas.

---


## **Renombrar Columnas o Índices con `rename`**

El método `rename` se utiliza para cambiar los nombres de columnas o índices de un DataFrame.

**Definición:**  
`dataframe.rename(columns={'columna_actual': 'nueva_columna'}, index={'indice_actual': 'nuevo_indice'})`

In [None]:
# Crear un DataFrame de ejemplo
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

# Renombrar columnas e índices
df_renombrado = df.rename(columns={'col1': 'Primera', 'col2': 'Segunda'}, index={'a': 'Fila1', 'b': 'Fila2'})

print("DataFrame original:\n", df)
print("\nDataFrame después de renombrar columnas e índices:\n", df_renombrado)

## **Cambiar el Índice con `set_index`**

El método `set_index` permite establecer una columna como el índice del DataFrame.

**Definición:**  
`dataframe.set_index('columna', inplace=True)`


In [None]:
# Cambiar el índice usando una columna existente
data = {'ID': [1, 2, 3], 'Nombre': ['Juan', 'Ana', 'Luis']}
df = pd.DataFrame(data)

df.set_index('ID', inplace=True)

print("DataFrame con la columna 'ID' como índice:\n", df)

## **Reiniciar el Índice con `reset_index`**

El método `reset_index` restaura el índice del DataFrame al valor por defecto y convierte el índice anterior en una columna.

**Definición:**  
`dataframe.reset_index(inplace=True)`


In [None]:
# Reiniciar el índice para restaurarlo al valor por defecto
df.reset_index(inplace=True)

print("DataFrame después de reiniciar el índice:\n", df)

### **Tabla Resumen: Métodos para Renombrar y Modificar Índices**

| **Método**         | **Objetivo**                                                | **Ejemplo**                               |
|---------------------|------------------------------------------------------------|-------------------------------------------|
| `rename`           | Cambiar nombres de columnas o índices.                     | `df.rename(columns={'col1': 'Primera'})`  |
| `set_index`        | Establecer una columna como el índice del DataFrame.        | `df.set_index('columna')`                 |
| `reset_index`      | Restaurar el índice al valor por defecto.                   | `df.reset_index()`                        |


### **Conclusión**

Renombrar columnas e índices en Pandas te permite trabajar con nombres más descriptivos y estructurar los datos de manera más lógica.  
- **`rename`** es útil para realizar cambios específicos en nombres.  
- **`set_index`** y **`reset_index`** permiten manejar índices de manera flexible, adaptándolos a las necesidades del análisis.

# **2.4. Operaciones Avanzadas**

En el análisis de datos, es común trabajar con múltiples tablas o DataFrames que necesitan ser combinados, unidos o transformados para obtener información útil. Pandas proporciona herramientas avanzadas para realizar estas tareas de manera eficiente, similar a operaciones SQL o transformaciones en hojas de cálculo.

### **¿Por qué son importantes las operaciones avanzadas?**
1. **Integrar Datos:** Combinar información de diferentes fuentes en un único DataFrame.
2. **Transformar Estructuras:** Reorganizar y resumir los datos para un análisis más eficiente.
3. **Flexibilidad:** Soporte para operaciones de unión, apilamiento y pivoteo.

### **Herramientas Principales**
1. **Combinación y Unión de DataFrames:**
   - `merge`: Uniones (joins) entre DataFrames basadas en columnas clave.
   - `concat`: Apilamiento de DataFrames horizontal o verticalmente.
   - `join`: Combinación basada en índices.

2. **Pivot y Pivot Tables:**
   - `pivot`: Reorganiza los datos para cambiar la estructura del DataFrame.
   - `pivot_table`: Crea tablas dinámicas que resumen datos con funciones de agregación.

Este módulo cubre estas herramientas avanzadas, esenciales para manipular y transformar datos en análisis complejos.


# **2.4.1 Combinación y Unión de DataFrames**

En proyectos de análisis de datos, es común trabajar con múltiples tablas o DataFrames que contienen información relacionada pero almacenada de forma separada. Pandas proporciona herramientas avanzadas para combinar y unir estos DataFrames, permitiéndote consolidar y estructurar los datos para su análisis.

### **¿Por qué es importante la combinación y unión de DataFrames?**
1. **Integrar Fuentes de Datos:** Combinar información de diferentes tablas o DataFrames, como bases de datos relacionales, hojas de cálculo o APIs.
2. **Estructurar Datos Complejos:** Apilar o unir datos en estructuras más útiles para análisis específicos.
3. **Flexibilidad y Precisión:** Realizar uniones basadas en columnas clave o índices, simulando operaciones comunes en bases de datos SQL.

### **Herramientas Principales**
1. **`merge`:** Realiza uniones similares a las de SQL (inner, left, right, outer).
2. **`concat`:** Apila DataFrames horizontal o verticalmente para consolidar datos.
3. **`join`:** Combina DataFrames basándose en índices comunes.

Estas herramientas son esenciales para combinar datos de forma eficiente, respetando su estructura original o transformándolos según las necesidades del análisis.


## **`merge`: Uniones Similares a SQL**

El método `merge` realiza uniones similares a las que se realizan en SQL. Es útil para combinar DataFrames basándose en columnas clave.

**Definición:**  
`pd.merge(left, right, on='clave', how='tipo_de_union')`

- **`on`:** Especifica la columna común entre los DataFrames.
- **`how`:** Define el tipo de unión:
  - `inner` (predeterminado): Devuelve solo los valores comunes.
  - `left`: Todos los valores de `left` y los comunes de `right`.
  - `right`: Todos los valores de `right` y los comunes de `left`.
  - `outer`: Combina todos los valores de ambos DataFrames.


In [None]:
# Crear dos DataFrames de ejemplo
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Juan', 'Ana', 'Luis']})
df2 = pd.DataFrame({'ID': [2, 3, 4], 'Salario': [4000, 3500, 3000]})

# Realizar un merge (inner join)
df_merge = pd.merge(df1, df2, on='ID', how='inner')

print("DataFrame combinado (inner join):\n", df_merge)

## **`concat`: Apilamiento de DataFrames**

El método `concat` permite combinar DataFrames apilándolos horizontal o verticalmente.

**Definición:**  
`pd.concat([df1, df2], axis=0, ignore_index=True)`

- **`axis`:** Define la dirección del apilamiento:
  - `0`: Apilamiento vertical (filas).
  - `1`: Apilamiento horizontal (columnas).
- **`ignore_index`:** Si es `True`, reinicia el índice en el DataFrame resultante.


In [None]:
# Crear dos DataFrames de ejemplo
df1 = pd.DataFrame({'Nombre': ['Juan', 'Ana'], 'Edad': [25, 32]})
df2 = pd.DataFrame({'Nombre': ['Luis', 'María'], 'Edad': [19, 45]})

# Concatenar verticalmente
df_concat = pd.concat([df1, df2], axis=0, ignore_index=True)

print("DataFrame concatenado (vertical):\n", df_concat)

## **`join`: Combinar por Índices**

El método `join` combina DataFrames basándose en sus índices, siendo útil para operaciones con índices alineados.

**Definición:**  
`df1.join(df2, how='tipo_de_union')`

- **`how`:** Define el tipo de unión:
  - `left`: Todos los índices de `df1`.
  - `right`: Todos los índices de `df2`.
  - `inner`: Solo índices comunes.
  - `outer`: Combina todos los índices de ambos DataFrames.

In [None]:
# Crear dos DataFrames de ejemplo con índices alineados
df1 = pd.DataFrame({'Nombre': ['Juan', 'Ana', 'Luis']}, index=[1, 2, 3])
df2 = pd.DataFrame({'Salario': [3000, 4000, 3500]}, index=[1, 2, 3])

# Realizar un join (left join)
df_join = df1.join(df2, how='left')

print("DataFrame combinado (left join):\n", df_join)

### **Tabla Resumen: Métodos de Combinación y Unión**

| **Método**            | **Descripción**                                    | **Ejemplo**                                      |
|------------------------|----------------------------------------------------|------------------------------------------------|
| `merge`               | Combina DataFrames basándose en columnas clave.    | `pd.merge(df1, df2, on='columna')`             |
| `concat`              | Apila DataFrames horizontal o verticalmente.       | `pd.concat([df1, df2], axis=0)`                |
| `join`                | Combina DataFrames basándose en índices.           | `df1.join(df2, how='outer')`                   |

### **Conclusión**

La combinación y unión de DataFrames es fundamental para consolidar y analizar datos en Pandas.  
- **`merge`** es ideal para uniones basadas en columnas clave.  
- **`concat`** permite apilar DataFrames de manera flexible.  
- **`join`** es útil cuando trabajas con índices alineados.

Estas herramientas te ofrecen flexibilidad y potencia para trabajar con múltiples datasets.


# **2.4.2 Pivot y Pivot Tables**

En Pandas, las herramientas `pivot` y `pivot_table` permiten transformar y resumir datos en un DataFrame, creando estructuras tabulares más organizadas y útiles para el análisis.

### **¿Por qué usar Pivot y Pivot Tables?**
1. **Reorganizar Datos:** Convertir valores de columnas en etiquetas y reorganizar los datos en una nueva estructura.
2. **Resumen de Datos:** Generar resúmenes de datos utilizando funciones de agregación como suma, promedio o conteo.
3. **Facilidad de Análisis:** Explorar relaciones entre variables de forma eficiente y visual.

---


## **`pivot`: Reorganización de Datos**

El método `pivot` permite transformar un DataFrame convirtiendo:
- Una columna en el índice.
- Otra columna en las etiquetas de las columnas.
- Una tercera columna en los valores.

**Definición:**  
`dataframe.pivot(index='fila', columns='columna', values='valor')`

**Nota:** `pivot` requiere que las combinaciones de índice y columna sean únicas.


In [None]:
# Crear un DataFrame de ejemplo
data = {
    'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero'],
    'Producto': ['A', 'B', 'A', 'B'],
    'Ventas': [100, 150, 200, 250]
}
df = pd.DataFrame(data)

# Reorganizar datos con pivot
df_pivot = df.pivot(index='Mes', columns='Producto', values='Ventas')

print("DataFrame original:\n", df)
print("\nDataFrame reorganizado con pivot:\n", df_pivot)

## **`pivot_table`: Tablas Dinámicas**

El método `pivot_table` extiende la funcionalidad de `pivot`, permitiendo:
- Aplicar funciones de agregación.
- Manejar valores duplicados.
- Trabajar con datos más complejos.

**Definición:**  
`dataframe.pivot_table(index='fila', columns='columna', values='valor', aggfunc='funcion')`

**Parámetros Clave:**
- **`aggfunc`:** Función de agregación (por defecto, `mean`).
- **`fill_value`:** Valor con el que llenar celdas vacías.


In [None]:
# Crear un DataFrame con valores duplicados
data = {
    'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero'],
    'Producto': ['A', 'A', 'B', 'B'],
    'Ventas': [100, 200, 300, 400]
}
df = pd.DataFrame(data)

# Crear una tabla dinámica con pivot_table
df_pivot_table = df.pivot_table(index='Mes', columns='Producto', values='Ventas', aggfunc='sum')

print("DataFrame original:\n", df)
print("\nTabla dinámica con pivot_table:\n", df_pivot_table)

### **Tabla Resumen: Diferencias entre `pivot` y `pivot_table`**

| **Método**       | **Uso Principal**                                  | **Diferencia Clave**                                      |
|-------------------|---------------------------------------------------|----------------------------------------------------------|
| `pivot`          | Reorganiza datos basándose en combinaciones únicas.| Requiere combinaciones únicas de índice y columna.        |
| `pivot_table`    | Crea tablas dinámicas con agregaciones.            | Maneja valores duplicados y permite aplicar funciones.    |


### **Conclusión**

Las herramientas `pivot` y `pivot_table` son fundamentales para transformar y analizar datos de manera estructurada:
- Usa **`pivot`** para reorganizar datos si las combinaciones son únicas.
- Usa **`pivot_table`** cuando necesitas realizar agregaciones o manejar duplicados.

Estas herramientas hacen que la organización y análisis de datos sean más eficientes y flexibles.


# **2.5. Agregaciones y Agrupaciones**

En el análisis de datos, a menudo es necesario resumir grandes volúmenes de información para extraer patrones, tendencias o insights significativos. Las operaciones de **agregación** y **agrupación** en Pandas permiten realizar este tipo de análisis de manera eficiente y flexible.

### **¿Qué son las Agregaciones y Agrupaciones?**
1. **Agregaciones:** Son cálculos que condensan un conjunto de valores en una sola medida, como sumas, promedios o máximos.
2. **Agrupaciones:** Dividen los datos en subconjuntos basados en valores compartidos de una o más columnas, para luego aplicar funciones de agregación.

---

### **¿Por qué usar estas técnicas?**
1. **Resumir Datos:** Reducir la complejidad de los datos y centrarse en métricas clave.
2. **Analizar Grupos:** Comparar tendencias o patrones dentro de subgrupos específicos.
3. **Flexibilidad:** Personalizar cálculos y adaptarlos a las necesidades del análisis.

---

### **Ejemplos Comunes de Uso**
1. **Agrupaciones simples:** Resumir ventas por categoría de producto.
2. **Agrupaciones múltiples:** Calcular promedios de salario por departamento y ciudad.
3. **Funciones personalizadas:** Aplicar métricas específicas para cada grupo, como el rango de valores o el coeficiente de variación.

En este módulo, aprenderás a usar las herramientas de Pandas para realizar estas operaciones y adaptar los resultados a tus necesidades analíticas.


## **2.5.1 Uso de `groupby`**

El método `groupby` en Pandas permite dividir un DataFrame en grupos basados en los valores de una o más columnas. Una vez agrupados, puedes aplicar funciones de agregación o transformaciones personalizadas para analizar los datos dentro de cada grupo.

### **¿Por qué usar `groupby`?**
1. **Agrupaciones Simples:** Analizar datos segmentados por una categoría específica.
2. **Agrupaciones Múltiples:** Explorar patrones basados en combinaciones de varias categorías.
3. **Agregaciones Personalizadas:** Aplicar funciones propias para obtener métricas más avanzadas.

---


### **Agrupaciones Simples**

Las agrupaciones simples dividen los datos basándose en una sola columna y permiten aplicar funciones de agregación a cada grupo.

**Definición:**  
`dataframe.groupby('columna')['otra_columna'].funcion()`


In [None]:
# Crear un DataFrame de ejemplo
data = {'Categoría': ['A', 'B', 'A', 'B', 'C'], 'Ventas': [100, 200, 150, 300, 400]}
df = pd.DataFrame(data)

# Calcular la suma de ventas por categoría
suma_ventas = df.groupby('Categoría')['Ventas'].sum()

print("Suma de ventas por categoría:\n", suma_ventas)

### **Agrupaciones Múltiples**

Las agrupaciones múltiples permiten dividir los datos utilizando más de una columna como clave.

**Definición:**  
`dataframe.groupby(['columna1', 'columna2'])['otra_columna'].funcion()`

In [None]:
# Crear un DataFrame con múltiples categorías
data = {'Región': ['Norte', 'Norte', 'Sur', 'Sur', 'Este'],
        'Categoría': ['A', 'B', 'A', 'B', 'C'],
        'Ventas': [100, 200, 150, 300, 400]}
df = pd.DataFrame(data)

# Calcular el promedio de ventas por región y categoría
promedio_ventas = df.groupby(['Región', 'Categoría'])['Ventas'].mean()

print("Promedio de ventas por región y categoría:\n", promedio_ventas)

### **Agregaciones Personalizadas**

Pandas permite aplicar funciones personalizadas a cada grupo utilizando `apply` o `agg`.

**Definición:**  
`dataframe.groupby('columna')['otra_columna'].apply(funcion)`  
`dataframe.groupby('columna').agg({'otra_columna': funcion})`

In [None]:
# Definir una función personalizada
def rango(datos):
    return datos.max() - datos.min()

# Calcular el rango de ventas por categoría
rango_ventas = df.groupby('Categoría')['Ventas'].apply(rango)

print("Rango de ventas por categoría:\n", rango_ventas)

### **Tabla Resumen: Uso de `groupby`**

| **Método**                   | **Descripción**                                         | **Ejemplo**                                      |
|-------------------------------|-------------------------------------------------------|------------------------------------------------|
| `groupby('columna').sum()`   | Calcula la suma para cada grupo.                       | `df.groupby('Categoría')['Ventas'].sum()`      |
| `groupby(['col1', 'col2'])`  | Divide los datos basándose en varias columnas clave.   | `df.groupby(['Región', 'Categoría']).mean()`   |
| `apply(funcion)`             | Aplica una función personalizada a cada grupo.         | `df.groupby('Categoría')['Ventas'].apply(func)`|
| `agg({'col': funcion})`      | Permite agregar múltiples funciones a diferentes columnas.| `df.groupby('Categoría').agg({'Ventas': 'sum'})`|

### **Conclusión**

El método `groupby` en Pandas es una herramienta poderosa para dividir, agrupar y analizar datos de manera eficiente.  
- Usa **agrupaciones simples** para métricas básicas.  
- Usa **agrupaciones múltiples** para explorar combinaciones complejas.  
- Aplica **funciones personalizadas** para adaptarte a necesidades específicas.


## **2.5.2 Estadísticas Básicas**

Pandas ofrece métodos integrados que permiten calcular estadísticas descriptivas directamente sobre columnas o filas de un DataFrame. Estas funciones son esenciales para obtener resúmenes rápidos y analizar la distribución de los datos.

### **¿Por qué usar estadísticas básicas?**
1. **Explorar Datos:** Obtener información sobre la distribución, tendencia y dispersión de los datos.
2. **Identificar Patrones:** Comparar métricas como promedio, mínimo o máximo entre diferentes variables.
3. **Facilidad y Eficiencia:** Métodos rápidos y optimizados para grandes volúmenes de datos.

---


### **Suma de Valores (`sum`)**

El método `sum` calcula la suma de todos los valores en una Serie o columna. También puede aplicarse a todo el DataFrame, sumando por columnas o filas.

**Definición:**  
`serie.sum()`  
`dataframe.sum(axis=0)`

**Parámetros Clave:**
- **`axis=0`:** Suma por columnas (predeterminado).
- **`axis=1`:** Suma por filas.
- **`skipna`:** Si es `True` (predeterminado), ignora valores `NaN`.


In [None]:
# Crear un DataFrame de ejemplo
data = {'Producto': ['A', 'B', 'C'], 'Ventas': [100, 200, 150], 'Devoluciones': [10, 5, 8]}
df = pd.DataFrame(data)

# Suma de una columna específica
suma_ventas = df['Ventas'].sum()

# Suma por columnas
suma_columnas = df.sum(axis=0)

# Suma por filas
suma_filas = df.sum(axis=1)

print("Suma de ventas:", suma_ventas)
print("Suma por columnas:\n", suma_columnas)
print("Suma por filas:\n", suma_filas)


### **Promedio de Valores (`mean`)**

El método `mean` calcula el promedio (media aritmética) de los valores en una Serie o columna.

**Definición:**  
`serie.mean()`  
`dataframe.mean(axis=0)`

**Parámetros Clave:**
- **`axis=0`:** Calcula el promedio por columnas (predeterminado).
- **`axis=1`:** Calcula el promedio por filas.
- **`skipna`:** Ignora valores `NaN` si es `True` (predeterminado).

In [None]:
# Calcular el promedio de una columna
promedio_ventas = df['Ventas'].mean()

# Promedio por columnas
promedio_columnas = df.mean(axis=0)

# Promedio por filas
promedio_filas = df.mean(axis=1)

print("Promedio de ventas:", promedio_ventas)
print("Promedio por columnas:\n", promedio_columnas)
print("Promedio por filas:\n", promedio_filas)

### **Valor Mínimo (`min`)**

El método `min` devuelve el valor mínimo en una Serie o columna.

**Definición:**  
`serie.min()`  
`dataframe.min(axis=0)`

**Parámetros Clave:**
- **`axis=0`:** Devuelve el mínimo por columnas (predeterminado).
- **`axis=1`:** Devuelve el mínimo por filas.
- **`skipna`:** Ignora valores `NaN` si es `True`.


In [None]:
# Valor mínimo de una columna
minimo_ventas = df['Ventas'].min()

# Mínimo por columnas
minimo_columnas = df.min(axis=0)

# Mínimo por filas
minimo_filas = df.min(axis=1)

print("Mínimo de ventas:", minimo_ventas)
print("Mínimo por columnas:\n", minimo_columnas)
print("Mínimo por filas:\n", minimo_filas)

### **Valor Máximo (`max`)**

El método `max` devuelve el valor máximo en una Serie o columna.

**Definición:**  
`serie.max()`  
`dataframe.max(axis=0)`

**Parámetros Clave:**
- **`axis=0`:** Devuelve el máximo por columnas (predeterminado).
- **`axis=1`:** Devuelve el máximo por filas.
- **`skipna`:** Ignora valores `NaN` si es `True`.


In [None]:
# Valor máximo de una columna
maximo_ventas = df['Ventas'].max()

# Máximo por columnas
maximo_columnas = df.max(axis=0)

# Máximo por filas
maximo_filas = df.max(axis=1)

print("Máximo de ventas:", maximo_ventas)
print("Máximo por columnas:\n", maximo_columnas)
print("Máximo por filas:\n", maximo_filas)

### **Estadísticas por Columnas o Filas**

Pandas permite aplicar estas estadísticas a todo el DataFrame, especificando si se calcula por columnas (`axis=0`, predeterminado) o por filas (`axis=1`).

**Definición:**  
`dataframe.metodo(axis=0)`

In [None]:
# Estadísticas por columnas
suma_columnas = df.sum(axis=0)

# Estadísticas por filas
suma_filas = df.sum(axis=1)

print("Suma por columnas:\n", suma_columnas)
print("\nSuma por filas:\n", suma_filas)

### **Tabla Resumen: Métodos Básicos**

| **Método**   | **Descripción**                               | **Ejemplo**                          |
|--------------|-----------------------------------------------|--------------------------------------|
| `sum`        | Calcula la suma de los valores.               | `df['Ventas'].sum()`                |
| `mean`       | Calcula el promedio de los valores.           | `df['Devoluciones'].mean()`         |
| `min`        | Encuentra el valor mínimo.                    | `df['Ventas'].min()`                |
| `max`        | Encuentra el valor máximo.                    | `df['Ventas'].max()`                |
| `axis=0`     | Aplica la operación por columnas.             | `df.sum(axis=0)`                    |
| `axis=1`     | Aplica la operación por filas.                | `df.sum(axis=1)`                    |


### **Conclusión**

Las estadísticas básicas en Pandas permiten explorar y analizar rápidamente los datos en un DataFrame.  
- Usa **métodos individuales** (`sum`, `mean`, `min`, `max`) para analizar columnas específicas.  
- Usa **estadísticas por filas o columnas** para comparar y resumir datos a nivel global.  

Estas herramientas son esenciales para obtener insights iniciales de cualquier dataset.


# **2.6. Transformación y Limpieza de Datos**

La limpieza y transformación de datos son procesos clave en cualquier flujo de trabajo de análisis de datos. Pandas proporciona herramientas robustas para manejar valores faltantes, eliminar duplicados y transformar datos, garantizando la calidad y precisión en el análisis.

### **¿Por qué es crucial la limpieza y transformación?**
1. **Evitar Errores:** Los valores nulos o inconsistentes pueden sesgar resultados.
2. **Optimizar Análisis:** Los datos limpios son más fáciles de explorar y analizar.
3. **Preparar Datos:** Transformar datos en un formato adecuado para modelos y visualizaciones.

---


## **Detección y Manejo de Valores Nulos**

Los valores nulos (`NaN`) son comunes en datasets y pueden afectar cálculos, visualizaciones y modelos predictivos. Pandas ofrece herramientas flexibles para identificar y manejar estos valores, asegurando que los datos sean consistentes y aptos para el análisis.

---


### **Identificar Valores Nulos**

Para detectar valores nulos, Pandas utiliza los métodos:
- **`isnull`:** Devuelve una máscara booleana donde los valores nulos son `True`.
- **`notnull`:** Devuelve una máscara booleana donde los valores no nulos son `True`.

**Definición:**  
`dataframe.isnull()`  
`dataframe.notnull()`


In [None]:
# Crear un DataFrame con valores nulos
data = {'A': [1, 2, np.nan], 'B': [4, np.nan, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# Identificar valores nulos
nulos = df.isnull()

# Identificar valores no nulos
no_nulos = df.notnull()

print("Valores nulos:\n", nulos)
print("\nValores no nulos:\n", no_nulos)

### **Rellenar Valores Faltantes**

El método `fillna` permite reemplazar los valores nulos con otros valores. Esto es útil para evitar que los valores nulos afecten cálculos o visualizaciones.

**Definición:**  
`dataframe.fillna(valor, method='metodo')`

**Parámetros Clave:**
- **`valor`:** Valor con el que rellenar los nulos (por ejemplo, 0, promedio, mediana).
- **`method`:** Método de propagación (`ffill` para hacia adelante o `bfill` para hacia atrás).


In [None]:
# Rellenar valores nulos con un valor constante
df_rellenado_constante = df.fillna(0)

# Rellenar valores nulos con el promedio de la columna
df_rellenado_promedio = df.fillna(df.mean())

print("DataFrame con valores nulos rellenados con 0:\n", df_rellenado_constante)
print("\nDataFrame con valores nulos rellenados con el promedio:\n", df_rellenado_promedio)

### **Eliminar Valores Nulos**

El método `dropna` elimina filas o columnas que contienen valores nulos.

**Definición:**  
`dataframe.dropna(axis=0, how='any')`

**Parámetros Clave:**
- **`axis=0`:** Elimina filas con valores nulos (predeterminado).
- **`axis=1`:** Elimina columnas con valores nulos.
- **`how='any'`:** Elimina si hay al menos un valor nulo.
- **`how='all'`:** Elimina si todos los valores son nulos.

In [None]:
# Eliminar filas con al menos un valor nulo
df_sin_nulos_filas = df.dropna(axis=0, how='any')

# Eliminar columnas con todos los valores nulos
df_sin_nulos_columnas = df.dropna(axis=1, how='all')

print("DataFrame después de eliminar filas con valores nulos:\n", df_sin_nulos_filas)
print("\nDataFrame después de eliminar columnas con todos valores nulos:\n", df_sin_nulos_columnas)

## **Detección y Eliminación de Duplicados**

En muchos datasets, es común encontrar datos duplicados que pueden distorsionar resultados, aumentar redundancia o inflar estadísticas. Pandas ofrece herramientas para identificar y eliminar estas duplicidades de manera eficiente.

---

### **Identificar Duplicados**

El método `duplicated` genera una máscara booleana que indica si una fila es duplicada en comparación con las anteriores. Este método es útil para detectar duplicados rápidamente.

**Definición:**  
`dataframe.duplicated()`

**Parámetros Clave:**
- **`subset`:** Especifica las columnas en las que buscar duplicados (por defecto, todas las columnas).
- **`keep`:** Determina cuál duplicado marcar como no duplicado:
  - **`'first'` (predeterminado):** Marca duplicados excepto la primera aparición.
  - **`'last':`** Marca duplicados excepto la última aparición.
  - **`False`:** Marca todas las apariciones como duplicadas.


In [None]:
# Crear un DataFrame con filas duplicadas
data = {'ID': [1, 2, 2, 4], 'Nombre': ['Juan', 'Ana', 'Ana', 'Luis']}
df = pd.DataFrame(data)

# Identificar duplicados
duplicados = df.duplicated()

print("Máscara de duplicados:\n", duplicados)

### **Eliminar Duplicados**

El método `drop_duplicates` elimina filas duplicadas del DataFrame, conservando solo la primera o última ocurrencia según lo especificado.

**Definición:**  
`dataframe.drop_duplicates(keep='first')`

**Parámetros Clave:**
- **`subset`:** Columnas específicas para identificar duplicados.
- **`keep`:** Especifica qué duplicado conservar:
  - **`'first'`:** Conserva la primera aparición (predeterminado).
  - **`'last'`:** Conserva la última aparición.
  - **`False`:** Elimina todas las filas duplicadas.
- **`inplace`:** Si es `True`, modifica el DataFrame original.


In [None]:
# Eliminar duplicados conservando solo la primera ocurrencia
df_sin_duplicados = df.drop_duplicates(keep='first')

# Eliminar duplicados en una columna específica
df_sin_duplicados_nombre = df.drop_duplicates(subset=['Nombre'], keep='last')

print("DataFrame sin duplicados (conservando primera aparición):\n", df_sin_duplicados)
print("\nDataFrame sin duplicados basados en 'Nombre':\n", df_sin_duplicados_nombre)

### **Aplicar Funciones con `apply`**

El método `apply` permite aplicar funciones personalizadas a columnas o filas de un DataFrame.

**Definición:**  
`dataframe['columna'].apply(funcion)`

**Casos de Uso:**
- Aplicar transformaciones a todos los valores de una columna.
- Usar funciones lambda para transformaciones rápidas.

In [None]:
# Crear un DataFrame de ejemplo
data = {'Ventas': [100, 200, 300]}
df = pd.DataFrame(data)

# Definir una función personalizada
def agregar_iva(valor):
    return valor * 1.21

# Aplicar la función personalizada a la columna 'Ventas'
df['Ventas con IVA'] = df['Ventas'].apply(agregar_iva)

print("DataFrame con IVA aplicado:\n", df)

### **Transformar Valores con `map`**

El método `map` transforma valores elemento a elemento en Series. Es útil para:
- Reemplazar valores.
- Realizar cálculos rápidos.
- Aplicar transformaciones usando diccionarios o funciones.

**Definición:**  
`serie.map(funcion_o_diccionario)`


In [None]:
# Crear una Serie de ejemplo
df['Categoría'] = ['A', 'B', 'C']

# Usar map para transformar elementos
transformacion = {'A': 'Alta', 'B': 'Media', 'C': 'Baja'}
df['Nivel'] = df['Categoría'].map(transformacion)

print("DataFrame con valores transformados:\n", df)

### **Operaciones Vectorizadas**

Las operaciones vectorizadas permiten realizar cálculos directamente sobre columnas, aprovechando la velocidad y optimización de NumPy.

**Definición:**  
`dataframe['columna'] operacion valor`

In [None]:
# Crear una columna calculada usando operaciones vectorizadas
df['Ventas con Descuento'] = df['Ventas'] * 0.90

print("DataFrame con descuento aplicado:\n", df)

### **Tabla Resumen: Métodos de Limpieza y Transformación**

| **Método**            | **Objetivo**                                      | **Ejemplo**                                |
|------------------------|--------------------------------------------------|--------------------------------------------|
| `isnull`              | Identificar valores nulos.                       | `df.isnull()`                              |
| `notnull`             | Identificar valores no nulos.                    | `df.notnull()`                             |
| `fillna`              | Rellenar valores nulos.                          | `df.fillna(0)`                             |
| `dropna`              | Eliminar filas o columnas con valores nulos.     | `df.dropna(axis=0, how='any')`             |
| `duplicated`          | Identificar filas duplicadas.                    | `df.duplicated()`                          |
| `drop_duplicates`     | Eliminar filas duplicadas.                       | `df.drop_duplicates(keep='first')`         |
| `apply`               | Aplicar funciones personalizadas a columnas.     | `df['columna'].apply(funcion)`             |
| `map`                 | Aplicar transformaciones elemento a elemento.    | `serie.map(funcion)`                       |
| `Operaciones Vectorizadas`| Realizar cálculos directamente en columnas.  | `df['Ventas'] * 1.10`                     |

### **Conclusión**

Pandas proporciona herramientas potentes para manejar valores nulos, duplicados y transformar columnas.  
- Usa **`isnull` y `notnull`** para detectar valores faltantes.  
- Usa **`fillna` y `dropna`** para manejar nulos de manera eficiente.  
- Usa **`duplicated` y `drop_duplicates`** para eliminar redundancias en tus datos.  
- Aplica **`apply`, `map` y operaciones vectorizadas** para transformar columnas de manera personalizada.

Estas herramientas son esenciales para garantizar la calidad y consistencia en el análisis de datos.


# **2.7. Análisis de Datos**

El análisis de datos es una etapa crucial en cualquier proceso de manipulación de datos. Pandas proporciona herramientas avanzadas para explorar, resumir y exportar información de manera eficiente. Estas funcionalidades permiten extraer insights clave y preparar los datos para análisis más profundos o para integrarlos en sistemas externos.

### **¿Qué aprenderás en este módulo?**
1. **Explorar Datos con `describe`:** Generar resúmenes estadísticos rápidos para entender la distribución y características de los datos.
2. **Calcular Estadísticas Básicas:** Aplicar métodos como suma, promedio, mínimos y máximos para obtener métricas relevantes.
3. **Exportar Resultados:** Guardar DataFrames en formatos como CSV o Excel, facilitando la integración con herramientas externas o la distribución de los resultados.

### **¿Por qué es importante el análisis de datos?**
1. **Visión General:** Proporciona una descripción inicial de los datos, destacando patrones y posibles problemas.
2. **Toma de Decisiones:** Permite calcular métricas clave que informan decisiones basadas en datos.
3. **Documentación y Presentación:** Exportar resultados en formatos accesibles facilita la comunicación y documentación del trabajo realizado.

En este módulo, aprenderás a usar herramientas fundamentales de Pandas para explorar, analizar y exportar datos de manera eficiente y profesional.


## **2.7.1 Uso de `describe` para Resúmenes Estadísticos**

El método `describe` de Pandas genera un resumen estadístico básico del DataFrame, proporcionando una visión general de los datos. Este método es esencial para comprender rápidamente las características clave de las columnas, tanto numéricas como categóricas.

---

### **Beneficios de Usar `describe`**
1. **Rapidez:** Genera resúmenes estadísticos en una sola línea de código.
2. **Flexibilidad:** Admite personalización según los tipos de datos y métricas requeridas.
3. **Visión General:** Proporciona una descripción clara de las distribuciones y características de los datos.

### **Aplicaciones Comunes**
- **Análisis Exploratorio:** Obtener un resumen rápido al comenzar un análisis de datos.
- **Detección de Problemas:** Identificar columnas con valores atípicos o faltantes.
- **Validación de Datos:** Verificar si las características de los datos coinciden con las expectativas.


In [15]:
# Crear un DataFrame de ejemplo
data = {'Ventas': [100, 200, 300, 400], 'Categoría': ['A', 'B', 'A', 'C']}
df = pd.DataFrame(data)

# Generar un resumen estadístico básico
resumen = df.describe()

print("Resumen estadístico básico:\n", resumen)

Resumen estadístico básico:
            Ventas
count    4.000000
mean   250.000000
std    129.099445
min    100.000000
25%    175.000000
50%    250.000000
75%    325.000000
max    400.000000


### **Aplicaciones Comunes**

#### **1. Análisis Exploratorio**
Permite obtener un resumen rápido al comenzar un análisis de datos.

**Ejemplo:**


In [12]:
# Resumen de columnas numéricas para entender la distribución de los datos
resumen_numerico = df.describe()

print("Resumen numérico:\n", resumen_numerico)

Resumen numérico:
             Edad      Salario   Impuestos
count   3.000000     3.000000    3.000000
mean   25.333333  2833.333333  425.000000
std     6.506407  1258.305739  188.745861
min    19.000000  1500.000000  225.000000
25%    22.000000  2250.000000  337.500000
50%    25.000000  3000.000000  450.000000
75%    28.500000  3500.000000  525.000000
max    32.000000  4000.000000  600.000000


#### **2. Detección de Problemas**
Identifica columnas con valores atípicos, distribuciones inesperadas o datos faltantes.

**Ejemplo:**

In [16]:
# Agregar valores atípicos y generar el resumen
df['Ventas'] = [100, 200, 300, 10000]
resumen_outlier = df.describe()

print("Resumen con valores atípicos:\n", resumen_outlier)

Resumen con valores atípicos:
              Ventas
count      4.000000
mean    2650.000000
std     4900.680225
min      100.000000
25%      175.000000
50%      250.000000
75%     2725.000000
max    10000.000000


#### **3. Validación de Datos**
Verifica si las características de los datos coinciden con las expectativas iniciales.

**Ejemplo:**


In [14]:
# Confirmar si los datos categóricos tienen la cantidad esperada de categorías únicas
resumen_categorico = df.describe(include=['object'])

print("Resumen de datos categóricos:\n", resumen_categorico)

Resumen de datos categóricos:
        Nombre Departamento
count       3            3
unique      3            1
top      Juan       Ventas
freq        1            3


## **2.7.2 Resúmenes Estadísticos Básicos para Columnas Numéricas**

El método `describe` en Pandas proporciona un resumen estadístico clave para columnas numéricas. Este resumen incluye métricas básicas y avanzadas que permiten analizar rápidamente la distribución y características de los datos.

### **Métricas Incluidas**
1. **Recuento (`count`)**: Número de valores no nulos en la columna.
2. **Promedio (`mean`)**: Media aritmética de los valores.
3. **Desviación Estándar (`std`)**: Mide la dispersión de los datos respecto al promedio.
4. **Mínimo y Máximo (`min`, `max`)**: Valores extremos en la columna.
5. **Percentiles (25%, 50%, 75%)**: Dividen los datos en cuartiles principales.
6. **Rango (`range`)**: Diferencia entre el valor máximo y mínimo.
7. **Mediana (`median`)**: Valor central de la distribución.
8. **Varianza (`var`)**: Mide la dispersión cuadrática respecto a la media.
9. **Coeficiente de Variación (`std / mean`)**: Relación entre la desviación estándar y la media, útil para comparar la variabilidad entre columnas.

---


## **Recuento (`count`)**

El `count` muestra el número de valores no nulos en una columna. Es útil para identificar columnas con valores faltantes o para verificar la cantidad de datos disponibles.

**Definición:**  
`dataframe['columna'].count()`


In [None]:
# Crear un DataFrame de ejemplo
data = {'Ventas': [100, 200, 300, None], 'Descuentos': [5, 10, None, 20]}
df = pd.DataFrame(data)

# Calcular el recuento
recuento = df['Ventas'].count()

print("Recuento de valores no nulos en 'Ventas':", recuento)

## **Promedio (`mean`)**

El `mean` calcula la media aritmética de los valores en una columna. Es útil para identificar el centro de la distribución de los datos.

**Definición:**  
`dataframe['columna'].mean()`


In [None]:
# Calcular el promedio de la columna 'Ventas'
promedio = df['Ventas'].mean()

print("Promedio de 'Ventas':", promedio)

## **Desviación Estándar (`std`)**

El `std` mide la dispersión de los valores respecto al promedio. Valores más altos indican mayor variabilidad en los datos.

**Definición:**  
`dataframe['columna'].std()`


In [None]:
# Calcular la desviación estándar de la columna 'Ventas'
desviacion_estandar = df['Ventas'].std()

print("Desviación estándar de 'Ventas':", desviacion_estandar)

## **Mínimo y Máximo (`min`, `max`)**

- **`min`:** Encuentra el valor mínimo en una columna.
- **`max`:** Encuentra el valor máximo en una columna.

**Definición:**  
`dataframe['columna'].min()`  
`dataframe['columna'].max()`

In [None]:
# Calcular el mínimo y máximo de la columna 'Ventas'
minimo = df['Ventas'].min()
maximo = df['Ventas'].max()

print("Mínimo de 'Ventas':", minimo)
print("Máximo de 'Ventas':", maximo)

## **Percentiles (25%, 50%, 75%)**

Los percentiles dividen los datos en partes iguales, mostrando los valores en el 25%, 50% (mediana) y 75% de la distribución.

**Definición:**  
`dataframe['columna'].quantile([0.25, 0.5, 0.75])`


In [None]:
# Calcular los percentiles de la columna 'Ventas'
percentiles = df['Ventas'].quantile([0.25, 0.5, 0.75])

print("Percentiles de 'Ventas':\n", percentiles)

## **Rango (`range`)**

El rango mide la amplitud de los datos, calculando la diferencia entre el valor máximo y el mínimo en una columna. Es útil para entender la extensión total de la distribución.

**Definición:**  
`dataframe['columna'].max() - dataframe['columna'].min()`


In [None]:
# Calcular el rango de la columna 'Ventas'
rango = df['Ventas'].max() - df['Ventas'].min()

print("Rango de 'Ventas':", rango)

## **Mediana (`median`)**

La mediana representa el valor central de la distribución cuando los datos están ordenados. Es menos sensible a valores atípicos que el promedio.

**Definición:**  
`dataframe['columna'].median()`


In [None]:
# Calcular la mediana de la columna 'Ventas'
mediana = df['Ventas'].median()

print("Mediana de 'Ventas':", mediana)

## **Varianza (`var`)**

La varianza mide la dispersión cuadrática de los datos respecto al promedio. Valores más altos indican mayor dispersión.

**Definición:**  
`dataframe['columna'].var()`


In [None]:
# Calcular la varianza de la columna 'Ventas'
varianza = df['Ventas'].var()

print("Varianza de 'Ventas':", varianza)

## **Coeficiente de Variación (`std / mean`)**

El coeficiente de variación es la relación entre la desviación estándar y la media. Es útil para comparar la variabilidad relativa entre columnas o datasets.

**Definición:**  
`dataframe['columna'].std() / dataframe['columna'].mean()`


In [None]:
# Calcular el coeficiente de variación de la columna 'Ventas'
coef_var = df['Ventas'].std() / df['Ventas'].mean()

print("Coeficiente de variación de 'Ventas':", coef_var)

### **Tabla Resumen: Resúmenes Estadísticos Básicos (Ampliado)**

| **Métrica**            | **Descripción**                                     | **Ejemplo**                          |
|-------------------------|-----------------------------------------------------|--------------------------------------|
| `count`                | Número de valores no nulos.                         | `df['Ventas'].count()`              |
| `mean`                 | Promedio aritmético de los valores.                 | `df['Ventas'].mean()`               |
| `std`                  | Dispersión respecto al promedio.                    | `df['Ventas'].std()`                |
| `min` y `max`          | Valores mínimo y máximo en la columna.              | `df['Ventas'].min()`, `max()`       |
| Percentiles            | Valores en el 25%, 50% (mediana), y 75%.            | `df['Ventas'].quantile([0.25])`     |
| `range`                | Diferencia entre el valor máximo y mínimo.          | `df['Ventas'].max() - .min()`       |
| `median`               | Valor central de la distribución.                   | `df['Ventas'].median()`             |
| `var`                  | Dispersión cuadrática respecto al promedio.         | `df['Ventas'].var()`                |
| `std / mean`           | Relación entre la desviación estándar y la media.   | `df['Ventas'].std() / .mean()`      |

### **Conclusión General**

El método `describe` y las métricas adicionales proporcionan una base sólida para analizar columnas numéricas en Pandas. Estas herramientas permiten:
1. **Comprender la Distribución:** Métricas como el promedio, mediana y percentiles ayudan a identificar el centro y la dispersión de los datos.
2. **Detectar Problemas:** Indicadores como el rango, desviación estándar y varianza resaltan valores atípicos o distribuciones inusuales.
3. **Comparar Columnas:** El coeficiente de variación facilita la comparación de la variabilidad entre diferentes columnas o datasets.

Estas estadísticas son fundamentales para el análisis exploratorio y la preparación de datos, ayudándote a tomar decisiones informadas antes de realizar análisis más avanzados.



## **2.7.3 Resúmenes de Datos Categóricos**

El método `describe` en Pandas también genera resúmenes estadísticos para columnas categóricas. Estas métricas son útiles para comprender la distribución y características de los datos no numéricos, como texto o etiquetas.

### **Métricas Principales**
1. **Recuento (`count`)**: Número de valores no nulos.
2. **Valores Únicos (`unique`)**: Número de categorías únicas en la columna.
3. **Frecuencia del Valor Más Común (`freq`)**: Número de veces que aparece el valor más frecuente.
4. **Valor Más Frecuente (`top`)**: Valor que aparece con mayor frecuencia en la columna.

Estas métricas son fundamentales para analizar datos categóricos, identificar patrones y detectar problemas como valores atípicos o etiquetas inconsistentes.

---


## **Recuento (`count`)**

El `count` muestra el número de valores no nulos en una columna categórica. Es útil para identificar cuántos datos válidos hay en una columna específica.

**Definición:**  
`dataframe['columna'].count()`


In [None]:
# Crear un DataFrame de ejemplo
data = {'Categoría': ['A', 'B', 'A', None, 'C']}
df = pd.DataFrame(data)

# Calcular el recuento de valores no nulos
recuento = df['Categoría'].count()

print("Recuento de valores no nulos en 'Categoría':", recuento)

## **Valores Únicos (`unique`)**

El `unique` devuelve el número de categorías únicas en una columna. Es útil para identificar la diversidad de valores en una columna categórica.

**Definición:**  
`dataframe['columna'].nunique()`  
`dataframe['columna'].unique()`


In [None]:
# Calcular el número de categorías únicas
num_categorias = df['Categoría'].nunique()

# Listar las categorías únicas
categorias_unicas = df['Categoría'].unique()

print("Número de categorías únicas en 'Categoría':", num_categorias)
print("Categorías únicas:\n", categorias_unicas)

## **Frecuencia del Valor Más Común (`freq`)**

El `freq` muestra cuántas veces aparece el valor más frecuente en una columna categórica. Esto ayuda a identificar categorías dominantes o patrones comunes.

**Definición:**  
`dataframe['columna'].value_counts().iloc[0]`

In [None]:
# Calcular la frecuencia del valor más común
frecuencia = df['Categoría'].value_counts().iloc[0]

print("Frecuencia del valor más común en 'Categoría':", frecuencia)

## **Valor Más Frecuente (`top`)**

El `top` devuelve el valor más frecuente en una columna categórica. Es útil para identificar la categoría dominante en los datos.

**Definición:**  
`dataframe['columna'].value_counts().idxmax()`

In [None]:
# Calcular el valor más frecuente
valor_top = df['Categoría'].value_counts().idxmax()

print("Valor más frecuente en 'Categoría':", valor_top)

### **Tabla Resumen: Resúmenes de Datos Categóricos**

| **Métrica**       | **Descripción**                                   | **Ejemplo**                                  |
|--------------------|---------------------------------------------------|---------------------------------------------|
| `count`           | Número de valores no nulos.                       | `df['Categoría'].count()`                   |
| `unique`          | Devuelve las categorías únicas.                   | `df['Categoría'].unique()`                  |
| `nunique`         | Número de categorías únicas.                      | `df['Categoría'].nunique()`                 |
| `freq`            | Frecuencia del valor más común.                   | `df['Categoría'].value_counts().iloc[0]`   |
| `top`             | Valor más frecuente en la columna.                | `df['Categoría'].value_counts().idxmax()`   |

### **Conclusión**

El análisis de datos categóricos con `describe` es esencial para:
1. **Comprender la Distribución:** Identificar las categorías más comunes y su frecuencia.
2. **Detectar Problemas:** Identificar valores atípicos, etiquetas inconsistentes o datos faltantes.
3. **Preparar Datos:** Obtener insights sobre la diversidad de valores en columnas categóricas.

Estas métricas proporcionan una visión clara y detallada de las características de los datos no numéricos.


## **2.7.4 Personalización del Análisis**

El método `describe` en Pandas permite personalizar los resúmenes generados mediante parámetros adicionales. Estas opciones permiten ajustar el análisis a necesidades específicas, enfocándose en ciertos tipos de datos o ajustando las métricas calculadas.

### **Opciones Principales**
1. **`percentiles`:** Define los percentiles que se deben calcular (por defecto, 25%, 50%, 75%).
2. **`include`:** Especifica los tipos de columnas a incluir en el análisis.
   - **`include='all'`:** Incluye todas las columnas, tanto numéricas como categóricas.
   - **`include=[tipo]`:** Filtra por tipos de datos específicos, como `number` o `category`.
3. **`exclude`:** Excluye ciertos tipos de columnas del análisis, como columnas categóricas o booleanas.

Estas opciones proporcionan un control granular sobre los resúmenes generados, adaptándolos al contexto y necesidades del análisis.

---


## **`percentiles`**

El parámetro `percentiles` permite personalizar qué percentiles deben calcularse al generar el resumen estadístico. Por defecto, se calculan los percentiles 25%, 50% (mediana) y 75%.

**Definición:**  
`dataframe.describe(percentiles=[valores])`


In [None]:
# Crear un DataFrame de ejemplo
data = {'Ventas': [100, 200, 300, 400, 500]}
df = pd.DataFrame(data)

# Personalizar los percentiles calculados
resumen_percentiles = df.describe(percentiles=[0.1, 0.5, 0.9])

print("Resumen con percentiles personalizados:\n", resumen_percentiles)

## **`include`**

El parámetro `include` permite especificar qué tipos de columnas deben incluirse en el análisis. Esto es útil para filtrar columnas categóricas, numéricas o de otros tipos específicos.

**Definición:**  
`dataframe.describe(include=[tipos])`

**Opciones Comunes:**
- **`include='all'`:** Incluye todas las columnas del DataFrame.
- **`include=['number']`:** Solo analiza columnas numéricas.
- **`include=['object']`:** Solo analiza columnas categóricas.

In [None]:
# Generar resumen solo para columnas numéricas
resumen_numerico = df.describe(include=['number'])

print("Resumen de columnas numéricas:\n", resumen_numerico)

## **`exclude`**

El parámetro `exclude` excluye ciertos tipos de columnas del análisis, eliminándolas del resumen generado.

**Definición:**  
`dataframe.describe(exclude=[tipos])`

**Opciones Comunes:**
- **`exclude=['number']`:** Excluye columnas numéricas.
- **`exclude=['object']`:** Excluye columnas categóricas.

In [None]:
# Crear un DataFrame con datos mixtos
data = {'Ventas': [100, 200, 300], 'Categoría': ['A', 'B', 'C']}
df = pd.DataFrame(data)

# Excluir columnas categóricas del análisis
resumen_excluido = df.describe(exclude=['object'])

print("Resumen excluyendo columnas categóricas:\n", resumen_excluido)

### **Tabla Resumen: Personalización del Análisis**

| **Parámetro**   | **Descripción**                                    | **Ejemplo**                                  |
|------------------|----------------------------------------------------|---------------------------------------------|
| `percentiles`   | Personaliza qué percentiles incluir en el análisis. | `df.describe(percentiles=[0.1, 0.9])`       |
| `include`       | Especifica los tipos de columnas a incluir.         | `df.describe(include=['number'])`           |
| `exclude`       | Excluye tipos específicos de columnas del análisis.| `df.describe(exclude=['object'])`           |

### **Conclusión**

La personalización del método `describe` en Pandas permite ajustar el análisis a las necesidades específicas del usuario:
- **`percentiles`** para ajustar los puntos clave de la distribución que se muestran.
- **`include`** y **`exclude`** para filtrar los tipos de columnas relevantes para el análisis.

Estas herramientas hacen que `describe` sea aún más flexible y adaptativo para diferentes contextos de análisis.



# **2.8 Exportar Resultados**

En cualquier flujo de trabajo de análisis de datos, llega un momento en el que los resultados necesitan ser guardados o compartidos. Pandas proporciona herramientas versátiles para exportar DataFrames a diversos formatos, como CSV y Excel, lo que facilita la integración con otras herramientas, la documentación del trabajo y la distribución de informes.

### **¿Por qué es importante exportar resultados?**
1. **Colaboración:** Permite compartir análisis y resultados con equipos de trabajo o stakeholders.
2. **Integración:** Los formatos de exportación son compatibles con otras herramientas como Excel, bases de datos y sistemas de gestión.
3. **Almacenamiento:** Guardar los datos en formatos comunes asegura la persistencia y accesibilidad futura.

### **¿Qué aprenderás en este submódulo?**
1. Cómo exportar DataFrames a archivos **CSV** y **Excel**, ajustando detalles como la inclusión de índices y separadores.
2. Cómo aprovechar opciones avanzadas como el uso de múltiples hojas en Excel o la definición de codificaciones para archivos con caracteres especiales.
3. Las mejores prácticas para elegir el formato adecuado según el contexto del análisis o los requisitos del proyecto.

Este submódulo te permitirá dominar las opciones de exportación en Pandas para facilitar la transición de los resultados desde el análisis al mundo real.

## **2.8.1 Exportar a Archivos CSV (`to_csv`)**

El método `to_csv` guarda el contenido del DataFrame en un archivo CSV (Comma-Separated Values). Este formato es ampliamente utilizado por su simplicidad y compatibilidad con otras herramientas de análisis.

**Definición:**  
`dataframe.to_csv('nombre_archivo.csv', index=True, sep=',')`

**Parámetros Clave:**
- **`index`:** Si es `True` (por defecto), incluye el índice en el archivo.
- **`sep`:** Define el separador entre valores (por defecto, `','`).
- **`header`:** Especifica si los nombres de las columnas se incluirán en el archivo.


In [None]:
# Crear un DataFrame de ejemplo
data = {'Producto': ['A', 'B', 'C'], 'Ventas': [100, 200, 300]}
df = pd.DataFrame(data)

# Exportar a un archivo CSV sin incluir el índice
df.to_csv('ventas.csv', index=False)

print("El DataFrame ha sido exportado a 'ventas.csv'")

## **2.8.2 Exportar a Archivos Excel (`to_excel`)**

El método `to_excel` guarda el contenido del DataFrame en un archivo Excel. Este formato es ideal para informes y análisis más complejos.

**Definición:**  
`dataframe.to_excel('nombre_archivo.xlsx', index=True, sheet_name='Hoja1')`

**Parámetros Clave:**
- **`index`:** Si es `True` (por defecto), incluye el índice en el archivo.
- **`sheet_name`:** Define el nombre de la hoja donde se guardará el DataFrame.


In [None]:
# Exportar a un archivo Excel
df.to_excel('ventas.xlsx', index=False, sheet_name='Ventas')

print("El DataFrame ha sido exportado a 'ventas.xlsx'")

## **2.8.3 Opciones Avanzadas**

Pandas permite personalizar aún más la exportación mediante opciones avanzadas:
1. **Separadores Personalizados (`sep`)** en CSV.
   - Ejemplo: Usar `';'` en lugar de `','` como separador.
2. **Exportar a Múltiples Hojas** en Excel utilizando `ExcelWriter`.
   - Ideal para guardar diferentes DataFrames en el mismo archivo.
3. **Codificación (`encoding`)** para manejar caracteres especiales.
   - Por defecto, utiliza `utf-8`.

### **Exportar a Múltiples Hojas en Excel**
Puedes usar `ExcelWriter` para escribir varios DataFrames en un archivo Excel con diferentes hojas.

**Definición:**  
`with pd.ExcelWriter('archivo.xlsx') as writer:`


In [None]:
# Crear otro DataFrame para múltiples hojas
df_ventas = pd.DataFrame({'Producto': ['A', 'B'], 'Ventas': [100, 200]})
df_descuentos = pd.DataFrame({'Producto': ['A', 'B'], 'Descuento': [10, 20]})

# Exportar a un archivo Excel con múltiples hojas
with pd.ExcelWriter('reporte.xlsx') as writer:
    df_ventas.to_excel(writer, sheet_name='Ventas', index=False)
    df_descuentos.to_excel(writer, sheet_name='Descuentos', index=False)

print("El archivo 'reporte.xlsx' con múltiples hojas ha sido exportado")

### **Tabla Resumen: Métodos de Exportación**

| **Método**       | **Formato**                | **Descripción**                                            | **Ejemplo**                           |
|-------------------|---------------------------|------------------------------------------------------------|---------------------------------------|
| `to_csv`         | CSV                        | Guarda el DataFrame en un archivo CSV.                     | `df.to_csv('archivo.csv')`            |
| `to_excel`       | Excel                      | Guarda el DataFrame en un archivo Excel.                   | `df.to_excel('archivo.xlsx')`         |
| `ExcelWriter`    | Excel (Múltiples Hojas)    | Permite guardar varios DataFrames en un solo archivo Excel.| `ExcelWriter('archivo.xlsx')`         |

### **Conclusión**

La capacidad de exportar resultados es esencial para compartir datos o integrarlos en flujos de trabajo externos.  
- Usa **`to_csv`** para exportar datos en un formato simple y compatible.  
- Usa **`to_excel`** para generar informes más elaborados, incluyendo múltiples hojas.  
- Aprovecha las opciones avanzadas para personalizar la salida según las necesidades específicas.

Estas herramientas hacen que Pandas sea altamente adaptable y práctico para la distribución de resultados.
