## Ejemplos avanzados de selección y filtrado

#### 1. Uso de `loc`

El método `loc` se utiliza para seleccionar datos por **etiquetas** (nombres de índices o columnas). Es especialmente útil cuando se tiene un DataFrame con índices personalizados.

##### Ejemplo 1: Seleccionar filas por rango de etiquetas

Supongamos que tenemos el siguiente DataFrame:

In [None]:
import pandas as pd

# Creación de un DataFrame con índices personalizados
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Elena'],
    'Edad': [23, 35, 45, 29, 40],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao']
}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
print("DataFrame original:")
print(df)

Para seleccionar las filas que van desde el índice 'b' hasta 'd', se utiliza:

In [None]:
# Selecciona filas del índice 'b' hasta 'd' (inclusive)
subset = df.loc['b':'d']
print("\nFilas de 'b' a 'd':")
print(subset)

##### Ejemplo 2: Seleccionar filas y columnas específicas

Si queremos obtener las filas con índices 'b' y 'c' y solo las columnas "Nombre" y "Ciudad", se puede hacer de la siguiente manera:

In [None]:
subset_cols = df.loc[['b', 'c'], ['Nombre', 'Ciudad']]
print("\nFilas 'b' y 'c' con columnas 'Nombre' y 'Ciudad':")
print(subset_cols)

##### Ejemplo 3: Filtrado condicional utilizando loc

Podemos combinar `loc` con condiciones para filtrar datos. Por ejemplo, para seleccionar todas las filas donde la edad sea mayor a 30:

In [None]:
filtro = df.loc[df['Edad'] > 30]
print("\nFilas con Edad > 30:")
print(filtro)

#### 2. Uso de `iloc`

El método `iloc` permite acceder a los datos por **posición entera**. Es útil cuando se desconoce o no se utiliza el índice por etiquetas.

##### Ejemplo 1: Seleccionar filas por posición

Supongamos el mismo DataFrame `df`. Para obtener las dos primeras filas (índices 0 y 1 en base a la posición):


In [None]:
subset_iloc = df.iloc[0:2]
print("\nPrimeras 2 filas utilizando iloc:")
print(subset_iloc)

##### Ejemplo 2: Seleccionar filas y columnas por posición

Para obtener la primera y segunda fila y la primera y tercera columna (teniendo en cuenta que la posición es 0-indexada):

In [None]:
subset_iloc2 = df.iloc[0:2, [0, 2]]
print("\nPrimeras 2 filas y columnas 0 y 2:")
print(subset_iloc2)

##### Ejemplo 3: Uso de listas de posiciones

Si se desea seleccionar filas en posiciones específicas, por ejemplo, la fila 1 y la fila 3:

In [None]:
subset_iloc3 = df.iloc[[1, 3]]
print("\nFilas en posiciones 1 y 3:")
print(subset_iloc3)

#### 3. Uso de `iat`

El método `iat` es similar a `iloc` pero está optimizado para obtener un **único valor escalar** de manera muy rápida.

##### Ejemplo: Obtener un valor puntual

Para obtener, por ejemplo, el valor de la columna "Edad" en la fila que se encuentra en la posición 2:

In [None]:
valor = df.iat[2, 1]  # fila en posición 2, columna en posición 1 ('Edad')
print("\nValor escalar obtenido con iat (fila 2, columna 'Edad'):")
print(valor)

Este método es muy eficiente cuando se requiere acceder a un único elemento del DataFrame.

#### Ejemplos avanzados de Reshape en Pandas

El **reshape** se refiere a la reorganización o transformación de la forma de los datos. En Pandas se pueden usar varias técnicas para lograrlo, tales como `pivot()`, `melt()`, `stack()` y `unstack()`. También se puede usar `reshape` de NumPy para arrays, lo que es complementario en el análisis de datos.

##### 1. Uso de NumPy reshape

Antes de trabajar en Pandas, es útil ver cómo funciona `reshape` en NumPy:

In [None]:
import numpy as np

# Crea un array unidimensional
array = np.array([1, 2, 3, 4, 5, 6])
print("Array original:")
print(array)

# Cambia la forma a una matriz de 2 filas y 3 columnas
array_reshaped = array.reshape((2, 3))
print("\nArray reestructurado (2x3):")
print(array_reshaped)

##### 2. Uso de `pivot` en Pandas

El método `pivot` transforma datos de formato largo a formato ancho. Imagina que tienes un DataFrame con información de ventas por producto y mes:

In [None]:
# DataFrame de ejemplo
data = {
    'Producto': ['A', 'A', 'B', 'B'],
    'Mes': ['Enero', 'Febrero', 'Enero', 'Febrero'],
    'Ventas': [100, 150, 200, 250]
}
df_ventas = pd.DataFrame(data)
print("DataFrame de ventas:")
print(df_ventas)

Para reorganizar el DataFrame de forma que cada mes sea una columna, se utiliza `pivot`:

In [None]:
df_pivot = df_ventas.pivot(index='Producto', columns='Mes', values='Ventas')
print("\nDataFrame tras aplicar pivot:")
print(df_pivot)

Ahora, el índice son los productos y las columnas son los meses, con los valores correspondientes de ventas.

##### 3. Uso de `melt` en Pandas

El método `melt` realiza la operación inversa a `pivot`, transformando un DataFrame ancho a un formato largo. Esto es muy útil para preparar datos para ciertas visualizaciones o análisis.

Supongamos que tenemos el DataFrame de ventas pivotado del ejemplo anterior:


In [None]:
print("\nDataFrame pivotado:")
print(df_pivot)

Podemos volver a la forma larga:


In [None]:
df_melt = pd.melt(df_pivot.reset_index(), id_vars='Producto', value_vars=['Enero', 'Febrero'], 
                  var_name='Mes', value_name='Ventas')
print("\nDataFrame tras aplicar melt:")
print(df_melt)

Aquí, se utiliza `reset_index()` para que "Producto" vuelva a ser una columna y no un índice, facilitando la operación de melting.


##### 4. Uso de `stack` y `unstack`

Estos métodos permiten pivotear niveles del índice. Son muy útiles cuando se trabaja con DataFrames multiíndice.

##### Ejemplo con `stack`

In [None]:
# Crea un DataFrame con un índice simple
df_simple = pd.DataFrame({
    'A': [1, 2],
    'B': [3, 4]
}, index=['X', 'Y'])
print("\nDataFrame simple:")
print(df_simple)

# Aplica stack para apilar columnas y convertirlas en un nivel adicional de índice
df_stacked = df_simple.stack()
print("\nDataFrame tras aplicar stack:")
print(df_stacked)

El resultado de `stack` es una Serie donde las columnas se han convertido en un nivel del índice. Por ejemplo, el valor en la posición ('X', 'A') corresponde al 1.

##### Ejemplo con `unstack`

Para revertir la operación, se puede utilizar `unstack`:


In [None]:
# Revierte la operación de stack
df_unstacked = df_stacked.unstack()
print("\nDataFrame tras aplicar unstack (vuelve a la forma original):")
print(df_unstacked)

##### 5. Ejemplo completo de transformación de datos

Imaginemos un escenario en el que se dispone de un DataFrame de encuestas con múltiples columnas que se deben transformar para un análisis posterior. Supongamos el siguiente DataFrame:

In [None]:
data_encuesta = {
    'ID': [1, 2, 3],
    'Edad': [25, 30, 35],
    'Genero': ['F', 'M', 'F'],
    'Respuesta_A': [5, 3, 4],
    'Respuesta_B': [3, 4, 2]
}
df_encuesta = pd.DataFrame(data_encuesta)
print("\nDataFrame de encuesta original:")
print(df_encuesta)

Si queremos transformar este DataFrame para que cada respuesta se encuentre en filas separadas (formato largo), utilizamos `melt`:

In [None]:
df_encuesta_melt = pd.melt(df_encuesta, id_vars=['ID', 'Edad', 'Genero'], 
                           value_vars=['Respuesta_A', 'Respuesta_B'], 
                           var_name='Pregunta', value_name='Respuesta')
print("\nDataFrame de encuesta tras aplicar melt:")
print(df_encuesta_melt)

Con este formato largo, es más sencillo, por ejemplo, agrupar respuestas por género o edad y analizar las tendencias.

#### Buenas prácticas y consejos

- **Definir índices significativos:**  
  Al utilizar `loc` es muy útil tener índices con nombres descriptivos en lugar de simples enteros. Esto mejora la legibilidad y facilita la selección por etiquetas.

- **Utilizar slicing con cuidado:**  
  Con `loc`, el slicing **incluye** el último valor, a diferencia de `iloc` que es no inclusivo en el límite superior.  
  Por ejemplo:
  
  ```python
  # Con loc: se incluye la etiqueta 'd'
  print(df.loc['b':'d'])
  
  # Con iloc: se excluye la posición final
  print(df.iloc[1:4])
  ```

- **Conversión entre formatos:**  
  Las funciones `melt` y `pivot` son herramientas muy poderosas para convertir datos entre formatos anchos y largos. Esto es particularmente útil cuando se trabaja con librerías de visualización que requieren un formato de datos específico.

- **Verificar el DataFrame resultante:**  
  Después de realizar operaciones de reshape (stack, unstack, melt, pivot), es recomendable imprimir una parte del DataFrame (usando `head()` o `info()`) para asegurarse de que la transformación se realizó correctamente.

- **Evitar el uso de `ix`:**  
  Aunque algunos ejemplos históricos muestran su uso, es importante recordar que `ix` ha sido descontinuado y puede producir errores o comportamientos inesperados en versiones recientes de Pandas.

- **Acceso rápido a valores escalares con `iat`:**  
  Cuando se necesite obtener un solo valor, `iat` es la opción preferida por su eficiencia. Este método es muy útil dentro de bucles o en operaciones donde el rendimiento es crítico.


#### 1. Método **map()**

**map()** se aplica principalmente a **Series**. Este método itera sobre cada elemento de la Serie y permite transformar o sustituir los valores de acuerdo a una función, diccionario o una correspondencia definida.

#### Ejemplos de map()

**Ejemplo 1: Sumar 1 a cada elemento de una Serie**

In [None]:
import pandas as pd

# Crea una Serie de ejemplo
serie = pd.Series([10, 20, 30, 40])
# Utiliza map para sumar 1 a cada elemento
serie_modificada = serie.map(lambda x: x + 1)
print("Serie original:")
print(serie)
print("\nSerie con 1 sumado a cada elemento:")
print(serie_modificada)

**Ejemplo 2: Reemplazar valores utilizando un diccionario**

In [None]:
# Supongamos que tenemos una Serie de nombres cortos
nombres = pd.Series(['M', 'F', 'F', 'M', 'M'])
# Usamos un diccionario para mapear 'M' a 'Masculino' y 'F' a 'Femenino'
mapa_genero = {'M': 'Masculino', 'F': 'Femenino'}
nombres_completos = nombres.map(mapa_genero)
print("\nSerie de géneros (original):")
print(nombres)
print("\nSerie de géneros (transformada):")
print(nombres_completos)

#### 2. Método **apply()**

**apply()** se utiliza tanto en **Series** como en **DataFrames** para aplicar una función a lo largo de un eje (filas o columnas). En un DataFrame, el método puede aplicarse a cada columna (por defecto) o a cada fila (especificando `axis=1`).

#### Ejemplos de apply()

**Ejemplo 1: Aplicar una función a cada elemento de una Serie**

In [None]:
serie = pd.Series([15, 30, 45, 50])
# Aplica una función para multiplicar cada elemento por 2
serie_modificada = serie.apply(lambda x: x * 2)
print("\nSerie original:")
print(serie)
print("\nSerie con cada elemento multiplicado por 2:")
print(serie_modificada)

**Ejemplo 2: Aplicar una función a cada columna de un DataFrame**

In [None]:
# Crea un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [10, 20, 30]
})
# Aplica una función que calcule el promedio de cada columna
promedios = df.apply(lambda x: x.mean())
print("\nDataFrame original:")
print(df)
print("\nPromedio de cada columna:")
print(promedios)

#### 3. Método **applymap()**

**applymap()** es exclusivo para **DataFrames** y se utiliza para aplicar una función a **cada elemento individual** del DataFrame, de forma similar a map() pero en un contexto bidimensional.

#### Ejemplos de applymap()

**Ejemplo: Convertir todos los valores a cadenas**


In [None]:
df_str = df.applymap(str)
print("\nDataFrame con valores convertidos a cadena:")
print(df_str)

#### Resumen comparativo

- **map()**:  
  - **Nivel:** Serie (unidimensional).  
  - **Función:** Transforma o reemplaza cada elemento de la Serie según una función o un diccionario.  
  - **Ejemplo:** Cambiar códigos de género ('M', 'F') a palabras completas o sumar 1 a cada valor.

- **apply()**:  
  - **Nivel:** Puede aplicarse a Series o DataFrames.  
  - **Función:** Aplica una función a lo largo de un eje (columnas por defecto o filas si se especifica `axis=1`).
  - **Ejemplo:** Calcular la media de cada columna o la suma de cada fila en un DataFrame.

- **applymap()**:  
  - **Nivel:** DataFrame (bidimensional).  
  - **Función:** Aplica una función a cada elemento individual del DataFrame.
  - **Ejemplo:** Sumar 1 a cada celda o convertir todos los valores a cadenas.


#### Ejemplo Completo: Transformación de un DataFrame de ventas

Supongamos que tenemos un DataFrame con información de ventas y queremos realizar varias transformaciones:

In [None]:
# Crea un DataFrame de ejemplo
df_ventas = pd.DataFrame({
    'Producto': ['A', 'B', 'C', 'A'],
    'Unidades': [5, 3, 8, 2],
    'Precio': [100, 150, 200, 100]
})
print("DataFrame original:")
print(df_ventas)

##### Paso 1: Usar **map()** para cambiar etiquetas de producto

Supongamos que queremos transformar las etiquetas de los productos usando un diccionario:

In [None]:
# Diccionario para renombrar productos
mapa_productos = {'A': 'Producto_A', 'B': 'Producto_B', 'C': 'Producto_C'}
df_ventas['Producto'] = df_ventas['Producto'].map(mapa_productos)
print("\nDataFrame con productos renombrados:")
print(df_ventas)

##### Paso 2: Usar **apply()** para calcular una nueva columna de ingresos

Queremos crear una nueva columna que sea el producto de `Unidades` y `Precio`:


In [None]:
df_ventas['Ingresos'] = df_ventas.apply(lambda row: row['Unidades'] * row['Precio'], axis=1)
print("\nDataFrame con columna 'Ingresos':")
print(df_ventas)

##### Paso 3: Usar **applymap()** para formatear valores numéricos

Si deseamos, por ejemplo, redondear a dos decimales todos los valores numéricos del DataFrame:


In [None]:
df_formateado = df_ventas.applymap(lambda x: round(x, 2) if isinstance(x, float) or isinstance(x, int) else x)
print("\nDataFrame con valores redondeados:")
print(df_formateado)

### Merge y join

Las funciones de *merge* y *join* en pandas son esenciales para combinar conjuntos de datos que comparten columnas o índices comunes. Estas operaciones son comparables a los *joins* de SQL y permiten unir DataFrames de manera flexible.

- **merge:**  
La función `pd.merge()` se utiliza para combinar dos DataFrames en función de una o varias columnas comunes. Se pueden especificar distintos tipos de uniones, como *inner join*, *left join*, *right join* y *outer join*.  

  - **Inner join:** Retorna solo las filas con valores coincidentes en ambos DataFrames.  
  - **Left join:** Retorna todas las filas del DataFrame izquierdo y, cuando hay coincidencias, añade las columnas correspondientes del DataFrame derecho.  
  - **Right join:** Es lo opuesto a left join, devolviendo todas las filas del DataFrame derecho.  
  - **Outer join:** Retorna todas las filas de ambos DataFrames, completando con NaN los valores faltantes.  

*Ejemplo básico:*

In [None]:
import pandas as pd
df1 = pd.DataFrame({
      'id': [1, 2, 3],
      'valor': ['A', 'B', 'C']
  })
  
df2 = pd.DataFrame({
      'id': [2, 3, 4],
      'detalle': ['X', 'Y', 'Z']
  })
resultado = pd.merge(df1, df2, on='id', how='inner')

En este ejemplo, el resultado contendrá únicamente las filas con `id` 2 y 3, ya que son las que existen en ambos DataFrames.


- **join:**  

El método `join()` es similar a `merge()`, pero se basa en los índices en lugar de columnas explícitas, lo que puede ser muy útil cuando los DataFrames tienen índices que son claves significativas.

In [None]:
df1 = df1.set_index('id')
df2 = df2.set_index('id')
resultado = df1.join(df2, how='outer')

Aquí se realiza una unión externa en base al índice, obteniendo todas las filas de ambos DataFrames y combinando los datos de acuerdo a sus índices.

Estas operaciones permiten integrar datos provenientes de diferentes fuentes, una necesidad frecuente en la ingeniería de datos, donde la información suele estar dispersa en múltiples sistemas.


### Grouping (Group By)

El método `groupby()` de pandas es fundamental para realizar operaciones de agregación, segmentando datos según una o varias claves y aplicando funciones estadísticas o de transformación sobre cada grupo.

- **Concepto básico:**  
`groupby()` permite dividir un DataFrame en grupos basados en los valores de una o más columnas. Una vez agrupados, se pueden aplicar funciones como `sum()`, `mean()`, `count()`, entre otras, para resumir o transformar los datos.
  
*Ejemplo:*

In [None]:
df = pd.DataFrame({
      'categoria': ['A', 'B', 'A', 'B', 'C'],
      'valor': [10, 20, 30, 40, 50]
  })
agrupado = df.groupby('categoria')['valor'].sum()

En este caso, se agrupan los datos por la columna `categoria` y se suma el valor de la columna `valor` para cada grupo. El resultado sería una Serie con la suma para cada categoría.


- **Agregaciones múltiples y personalizadas:**  
  Además de aplicar funciones predefinidas, pandas permite aplicar funciones personalizadas a cada grupo.  

In [None]:
def custom_function(x):
      return x.max() - x.min()  
resultado = df.groupby('categoria').agg({'valor': ['mean', custom_function]})

Esta sintaxis aplica dos funciones a la columna `valor`: el promedio y una función personalizada que calcula la diferencia entre el valor máximo y mínimo.

- **Transformación y filtrado:**  
  Con `groupby()` se pueden transformar datos a nivel de grupo sin perder la estructura original del DataFrame.

In [None]:
df['valor_normalizado'] = df.groupby('categoria')['valor'].transform(lambda x: (x - x.mean()) / x.std())

Aquí se normalizan los valores de cada grupo, de forma que se conserva la alineación original de los datos.

En ingeniería de datos, el agrupamiento es crucial para resumir grandes volúmenes de información y obtener insights a nivel agregado, como promedios por grupo, totales, conteos y otras estadísticas relevantes.

#### Tablas Pivot

Las tablas pivot son una herramienta poderosa para reorganizar y resumir datos de manera interactiva, permitiendo transformar columnas en filas y viceversa. La función `pivot_table()` en pandas permite crear tablas dinámicas que agrupan datos y aplican funciones de agregación.

- **Definición y uso:**  
Una tabla pivot toma una columna para definir las filas, otra para las columnas y otra para los valores. Se puede especificar la función de agregación a aplicar (por defecto es `mean`).
  
*Ejemplo:*

In [None]:
df = pd.DataFrame({
      'fecha': ['2025-01-01', '2025-01-01', '2025-01-02', '2025-01-02'],
      'categoria': ['A', 'B', 'A', 'B'],
      'ventas': [100, 150, 200, 250]
  })
  
pivot = pd.pivot_table(df, values='ventas', index='fecha', columns='categoria', aggfunc='sum')

En este ejemplo, se agrupan las ventas por fecha y categoría, obteniendo la suma de las ventas para cada combinación. El resultado es una matriz que permite ver de forma rápida la distribución de ventas.

- **Flexibilidad y complejidad:**  
Las tablas pivot pueden incluir múltiples funciones de agregación y permitir la inclusión de varios niveles en índices y columnas. Esto es especialmente útil cuando se trabaja con datos multidimensionales.

In [None]:
pivot = pd.pivot_table(df, values='ventas', index=['fecha'], columns=['categoria'], aggfunc=["mean", "sum"])


Con este enfoque, se obtienen tanto la media como la suma de ventas para cada combinación de fecha y categoría, lo que permite análisis comparativos más profundos.

Las tablas pivot son extremadamente útiles en el análisis exploratorio de datos y en la generación de reportes resumidos, permitiendo a los ingenieros de datos transformar conjuntos de datos complejos en formatos de fácil interpretación.

### Otras técnicas avanzadas en Pandas para ingeniería de datos

Además de las operaciones de merge/join, group by y pivot, pandas ofrece una amplia gama de herramientas y técnicas para el procesamiento de datos, entre las que destacan:

- **Manejo de datos faltantes:**  
  La limpieza de datos es una tarea crítica en la ingeniería de datos. Pandas proporciona métodos como `isnull()`, `dropna()` y `fillna()` para identificar y tratar valores nulos o faltantes.

In [None]:
df.dropna(inplace=True)  # Elimina filas con datos faltantes
df.fillna(0, inplace=True)  # Sustituye datos nulos por cero

Estas funciones permiten mantener la integridad de los datos antes de realizar análisis o modelado.

- **Aplicación de funciones con apply y lambda:**  
La función `apply()` es fundamental para aplicar funciones a lo largo de filas o columnas, ofreciendo una manera flexible de transformar datos sin tener que escribir bucles explícitos.

In [None]:
#df['nueva_columna'] = df['columna_existente'].apply(lambda x: x * 2)

Este enfoque es útil para realizar transformaciones personalizadas en los datos.

- **Reshape y transformación de datos:**  
Además de pivotar, pandas permite cambiar la estructura de los datos con métodos como `melt()`, que convierte datos de formato ancho a formato largo, facilitando el análisis de datos categóricos o series temporales.

In [None]:
#df_melted = pd.melt(df, id_vars=['id'], value_vars=['col1', 'col2'], var_name='variable', value_name='valor')

Esta transformación es particularmente útil para preparar datos antes de aplicar técnicas de machine learning.


- **Optimización y manejo de grandes volúmenes de datos:**  
En proyectos de ingeniería de datos, es común trabajar con conjuntos de datos muy grandes. Pandas, en combinación con bibliotecas como Dask o PySpark, permite paralelizar operaciones y gestionar la memoria de forma eficiente.

- **Dask:** Proporciona una API similar a pandas pero permite el procesamiento en paralelo y distribuido, ideal para datasets que no caben en memoria.

- **PySpark:** Integra el procesamiento de datos distribuidos utilizando el framework Apache Spark, facilitando la manipulación de datos a gran escala.

- **Operaciones de time series:**  
Para trabajar con datos temporales, pandas ofrece herramientas específicas que facilitan la conversión de fechas, el re-muestreo (resampling) y el manejo de índices temporales.
  ```python
  df['fecha'] = pd.to_datetime(df['fecha'])
  df.set_index('fecha', inplace=True)
  df_resampled = df.resample('M').sum()  # Agrega datos por mes
  ```
Estas operaciones permiten analizar tendencias, patrones estacionales y otros aspectos cruciales en series temporales.


- **Integración con otras herramientas:**  
Pandas se integra de manera fluida con otras bibliotecas de Python, como NumPy para operaciones numéricas, Matplotlib y Seaborn para visualización, y Scikit-Learn para modelado y análisis predictivo. Esta interoperabilidad permite crear pipelines de datos completos y robustos que abordan desde la extracción y transformación hasta la visualización y modelado.

- **Optimización del rendimiento:**  
Para maximizar la eficiencia, es recomendable utilizar operaciones vectorizadas en lugar de bucles explícitos. Las funciones de pandas están optimizadas en C y pueden procesar datos de manera mucho más rápida que las iteraciones tradicionales en Python. Además, es importante utilizar tipos de datos adecuados, como categoricals, para reducir el uso de memoria y mejorar el rendimiento en operaciones de agrupación y combinación.

### Pandas y SQL

Pandas y SQL comparten muchas similitudes en términos de manipulación y análisis de datos. Mientras que SQL es un lenguaje especializado para gestionar y consultar bases de datos relacionales, pandas es una biblioteca de Python que ofrece herramientas para transformar, limpiar y analizar datos en estructuras como DataFrames. Algunas de las relaciones y paralelismos entre ambos son:

- **Operaciones de combinación:**  
  Las operaciones de *merge* y *join* en pandas son equivalentes a los *JOINs* en SQL, permitiendo combinar datos de diferentes tablas o DataFrames basándose en claves comunes.

- **Agrupación y agregación:**  
  La función `groupby()` de pandas es similar a la cláusula `GROUP BY` en SQL, lo que permite agrupar datos y aplicar funciones de agregación (como suma, promedio, etc.) a cada grupo.

- **Transformación de datos:**  
  Al igual que en SQL se pueden utilizar funciones de agregación y subconsultas para transformar datos, pandas ofrece funciones como `pivot_table()` para reorganizar y resumir datos, similar a las tablas pivot que se pueden generar con consultas SQL avanzadas.

- **Extracción de datos:**  
  Pandas permite conectarse a bases de datos SQL y ejecutar consultas directamente con funciones como `read_sql()`, facilitando la integración de consultas SQL y análisis en Python.

En resumen, mientras SQL se centra en la gestión y consulta de datos en bases de datos relacionales, pandas proporciona una interfaz más flexible y orientada a la manipulación en memoria, lo que permite realizar operaciones similares a SQL con mayor facilidad y adaptabilidad en entornos de análisis y ciencia de datos.