<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Filtrado_y_Slicing_en_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Filtrado y Slicing en Pandas

En este capítulo, aprenderemos cómo filtrar y seleccionar datos en Pandas utilizando técnicas de filtrado y slicing. Estas técnicas son esenciales para extraer subconjuntos específicos de datos y realizar análisis más detallados.


## Filtrado de Datos en Pandas

Filtrado con Condiciones Simples: Pandas permite filtrar filas de un DataFrame utilizando condiciones simples. Para filtrar un DataFrame basado en una condición, puedes usar la notación de corchetes [] con una expresión booleana.



In [3]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas', 'Peras'],
    'Ventas': [50, 30, 20, 60],
    'Precio': [0.5, 0.75, 0.3, 0.4]
}
df = pd.DataFrame(data)

# Filtrar filas donde las ventas son mayores a 25
ventas_mayores_25 = df[df['Ventas'] > 50]
print(ventas_mayores_25)

  Producto  Ventas  Precio
3    Peras      60     0.4


**Filtrado con Condiciones Múltiples:** Para aplicar múltiples condiciones de filtrado, puedes usar operadores lógicos como & (y), | (o) y ~ (no). Es importante usar paréntesis alrededor de cada condición para asegurar que las operaciones lógicas se evalúen correctamente.

In [5]:
# Filtrar filas donde las ventas son mayores a 25 y el precio es menor a 0.5
ventas_mayores_25_precio_menor_05 = df[(df['Ventas'] > 25) & (df['Precio'] < 0.5)]
print(ventas_mayores_25_precio_menor_05)

  Producto  Ventas  Precio
3    Peras      60     0.4


**Filtrado con el Método query():** El método query() permite filtrar un DataFrame utilizando una cadena de texto con condiciones. Este método puede ser más legible y conveniente para condiciones complejas.

In [6]:
# Filtrar filas utilizando el método query
query_result = df.query('Ventas > 25 & Precio < 0.5')
print(query_result)

  Producto  Ventas  Precio
3    Peras      60     0.4


**Filtrado Basado en Índices:** También puedes filtrar un DataFrame utilizando sus índices. Pandas permite seleccionar filas específicas utilizando el índice del DataFrame

In [8]:
# Filtrar filas utilizando el índice
df_indexed = df.set_index('Producto')
print(df_indexed)

          Ventas  Precio
Producto                
Manzanas      50    0.50
Naranjas      30    0.75
Bananas       20    0.30
Peras         60    0.40


In [9]:
# Filtrar filas utilizando el índice
# La función loc se utiliza para acceder a filas o columnas del DataFrame basándose en etiquetas.
df_indexed = df.set_index('Producto')
ventas_manzanas = df_indexed.loc['Manzanas']
print(ventas_manzanas)

Ventas    50.0
Precio     0.5
Name: Manzanas, dtype: float64


**Filtrado Basado en Valores Únicos:** Pandas proporciona métodos para filtrar filas basadas en valores únicos en una columna. Esto puede ser útil para seleccionar todas las filas que contienen ciertos valores específicos

In [10]:
# Filtrar filas donde el producto es 'Manzanas' o 'Bananas'
ventas_manzanas_bananas = df[df['Producto'].isin(['Manzanas', 'Bananas'])]
print(ventas_manzanas_bananas)

   Producto  Ventas  Precio
0  Manzanas      50     0.5
2   Bananas      20     0.3


## Slicing en Pandas

Slicing de Filas y Columnas: Pandas permite seleccionar subconjuntos de filas y columnas utilizando slicing. Esto es similar a la notación de slicing en listas de Python, pero se aplica a DataFrames.

In [11]:
# Seleccionar filas de la 1 a la 3
sliced_rows = df[1:3]
print(sliced_rows)

   Producto  Ventas  Precio
1  Naranjas      30    0.75
2   Bananas      20    0.30


In [12]:
df


Unnamed: 0,Producto,Ventas,Precio
0,Manzanas,50,0.5
1,Naranjas,30,0.75
2,Bananas,20,0.3
3,Peras,60,0.4


In [13]:

# Seleccionar columnas por nombre
sliced_columns = df[['Producto', 'Ventas']]
print(sliced_columns)

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20
3     Peras      60


**Slicing con loc[]:** El método loc[] se utiliza para seleccionar datos basados en etiquetas de fila y columna. Puedes especificar etiquetas de fila y columna para obtener subconjuntos específicos de datos.

In [14]:
# Seleccionar filas y columnas específicas con loc
loc_result = df.loc[0:2, ['Producto', 'Ventas']]
print(loc_result)

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20



**Slicing con iloc[]:** El método iloc[] se utiliza para seleccionar datos basados en posiciones de fila y columna. Puedes especificar índices de fila y columna para obtener subconjuntos específicos de datos.

In [20]:
# Seleccionar filas y columnas específicas con iloc
iloc_result = df.iloc[0:3, 0:2]
print(iloc_result)

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20


## Combinación de Filtrado y Slicing

Filtrado y Slicing Simultáneos: Puedes combinar técnicas de filtrado y slicing para seleccionar subconjuntos específicos de datos. Esto permite aplicar condiciones de filtrado y seleccionar filas y columnas específicas al mismo tiempo.


In [22]:
# Filtrar y luego hacer slicing de columnas
filtered_sliced = df[df['Ventas'] > 50].loc[:, ['Producto', 'Ventas']]
print(filtered_sliced)


  Producto  Ventas
3    Peras      60


# Resumen

In [None]:
# Resumen de Métodos Comunes para Filtrado y Slicing
# Filtrado con Condiciones Simples:
# df[df[‘columna’] > valor]
# Filtrado con Condiciones Múltiples:
# df[(df[‘columna1’] > valor1) & (df[‘columna2’] < valor2)]
# Filtrado con query():
# df.query(‘columna1 > valor1 & columna2 < valor2’)
# Filtrado Basado en Índices:
# df.loc[indice]
# Filtrado Basado en Valores Únicos:
# df[df[‘columna’].isin([valor1, valor2])]
# Slicing de Filas y Columnas:
# df[start:stop]
# Slicing con loc[]:
# df.loc[fila_inicio:fila_fin, columna_inicio:columna_fin]
# Slicing con iloc[]:
# df.iloc[fila_inicio:fila_fin, columna_inicio:columna_fin]