### Filtrado de Datos:

---
### Uso de .loc[ ] y .iloc[ ]
---
En Pandas, el filtrado o selección de datos es esencial para explorar y manipular DataFrames.

Los métodos principales para seleccionar datos concretos de un DataFrame y poder manipularlos son loc e iloc .

.loc[ ] y .iloc[ ]
Ambos métodos se usan para acceder a subconjuntos de datos, pero con diferentes lógicas:

### <span style="color:darksalmon;">.loc[ ]: Selección basada en etiquetas (nombres) de filas y columnas.</span>

```python
#Sintaxis general
df.loc[etiqueta_filas,etiqueta_columnas]

Uso típico de .loc[]:

df.loc[fila, columna]
```
Si no se especifica columna, se seleccionan todas.

Permite condiciones booleanas para filtrar filas.


### <span style="color:darksalmon;">.iloc[ ]: Selección basada en índices numéricos (enteros) de filas y columnas.</span>

```python
#Sintaxis general
df.iloc[índice_filas,índice_columnas]

Uso típico de .iloc[]:

df.iloc[fila, columna]
```
Funciona por posición: el índice 0 es la primera fila/columna.

No admite etiquetas o condiciones lógicas directamente.

### Cuadro explicativo

| Método    | Basado en       | Sintaxis             | Permite condiciones | Ejemplo                   |
| --------- | --------------- | -------------------- | ------------------- | ------------------------- |
| `.loc[]`  | Etiquetas       | `df.loc["a", "col"]` | ✅ Sí                | `df.loc[df["edad"] > 30]` |
| `.iloc[]` | Índices enteros | `df.iloc[0, 1]`      | ❌ No                | `df.iloc[0:3, :]`         |


### <span style="color:darksalmon;"> Veamos un ejemplo con un  DataFrame:</span>



In [None]:
import pandas as pd
# Cargar archivo CSV en un DataFrame
df = pd.read_csv('Online Sales Data.csv')


In [None]:
df.sample(5)

- Selecciona todas las ventas y muestra las columnas `Date`, `Product Category` y `Unit Price` usando `loc[ ]`

In [None]:
df.loc[:,['Date', 'Product Category', 'Units Sold']]

In [None]:
df.loc[20:30:3,['Date', 'Product Category', 'Units Sold']]

- Utiliza `iloc [ ]` para seleccionar las primeras 10 filas del DataFrame y muestra las columnas `Product Category` , `Product Name` y `Unit Price`

In [None]:
df.iloc[:10,[2,3,5]]

### En Pandas existen varios métodos para poder filtrar los datos de un DataFrame. Los más comunes son:

- **Operadores de comparación**: Son básicamente los mismos que vimos en el módulo de Python. Es una forma de filtrado muy útil para seleccionar filas basadas en condiciones. Los pasos a seguir serían:

    - **Creamos la condición:** Para ello usaremos los operadores de comparación de Python (>, <, >=, <=, ==, !=)

    - **Aplicar la condición de filtrado:** Una vez creada la condición es momento de aplicarla con [ ] al DataFrame. Esto nos devolverá las filas que cumplen la condición.

    - **Combinar condiciones:** Es posible combinar varias condiciones utilizando los operadores **&** (*and*) y **|** (*or*).

    ```python
    unit_price = df['Unit Price'] > 1000
    unit_sold = df['Units Sold'] > 5
    
    df[unit_price & unit_sold].loc[:,['Product Name', 'Product Category', 'Unit Price', 'Units Sold']]
    ```

### Veámoslo con un ejemplo:

In [None]:
unit_price = df['Unit Price'] > 100
unit_sold = df['Units Sold'] > 2

In [None]:
df[unit_price & unit_sold].loc[:,['Product Name', 'Product Category', 'Unit Price', 'Units Sold']]

### Veamos algunas otras posibilidades de Filtrado:

1. Filtrar todas las transacciones hechas con PayPal:

In [None]:
paypal_df = df[df["Payment Method"] == "Credit Card"]
paypal_df

2. Filtrar productos vendidos en la región Asia


In [None]:
asia_df = df[df["Region"] == "Asia"]
asia_df

3. Filtrar productos vendidos en la región Asia , pero solo mostrar las columnas Product Category y Product Name

In [None]:
resultado = df.loc[df["Region"] == "Asia", ["Product Category", "Product Name"]]
resultado

---
###  Filtrado con .isin() 
---

El método .isin( ) se utiliza para filtrar filas que contienen uno o varios valores específicos dentro de una columna. 

Es muy útil cuando queremos comprobar si un valor pertenece a una lista de opciones.

### Pasos:

- Crear una lista de valores de interés

- Aplicar .isin(lista) a una columna específica

- Combinar con un filtro booleano y seleccionar columnas si se desea



Ejemplo 1: Transacciones en la región "Asia" o "Europe"

In [None]:
regiones = ["Asia", "Europe"]
filtro = df[df["Region"].isin(regiones)]
filtro


In [None]:
filtro[["Transaction ID", "Region", "Product Name"]]

Ejemplo 2: Productos específicos – "Gap High Rise Skinny Jeans" o "Hanes ComfortSoft T-Shirt"

In [None]:
productos = ["Gap High Rise Skinny Jeans", "Hanes ComfortSoft T-Shirt"]
filtro = df[df["Product Name"].isin(productos)]
filtro[["Product Name", "Units Sold", "Region"]]

Ejemplo 3: Productos vendidos en Asia que estén en una lista específica



In [None]:
productos = ["Gap High Rise Skinny Jeans", "Gap 1969 Original Fit Jeans"]
filtro = df[df["Region"].isin(["Asia"]) & df["Product Name"].isin(productos)]
filtro[["Product Category", "Product Name", "Units Sold"]]


Ejemplo 4: Producto "Gap 1969 Original Fit Jeans" vendido en "Asia"

In [None]:
producto = ["Gap 1969 Original Fit Jeans"]
region = ["Asia"]

filtro = df[df["Product Name"].isin(producto) & df["Region"].isin(region)]
filtro[["Transaction ID", "Product Name", "Units Sold", "Total Revenue"]]

---
###  Filtrado con .between( )
---

El método .between() se usa para filtrar filas en un DataFrame que tengan valores dentro de un rango numérico o de fechas.

La estructura general de este método es:

```python

df[columna].between(inicio, fin, inclusive = both)

'''Donde:

- df: Nombre del DataFrame que vamos a utilizar.
- columna: Columna específica donde vamos a filtrar.
- inicio y fin: Indica el intervalo de valores que queremos filtrar.
- inclusive (opcional): Delimita si los valores del rango están incluidos o no.
    - left: Incluye sólo el inicio.
    - right: Incluye sólo el final.
    - both: Incluye ambos.
    - neither: No incluye ninguno.'''
```

| Parámetro   | Descripción                                                                             |
| ----------- | --------------------------------------------------------------------------------------- |
| `columna`   | Columna sobre la que se aplica el filtro.                                               |
| `inicio`    | Valor mínimo del rango.                                                                 |
| `fin`       | Valor máximo del rango.                                                                 |
| `inclusive` | Define si se incluyen los límites. Valores: `'both'`, `'left'`, `'right'`, `'neither'`. |


Ejemplo 1: Unit Price entre 10 y 50 (inclusive ambos)

In [None]:
df[df["Unit Price"].between(10, 50, inclusive="both")][["Transaction ID", "Product Name", "Unit Price", "Units Sold"]]


Ejemplo 2: Total Revenue entre 100 y 180 (solo extremos)

In [None]:
df[df["Total Revenue"].between(100, 180, inclusive="both")][["Transaction ID", "Product Name", "Total Revenue"]]


Ejemplo 3: Units Sold entre 2 y 5 (excluyendo ambos límites)

In [None]:
df[df["Units Sold"].between(2, 5, inclusive="neither")][["Product Name", "Units Sold"]]


 Ejemplo 4: Filtrar por fecha entre "2024-03-01" y "2024-06-30"

In [None]:
df.info()

In [None]:
df["Date"] = pd.to_datetime(df["Date"])#para transformar a Fecha

df[df["Date"].between("2024-03-01", "2024-06-30" , inclusive='neither')][["Transaction ID", "Date", "Product Name"]]


---
###  Filtrado con .str.contains( )
---

El método `.str.contains()` permite verificar si una cadena de texto contiene un patrón específico (palabra, fragmento, regex). 

Muy útil cuando buscamos por nombre de producto, descripción o categoría.

```Python 
#sintaxis
df["columna"].str.contains(pat, case=True, na=False, regex=True)

```

 Parámetros clave:

| Parámetro | Significado                                                      |
| --------- | ---------------------------------------------------------------- |
| `pat`     | Texto o patrón a buscar. Puede ser string o regex.               |
| `case`    | `True` → sensible a mayúsculas/minúsculas; `False` → insensible. |
| `na`      | Cómo tratar los valores nulos (`True`, `False`, o `np.nan`).     |
| `regex`   | Si se trata como expresión regular (por defecto `True`).         |






| Ejemplo                                                  | Significado                                        |
| -------------------------------------------------------- | -------------------------------------------------- |
| `df["col"].str.contains("Mug")`                          | Contiene exactamente "Mug" (sensible a mayúsculas) |
| `df["col"].str.contains("mug", case=False)`              | Contiene "mug", sin importar mayúsculas            |
| `df["col"].str.contains("^Gap", case=False, regex=True)` | Comienza con "Gap" (regex)                         |


 Ejemplo 1: Productos cuyo nombre contiene "Jeans"

In [None]:
df[df["Product Name"].str.contains("Jeans", case=True, na=False)] 


Ejemplo 2: Productos que contienen la palabra "gap" (sin importar mayúsculas)

In [None]:
df[df["Product Name"].str.contains("gap", case=False, na=False)][["Product Name", "Product Category"]]


Ejemplo 3: Productos cuyo nombre empieza con “Hanes”

In [None]:
df[df["Product Name"].str.contains("^Hanes", case=False, na=False, regex=True)][["Product Name", "Region" ,"Unit Price"]]


Ejemplo 4: Filtrar productos que contengan la palabra “water” (insensible a mayúsculas)

In [None]:
df[df["Product Name"].str.contains("water", case=False, na=False)][["Product Name", "Total Revenue"]]


---
###  Filtrado con .filter( )
---

El método .filter() se utiliza para filtrar columnas o filas basándose en sus etiquetas (nombres). No filtra por contenido, sino por coincidencia del nombre de columnas o índices.

```python
df.filter(items = None, like = None, regex = None,axis = None)

'''
Donde:

- df: Nombre del DataFrame que vamos a utilizar.
- items (opcional): Lista con las etiquetas que queremos filtrar.
- like (opcional): Patrón de texto que debe tener la etiqueta a filtrar.
- regex (opcional): La etiqueta debe tener la expresión regular especificada.
- axis: 0 para ver las filas que cumplen la condición. 1 para ver las columnas.
'''
```
Parámetros clave:

| Parámetro | Uso                                                                           |
| --------- | ----------------------------------------------------------------------------- |
| `items`   | Lista exacta de nombres de columnas o filas que se quieren mantener.          |
| `like`    | Texto que debe estar incluido en el nombre (como `contains` pero en nombres). |
| `regex`   | Expresión regular aplicada a los nombres de las columnas o filas.             |
| `axis`    | `0` para filas (índices), `1` para columnas.                                  |




| Ejemplo                                       | Resultado                                       |
| --------------------------------------------- | ----------------------------------------------- |
| `df.filter(like="Price", axis=1)`             | Selecciona columnas que contengan “Price”       |
| `df.filter(items=["Product Name", "Region"])` | Selecciona solo esas columnas exactas           |
| `df.filter(regex="^P.*e$", axis=1)`           | Columnas que empiezan con “P” y terminan en “e” |


Ejemplo 1: Seleccionar todas las columnas que contienen la palabra "Product"

In [None]:
df.filter(like="Product", axis=1)

Ejemplo 2: Seleccionar las columnas "Product Name" y "Region" usando items

In [None]:
df.filter(items=["Product Name", "Region"], axis=1)


Ejemplo 3: Seleccionar columnas que empiezan con la letra "P" y terminan en "e"

In [None]:
df.filter(regex="^P.*e$", axis=1)


Ejemplo 4: Seleccionar columnas que contengan la palabra "Revenue"

In [None]:
df.filter(like="Revenue", axis=1)


Ejemplo 5: Seleccionar filas que tengan un índice específico (si el DataFrame tuviera un índice por ID)

Esto solo aplica si has hecho algo como df.set_index("Transaction ID")

In [None]:
df.set_index("Transaction ID").filter(items=[10020, 10201], axis=0)