In [None]:
import pandas as pd
import numpy as np

# Filtrados

## Filtrado en Pandas con Indexación Lógica

En **Pandas**, una de las herramientas más populares para analizar datos en Python, el filtrado con **indexación lógica** nos permite seleccionar filas o columnas de un DataFrame que cumplen ciertas condiciones.

### ¿Qué es la indexación lógica?

La indexación lógica utiliza expresiones que generan valores de `True` o `False` para determinar qué elementos de un DataFrame queremos seleccionar. Esto se hace aplicando condiciones directamente sobre las columnas.

Por ejemplo:
- Seleccionar filas donde una columna sea mayor que un valor (`df['columna'] > 10`).
- Seleccionar filas donde se cumplan varias condiciones combinadas (`&` para "y", `|` para "o").

### Pasos básicos para el filtrado

1. **Crear una condición lógica**: Usamos operadores como `>`, `<`, `==`, `!=`, etc., sobre una columna del DataFrame.
2. **Aplicar la condición al DataFrame**: Filtramos las filas que cumplen con esa condición.
3. **Combinar múltiples condiciones**: Usamos `&` para combinar condiciones con "y" y `|` para "o". Recuerda usar paréntesis para agrupar las condiciones.

#### Ejemplo simple

Supongamos que tenemos un DataFrame llamado `df` con información sobre personas y queremos filtrar:

- Las personas con edad mayor a 30.
- Las personas que viven en una ciudad específica **o** tienen un ingreso mayor a 50,000.

Este filtrado se hace así:
```python
# Filtrar filas donde la columna 'edad' sea mayor a 30
df_filtrado = df[df['edad'] > 30]

# Filtrar filas con una condición compuesta
df_compuesto = df[ (   df['ciudad'] == 'Madrid'   )  |  (   df['ingreso'] > 50000  )]


In [None]:
# Cargar el dataset de Titanic
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:

# Creamos un DataFrame de ejemplo
data = {
    'nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofía'],
    'edad': [23, 45, 34, 19, 31],
    'ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Sevilla', 'Barcelona'],
    'ingreso': [30000, 55000, 42000, 15000, 70000]
}

df = pd.DataFrame(data)
df

# **Ejercicio 1:**
# Filtra las filas donde la edad sea mayor a 30. Imprime el DataFrame filtrado.

# **Ejercicio 2:**
# Filtra las filas donde la ciudad sea "Madrid" y la edad sea menor de 35. Imprime el resultado.

# **Ejercicio 3:**
# Filtra las filas donde el ingreso sea mayor a 40,000 **o** la ciudad sea "Sevilla". Imprime el DataFrame filtrado.

# **Ejercicio 4 (reto):**
# Crea un nuevo DataFrame que contenga únicamente las filas donde la edad esté entre 25 y 40 años (inclusive) y el ingreso sea menor a 50,000.
# Imprime el resultado.


Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000
1,Luis,45,Barcelona,55000
2,Marta,34,Madrid,42000
3,Juan,19,Sevilla,15000
4,Sofía,31,Barcelona,70000


In [None]:
# **Ejercicio 1:**
# Filtra las filas donde la edad sea mayor a 30. Imprime el DataFrame filtrado.

df[ df['edad'] > 30 ]

Unnamed: 0,nombre,edad,ciudad,ingreso
1,Luis,45,Barcelona,55000
2,Marta,34,Madrid,42000
4,Sofía,31,Barcelona,70000


In [None]:
# **Ejercicio 2:**
# Filtra las filas donde la ciudad sea "Madrid" y la edad sea menor de 35. Imprime el resultado.

df[ (df['ciudad'] == "Madrid") & (df['edad'] < 35) ]

Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000
2,Marta,34,Madrid,42000


In [None]:
# **Ejercicio 3:**
# Filtra las filas donde el ingreso sea mayor a 40,000 **o** la ciudad sea "Sevilla". Imprime el DataFrame filtrado.
df[ (df['ciudad'] == "Sevilla") | (df['ingreso'] > 40000) ]

Unnamed: 0,nombre,edad,ciudad,ingreso
1,Luis,45,Barcelona,55000
2,Marta,34,Madrid,42000
3,Juan,19,Sevilla,15000
4,Sofía,31,Barcelona,70000


In [None]:
# **Ejercicio 4 (reto):**
# Crea un nuevo DataFrame que contenga únicamente las filas donde la edad esté entre 25 y 40 años (inclusive) y el ingreso sea menor a 50,000.
# Imprime el resultado.

df[ (df['edad'] >= 25) & (df['edad'] <= 40) & (df['ingreso'] < 50000) ]

Unnamed: 0,nombre,edad,ciudad,ingreso
2,Marta,34,Madrid,42000


## Filtrado en Pandas utilizando el método `.query`

El método `.query` es una forma alternativa y muy legible de filtrar datos en **Pandas**. En lugar de usar operadores como `&` y `|`, escribimos las condiciones como si fueran expresiones dentro de una cadena de texto. Esto hace que el código sea más limpio y fácil de leer, especialmente cuando trabajamos con múltiples condiciones.

### ¿Cómo funciona `.query`?

- **Sintaxis básica**:
  ```python
  df.query("condición")
  ```
- La condición se escribe como si fuera una expresión de Python:
  - columna > valor
  - columna == valor
  - columna in ['valor1', 'valor2']

- Si el nombre de la columna contiene espacios o caracteres especiales, **debes encerrarlo en backticks (`).**

### Ventajas de usar .query
- Legibilidad: Las expresiones se asemejan a las consultas SQL, lo que las hace más fáciles de entender.
- Evita problemas con paréntesis: No necesitas rodear cada condición con paréntesis.
- Filtrado directo: Puedes referenciar las columnas del DataFrame directamente en las condiciones.

### Ejemplo simple
Supongamos que tienes un DataFrame df y quieres filtrar:

1. Las filas donde la columna edad sea mayor a 30:

  ```python
  df.query("edad > 30")
  ```

2. Las filas donde la columna ciudad sea "Madrid" o el ingreso sea mayor a 50,000:

  ```python
  df.query("ciudad == 'Madrid' or ingreso > 50000")
  ```
3. Las filas donde el ingreso esté entre 20,000 y 50,000:

  ```python
  df.query("20000 <= ingreso <= 50000")
  ```

### Notas importantes
- Strings en las condiciones: Deben ir entre comillas (' ' / " ").
- Valores con variables externas: Usa el símbolo @ para referenciar una variable de Python dentro de la consulta. Por ejemplo:

  ```python
  limite = 30
  df.query("edad > @limite")
  ```

In [None]:
data = {
    'nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofía'],
    'edad': [23, 45, 34, 19, 31],
    'ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Sevilla', 'Barcelona'],
    'ingreso': [30000, 55000, 42000, np.nan, 70000]
}

df = pd.DataFrame(data)
df

Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000.0
1,Luis,45,Barcelona,55000.0
2,Marta,34,Madrid,42000.0
3,Juan,19,Sevilla,
4,Sofía,31,Barcelona,70000.0


In [None]:
df.query('ingreso.isna()')
df.query('ingreso.isnull()')
df.query('ingreso.notnull()')

Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000.0
1,Luis,45,Barcelona,55000.0
2,Marta,34,Madrid,42000.0
4,Sofía,31,Barcelona,70000.0


In [None]:
df.query('ciudad == "Barcelona" or ciudad == "Madrid"')
df.query('ciudad == "Barcelona" | ciudad == "Madrid"')
df.query('ciudad in ("Barcelona", "Madrid")')
df.query('ciudad in ["Barcelona", "Madrid"]')

Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000.0
1,Luis,45,Barcelona,55000.0
2,Marta,34,Madrid,42000.0
4,Sofía,31,Barcelona,70000.0


In [None]:
df.query('edad > 25')
df[df['edad'] > 25]

Unnamed: 0,nombre,edad,ciudad,ingreso
1,Luis,45,Barcelona,55000.0
2,Marta,34,Madrid,42000.0
4,Sofía,31,Barcelona,70000.0


In [None]:

# **Ejercicio 1:**
# Usa `.query` para filtrar las filas donde la edad sea mayor a 30.
# Imprime el resultado.

df.query('edad > 30')

Unnamed: 0,nombre,edad,ciudad,ingreso
1,Luis,45,Barcelona,55000.0
2,Marta,34,Madrid,42000.0
4,Sofía,31,Barcelona,70000.0


In [None]:
# **Ejercicio 2:**
# Filtra las filas donde la ciudad sea "Barcelona" y el ingreso sea mayor de 60,000 usando `.query`.
# Imprime el resultado.

df.query("ciudad == 'Barcelona' and ingreso > 60000")
df[(df['ciudad'] == "Barcelona") & (df['ingreso'] > 60000)]

Unnamed: 0,nombre,edad,ciudad,ingreso
4,Sofía,31,Barcelona,70000.0


In [None]:
# **Ejercicio 3:**
# Filtra las filas donde la edad esté entre 20 y 40 años, **o** la ciudad sea "Madrid".
# Imprime el resultado.

df.query('(edad > 20 and edad < 40) or ciudad == "Madrid"')
df.query('(20 < edad < 40) or ciudad == "Madrid"')

Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000.0
2,Marta,34,Madrid,42000.0
4,Sofía,31,Barcelona,70000.0


In [None]:

# **Ejercicio 4 (reto):**
# Crea un nuevo DataFrame que contenga solo las filas donde:
# - La columna 'ingreso' esté en el rango de 30,000 a 50,000 (inclusive).
# - La ciudad **no** sea "Sevilla".
# Usa `.query` y muestra el resultado.


df.query(' ingreso >= 30000 and ingreso <= 50000 and ciudad != "Sevilla"')
df.query(' (30000 <= ingreso <= 50000) and ciudad != "Sevilla"')

Unnamed: 0,nombre,edad,ciudad,ingreso
0,Ana,23,Madrid,30000.0
2,Marta,34,Madrid,42000.0


## Agrupación en Pandas con `groupby` y `agg`

El método `groupby` en Pandas se utiliza para **agrupar datos** basándonos en una o más columnas, permitiéndonos aplicar funciones como sumas, promedios o contar elementos en cada grupo.

El método `.agg` es particularmente útil cuando queremos realizar **múltiples operaciones** (por ejemplo, sumar una columna y calcular el promedio de otra) al mismo tiempo en los datos agrupados.

### ¿Cómo funciona `groupby`?

1. **Agrupar por una columna**: Dividimos los datos en grupos basándonos en los valores de una o más columnas.
2. **Aplicar una operación**: Usamos funciones como `.sum()`, `.mean()`, `.count()` o `.agg()` sobre cada grupo.

#### ¿Qué hace `.agg`?

El método `.agg` permite realizar varias operaciones al mismo tiempo y definir funciones diferentes para cada columna. Por ejemplo:
- Calcular el promedio de una columna y la suma de otra.
- Usar funciones personalizadas para análisis más complejos.

#### Ejemplo básico

Supongamos que tienes un DataFrame con las siguientes columnas: `categoría`, `ventas` y `descuento`.

1. **Agrupamos por categoría y sumamos las ventas**:
   ```python
   df.groupby('categoría')['ventas'].sum()
   ```
2. **Agrupamos por categoría y aplicamos múltiples operaciones con .agg:**
  ```python
    df.groupby('categoría').agg({
      'ventas': ['sum', 'mean'],
      'descuento': 'max'
  })
  ```
  En este caso:
    - Sobre la columna ventas, calculamos la suma y el promedio.
    - Sobre la columna descuento, calculamos el valor máximo.

### Notas importantes
- Puedes usar funciones predeterminadas de Pandas (como sum, mean, max) o tus propias funciones.
- Si quieres renombrar las columnas resultantes, puedes hacerlo con el método .rename después de .agg.

In [None]:
# Creamos un DataFrame de ejemplo
data = {
    'categoria': ['A', 'B', 'A', 'B', 'A', 'C', 'C', 'B'],
    'ventas': [100, 200, 150, 300, 250, 400, 350, 500],
    'descuento': [5, 10, 7, 15, 10, 20, 5, np.nan]
}

df = pd.DataFrame(data)
df

Unnamed: 0,categoria,ventas,descuento
0,A,100,5.0
1,B,200,10.0
2,A,150,7.0
3,B,300,15.0
4,A,250,10.0
5,C,400,20.0
6,C,350,5.0
7,B,500,


In [None]:
df_2 = df.groupby(['categoria']).agg(
    suma_ventas = ('ventas','sum'),
    promedio_ventas = ('ventas','mean'),
    std_ventas = ('ventas','std'),
    descuento_promedio = ('descuento','mean')
)


In [None]:
df_2

Unnamed: 0_level_0,suma_ventas,promedio_ventas,std_ventas,descuento_promedio
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,500,166.666667,76.376262,7.333333
B,1000,333.333333,152.752523,12.5
C,750,375.0,35.355339,12.5


In [None]:
df

Unnamed: 0,categoria,ventas,descuento
0,A,100,5.0
1,B,200,10.0
2,A,150,7.0
3,B,300,15.0
4,A,250,10.0
5,C,400,20.0
6,C,350,5.0
7,B,500,


In [None]:
df.groupby(['categoria'])['ventas'].mean()

Unnamed: 0_level_0,ventas
categoria,Unnamed: 1_level_1
A,166.666667
B,333.333333
C,375.0


In [None]:
# **Ejercicio 1:**
# Agrupa el DataFrame por la columna 'categoría' y calcula la suma total de las ventas por categoría.

resultado = df.groupby('categoría')['ventas'].mean()
resultado

KeyError: 'categoría'

In [None]:
df.sample()

In [None]:
# **Ejercicio 2:**
# Agrupa el DataFrame por la columna 'categoría' y calcula:
# - La suma total de las ventas.
# - El promedio de los descuentos.

resultado2 = df.groupby(['categoria']).agg(
    {
        'ventas':'mean',
        'descuento':['sum','mean']
    }
)

# resultado2 = resultado2.rename(
#     columns = {
#         'ventas':'promedio_ventas',
#         'descuento':'suma_descuento'
#     }
# )

resultado2

In [None]:
resultado2 = df.groupby(['categoria']).agg(
    suma_ventas = ('ventas','sum'),
    promedio_ventas = ('ventas','mean'),
    std_ventas = ('ventas','std'),
    descuento_promedio = ('descuento','mean')
)

resultado2

In [None]:
def contar_nulos(serie):
  return serie.isna().sum()

df.groupby( 'categoria').agg(
    {
        'descuento':lambda x: contar_nulos(x)
    }
)

In [None]:
# **Ejercicio 4 (reto):**
# Agrupa el DataFrame por la columna 'categoría' y calcula:
# - La suma total de las ventas.
# - El promedio de las ventas.
# - La desviación estándar de los descuentos.

resultado3 = df.groupby( 'categoría').agg(
    {
        'ventas':['sum','mean'],
        'descuento':'std'
    }
)

resultado3

In [None]:
resultado4 = df.groupby('categoría').agg(
    suma_ventas = ('ventas','sum'),
    promedio_ventas = ('ventas','mean'),
    std_descuento = ('descuento','std'),
)
resultado4

In [None]:


resultado_2 = df.groupby('categoría').agg({
    'ventas': 'sum',
    'descuento': 'mean'
})
print("\nEjercicio 2:\n", resultado_2)


resultado_4 = df.groupby('categoría').agg({
    'ventas': ['sum', 'mean'],
    'descuento': 'std'
})
print("\nEjercicio 4:\n", resultado_4)


## Renombrar columnas en Pandas usando el método `.rename`

El método `.rename` en Pandas se utiliza para cambiar los nombres de las columnas o los índices de un DataFrame de manera fácil y flexible. Es especialmente útil cuando queremos ajustar nombres de columnas para que sean más descriptivos o consistentes.

## ¿Cómo funciona el método `.rename`?

1. **Renombrar columnas específicas**: Usamos el argumento `columns` y proporcionamos un diccionario donde las claves son los nombres actuales de las columnas, y los valores son los nuevos nombres.
2. **Renombrar índices**: Podemos usar el argumento `index` si queremos cambiar los nombres de los índices.
3. **Aplicar los cambios permanentemente**: Si queremos que los cambios se apliquen directamente al DataFrame, usamos el argumento `inplace=True`.

### Sintaxis básica

```python
df.rename(columns={'columna_actual': 'nuevo_nombre'})
```

In [None]:
data = {
    'nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofía','Sofía'],
    'edad': [23, 45, 34, 19, 31,20],
    'ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Sevilla', 'Barcelona','Barcelona']
}

df = pd.DataFrame(data)

# **Ejercicio 1:**
# Renombra la columna 'nombre' por 'Nombre completo'.
df_1 = df.rename(columns={'nombre': 'Nombre completo'})
print("Ejercicio 1:\n", df_1)

# **Ejercicio 2:**
# Renombra las columnas 'edad' y 'ciudad' por 'Edad (años)' y 'Ubicación', respectivamente.
df_2 = df.rename(columns={'edad': 'Edad (años)', 'ciudad': 'Ubicación'})
print("\nEjercicio 2:\n", df_2)

## Imputación de valores nulos en un DataFrame de Pandas

En el análisis de datos, es común encontrarnos con valores nulos (o `NaN`). Estos representan datos faltantes o desconocidos. Pandas ofrece varias formas de manejar estos valores, y una de las más utilizadas es **imputar valores nulos**. Esto significa reemplazarlos con un valor específico.

### Métodos comunes para imputar valores

1. **Reemplazar con un valor fijo**:
   Usamos el método `.fillna()` para asignar un valor fijo a los datos nulos.
   ```python
   df['columna'].fillna(valor, inplace=True)
   ```
2. Reemplazar con medidas estadísticas:

  - Promedio (mean): Útil para datos numéricos.
  - Mediana (median): Útil cuando hay valores atípicos.
  - Moda (mode): Útil para datos categóricos.

  ```python
   df['columna'].fillna(df['columna'].mean())
   df['columna'].fillna(df['columna'].median())
   df['columna'].fillna(df['columna'].mode()[0])
  ```

### Notas importantes
- Impacto en los datos: La imputación afecta los resultados del análisis, así que elige el método más adecuado para tu caso.
- Evitar la sobrescritura accidental: Usa inplace=True solo si estás seguro, de lo contrario, asigna el resultado a un nuevo DataFrame.
- Verificar los cambios: Usa .isnull().sum() para contar valores nulos antes y después de la imputación.

In [None]:
df['ciudad'].mode()[0]

In [None]:
df['cancion'].isna().mean() -> 90%

In [None]:
df['cancion_favorita'].fillna('no_aplica')


ingresos_promedio = df['ingresos'].mean()
ingresos_std = df['ingresos'].std()

df['ingresos'].fillna(ingresos_std)

In [None]:
#inplace vs no inplace


data = {
    'nombre': ['Ana', 'Luis', 'Marta', None, 'Sofía'],
    'edad': [23, 45, None, 19, 31],
    'ciudad': ['Madrid', 'Barcelona', None, 'Sevilla', 'Barcelona'],
    'ingreso': [30000, None, 42000, 15000, None]
}

df = pd.DataFrame(data)

In [None]:
df

In [None]:
# **Ejercicio 1:**
# Reemplaza los valores nulos de la columna 'edad' con el promedio de las edades.

data = {
    'nombre': ['Ana', 'Luis', 'Marta', None, 'Sofía'],
    'estatura': [180, 140, None, 191, 150],
    'pais': ['Noruega', 'Filipinas', 'Noruega', 'Noruega', 'Filipinas'],
    'ingreso': [None, 1, 42000, 15000, None]
}

df = pd.DataFrame(data)


df['ingreso'].ffill()
df

In [None]:
def funcion(parametro_1:float=1):


In [None]:
# **Ejercicio 2:**
# Reemplaza los valores nulos de la columna 'ciudad' con el texto 'Desconocido'.

data = {
    'nombre': ['Ana', 'Luis', 'Marta', None, 'Sofía'],
    'edad': [23, 45, None, 19, 31],
    'ciudad': ['Madrid', 'Barcelona', None, 'Sevilla', 'Barcelona'],
    'ingreso': [30000, None, 42000, 15000, None]
}

df = pd.DataFrame(data)
df['ciudad'] = df['ciudad'].fillna('Desconocido')
df

In [None]:
# **Ejercicio 3:**
# Rellena los valores nulos de la columna 'ingreso' con el valor anterior (método forward fill).

df['ingreso'].ffill()

In [None]:


print("DataFrame original:\n", df)


df['edad'].fillna(df['edad'].mean(), inplace=True)
print("\nEjercicio 1 - Edad imputada con promedio:\n", df)


df['ciudad'].fillna('Desconocido', inplace=True)
print("\nEjercicio 2 - Ciudad imputada con 'Desconocido':\n", df)



print("\nEjercicio 3 - Ingreso imputado con forward fill:\n", df)

# **Ejercicio 4 (reto):**
# Reemplaza los valores nulos de la columna 'nombre' con la cadena 'Sin nombre'
# y crea un nuevo DataFrame sin valores nulos en ninguna columna.
df['nombre'].fillna('Sin nombre', inplace=True)
df_sin_nulos = df.dropna()
print("\nEjercicio 4 - Nombre imputado y DataFrame sin nulos:\n", df_sin_nulos)