In [1]:
import pandas as pd

El método `.pipe()` en pandas es muy útil para realizar una serie de operaciones en un DataFrame de manera más compacta y legible

En este ejemplo, queremos normalizar los valores de una columna de un DataFrame. En lugar de hacerlo en varias líneas, podemos usar el método `.pipe()` para encadenar varias operaciones de manera más compacta:

In [2]:
# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({'valor': [1, 2, 3, 4, 5]})
#asd
# Definir una función para normalizar los valores
def normalizar(valores):
    media = valores.mean()
    desviacion = valores.std()
    return (valores - media) / desviacion

# Normalizar los valores de la columna "valor"
df['valor_normalizado'] = (
    df['valor']
    .pipe(normalizar)
)

df


Unnamed: 0,valor,valor_normalizado
0,1,-1.264911
1,2,-0.632456
2,3,0.0
3,4,0.632456
4,5,1.264911


En este ejemplo, queremos eliminar las filas de un DataFrame que cumplen cierta condición. En lugar de hacerlo en varias líneas, podemos usar el método `.pipe()` para encadenar varias operaciones de manera más compacta.

In [None]:
# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    'valor': [1, 2, 3, 4, 5],
    'condicion': [True, False, True, False, True]
})

# Definir una función para eliminar las filas que cumplen la condición
def eliminar_filas_condicion(df, columna_condicion):
    return df.loc[~df[columna_condicion]]

# Eliminar las filas que cumplen la condición
df_sin_condicion = (
    df
    .pipe(eliminar_filas_condicion, columna_condicion='condicion')
)

df_sin_condicion


En este ejemplo, queremos aplicar múltiples funciones a un DataFrame. En lugar de hacerlo en varias líneas, podemos usar el método `.pipe()` para encadenar varias operaciones de manera más compacta:

In [4]:
# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    'valor': [1, 2, 3, 4, 5],
    'otro_valor': [10, 20, 30, 40, 50]
})

# Definir una función para normalizar los valores
def normalizar(valores):
    media = valores.mean()
    desviacion = valores.std()
    return (valores - media) / desviacion

# Definir una función para calcular la media móvil de los valores
def media_movil(valores, ventana=2):
    return valores.rolling(ventana).mean()

# Aplicar múltiples funciones al DataFrame
df_transformado = (
    df
    .pipe(normalizar)
    .pipe(media_movil, ventana=2)
)

df_transformado


      valor  otro_valor
0       NaN         NaN
1 -0.948683   -0.948683
2 -0.316228   -0.316228
3  0.316228    0.316228
4  0.948683    0.948683


En este ejemplo, queremos filtrar las filas de un DataFrame que cumplen una condición. En lugar de hacerlo en varias líneas, podemos usar el método .pipe() para encadenar varias operaciones de manera más compacta:

In [5]:
# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    'valor': [1, 2, 3, 4, 5],
    'condicion': [True, False, True, False, True]
})

# Definir una función para filtrar las filas que cumplen la condición
def filtrar_filas_condicion(df, columna_condicion):
    return df.loc[df[columna_condicion]]

# Filtrar las filas que cumplen la condición
df_con_condicion = (
    df
    .pipe(filtrar_filas_condicion, columna_condicion='condicion')
)

df_con_condicion


Unnamed: 0,valor,condicion
0,1,True
2,3,True
4,5,True


En este ejemplo, la función calcular_percentiles() toma como entrada un DataFrame df, una columna específica columna y una lista de percentiles percentiles y devuelve el mismo DataFrame con nuevas columnas que representan los percentiles especificados. La función assign() se utiliza para agregar nuevas columnas al DataFrame.

Luego, el método .pipe() se utiliza para aplicar la función calcular_percentiles() al DataFrame df, especificando la columna Puntaje y los percentiles [0.25, 0.5, 0.75].

El resultado es un nuevo DataFrame df_con_percentiles que contiene las columnas originales más tres nuevas columnas que representan los percentiles 25, 50 y 75 de la columna Puntaje.

Espero que este ejemplo te sea útil para entender cómo calcular percentiles específicos para una columna de un DataFrame y convertirlos en nuevas columnas utilizando el método .pipe() de pandas.

 cómo calcular percentiles específicos para una columna de un DataFrame y convertirlos en nuevas columnas utilizando el método .pipe() de pandas

In [6]:
import pandas as pd

# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    'Nombre': ['Juan', 'Pedro', 'María', 'Sofía', 'Lucas'],
    'Edad': [25, 28, 32, 24, 29],
    'Puntaje': [75, 80, 85, 70, 90]
})

# Definir una función para calcular los percentiles y convertirlos en nuevas columnas
def calcular_percentiles(df, columna, percentiles):
    nuevas_columnas = [f'{columna}_percentil_{p}' for p in percentiles]
    valores_percentiles = df[columna].quantile(percentiles)
    return df.assign(**dict(zip(nuevas_columnas, valores_percentiles)))

# Calcular percentiles específicos para la columna 'Puntaje'
df_con_percentiles = (
    df
    .pipe(calcular_percentiles, columna='Puntaje', percentiles=[0.25, 0.5, 0.75])
)

df_con_percentiles


Unnamed: 0,Nombre,Edad,Puntaje,Puntaje_percentil_0.25,Puntaje_percentil_0.5,Puntaje_percentil_0.75
0,Juan,25,75,75.0,80.0,85.0
1,Pedro,28,80,75.0,80.0,85.0
2,María,32,85,75.0,80.0,85.0
3,Sofía,24,70,75.0,80.0,85.0
4,Lucas,29,90,75.0,80.0,85.0


un ejemplo de cómo calcular percentiles específicos para una columna de un DataFrame y convertirlos en nuevas columnas sin utilizar el método .pipe() de pandas

In [None]:
# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    'Nombre': ['Juan', 'Pedro', 'María', 'Sofía', 'Lucas'],
    'Edad': [25, 28, 32, 24, 29],
    'Puntaje': [75, 80, 85, 70, 90]
})

# Calcular percentiles específicos para la columna 'Puntaje'
percentiles = [0.25, 0.5, 0.75]
nuevas_columnas = [f'Puntaje_percentil_{p}' for p in percentiles]
valores_percentiles = df['Puntaje'].quantile(percentiles)
df_con_percentiles = df.assign(**dict(zip(nuevas_columnas, valores_percentiles)))

df_con_percentiles

# Tarea

In [7]:
url = "https://raw.githubusercontent.com/education454/data/main/student-mat.csv"
df = pd.read_csv(url, sep=";")
df


HTTPError: HTTP Error 404: Not Found