In [2]:
import pandas as pd
import seaborn as sns

### 1.Filtrar datos de manera sencilla con query()

La función de Pandas query() nos brindará una forma concisa de seleccionar filas de un dataframe según la condición

In [3]:
# dataset 
data = {'Producto': ['Leche', 'Manteca', 'Harina', 'Tomate'],
        'Ventas': [2700, 2000, 3750, 1200]}
df = pd.DataFrame(data)

# Buscamos los valores de venta mayores a 2500
ventas_mayores = df.query('Ventas > 2500')

ventas_mayores

Unnamed: 0,Producto,Ventas
0,Leche,2700
2,Harina,3750


### 2.Datos categóricos

El uso del tipo de datos categóricos puede hacer que el análisis sea más eficiente y que sea más fácil trabajar con los datos, como por ejemplo a la hora de  aplicar un modelo de ML o filtrar fácilmente.

Supongamos que estamos trabajando con el dataset de un call center donde tenemos 3 categorías:

    - Contactado
    
    - No contactado
    
    - Asesorado

In [4]:
# dataset 
data1 = {'ID_Cliente': ['456231', '987443', '332167', '594361'],
        'Feedback': ['Contactado','Asesorado','Contactado','No contactado']}
df1 = pd.DataFrame(data1)

# Convertimos la columna Feedback a tipo de dato categorico
df1['Feedback'] = df1['Feedback'].astype('category')

print(df1['Feedback'])
print(df1['Feedback'].cat.codes)

0       Contactado
1        Asesorado
2       Contactado
3    No contactado
Name: Feedback, dtype: category
Categories (3, object): ['Asesorado', 'Contactado', 'No contactado']
0    1
1    0
2    1
3    2
dtype: int8


### 3.Agregación

Podemos utilizar la función agg para aplicar diferentes agregaciones a diferentes columnas de un DataFrame.

In [5]:
df_titanic = sns.load_dataset('titanic')

aggregaciones = df_titanic.agg({
    'age': ['min', 'max', 'mean'],
    'fare': ['sum', 'mean']
})

agregaciones1 = pd.DataFrame(aggregaciones)

agregaciones1

Unnamed: 0,age,fare
min,0.42,
max,80.0,
mean,29.699118,32.204208
sum,,28693.9493


### 4.Multi-Index

Pandas tiene una herramienta llamada MultiIndex o indexación jerárquica. Te permite manejar datos con más de dos niveles, como en una tabla

In [6]:
# dataset
data3 = {
    'Año': [2024, 2024, 2023, 2023,2023,2023],
    'Mes': ['1', '2', '3', '4','5','6'],
    'Ventas': [250000, 300000, 400000, 500000,324000,127000]
}

df3 = pd.DataFrame(data3)

# Set MultiIndex
df3.set_index(['Año', 'Mes'], inplace=True)

df3

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,Mes,Unnamed: 2_level_1
2024,1,250000
2024,2,300000
2023,3,400000
2023,4,500000
2023,5,324000
2023,6,127000


### 5.Filtrar con el método isin

Podemos utilizar el método isin para filtrar filas según una lista de valores.
Este método es útil cuando trabajamos con datos categóricos y deseamos seleccionar filas que pertenecen a determinadas categorías. 
Es más conciso que utilizar múltiples condiciones lógicas con el operador &.

In [7]:
titanic_filtrado = df_titanic[df_titanic['class'].isin(['First', 'Second'])]

In [8]:
titanic_filtrado.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
