# TÉCNICAS DE FILTRADO CON PANDAS 🔎

## IMPORTACIÓN DE LIBRERÍAS

In [42]:
import pandas as pd

## CARGA DEL DATASET

In [43]:
df = pd.read_csv('dataset_finanzas_personales_madrid_34_años.csv', delimiter = ',')

## DEFINICIÓN DEL CAMPO 'ID' COMO ÍNDICE

In [44]:
df.set_index('ID',inplace=True)

## PRIMERA EXPLORACIÓN

In [45]:
df.head()

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2024,1,1,1/1/2024,Vivienda,"1,100.00 €"
2,2024,1,1,1/1/2024,Ingreso,1.16 €
3,2024,1,1,1/1/2024,Estudio,48.00 €
4,2024,1,2,1/2/2024,Regalo,16.99 €
5,2024,1,2,1/2/2024,Deporte,58.54 €


In [46]:
df.tail()

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
310,2024,8,20,8/20/2024,Belleza,10.40 €
311,2024,8,20,8/20/2024,Supermercado,5.99 €
312,2024,8,21,8/21/2024,Ingreso,2.00 €
313,2024,8,24,8/24/2024,Servicios,1.39 €
314,2024,8,27,8/27/2024,Supermercado,49.97 €


#### CANTIDAD DE NULOS

In [47]:
df.isnull().sum()

AÑO       0
MES       0
DIA       0
FECHA     0
TIPO      0
PRECIO    0
dtype: int64

#### INFORMACIÓN DE LOS CAMPOS

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 314 entries, 1 to 314
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   AÑO     314 non-null    int64 
 1   MES     314 non-null    int64 
 2   DIA     314 non-null    int64 
 3   FECHA   314 non-null    object
 4   TIPO    314 non-null    object
 5   PRECIO  314 non-null    object
dtypes: int64(3), object(3)
memory usage: 17.2+ KB


## TRANSFORMACION DE CAMPOS

### CAMPO FECHA

In [49]:
df['FECHA'] = pd.to_datetime(df['FECHA'], format='%m/%d/%Y')

### CAMPO PRECIO

In [50]:
df['PRECIO'] = df['PRECIO'].str.replace(' €','') # Ejemplo: 1,424.18 € => 1,424.18
df['PRECIO'] = df['PRECIO'].str.replace(',','') #Separador de miles | Ejemplo: 1,424.18 => 1424.18
df['PRECIO'] = df['PRECIO'].astype(float)

In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 314 entries, 1 to 314
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   AÑO     314 non-null    int64         
 1   MES     314 non-null    int64         
 2   DIA     314 non-null    int64         
 3   FECHA   314 non-null    datetime64[ns]
 4   TIPO    314 non-null    object        
 5   PRECIO  314 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(3), object(1)
memory usage: 17.2+ KB


## TÉCNICAS DE FILTRADO

### 1. FILTRADO USANDO "[]"

In [52]:
#Registros con 'PRECIO' mayor a 1000€. Ordenados por 'FECHA' de más antiguo a más reciente.
df[df['PRECIO']>1000].sort_values(by='FECHA',ascending=True)

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2024,1,1,2024-01-01,Vivienda,1100.0
29,2024,1,31,2024-01-31,Ingreso,1924.18
31,2024,2,1,2024-02-01,Vivienda,1100.0
47,2024,2,9,2024-02-09,Ingreso,1653.03
76,2024,3,1,2024-03-01,Vivienda,1100.0
87,2024,3,8,2024-03-08,Ingreso,1768.12
116,2024,4,1,2024-04-01,Vivienda,1100.0
140,2024,4,10,2024-04-10,Ingreso,2057.19
182,2024,5,1,2024-05-01,Vivienda,1100.0
200,2024,5,10,2024-05-10,Ingreso,1606.26


In [53]:
#Registros con 'PRECIO' mayor a 1000€ y 'TIPO' distinto a 'Ingresos'. Ordenados por 'FECHA' de más antiguo a más reciente.
df[(df['PRECIO']>1000) & (df['TIPO'] != 'Ingreso')].sort_values(by='FECHA',ascending=True)

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2024,1,1,2024-01-01,Vivienda,1100.0
31,2024,2,1,2024-02-01,Vivienda,1100.0
76,2024,3,1,2024-03-01,Vivienda,1100.0
116,2024,4,1,2024-04-01,Vivienda,1100.0
182,2024,5,1,2024-05-01,Vivienda,1100.0
221,2024,6,1,2024-06-01,Vivienda,1100.0
258,2024,7,1,2024-07-01,Vivienda,1100.0
292,2024,8,1,2024-08-01,Vivienda,1100.0


### 2. FILTRADO USANDO .loc() | .iloc()

In [54]:
#Registros donde 'TIPO' sea 'Ingreso'
df.loc[df.TIPO == 'Ingreso']

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,2024,1,1,2024-01-01,Ingreso,1.16
16,2024,1,15,2024-01-15,Ingreso,8.0
29,2024,1,31,2024-01-31,Ingreso,1924.18
32,2024,2,1,2024-02-01,Ingreso,0.6
41,2024,2,6,2024-02-06,Ingreso,3.0
42,2024,2,6,2024-02-06,Ingreso,0.42
47,2024,2,9,2024-02-09,Ingreso,1653.03
77,2024,3,1,2024-03-01,Ingreso,0.11
81,2024,3,2,2024-03-02,Ingreso,10.0
87,2024,3,8,2024-03-08,Ingreso,1768.12


In [55]:
#Primer registro (por índice)
df.iloc[0]

AÑO                      2024
MES                         1
DIA                         1
FECHA     2024-01-01 00:00:00
TIPO                 Vivienda
PRECIO                 1100.0
Name: 1, dtype: object

In [56]:
#Último registro (por índice)
df.iloc[313]

AÑO                      2024
MES                         8
DIA                        27
FECHA     2024-08-27 00:00:00
TIPO             Supermercado
PRECIO                  49.97
Name: 314, dtype: object

In [57]:
#Primeros 10 registros (por índice)
df.iloc[0:10] #Recordar que .iloc[] no trae el último elemento solicitado.

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2024,1,1,2024-01-01,Vivienda,1100.0
2,2024,1,1,2024-01-01,Ingreso,1.16
3,2024,1,1,2024-01-01,Estudio,48.0
4,2024,1,2,2024-01-02,Regalo,16.99
5,2024,1,2,2024-01-02,Deporte,58.54
6,2024,1,3,2024-01-03,Supermercado,39.18
7,2024,1,3,2024-01-03,Actividades,2.6
8,2024,1,5,2024-01-05,Supermercado,12.31
9,2024,1,9,2024-01-09,Servicios,1.4
10,2024,1,10,2024-01-10,Belleza,10.0


### 3. FILTRADO USANDO .isin()

In [58]:
#Todos los registros donde 'TIPO' sea 'Vivienda' o 'Servicios'
df.loc[df['TIPO'].isin(['Vivienda','Servicios'])]

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,2024,1,1,2024-01-01,Vivienda,1100.00
9,2024,1,9,2024-01-09,Servicios,1.40
19,2024,1,20,2024-01-20,Servicios,10.00
20,2024,1,24,2024-01-24,Servicios,0.96
27,2024,1,31,2024-01-31,Vivienda,6.23
...,...,...,...,...,...,...
292,2024,8,1,2024-08-01,Vivienda,1100.00
294,2024,8,1,2024-08-01,Servicios,10.00
296,2024,8,1,2024-08-01,Servicios,10.00
305,2024,8,8,2024-08-08,Servicios,2.03


### 4. FILTRADO USANDO .str.contains()

In [59]:
#Todos los registros donde 'TIPO' contenga las letras 'porte' y no distinga mayúsculas de minúsculas.
condicion = df['TIPO'].str.contains("porte", case = False)
df[condicion]

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
5,2024,1,2,2024-01-02,Deporte,58.54
24,2024,1,27,2024-01-27,Deporte,12.0
61,2024,2,21,2024-02-21,Deporte,4.99
62,2024,2,21,2024-02-21,Deporte,25.99
63,2024,2,21,2024-02-21,Deporte,121.93
66,2024,2,22,2024-02-22,Transporte,0.35
79,2024,3,1,2024-03-01,Deporte,58.54
82,2024,3,2,2024-03-02,Transporte,12.15
86,2024,3,7,2024-03-07,Transporte,0.7
93,2024,3,16,2024-03-16,Deporte,10.0


### 5. FILTRADO USANDO .where()

In [60]:
df.where(df['PRECIO'] < 50)

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,,,,NaT,,
2,2024.0,1.0,1.0,2024-01-01,Ingreso,1.16
3,2024.0,1.0,1.0,2024-01-01,Estudio,48.00
4,2024.0,1.0,2.0,2024-01-02,Regalo,16.99
5,,,,NaT,,
...,...,...,...,...,...,...
310,2024.0,8.0,20.0,2024-08-20,Belleza,10.40
311,2024.0,8.0,20.0,2024-08-20,Supermercado,5.99
312,2024.0,8.0,21.0,2024-08-21,Ingreso,2.00
313,2024.0,8.0,24.0,2024-08-24,Servicios,1.39


### 6. FILTRADO USANDO .query()

In [61]:
df.query('PRECIO < 50')

Unnamed: 0_level_0,AÑO,MES,DIA,FECHA,TIPO,PRECIO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,2024,1,1,2024-01-01,Ingreso,1.16
3,2024,1,1,2024-01-01,Estudio,48.00
4,2024,1,2,2024-01-02,Regalo,16.99
6,2024,1,3,2024-01-03,Supermercado,39.18
7,2024,1,3,2024-01-03,Actividades,2.60
...,...,...,...,...,...,...
310,2024,8,20,2024-08-20,Belleza,10.40
311,2024,8,20,2024-08-20,Supermercado,5.99
312,2024,8,21,2024-08-21,Ingreso,2.00
313,2024,8,24,2024-08-24,Servicios,1.39


Este documento fue creado por [Fede Labate](https://www.linkedin.com/in/fhlabate/) con un dataset ficticio intentando simular las finanzas personales de una persona de 34 años residente de Madrid. 
Me resultaba complicado entender todas las formas de filtrar datos con la librería **Pandas** así que usé de inspiración el [repositorio](https://github.com/bcamandone/Python_Analisis_datos/blob/main/Filtrado%20con%20Pandas/T%C3%A9cnicas%20de%20filtrado%20de%20datos%20con%20Pandas.ipynb) de [Belu Camandone 💫](https://github.com/bcamandone) la cual recomiendo ampliamente seguir, dado que sube información y challenges muy interesantes 💖

Espero que os sirva en su proceso de formación y cualquier duda o curiosidad, pueden escribirme por Linkedin 🙌