<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Filtrado-de-datos" data-toc-modified-id="Filtrado-de-datos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Filtrado de datos</a></span></li><li><span><a href="#Operadores-de-comparación" data-toc-modified-id="Operadores-de-comparación-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Operadores de comparación</a></span></li><li><span><a href="#Método-.isin()" data-toc-modified-id="Método-.isin()-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Método <code>.isin()</code></a></span></li><li><span><a href="#Método-.between()" data-toc-modified-id="Método-.between()-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Método <code>.between()</code></a></span></li><li><span><a href="#Método-.str.contains()" data-toc-modified-id="Método-.str.contains()-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Método <code>.str.contains()</code></a></span></li><li><span><a href="#Método-.filter()" data-toc-modified-id="Método-.filter()-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Método <code>.filter()</code></a></span></li><li><span><a href="#Método-.query()" data-toc-modified-id="Método-.query()-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Método <code>.query()</code></a></span></li><li><span><a href="#Método-.nlargest()" data-toc-modified-id="Método-.nlargest()-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Método <code>.nlargest()</code></a></span></li><li><span><a href="#Método-.nsmallest()" data-toc-modified-id="Método-.nsmallest()-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Método <code>.nsmallest()</code></a></span></li><li><span><a href="#Otras-formas-de-filtrado" data-toc-modified-id="Otras-formas-de-filtrado-10"><span class="toc-item-num">10&nbsp;&nbsp;</span>Otras formas de filtrado</a></span></li><li><span><a href="#Resumen-de-los-métodos-aprendidos" data-toc-modified-id="Resumen-de-los-métodos-aprendidos-11"><span class="toc-item-num">11&nbsp;&nbsp;</span>Resumen de los métodos aprendidos</a></span></li></ul></div>

# Filtrado de datos

El filtrado de datos es una etapa crucial en el proceso de limpieza de un DataFrame para los analistas de datos. Aquí explicamos la importancia del filtrado de datos:

- **Eliminación de datos irrelevantes**: Los DataFrames pueden contener muchos datos irrelevantes para el análisis. El filtrado elimina filas o columnas no útiles, reduciendo el ruido y enfocándose en los datos importantes.

- **Tratamiento de valores faltantes**: Los valores nulos son comunes en los conjuntos de datos. El filtrado nos va a permitir identificar y poder manejarlos para que nuestro análisis sea más robusto.  

- **Filtrado por condiciones específicas**: A menudo, se necesita trabajar con subconjuntos de datos que cumplen ciertas condiciones. El filtrado selecciona filas que satisfacen criterios específicos, facilitando un análisis enfocado y preciso.

En Pandas, hay métodos para filtrar datos:

- **Operadores de comparación**: Se usan para crear condiciones de filtrado basadas en los valores de columnas.

- **Método `isin()`**: Filtra filas según una lista de valores permitidos.

- **Método `between()`**: Filtra filas en un rango de valores.

- **Método `str.contains()`**: Filtra datos basados en la presencia de una subcadena en strings.

- **Método `filter()`**: Selecciona columnas o filas que cumplen ciertas condiciones. Puede usarse para seleccionar columnas por nombre, por un patrón o por su índice.

- **Método `query()`**: Realiza filtrado basado en condiciones expresadas como una cadena, como si fuera una query.

- **Método `nlargest()`**: Selecciona las *n* filas con los valores más altos en una o varias columnas.

- **Método `nsmallest()`**: Selecciona las *n* filas con los valores más bajos en una o varias columnas.

- Otras formas de filtrado:

    - **Métodos para filtrar nulos (`isnull()` / `notnull()`)**: Se utilizan para filtrar filas que contienen valores nulos o no nulos.

    - **Métodos para filtrar duplicados (`duplicated()` / `drop_duplicates()`)**: Se usan para identificar y filtrar filas duplicadas.

In [17]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [8]:
# antes de empezar vamos a leer los datos, el primero que importaremos será el csv donde tenemos la información de la campaña de marketing
df = pd.read_csv("datos/IBM_HR_Employee_Attrition_full.csv", index_col=0)
df.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium


# Operadores de comparación

Son útiles para seleccionar filas basadas en condiciones específicas:

1. **Crear una condición**: Utiliza operadores como `>`, `<`, `>=`, `<=`, `==`, `!=` para comparar valores.
   
2. **Aplicar la condición**: Aplícala directamente dentro de corchetes `[]` al DataFrame.
   
3. **Combinar condiciones**: Usa `&` (and) y `|` (or) para condiciones complejas.

In [9]:
# imaginemos que queremos quedarnos solo con aquellos empleados que se han ido de la compañia  
# primero establecemos la condición de filtrado que queremos, en este caso que la columna de 'Attrition' sea igual a 'Yes'
condicion_ex = df["Attrition"] == "Yes"

# ahora aplicamos la condicion definida previamente a todo el DataFrame, esto lo haremos usando la sintaxis con corchetes
# vamos a almancenar los resultados en una variable que se llame 'df_desempleados'
df_ex = df[condicion_ex]

# comprobamos que el filtrado se hizo correctamente, en este caso, la columna 'Attrition' deberá tener un único valor  ('Yes')
df_ex["Attrition"].unique()

array(['Yes'], dtype=object)

In [10]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
DistanceFromHome,1470.0,9.192517,8.106864,1.0,2.0,7.0,14.0,29.0
Age,1470.0,36.92381,9.135373,18.0,30.0,36.0,43.0,60.0
YearsInCurrentRole,1470.0,6.236054,5.366049,0.0,2.0,5.0,9.0,23.0
YearsSinceLastPromotion,1470.0,1.042857,1.936764,0.0,0.0,0.0,1.0,13.0
YearsWithCurrManager,1470.0,2.083673,2.617518,0.0,0.0,1.0,3.0,17.0
TotalWorkingYears,1470.0,11.279592,7.780782,0.0,6.0,10.0,15.0,40.0
NumCompaniesWorked,1454.0,2.676754,2.488248,0.0,1.0,2.0,4.0,9.0
Sons,1470.0,0.502721,0.500163,0.0,0.0,1.0,1.0,1.0
DailyRate,1323.0,802.877551,405.960669,102.0,465.0,798.0,1168.0,1499.0
EmployeeCount,1470.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0


In [11]:
# podríamos filtrar también con operadores de comparación, por ejemplo imaginemos que queremos quedarnos solo con los datos de aquellos empleados que tienen un 'MonthlyIncome' mayor de 15000
condicion_income = df["MonthlyIncome"] > 15000

# aplicamos el filtro al DataFrame
df_income_150 = df[condicion_income]

# comprobamos que el filtrado se hizo correctamente, en este caso el valor mínimo que tengamos para esta columna deberá ser mayor que 15000, para eso vamos a usar el método '.min()' de Pandas
df_income_150["MonthlyIncome"].min()

15202

In [12]:
# ¿y si quisieramos juntar dos condiciones? Tendríamos que utilizar el operador "&" (si queremos un and) o el operador "|" (si queremos un or)
# en este caso vamos a buscar aquellos clientes que están casados Y que tienen un 'MonthlyIncome' mayor que 15000
condicion_casados = df["MaritalStatus"] == "Married"

df_income_casados = df[condicion_casados & condicion_income]
df_income_casados.head(2)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
3,4,College,Technical Degree,Male,Married,42,4b0a1169-b286-44fb-a453-b97ca934db57,2000-01-28 16:59:19,11,1,5,22,,1.0,Misisipi,1,No,Travel_Rarely,532.0,Research & Development,1,58,5,Manager,19232,4933,No,11,80.0,0,3,High,High,Very High,Excellent,Very High
6,6,Bachelor,Medical,Female,Married,43,69658f26-48fa-4573-8317-2668b70f54a9,2000-02-14 15:46:42,4,0,6,21,,7.0,Italia,0,No,Travel_Rarely,,Research & Development,1,81,5,Manager,19392,22539,No,13,80.0,0,2,Low,Medium,High,Excellent,Very High


In [13]:
# imaginemos ahora que queremos saber que empleados son los que estan muy satisfechos con su "EnvironmentSatisfaction" O con "RelationshipSatisfaction"

condicion1 = df["EnvironmentSatisfaction"] == "Very High"
condicion2 = df["RelationshipSatisfaction"] == "Very High"

df_satisfechos = df[condicion1 | condicion2]
df_satisfechos.head(2)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium
1,25,College,Technical Degree,Female,Married,30,0722da7a-530b-41dd-b705-c79f7627f677,2000-01-17 03:53:10,16,0,0,4,Y,7.0,España,1,No,Non-Travel,641.0,Sales,1,85,2,Sales Executive,4736,6069,Yes,12,80.0,1,2,Very High,High,High,Excellent,Medium


# Método `.isin()`


El método `isin()` se usa para filtrar datos basados en una lista de valores permitidos. Permite seleccionar filas en un DataFrame cuyos valores en una columna específica coinciden con cualquiera de los valores proporcionados en la lista.

A continuación, una explicación sobre cómo usar `isin()` en el filtrado de Pandas:

1. **Crear una lista de valores permitidos**: Primero, se crea una lista con los valores que se desean permitir en el filtrado. Pueden ser valores únicos o una lista de varios valores.

2. **Aplicar la función `isin()`**: Una vez que se tiene la lista de valores permitidos, se aplica la función `isin()` a la columna deseada en el DataFrame usando corchetes `[]`.

La sintaxis básica es:
```python
dataframe[columna].isin(valores)
```
Donde:
- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para el filtrado.
  
- `valores`: Puede ser una lista, Serie o array-like que contiene los valores que se desean comprobar.

In [14]:
df.head(2)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium
1,25,College,Technical Degree,Female,Married,30,0722da7a-530b-41dd-b705-c79f7627f677,2000-01-17 03:53:10,16,0,0,4,Y,7.0,España,1,No,Non-Travel,641.0,Sales,1,85,2,Sales Executive,4736,6069,Yes,12,80.0,1,2,Very High,High,High,Excellent,Medium


In [15]:
# imaginemos que nos interesan solo los empleados  que tienen un nivel de educación de 'Master', 'Doctor'. 
# podríamos usar lo métodos aprendidos previamente, pero la realidad es que cuantas más condiciones pongamos más probabilidad hay en equivocarnos. 
# para eso usaremos el método 'isin()' 

# primero definimos una lista con los valores que queremos filtrar
filtro_educacion = ['Master', 'Doctor']

# aplicamos el método 'isin()' pasando la lista
df_educacion = df[df["Education"].isin(filtro_educacion)]

# comprobamos que ahora solo tenemos dos valores únicos para la columna ' education'
df_educacion["Education"].unique()

array(['Master', 'Doctor'], dtype=object)

# Método `.between()`

El método `between`se utiliza para filtrar filas de un DataFrame o una Serie basándose en un rango numérico o de fechas. Verifica si los valores de la columna seleccionada están dentro del rango especificado y devuelve una máscara booleana que indica qué filas cumplen con la condición.

La sintaxis del método `between` es la siguiente:

```python
dataframe[columna].between(inicio, fin, inclusive=True)
```
Donde:

- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para el filtrado.
  
- `inicio` y `fin`: Indican los límites del rango.
  
- `inclusive` (opcional): Determina si los límites del rango son inclusivos o exclusivos. Sus valores pueden ser:

    - both: incluye el inicio y el final.
  
    - left: incluye el inicio pero no el final.
  
    - right: incluye el final pero no el inicio.
  
    - neither: no incluye el inicio ni el final.

In [16]:
# imaginemos que queremos extraer la informción de los empleados que tienen entre 30 y 40 años, ambas edades incluidas. De nuevo lo podríamos hacer como lo hemos aprendido hasta ahora, pero sería tremendamente tedioso
# veamos como hacerlo con el método '.between()' 
df_años = df[df["Age"].between(30, 40, inclusive = "both" )]

# comprobemos que el filtro se hizo correctamente mirando el describe para confirmar que los valores máximos y mínimos son los que indicamos
df_años.describe()["Age"]

count    679.000000
mean      34.770250
std        3.051708
min       30.000000
25%       32.000000
50%       35.000000
75%       37.000000
max       40.000000
Name: Age, dtype: float64

In [27]:
# este método también se puede aplicar para columnas de tipo datetime, pero antes que convertir la columna de 'DateEmployment' a formato fecha, para eso usaremos el método pd.to_datetime
df["DateEmployment"] = pd.to_datetime(df["DateEmployment"])

# confirmamos que convertimos la fecha a datetime
df.dtypes.sort_index()

Age                                  int64
Attrition                           object
BusinessTravel                      object
Country                             object
DailyRate                          float64
DateEmployment              datetime64[ns]
Department                          object
DistanceFromHome                     int64
Education                           object
EducationField                      object
EmployeeCount                        int64
EmployeeId                          object
EnvironmentSatisfaction             object
Gender                              object
HourlyRate                           int64
JobInvolvement                      object
JobLevel                             int64
JobRole                             object
JobSatisfaction                     object
MaritalStatus                       object
MonthlyIncome                        int64
MonthlyRate                          int64
NumCompaniesWorked                 float64
Over18     

In [29]:
# imaginemos que queremos saber que empleados entraron en la compañia en enero del 2013. 
# lo primero que tendremos que hacer es generar dos objetos de tipo datetime con las fechas de inicio y fin de nuestro filtro
# para eso usaremos el método 'pd.to_datetime()' el cual necesita que le pasemos las fechas en formato string
inicio = pd.to_datetime('2013-01-01')
fin = pd.to_datetime('2013-01-31')

# después le pasaremos esas dos variables creadas al método '.between()' 
df_fechas = df[df["DateEmployment"].between(inicio, fin, inclusive = "both")]

# al igual que antes comprobemos que el filtro se hizo correctamente
df_fechas.describe()["DateEmployment"]

count                                6
mean     2013-01-22 18:48:24.666666752
min                2013-01-09 01:54:50
25%      2013-01-17 01:27:20.249999872
50%         2013-01-26 16:48:04.500000
75%      2013-01-29 08:47:12.750000128
max                2013-01-30 02:52:08
std                                NaN
Name: DateEmployment, dtype: object

# Método `.str.contains()`

El método `str.contains()` se utiliza para verificar si un patrón de texto específico está presente en una serie de objetos de tipo cadena.

La sintaxis general del método `str.contains()` es la siguiente:

```python
dataframe[columna].str.contains(pat, case=True, na=nan, regex=True)
```

Donde:

- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para la búsqueda.
  
- `pat`: Es el patrón de texto que deseas buscar en la columna.
  
- `case` (opcional): Indica si se debe realizar una búsqueda sensible a mayúsculas y minúsculas. El valor predeterminado es `True`, lo que significa que se realiza una búsqueda sensible a mayúsculas y minúsculas.
  
- `na` (opcional): Indica cómo manejar los valores nulos en la columna. Toma dos valores:

  -  True, para incluir los nulos en el resultado.
  
  -  False, para excluir los nulos del resultado.
  

- `regex` (opcional): Indica si el patrón dado debe tratarse como una expresión regular. El valor predeterminado es `True`, lo que significa que el patrón se interpreta como una expresión regular.

In [18]:
# imaginemos que queremos trabajar con la columna de 'JobRole' y quisieramos sacar todos aquellos empleados que tienen "Research" en su posición
# lo primero que debemos hacer es sacar el patrón de regex
patron_regex = ".*research.*"

df_research = df[df["JobRole"].str.contains(patron_regex, regex = True, na = False, case = False)]

# comprobelos los resultados
df_research["JobRole"].unique()

array(['Research Scientist', 'Research Director'], dtype=object)

In [19]:
# para entender que hace bien el parámetro 'na', trabajemos ahora con una columna que tiene nulos, 'JobSatisfaction'
# primero ejecutaremos el código poniendo el parámetro na  = False
# en concreto vamos a buscar todos aquellos empleados que tengan "High"

patron = ".*High.*"

df_satis1 = df[df["JobSatisfaction"].str.contains(patron, regex = True, na = False)]
df_satis1.shape

(781, 36)

In [20]:
df_satis2 = df[df["JobSatisfaction"].str.contains(patron, regex = True, na = True)]
df_satis2.shape

(972, 36)

La principal diferencia entre poner el parámetro `na` en True o en False es que al ponerlo en True nos devolverá también las filas cuyos valores sean nulos para la columna que estamos filtrando. 

# Método `.filter()`

El método `filter()` se utiliza para seleccionar columnas o filas de un DataFrame basadas en etiquetas específicas, patrones o criterios. Este método es muy útil para seleccionar subconjuntos de datos de manera flexible.

La sintaxis general del método `filter()` es la siguiente:

```python
dataframe.filter(items=None, like=None, regex=None, axis=None)
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`items`** (opcional): Especifica una lista de nombres exactos de columnas o índices que deseamos seleccionar.

- **`like`** (opcional): Permite seleccionar columnas o filas que contienen un patrón específico en su nombre. Este argumento es útil cuando queremos seleccionar todas las columnas o filas cuyos nombres contienen una subcadena específica.

- **`regex`** (opcional): Permite seleccionar columnas o filas cuyos nombres coincidan con una expresión regular. Esto proporciona una forma más avanzada de filtrar. Por defecto esta en None.

- **`axis`** (opcional): Especifica si el filtrado se realiza en columnas (`axis=1`) o filas (`axis=0`). El valor predeterminado es `axis=1` (columnas).


In [29]:
# imaginemos que queremos quedarnos con aquellas columnas que tienen "Satisfaction" en el nombre. Con lo que sabemos hasta ahora, esto lo podríamos hacer usando la siguiente sintaxis
df_satis = df[['EnvironmentSatisfaction', 'JobSatisfaction','RelationshipSatisfaction']]
print("El DataFrame con las columnas relacionadas con la satisfacción usando el MÉTODO TRADICIONAL es:")
display(df_satis.head())

# esto es factible porque tenemos pocas columnas, pero imaginad que tuvieramos cientos de columnas con la palabra "Satisfaction" en su nombre, esto podría ser un poco tedioso. Es en este momento donde el método '.filter()' puede ser interesante
# veamos como hacerlo
df_satis_filter = df.filter(like='Satisfaction')
print("El DataFrame con las columnas relacionadas con la satisfacción usando el MÉTODO 'FILTER()' es:")
df_satis_filter.head()

El DataFrame con las columnas relacionadas con la satisfacción usando el MÉTODO TRADICIONAL es:


Unnamed: 0,EnvironmentSatisfaction,JobSatisfaction,RelationshipSatisfaction
0,Very High,Medium,Medium
1,Very High,High,Medium
2,Very High,High,Very High
3,High,Very High,Very High
4,High,Very High,High


El DataFrame con las columnas relacionadas con la satisfacción usando el MÉTODO 'FILTER()' es:


Unnamed: 0,EnvironmentSatisfaction,JobSatisfaction,RelationshipSatisfaction
0,Very High,Medium,Medium
1,Very High,High,Medium
2,Very High,High,Very High
3,High,Very High,Very High
4,High,Very High,High


In [35]:
# ¿QUÉ DIFERENCIA HAY ENTRE EL PARÁMETRO 'LIKE' Y 'REGEX'?

# imagina que queremos seleccionar las columnas que empiezan con "Years"
# Si usamos el parámetro like no podremos especificar un patrón de regex por lo que, el resultado que obtendriamos sería
df_years_like = df.filter(like = "Years")
print("El resultado usando LIKE es:")
display(df_years_like.head())


df_years_regex = df.filter(regex='^Years')
print("El resultado usando REGEX es:")
df_years_regex.head()

El resultado usando LIKE es:


Unnamed: 0,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears
0,14,0,0,1
1,16,0,0,4
2,20,0,0,4
3,11,1,5,22
4,13,0,7,17


El resultado usando REGEX es:


Unnamed: 0,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,14,0,0
1,16,0,0
2,20,0,0
3,11,1,5
4,13,0,7


# Método `.query()`

El método `query()` se utiliza para filtrar filas de un DataFrame utilizando una expresión basada en cadenas que imita la sintaxis de una consulta SQL. Este método es particularmente útil para hacer filtrados complejos de manera legible y concisa.

La sintaxis general del método `query()` es la siguiente:

```python
dataframe.query(expr, inplace=False)
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`expr`**: Es una cadena que representa la expresión que deseas aplicar para filtrar los datos. La expresión debe estar en formato similar a Python y puede incluir operadores lógicos como `and`, `or`, `not`, así como operadores de comparación como `>`, `<`, `==`, `!=`, etc.

- **`inplace`** (opcional): Indica si la operación debe realizarse en el propio DataFrame, modificándolo directamente. El valor predeterminado es `False`, lo que significa que se devuelve un nuevo DataFrame sin modificar el original.


In [38]:
# Supongamos que queremos seleccionar todas las filas donde el empleado es mujer y está casada
df_mujer_casada = df.query('Gender == "Female" and MaritalStatus == "Married"')
df_mujer_casada.head()

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
1,25,College,Technical Degree,Female,Married,30,0722da7a-530b-41dd-b705-c79f7627f677,2000-01-17 03:53:10,16,0,0,4,Y,7.0,España,1,No,Non-Travel,641.0,Sales,1,85,2,Sales Executive,4736,6069,Yes,12,80.0,1,2,Very High,High,High,Excellent,Medium
6,6,Bachelor,Medical,Female,Married,43,69658f26-48fa-4573-8317-2668b70f54a9,2000-02-14 15:46:42,4,0,6,21,,7.0,Italia,0,No,Travel_Rarely,,Research & Development,1,81,5,Manager,19392,22539,No,13,80.0,0,2,Low,Medium,High,Excellent,Very High
10,15,Bachelor,Life Sciences,Female,Married,27,00bd794d-9419-41d0-86cf-348d1c35c893,2000-03-16 12:32:35,11,0,3,8,,0.0,Bélgica,0,No,Travel_Frequently,1131.0,Research & Development,1,77,1,Research Scientist,4774,23844,No,19,,1,2,Very High,Medium,Low,Excellent,Very High
19,1,College,Life Sciences,Female,Married,26,1c22851e-587d-493c-996f-ecf618faa5fb,2000-04-23 21:48:05,2,1,0,1,,1.0,Dinamarca,0,No,Travel_Rarely,482.0,Research & Development,1,90,1,Research Scientist,2933,14908,Yes,13,80.0,1,3,Medium,Medium,High,Excellent,High
23,28,Bachelor,Medical,Female,Married,44,aec56b61-f9e0-4aba-94b9-c6037f3fb1f9,2000-06-08 06:57:00,15,3,6,23,Y,3.0,California,0,No,Travel_Rarely,,Sales,1,53,4,Sales Executive,13320,11737,Yes,18,80.0,1,2,Very High,Very High,Very High,Excellent,High


In [39]:
# incluso podemos combinarlo con el método filter que hemos aprendido previamente, para por ejemplo quedarnos con algunas columnas solo
df_mujer_casada_filter = df.query('Gender == "Female" and MaritalStatus == "Married"').filter(items= ["Age", "Education"])
df_mujer_casada_filter.head()

Unnamed: 0,Age,Education
1,30,College
6,43,Bachelor
10,27,Bachelor
19,26,College
23,44,Bachelor


In [40]:
# incluso podemos combinar varias condiciones en una misma query. 
# imaginemos que queremos seleccionar empleados hombres que o bien tienen menos de 25 años o tienen una alta satisfacción laboral.
df_combinacion = df.query('Gender == "Male" and (Age < 25 or JobSatisfaction == "High")')
df_combinacion.head()

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium
2,1,College,Life Sciences,Male,Single,22,b5fed13f-7785-4daf-bb8c-1037f84e5fa7,2000-01-21 05:42:21,20,0,0,4,Y,0.0,República Checa,1,No,Travel_Rarely,581.0,Research & Development,1,63,1,Research Scientist,3375,17624,No,12,80.0,0,2,Very High,High,High,Excellent,Very High
7,28,Below College,Medical,Male,Married,50,e3b6a3f7-9046-494f-a3a3-396caa04c5b8,2000-02-19 14:51:34,2,0,2,20,Y,1.0,Bélgica,1,No,Travel_Rarely,1207.0,Research & Development,1,74,1,Laboratory Technician,3221,3297,Yes,11,80.0,3,3,Very High,Very High,High,Excellent,High
11,4,Below College,Technical Degree,Male,Single,22,3c212f34-4095-470c-b8a7-1147e4fc38bb,2000-03-20 05:07:49,13,1,2,4,,5.0,Noruega,0,Yes,Travel_Frequently,1368.0,Research & Development,1,99,1,Laboratory Technician,3894,9129,No,16,80.0,0,3,High,Medium,High,Excellent,High
13,7,Master,Medical,Male,Single,37,16c56649-71d8-4838-9c96-4be92132d7cf,2000-04-08 05:52:40,3,0,1,16,,4.0,Delaware,1,No,Travel_Rarely,397.0,Research & Development,1,30,3,Research Director,13664,25258,No,13,80.0,0,3,Low,High,High,Excellent,Low


# Método `.nlargest()`

El método `nlargest()` se utiliza para seleccionar las *n* filas con los valores más altos en una o más columnas de un DataFrame. Este método es útil para identificar los registros que contienen los valores máximos en una métrica específica.

La sintaxis general del método `nlargest()` es la siguiente:

```python
dataframe.nlargest(n, columns, keep='first')
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`n`**: Especifica el número de filas que desearemos seleccionar con los valores más altos.

- **`columns`**: Especifica la columna o las columnas en las que se basará la selección de los valores más altos. Puede ser una columna individual o una lista de columnas.

- **`keep`** (opcional): Determina cómo manejar los empates cuando varios valores ocupan la misma posición en el ranking. Los valores pueden ser:

  - `'first'` (predeterminado): Mantiene la primera aparición en caso de empate.

  - `'last'`: Mantiene la última aparición en caso de empate.

  - `'all'`: Devuelve todas las filas en caso de empate.


In [42]:
# imaginemos que queremos seleccionar los 5 empleados con el mayor aumento salarial, para eso deberíamos 
df_top_5_salary_hike = df.nlargest(5, 'PercentSalaryHike').filter(['Education', 'EducationField', 'Gender', 'MaritalStatus', 'Age', 'EmployeeId'])
df_top_5_salary_hike

Unnamed: 0,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId
5,Bachelor,Medical,Male,Single,32,098c5463-e599-44ad-95f7-922ffe4b3d20
81,,Life Sciences,Male,Divorced,31,8b41ee95-6dbe-4d5f-bed4-fb1bfad51e09
93,Master,Other,Male,Single,44,92ba1da8-0502-4fa4-bf6c-633034f2ee7b
98,Bachelor,Life Sciences,Female,Divorced,33,a594495f-ba93-471c-ad33-3ed7effec9b0
100,Bachelor,Life Sciences,Female,Married,37,c9453c00-5b50-4ee0-ab45-641199f5cd49


In [45]:
# podemos filtar usando este método y varias columnas. 
# imaginemos ahora que queremos seleccionar los 5 empleados con el mayor aumento salarial y mayor antigüedad en su rol actual
df_top_5_combinado = df.nlargest(5, ['PercentSalaryHike', 'YearsInCurrentRole']).filter(['Education', 'EducationField', 'Gender', 'MaritalStatus', 'Age', 'EmployeeId'])
df_top_5_combinado

Unnamed: 0,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId
93,Master,Other,Male,Single,44,92ba1da8-0502-4fa4-bf6c-633034f2ee7b
100,Bachelor,Life Sciences,Female,Married,37,c9453c00-5b50-4ee0-ab45-641199f5cd49
5,Bachelor,Medical,Male,Single,32,098c5463-e599-44ad-95f7-922ffe4b3d20
591,College,Medical,Female,Married,49,c0172729-79b0-44bb-842f-9264f7734b6e
98,Bachelor,Life Sciences,Female,Divorced,33,a594495f-ba93-471c-ad33-3ed7effec9b0


# Método `.nsmallest()`

El método `nsmallest()` se utiliza para seleccionar las *n* filas con los valores más bajos en una o más columnas de un DataFrame. Este método es útil para identificar los registros que contienen los valores mínimos en una métrica específica.

La sintaxis general del método `nsmallest()` es la siguiente:

```python
dataframe.nsmallest(n, columns, keep='first')
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`n`**: Especifica el número de filas que deseamos seleccionar con los valores más bajos.

- **`columns`**: Especifica la columna o las columnas en las que se basará la selección de los valores más bajos. Puede ser una columna individual o una lista de columnas.

- **`keep`** (opcional): Determina cómo manejar los empates cuando varios valores ocupan la misma posición en el ranking. Los valores pueden ser:

  - `'first'` (predeterminado): Mantiene la primera aparición en caso de empate.

  - `'last'`: Mantiene la última aparición en caso de empate.

  - `'all'`: Devuelve todas las filas en caso de empate.


In [46]:
# imaginemos que queremos seleccionar los 5 empleados con el mayor aumento salarial, para eso deberíamos 
df_bottom_5_salary_hike = df.nsmallest(5, 'PercentSalaryHike').filter(['Education', 'EducationField', 'Gender', 'MaritalStatus', 'Age', 'EmployeeId'])
df_bottom_5_salary_hike

Unnamed: 0,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId
3,College,Technical Degree,Male,Married,42,4b0a1169-b286-44fb-a453-b97ca934db57
7,Below College,Medical,Male,Married,50,e3b6a3f7-9046-494f-a3a3-396caa04c5b8
17,Master,Medical,Male,Single,55,dc9e265c-6915-4805-b272-f3354ea07f32
28,Bachelor,Marketing,Female,Single,50,6cbc484d-a30e-4f5f-8c16-2213d0c16418
35,Bachelor,Medical,Male,Single,24,650a8dd2-f031-42de-8e26-999fbf2cfa14


# Otras formas de filtrado

In [55]:
# a veces podemos estar interados en saber que filas son las que contienen valores nulos, en ese caso podremos
df[df["NumCompaniesWorked"].isnull()].head()

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
173,1,College,Life Sciences,Male,Single,32,58fdb5cd-7a2b-4f6f-b73b-996a8535a807,2002-09-05 03:39:58,6,0,0,10,Y,,Kansas,1,Yes,Travel_Rarely,964.0,Sales,1,34,2,Sales Executive,6735,12147,No,15,80.0,0,2,Low,Low,Medium,Excellent,Medium
198,1,,Life Sciences,Female,Single,38,249b18ac-bb3f-4216-bfbb-3752d276e1ff,2003-02-19 04:01:06,15,0,0,10,Y,,Bélgica,1,No,Travel_Rarely,168.0,Research & Development,1,81,3,Manufacturing Director,7861,15397,Yes,14,80.0,0,4,High,High,High,Excellent,Very High
240,5,Master,Life Sciences,Female,Married,36,dab43442-bb48-4e88-aaa1-aff293fccd85,2003-10-30 16:45:03,19,0,0,6,Y,,Ohio,0,No,Travel_Rarely,852.0,Research & Development,1,82,1,Research Scientist,3419,13072,Yes,14,80.0,1,3,Medium,Medium,Low,Excellent,Very High
277,9,Bachelor,Marketing,Female,Single,43,347706df-56bc-458d-83f9-6a85586a4907,2004-07-30 14:22:09,17,0,2,7,Y,,Oregón,0,Yes,Travel_Rarely,,Sales,1,85,2,Sales Executive,5346,9489,No,13,,0,2,Low,Low,High,Excellent,Medium
279,26,Master,Marketing,Female,Single,30,06d2adcd-42dc-4fd7-af0d-23747db43d45,2004-08-08 22:38:09,12,0,0,9,Y,,Bélgica,0,Yes,Travel_Frequently,334.0,Sales,1,52,2,Sales Executive,6696,22967,No,15,80.0,0,5,High,Medium,,Excellent,High


In [51]:
# también lo podemos hacer para las filas duplicadas para hacer un estudio más exhaustivo
filas_duplicadas = df[df.duplicated()]
filas_duplicadas

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction


# Resumen de los métodos aprendidos

| Método          | Descripción                                                                 | Ejemplo en Python                                      |
|-----------------|-----------------------------------------------------------------------------|--------------------------------------------------------|
| `isin`          | Comprueba si los elementos están en una lista.                              | ```df['columna'].isin(['valor1', 'valor2'])```         |
| `between`       | Filtra filas basadas en valores en un rango.                                | ```df[df['columna'].between(5, 10)]```                 |
| `str.contains`  | Comprueba si una columna contiene un patrón.                                | ```df['columna'].str.contains('patrón')```             |
| `query`         | Filtra filas usando expresiones similares a SQL.                            | ```df.query('columna > 10 and otra_columna == "valor"')``` |
| `filter`        | Selecciona columnas o filas que cumplen ciertas condiciones.                | ```df.filter(like='patrón', axis=1)```                 |
| `nlargest`      | Selecciona las *n* filas con los valores más altos en una o varias columnas.| ```df.nlargest(5, ['columna1', 'columna2'])```         |
| `nsmallest`     | Selecciona las *n* filas con los valores más bajos en una o varias columnas.| ```df.nsmallest(5, ['columna1', 'columna2'])```        |
