<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Filtrado-de-datos" data-toc-modified-id="Filtrado-de-datos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Filtrado de datos</a></span></li><li><span><a href="#Operadores-de-comparación" data-toc-modified-id="Operadores-de-comparación-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Operadores de comparación</a></span></li><li><span><a href="#Método-.isin()" data-toc-modified-id="Método-.isin()-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Método <code>.isin()</code></a></span></li><li><span><a href="#Método-.between()" data-toc-modified-id="Método-.between()-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Método <code>.between()</code></a></span></li><li><span><a href="#Método-.str.contains()" data-toc-modified-id="Método-.str.contains()-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Método <code>.str.contains()</code></a></span></li><li><span><a href="#Método-.filter()" data-toc-modified-id="Método-.filter()-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Método <code>.filter()</code></a></span></li><li><span><a href="#Método-.query()" data-toc-modified-id="Método-.query()-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Método <code>.query()</code></a></span></li><li><span><a href="#Método-.nlargest()" data-toc-modified-id="Método-.nlargest()-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Método <code>.nlargest()</code></a></span></li><li><span><a href="#Método-.nsmallest()" data-toc-modified-id="Método-.nsmallest()-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Método <code>.nsmallest()</code></a></span></li><li><span><a href="#Otras-formas-de-filtrado" data-toc-modified-id="Otras-formas-de-filtrado-10"><span class="toc-item-num">10&nbsp;&nbsp;</span>Otras formas de filtrado</a></span></li><li><span><a href="#Resumen-de-los-métodos-aprendidos" data-toc-modified-id="Resumen-de-los-métodos-aprendidos-11"><span class="toc-item-num">11&nbsp;&nbsp;</span>Resumen de los métodos aprendidos</a></span></li></ul></div>

# Filtrado de datos

El filtrado de datos es una etapa crucial en el proceso de limpieza de un DataFrame para los analistas de datos. Aquí explicamos la importancia del filtrado de datos:

- **Eliminación de datos irrelevantes**: Los DataFrames pueden contener muchos datos irrelevantes para el análisis. El filtrado elimina filas o columnas no útiles, reduciendo el ruido y enfocándose en los datos importantes.

- **Tratamiento de valores faltantes**: Los valores nulos son comunes en los conjuntos de datos. El filtrado nos va a permitir identificar y poder manejarlos para que nuestro análisis sea más robusto.  

- **Filtrado por condiciones específicas**: A menudo, se necesita trabajar con subconjuntos de datos que cumplen ciertas condiciones. El filtrado selecciona filas que satisfacen criterios específicos, facilitando un análisis enfocado y preciso.

En Pandas, hay métodos para filtrar datos:

- **Operadores de comparación**: Se usan para crear condiciones de filtrado basadas en los valores de columnas.

- **Método `isin()`**: Filtra filas según una lista de valores permitidos.

- **Método `between()`**: Filtra filas en un rango de valores.

- **Método `str.contains()`**: Filtra datos basados en la presencia de una subcadena en strings.

- **Método `filter()`**: Selecciona columnas o filas que cumplen ciertas condiciones. Puede usarse para seleccionar columnas por nombre, por un patrón o por su índice.

- **Método `query()`**: Realiza filtrado basado en condiciones expresadas como una cadena, como si fuera una query.

- **Método `nlargest()`**: Selecciona las *n* filas con los valores más altos en una o varias columnas.

- **Método `nsmallest()`**: Selecciona las *n* filas con los valores más bajos en una o varias columnas.

- Otras formas de filtrado:

    - **Métodos para filtrar nulos (`isnull()` / `notnull()`)**: Se utilizan para filtrar filas que contienen valores nulos o no nulos.

    - **Métodos para filtrar duplicados (`duplicated()` / `drop_duplicates()`)**: Se usan para identificar y filtrar filas duplicadas.

In [17]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [8]:
# antes de empezar vamos a leer los datos, el primero que importaremos será el csv donde tenemos la información de la campaña de marketing
df = pd.read_csv("datos/IBM_HR_Employee_Attrition_full.csv", index_col=0)
df.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium


# Operadores de comparación

Son útiles para seleccionar filas basadas en condiciones específicas:

1. **Crear una condición**: Utiliza operadores como `>`, `<`, `>=`, `<=`, `==`, `!=` para comparar valores.
   
2. **Aplicar la condición**: Aplícala directamente dentro de corchetes `[]` al DataFrame.
   
3. **Combinar condiciones**: Usa `&` (and) y `|` (or) para condiciones complejas.

# Método `.isin()`


El método `isin()` se usa para filtrar datos basados en una lista de valores permitidos. Permite seleccionar filas en un DataFrame cuyos valores en una columna específica coinciden con cualquiera de los valores proporcionados en la lista.

A continuación, una explicación sobre cómo usar `isin()` en el filtrado de Pandas:

1. **Crear una lista de valores permitidos**: Primero, se crea una lista con los valores que se desean permitir en el filtrado. Pueden ser valores únicos o una lista de varios valores.

2. **Aplicar la función `isin()`**: Una vez que se tiene la lista de valores permitidos, se aplica la función `isin()` a la columna deseada en el DataFrame usando corchetes `[]`.

La sintaxis básica es:
```python
dataframe[columna].isin(valores)
```
Donde:
- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para el filtrado.
  
- `valores`: Puede ser una lista, Serie o array-like que contiene los valores que se desean comprobar.

# Método `.between()`

El método `between`se utiliza para filtrar filas de un DataFrame o una Serie basándose en un rango numérico o de fechas. Verifica si los valores de la columna seleccionada están dentro del rango especificado y devuelve una máscara booleana que indica qué filas cumplen con la condición.

La sintaxis del método `between` es la siguiente:

```python
dataframe[columna].between(inicio, fin, inclusive=True)
```
Donde:

- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para el filtrado.
  
- `inicio` y `fin`: Indican los límites del rango.
  
- `inclusive` (opcional): Determina si los límites del rango son inclusivos o exclusivos. Sus valores pueden ser:

    - both: incluye el inicio y el final.
  
    - left: incluye el inicio pero no el final.
  
    - right: incluye el final pero no el inicio.
  
    - neither: no incluye el inicio ni el final.

# Método `.str.contains()`

El método `str.contains()` se utiliza para verificar si un patrón de texto específico está presente en una serie de objetos de tipo cadena.

La sintaxis general del método `str.contains()` es la siguiente:

```python
dataframe[columna].str.contains(pat, case=True, na=nan, regex=True)
```

Donde:

- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para la búsqueda.
  
- `pat`: Es el patrón de texto que deseas buscar en la columna.
  
- `case` (opcional): Indica si se debe realizar una búsqueda sensible a mayúsculas y minúsculas. El valor predeterminado es `True`, lo que significa que se realiza una búsqueda sensible a mayúsculas y minúsculas.
  
- `na` (opcional): Indica cómo manejar los valores nulos en la columna. Toma dos valores:

  -  True, para incluir los nulos en el resultado.
  
  -  False, para excluir los nulos del resultado.
  

- `regex` (opcional): Indica si el patrón dado debe tratarse como una expresión regular. El valor predeterminado es `True`, lo que significa que el patrón se interpreta como una expresión regular.

La principal diferencia entre poner el parámetro `na` en True o en False es que al ponerlo en True nos devolverá también las filas cuyos valores sean nulos para la columna que estamos filtrando. 

# Método `.filter()`

El método `filter()` se utiliza para seleccionar columnas o filas de un DataFrame basadas en etiquetas específicas, patrones o criterios. Este método es muy útil para seleccionar subconjuntos de datos de manera flexible.

La sintaxis general del método `filter()` es la siguiente:

```python
dataframe.filter(items=None, like=None, regex=None, axis=None)
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`items`** (opcional): Especifica una lista de nombres exactos de columnas o índices que deseamos seleccionar.

- **`like`** (opcional): Permite seleccionar columnas o filas que contienen un patrón específico en su nombre. Este argumento es útil cuando queremos seleccionar todas las columnas o filas cuyos nombres contienen una subcadena específica.

- **`regex`** (opcional): Permite seleccionar columnas o filas cuyos nombres coincidan con una expresión regular. Esto proporciona una forma más avanzada de filtrar. Por defecto esta en None.

- **`axis`** (opcional): Especifica si el filtrado se realiza en columnas (`axis=1`) o filas (`axis=0`). El valor predeterminado es `axis=1` (columnas).


# Método `.query()`

El método `query()` se utiliza para filtrar filas de un DataFrame utilizando una expresión basada en cadenas que imita la sintaxis de una consulta SQL. Este método es particularmente útil para hacer filtrados complejos de manera legible y concisa.

La sintaxis general del método `query()` es la siguiente:

```python
dataframe.query(expr, inplace=False)
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`expr`**: Es una cadena que representa la expresión que deseas aplicar para filtrar los datos. La expresión debe estar en formato similar a Python y puede incluir operadores lógicos como `and`, `or`, `not`, así como operadores de comparación como `>`, `<`, `==`, `!=`, etc.

- **`inplace`** (opcional): Indica si la operación debe realizarse en el propio DataFrame, modificándolo directamente. El valor predeterminado es `False`, lo que significa que se devuelve un nuevo DataFrame sin modificar el original.


# Método `.nlargest()`

El método `nlargest()` se utiliza para seleccionar las *n* filas con los valores más altos en una o más columnas de un DataFrame. Este método es útil para identificar los registros que contienen los valores máximos en una métrica específica.

La sintaxis general del método `nlargest()` es la siguiente:

```python
dataframe.nlargest(n, columns, keep='first')
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`n`**: Especifica el número de filas que desearemos seleccionar con los valores más altos.

- **`columns`**: Especifica la columna o las columnas en las que se basará la selección de los valores más altos. Puede ser una columna individual o una lista de columnas.

- **`keep`** (opcional): Determina cómo manejar los empates cuando varios valores ocupan la misma posición en el ranking. Los valores pueden ser:

  - `'first'` (predeterminado): Mantiene la primera aparición en caso de empate.

  - `'last'`: Mantiene la última aparición en caso de empate.

  - `'all'`: Devuelve todas las filas en caso de empate.


# Método `.nsmallest()`

El método `nsmallest()` se utiliza para seleccionar las *n* filas con los valores más bajos en una o más columnas de un DataFrame. Este método es útil para identificar los registros que contienen los valores mínimos en una métrica específica.

La sintaxis general del método `nsmallest()` es la siguiente:

```python
dataframe.nsmallest(n, columns, keep='first')
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`n`**: Especifica el número de filas que deseamos seleccionar con los valores más bajos.

- **`columns`**: Especifica la columna o las columnas en las que se basará la selección de los valores más bajos. Puede ser una columna individual o una lista de columnas.

- **`keep`** (opcional): Determina cómo manejar los empates cuando varios valores ocupan la misma posición en el ranking. Los valores pueden ser:

  - `'first'` (predeterminado): Mantiene la primera aparición en caso de empate.

  - `'last'`: Mantiene la última aparición en caso de empate.

  - `'all'`: Devuelve todas las filas en caso de empate.


# Otras formas de filtrado

# Resumen de los métodos aprendidos

| Método          | Descripción                                                                 | Ejemplo en Python                                      |
|-----------------|-----------------------------------------------------------------------------|--------------------------------------------------------|
| `isin`          | Comprueba si los elementos están en una lista.                              | ```df['columna'].isin(['valor1', 'valor2'])```         |
| `between`       | Filtra filas basadas en valores en un rango.                                | ```df[df['columna'].between(5, 10)]```                 |
| `str.contains`  | Comprueba si una columna contiene un patrón.                                | ```df['columna'].str.contains('patrón')```             |
| `query`         | Filtra filas usando expresiones similares a SQL.                            | ```df.query('columna > 10 and otra_columna == "valor"')``` |
| `filter`        | Selecciona columnas o filas que cumplen ciertas condiciones.                | ```df.filter(like='patrón', axis=1)```                 |
| `nlargest`      | Selecciona las *n* filas con los valores más altos en una o varias columnas.| ```df.nlargest(5, ['columna1', 'columna2'])```         |
| `nsmallest`     | Selecciona las *n* filas con los valores más bajos en una o varias columnas.| ```df.nsmallest(5, ['columna1', 'columna2'])```        |
