<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Filtrado-de-datos" data-toc-modified-id="Filtrado-de-datos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Filtrado de datos</a></span></li><li><span><a href="#Operadores-de-comparación" data-toc-modified-id="Operadores-de-comparación-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Operadores de comparación</a></span></li><li><span><a href="#Método-.isin()" data-toc-modified-id="Método-.isin()-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Método <code>.isin()</code></a></span></li><li><span><a href="#Método-.between()" data-toc-modified-id="Método-.between()-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Método <code>.between()</code></a></span></li><li><span><a href="#Método-.str.contains()" data-toc-modified-id="Método-.str.contains()-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Método <code>.str.contains()</code></a></span></li><li><span><a href="#Método-.filter()" data-toc-modified-id="Método-.filter()-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Método <code>.filter()</code></a></span></li><li><span><a href="#Método-.query()" data-toc-modified-id="Método-.query()-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Método <code>.query()</code></a></span></li><li><span><a href="#Método-.nlargest()" data-toc-modified-id="Método-.nlargest()-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Método <code>.nlargest()</code></a></span></li><li><span><a href="#Método-.nsmallest()" data-toc-modified-id="Método-.nsmallest()-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Método <code>.nsmallest()</code></a></span></li><li><span><a href="#Otras-formas-de-filtrado" data-toc-modified-id="Otras-formas-de-filtrado-10"><span class="toc-item-num">10&nbsp;&nbsp;</span>Otras formas de filtrado</a></span></li><li><span><a href="#Resumen-de-los-métodos-aprendidos" data-toc-modified-id="Resumen-de-los-métodos-aprendidos-11"><span class="toc-item-num">11&nbsp;&nbsp;</span>Resumen de los métodos aprendidos</a></span></li></ul></div>

# Filtrado de datos

El filtrado de datos es una etapa crucial en el proceso de limpieza de un DataFrame para los analistas de datos. Aquí explicamos la importancia del filtrado de datos:

- **Eliminación de datos irrelevantes**: Los DataFrames pueden contener muchos datos irrelevantes para el análisis. El filtrado elimina filas o columnas no útiles, reduciendo el ruido y enfocándose en los datos importantes.

- **Tratamiento de valores faltantes**: Los valores nulos son comunes en los conjuntos de datos. El filtrado nos va a permitir identificar y poder manejarlos para que nuestro análisis sea más robusto.  

- **Filtrado por condiciones específicas**: A menudo, se necesita trabajar con subconjuntos de datos que cumplen ciertas condiciones. El filtrado selecciona filas que satisfacen criterios específicos, facilitando un análisis enfocado y preciso.

En Pandas, hay métodos para filtrar datos:

- **Operadores de comparación**: Se usan para crear condiciones de filtrado basadas en los valores de columnas.

- **Método `isin()`**: Filtra filas según una lista de valores permitidos.

- **Método `between()`**: Filtra filas en un rango de valores.

- **Método `str.contains()`**: Filtra datos basados en la presencia de una subcadena en strings.

- **Método `filter()`**: Selecciona columnas o filas que cumplen ciertas condiciones. Puede usarse para seleccionar columnas por nombre, por un patrón o por su índice.

- **Método `query()`**: Realiza filtrado basado en condiciones expresadas como una cadena, como si fuera una query.

- **Método `nlargest()`**: Selecciona las *n* filas con los valores más altos en una o varias columnas.

- **Método `nsmallest()`**: Selecciona las *n* filas con los valores más bajos en una o varias columnas.

- Otras formas de filtrado:

    - **Métodos para filtrar nulos (`isnull()` / `notnull()`)**: Se utilizan para filtrar filas que contienen valores nulos o no nulos.

    - **Métodos para filtrar duplicados (`duplicated()` / `drop_duplicates()`)**: Se usan para identificar y filtrar filas duplicadas.

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [2]:
# antes de empezar vamos a leer los datos, el primero que importaremos será el csv donde tenemos la información de la campaña de marketing
df = pd.read_csv("datos/IBM_HR_Employee_Attrition_full.csv", index_col=0)
df.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium


In [3]:
df.shape

(1470, 36)

**Filtrado de Yes**

In [4]:
condicion_ex= df["Attrition"] =="Yes"    #Nos da un booleano que nos dice si la fila Attrition ciene el valor yes (devuelve true) o de lo contrario devuelve false
df_yes= df[condicion_ex]
df_yes.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium


In [5]:
df_yes["Attrition"].unique()

array(['Yes'], dtype=object)

In [6]:
df_yes["Attrition"].value_counts()

Attrition
Yes    237
Name: count, dtype: int64

In [7]:
df_yes["Attrition"].shape    #Solo nos da un número porque es una serie (porque solo es una columna si fueran más ya sería DataFrame)

(237,)

In [8]:
condicion_income= df["MonthlyIncome"] > 15000
df_income= df[condicion_income]
df_income.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
3,4,College,Technical Degree,Male,Married,42,4b0a1169-b286-44fb-a453-b97ca934db57,2000-01-28 16:59:19,11,1,5,22,,1.0,Misisipi,1,No,Travel_Rarely,532.0,Research & Development,1,58,5,Manager,19232,4933,No,11,80.0,0,3,High,High,Very High,Excellent,Very High



**Filtrado con dos condiciones**

In [9]:
condicion_casada= df["MaritalStatus"] == "Married"
condicion_income= df["MonthlyIncome"] > 15000

df_income_casados= df[condicion_casada & condicion_income]
df_income_casados.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
3,4,College,Technical Degree,Male,Married,42,4b0a1169-b286-44fb-a453-b97ca934db57,2000-01-28 16:59:19,11,1,5,22,,1.0,Misisipi,1,No,Travel_Rarely,532.0,Research & Development,1,58,5,Manager,19232,4933,No,11,80.0,0,3,High,High,Very High,Excellent,Very High


In [10]:
condicion_bach= df["Education"] == "Bachelor"       #Si en Education nos queremos quedar solo con bachelor y doctor
condicion_doct= df["Education"] == "Doctor"   

df[condicion_bach | condicion_doct].head(2)          #Es ineficaz porque si queremos 6 ya es un coñazo                                     





Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium
5,10,Bachelor,Medical,Male,Single,32,098c5463-e599-44ad-95f7-922ffe4b3d20,2000-02-06 14:19:30,15,0,0,10,,2.0,Noruega,0,No,Travel_Rarely,495.0,Research & Development,1,64,3,Manager,11244,21072,No,25,80.0,0,5,High,High,Very High,Outstanding,Medium


**.isin**

In [11]:
lista_education= ["Bachelor", "Doctor"]
df_education = df[df["Education"].isin(lista_education)]     #Es más eficaz porque si hay 10 simplemente se ñaden en la lista y ya

In [12]:
lista_education= ["Bachelor", "Doctor"]                       #También se puede usar con más de un filtrado
condicion_education= df["Education"].isin(lista_education)
condicion_genero= df["Gender"] == "Male"
df_education = df[condicion_education & condicion_genero]
df_education.head(1) 

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium


In [13]:
filtro_edad= [19,21,32]                          #Isin sirve también para datos int y float
df_edad= df[df["Age"].isin(filtro_edad)]
df_edad.head(1)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium


In [14]:
df_edad["Age"].unique()

array([19, 32, 21])

# Operadores de comparación

Son útiles para seleccionar filas basadas en condiciones específicas:

1. **Crear una condición**: Utiliza operadores como `>`, `<`, `>=`, `<=`, `==`, `!=` para comparar valores.
   
2. **Aplicar la condición**: Aplícala directamente dentro de corchetes `[]` al DataFrame.
   
3. **Combinar condiciones**: Usa `&` (and) y `|` (or) para condiciones complejas.

# Método `.isin()`


El método `isin()` se usa para filtrar datos basados en una lista de valores permitidos. Permite seleccionar filas en un DataFrame cuyos valores en una columna específica coinciden con cualquiera de los valores proporcionados en la lista.

A continuación, una explicación sobre cómo usar `isin()` en el filtrado de Pandas:

1. **Crear una lista de valores permitidos**: Primero, se crea una lista con los valores que se desean permitir en el filtrado. Pueden ser valores únicos o una lista de varios valores.

2. **Aplicar la función `isin()`**: Una vez que se tiene la lista de valores permitidos, se aplica la función `isin()` a la columna deseada en el DataFrame usando corchetes `[]`.

La sintaxis básica es:
```python
dataframe[columna].isin(valores)
```
Donde:
- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para el filtrado.
  
- `valores`: Puede ser una lista, Serie o array-like que contiene los valores que se desean comprobar.

**Between**

In [15]:
condicion_años= df["Age"].between(19,38, inclusive="both")   #Para seleccionar varios
                                                             #inclusive="left"   Incluye el 19 y no el 38
                                                             #inclusive="neither"    No incluye ninguno
df_años= df[condicion_años]                                  #inclusive="right"    Incluye el 38 y no el 19
df_años["Age"].describe()              #Esto es para comprobar cual me ha incluido y cual no de los extremos del rango




count    898.000000
mean      31.101336
std        4.653882
min       19.000000
25%       28.000000
50%       32.000000
75%       35.000000
max       38.000000
Name: Age, dtype: float64

In [16]:
df["Education"].unique()

array(['Bachelor', 'College', 'Master', 'Below College', nan, 'Doctor'],
      dtype=object)

In [17]:
condicion_educ_between= df["Education"].between("Below College", "Doctor", inclusive="both")  #También se puede usar con datos tipo object
df_educ_between= df[condicion_educ_between]                                                   #Ordena todo alfabéticamente si pongo between "B" y "D" me dará los que epiecen por letras entre la b y d (PERO  NO INCLUIRÍA LA D POR ESO SE PONDRÍA "E")
df_educ_between["Education"].unique()

array(['College', 'Below College', 'Doctor'], dtype=object)

In [18]:
df["DateEmployment"] = pd.to_datetime(df["DateEmployment"])    #Esto es para sobreescribir la variable y convertirla a type date_time
df["DateEmployment"].dt.year                                   #Ahora que ya lo hemos pasado a formato date_time podemos usa .dt.year para q me dé el año
df["DateEmployment"].dt.day_name()                             #day_name te da el día de la semana

0        Thursday
1          Monday
2          Friday
3          Friday
4       Wednesday
          ...    
1465       Sunday
1466       Sunday
1467    Wednesday
1468      Tuesday
1469       Friday
Name: DateEmployment, Length: 1470, dtype: object

In [19]:
df["DateEmployment"]= pd.to_datetime(df["DateEmployment"], "%B %D, %Y")                                 # %b %d, %y Para trasnformar la fecha de netflix aun fromatoq ue pueda leer 
df["day_name"]= df["DateEmployment"].dt.day_name()                   #Convertir mi columna a fecha 
df.head(2)




Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction,day_name
0,21,Bachelor,Other,Male,Single,19,70b8db40-4f58-476f-8776-c00802b0cdb9,2000-01-13 02:53:47,14,0,0,1,,1.0,Austria,1,Yes,Travel_Rarely,419.0,Sales,1,37,1,Sales Representative,2121,9947,Yes,13,80.0,0,3,Very High,Medium,Medium,Excellent,Medium,Thursday
1,25,College,Technical Degree,Female,Married,30,0722da7a-530b-41dd-b705-c79f7627f677,2000-01-17 03:53:10,16,0,0,4,Y,7.0,España,1,No,Non-Travel,641.0,Sales,1,85,2,Sales Executive,4736,6069,Yes,12,80.0,1,2,Very High,High,High,Excellent,Medium,Monday


In [20]:
inicio= pd.to_datetime("2013-01-01")          #Creamos filtros con fechas
final= pd.to_datetime("2013-01-31")

In [24]:
condicion_fecha= df["DateEmployment"].between(inicio, final, inclusive="both")                     #Filtrar por fecha
df_fecha=df[condicion_fecha]
df_fecha.head(2)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction,day_name
827,2,Below College,Life Sciences,Male,Single,31,f1a4bac8-b9dd-41d0-a207-02e393b651ce,2013-01-09 01:54:50,6,0,2,10,Y,4.0,Minnesota,1,No,,828.0,Sales,1,77,2,Sales Executive,6582,8346,Yes,13,80.0,0,2,Medium,High,Very High,Excellent,High,Wednesday
828,23,Below College,Medical,Female,Married,27,05af3f93-2338-4834-9bac-61dce60e47e0,2013-01-14 10:55:09,5,0,7,9,Y,1.0,Misuri,0,No,Travel_Rarely,728.0,Sales,1,36,2,Sales Representative,3540,7018,No,21,80.0,1,5,Medium,Medium,High,Outstanding,Very High,Monday


In [None]:
condicion_fecha= df["DateEmployment"].between(inicio, final)                     #Describe() nos da también datetime no solo int y float
df_fecha=df["condicion_fecha"]
df_fecha.describe()

# Método `.between()`

El método `between`se utiliza para filtrar filas de un DataFrame o una Serie basándose en un rango numérico o de fechas. Verifica si los valores de la columna seleccionada están dentro del rango especificado y devuelve una máscara booleana que indica qué filas cumplen con la condición.

La sintaxis del método `between` es la siguiente:

```python
dataframe[columna].between(inicio, fin, inclusive=True)
```
Donde:

- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para el filtrado.
  
- `inicio` y `fin`: Indican los límites del rango.
  
- `inclusive` (opcional): Determina si los límites del rango son inclusivos o exclusivos. Sus valores pueden ser:

    - both: incluye el inicio y el final.
  
    - left: incluye el inicio pero no el final.
  
    - right: incluye el final pero no el inicio.
  
    - neither: no incluye el inicio ni el final.

**.str.contains**

In [74]:
df["JobRole"].unique()

array(['Sales Representative', 'Sales Executive', 'Research Scientist',
       'Manager', 'Laboratory Technician', 'Healthcare Representative',
       'Research Director', 'Manufacturing Director', 'Human Resources'],
      dtype=object)

*En pandas los nulos son considerados floats*     
si una columna como edad tiene que ser int y derrepente sale q tiene float igual es que tiene nulos

In [76]:
patron_regex= "research"                                             
filtro_job= df["JobRole"].str.contains(patron_regex, case= False, na= False)     #El case = False hace que se budque research con minuscula y con ayuscula si se pone case= True solo dará las minusculas
df_job= df[filtro_job]
df_job["JobRole"].unique()                                            #Si intentamos buscar con .str.contains en una columna con nulos entonces da error porque no lo considera str sino float
                                                                      #Si se pone na= True incluirá los nulos(dará error) y si pones false no los incluirá (Los ignora y no da error)

  #Otra medida para solucionar el error de nulos                                                                    
df["JobRole"].fillna("Desconocido")             #Esto nos sirve para que si que nos incluya los na remplazando los nulos por "desconocido"
df["Age"].fillna(df["Age"].mean(), inplace= True)        #Esto nos sirve para que si que nos incluya los na remplazando los nulos por la media                                                                      

array(['Research Scientist', 'Research Director'], dtype=object)

In [82]:
df["NumCompaniesWorked"].fillna("Desconocido", inplace=True)       #Nunca rellenar en una columan de int o float los nulos con un object 

In [83]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1470 entries, 0 to 1469
Data columns (total 37 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   DistanceFromHome          1470 non-null   int64         
 1   Education                 1260 non-null   object        
 2   EducationField            1470 non-null   object        
 3   Gender                    1470 non-null   object        
 4   MaritalStatus             1470 non-null   object        
 5   Age                       1470 non-null   int64         
 6   EmployeeId                1470 non-null   object        
 7   DateEmployment            1470 non-null   datetime64[ns]
 8   YearsInCurrentRole        1470 non-null   int64         
 9   YearsSinceLastPromotion   1470 non-null   int64         
 10  YearsWithCurrManager      1470 non-null   int64         
 11  TotalWorkingYears         1470 non-null   int64         
 12  Over18                   

# Método `.str.contains()`

El método `str.contains()` se utiliza para verificar si un patrón de texto específico está presente en una serie de objetos de tipo cadena.

La sintaxis general del método `str.contains()` es la siguiente:

```python
dataframe[columna].str.contains(pat, case=True, na=nan, regex=True)
```

Donde:

- `dataframe`: Especifica el nombre del DataFrame en el que se aplicará el método.
  
- `columna`: Especifica la columna del DataFrame que se usará para la búsqueda.
  
- `pat`: Es el patrón de texto que deseas buscar en la columna.
  
- `case` (opcional): Indica si se debe realizar una búsqueda sensible a mayúsculas y minúsculas. El valor predeterminado es `True`, lo que significa que se realiza una búsqueda sensible a mayúsculas y minúsculas.
  
- `na` (opcional): Indica cómo manejar los valores nulos en la columna. Toma dos valores:

  -  True, para incluir los nulos en el resultado.
  
  -  False, para excluir los nulos del resultado.
  

- `regex` (opcional): Indica si el patrón dado debe tratarse como una expresión regular. El valor predeterminado es `True`, lo que significa que el patrón se interpreta como una expresión regular.

**Filter para seleccionar las columnas que contengan Satisfaction en su nombre** 

In [25]:
df.filter(like = "Satisfaction").head()    #Por defecto estamos filtrando por columnas q contengan Satisfaction
                                           #El like no incluiría los satisfaction con minuscula

Unnamed: 0,EnvironmentSatisfaction,JobSatisfaction,RelationshipSatisfaction
0,Very High,Medium,Medium
1,Very High,High,Medium
2,Very High,High,Very High
3,High,Very High,Very High
4,High,Very High,High


In [None]:
df.filter(regex = "[S][s]atisfaction").head()           #Regex es para que nos lo pueda encontrar con mayuscula y minuscula

In [26]:
df.columns

Index(['DistanceFromHome', 'Education', 'EducationField', 'Gender',
       'MaritalStatus', 'Age', 'EmployeeId', 'DateEmployment',
       'YearsInCurrentRole', 'YearsSinceLastPromotion', 'YearsWithCurrManager',
       'TotalWorkingYears', 'Over18', 'NumCompaniesWorked', 'Country', 'Sons',
       'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'EmployeeCount', 'HourlyRate', 'JobLevel', 'JobRole', 'MonthlyIncome',
       'MonthlyRate', 'OverTime', 'PercentSalaryHike', 'StandardHours',
       'StockOptionLevel', 'TrainingTimesLastYear', 'EnvironmentSatisfaction',
       'JobInvolvement', 'JobSatisfaction', 'PerformanceRating',
       'RelationshipSatisfaction', 'day_name'],
      dtype='object')

In [27]:
df.filter(like = "Year").head()              #


Unnamed: 0,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,TrainingTimesLastYear
0,14,0,0,1,3
1,16,0,0,4,2
2,20,0,0,4,2
3,11,1,5,22,3
4,13,0,7,17,2


In [28]:
df.filter(regex = "^Year").head()              #Aquí buscamos los que empiecen por Year

Unnamed: 0,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,14,0,0
1,16,0,0
2,20,0,0
3,11,1,5
4,13,0,7


In [29]:
df.filter(regex = "Director", axis= 1).head(2)             #Aquí con axis = 1 filtra los valores de las columnas con axis = 0 para valores de las filas

0
1


In [33]:
df["JobRole"].filter(regex = "Director", axis= 0).head(2)    #EJERCICIO

InvalidIndexError: (slice(None, None, None), 'JobRole')

La principal diferencia entre poner el parámetro `na` en True o en False es que al ponerlo en True nos devolverá también las filas cuyos valores sean nulos para la columna que estamos filtrando. 

# Método `.filter()`

El método `filter()` se utiliza para seleccionar columnas o filas de un DataFrame basadas en etiquetas específicas, patrones o criterios. Este método es muy útil para seleccionar subconjuntos de datos de manera flexible.

La sintaxis general del método `filter()` es la siguiente:

```python
dataframe.filter(items=None, like=None, regex=None, axis=None)
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`items`** (opcional): Especifica una lista de nombres exactos de columnas o índices que deseamos seleccionar.

- **`like`** (opcional): Permite seleccionar columnas o filas que contienen un patrón específico en su nombre. Este argumento es útil cuando queremos seleccionar todas las columnas o filas cuyos nombres contienen una subcadena específica.

- **`regex`** (opcional): Permite seleccionar columnas o filas cuyos nombres coincidan con una expresión regular. Esto proporciona una forma más avanzada de filtrar. Por defecto esta en None.

- **`axis`** (opcional): Especifica si el filtrado se realiza en columnas (`axis=1`) o filas (`axis=0`). El valor predeterminado es `axis=1` (columnas).


**Query**

In [34]:
df.columns

Index(['DistanceFromHome', 'Education', 'EducationField', 'Gender',
       'MaritalStatus', 'Age', 'EmployeeId', 'DateEmployment',
       'YearsInCurrentRole', 'YearsSinceLastPromotion', 'YearsWithCurrManager',
       'TotalWorkingYears', 'Over18', 'NumCompaniesWorked', 'Country', 'Sons',
       'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'EmployeeCount', 'HourlyRate', 'JobLevel', 'JobRole', 'MonthlyIncome',
       'MonthlyRate', 'OverTime', 'PercentSalaryHike', 'StandardHours',
       'StockOptionLevel', 'TrainingTimesLastYear', 'EnvironmentSatisfaction',
       'JobInvolvement', 'JobSatisfaction', 'PerformanceRating',
       'RelationshipSatisfaction', 'day_name'],
      dtype='object')

In [37]:
df_query= df.query("Gender == 'Male' and MaritalStatus == 'Married'")               #Se usa la comilla simple para que no rompa la de fuera
df_query.describe(include="O").T              #Coprobación de que solo nos hemos quedado con Male y Married

Unnamed: 0,count,unique,top,freq
Education,354,5,Bachelor,135
EducationField,401,6,Life Sciences,163
Gender,401,1,Male,401
MaritalStatus,401,1,Married,401
EmployeeId,401,401,34320d20-cf61-4900-9450-c8539f23b355,1
Over18,313,1,Y,313
Country,401,69,Dinamarca,14
Attrition,401,2,No,348
BusinessTravel,367,3,Travel_Rarely,268
Department,401,3,Research & Development,266


In [40]:
df_query= df.query("Gender == 'Male' and MaritalStatus == 'Married'")[["Age", "Education"]]               #Se usa la comilla simple para que no rompa la de fuera
df_query.head()                                                                                           #Solo queremos columnas Age y Education por eso se pone [["Age", "Education"]]

Unnamed: 0,Age,Education
3,42,College
7,50,Below College
9,41,Master
18,34,College
26,52,Master


In [42]:
df_query= df.query("Gender == 'Male' and MaritalStatus == 'Married'").filter(like= "Satisfaction")              #Aquí estmos filtrando por las columnas que contengas satisfaction y nos da los resultados de hombres casados 
df_query.head()     

Unnamed: 0,EnvironmentSatisfaction,JobSatisfaction,RelationshipSatisfaction
3,High,Very High,Very High
7,Very High,High,High
9,High,Low,Very High
18,Medium,Very High,Very High
26,High,High,Low


In [62]:
genero= "Male"
query= f"Gender == '{genero}' and MaritalStatus == 'Married'"             #Aquí estmos filtrando por las columnas que contengas satisfaction y nos da los resultados de hombres casados    
df_query = df.query(query).filter(like= "Satisfaction")
df_query.head()

Unnamed: 0,EnvironmentSatisfaction,JobSatisfaction,RelationshipSatisfaction
3,High,Very High,Very High
7,Very High,High,High
9,High,Low,Very High
18,Medium,Very High,Very High
26,High,High,Low


In [61]:
query2= f"Gender == @genero and MaritalStatus == 'Married'"             #Aquí estmos filtrando por las columnas que contengas satisfaction y nos da los resultados de hombres casados    
df_query2 = df.query(query2).filter(like= "Satisfaction")
df_query.head()

Unnamed: 0,EnvironmentSatisfaction,JobSatisfaction,RelationshipSatisfaction
3,High,Very High,Very High
7,Very High,High,High
9,High,Low,Very High
18,Medium,Very High,Very High
26,High,High,Low


# Método `.query()`

El método `query()` se utiliza para filtrar filas de un DataFrame utilizando una expresión basada en cadenas que imita la sintaxis de una consulta SQL. Este método es particularmente útil para hacer filtrados complejos de manera legible y concisa.

La sintaxis general del método `query()` es la siguiente:

```python
dataframe.query(expr, inplace=False)
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`expr`**: Es una cadena que representa la expresión que deseas aplicar para filtrar los datos. La expresión debe estar en formato similar a Python y puede incluir operadores lógicos como `and`, `or`, `not`, así como operadores de comparación como `>`, `<`, `==`, `!=`, etc.

- **`inplace`** (opcional): Indica si la operación debe realizarse en el propio DataFrame, modificándolo directamente. El valor predeterminado es `False`, lo que significa que se devuelve un nuevo DataFrame sin modificar el original.


**Groupby**


In [51]:
df.groupby("Gender").count()      #Cuenta el número de filas en cada columna para female y para male


Unnamed: 0_level_0,DistanceFromHome,Education,EducationField,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction,day_name
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1
Female,588,491,588,588,588,588,588,588,588,588,588,465,575,588,588,588,531,527,588,588,588,588,588,588,588,588,588,469,588,588,588,588,514,588,578,588
Male,882,769,882,882,882,882,882,882,882,882,882,696,879,882,882,882,792,796,882,882,882,882,882,882,882,882,882,722,882,882,882,882,765,882,861,882


In [52]:
df.groupby("Gender")["Age"].mean()    #No se puede poner solo mean porque es object por eso se tiene que elegir que columna se quiere

Gender
Female    37.329932
Male      36.653061
Name: Age, dtype: float64

In [53]:
df.groupby("Gender")["Age"].mean().reset_index()        #Al añadir un index se convierte en DataFrame

Unnamed: 0,Gender,Age
0,Female,37.329932
1,Male,36.653061


In [55]:
df.groupby("Gender")[["Age", "DistanceFromHome"]].mean()                          #Si quieres agrupar por genero y que te muestre dos columnas 

Unnamed: 0_level_0,Age,DistanceFromHome
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,37.329932,9.210884
Male,36.653061,9.180272


In [56]:
df.groupby("Gender")[["Age", "DistanceFromHome"]].describe() 

Unnamed: 0_level_0,Age,Age,Age,Age,Age,Age,Age,Age,DistanceFromHome,DistanceFromHome,DistanceFromHome,DistanceFromHome,DistanceFromHome,DistanceFromHome,DistanceFromHome,DistanceFromHome
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Female,588.0,37.329932,9.266083,18.0,31.0,36.0,44.0,60.0,588.0,9.210884,8.231515,1.0,2.0,7.0,14.0,29.0
Male,882.0,36.653061,9.042329,18.0,30.0,35.0,42.0,60.0,882.0,9.180272,8.027361,1.0,2.0,7.0,14.0,29.0


sort_values sirve para ordenar DataFrames Ej: df.groupby.sort_values( "Age" , ascendding = False)

# Método `.nlargest()`

El método `nlargest()` se utiliza para seleccionar las *n* filas con los valores más altos en una o más columnas de un DataFrame. Este método es útil para identificar los registros que contienen los valores máximos en una métrica específica.

La sintaxis general del método `nlargest()` es la siguiente:

```python
dataframe.nlargest(n, columns, keep='first')
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`n`**: Especifica el número de filas que desearemos seleccionar con los valores más altos.

- **`columns`**: Especifica la columna o las columnas en las que se basará la selección de los valores más altos. Puede ser una columna individual o una lista de columnas.

- **`keep`** (opcional): Determina cómo manejar los empates cuando varios valores ocupan la misma posición en el ranking. Los valores pueden ser:

  - `'first'` (predeterminado): Mantiene la primera aparición en caso de empate.

  - `'last'`: Mantiene la última aparición en caso de empate.

  - `'all'`: Devuelve todas las filas en caso de empate.


# Método `.nsmallest()`

El método `nsmallest()` se utiliza para seleccionar las *n* filas con los valores más bajos en una o más columnas de un DataFrame. Este método es útil para identificar los registros que contienen los valores mínimos en una métrica específica.

La sintaxis general del método `nsmallest()` es la siguiente:

```python
dataframe.nsmallest(n, columns, keep='first')
```

Donde:

- **`dataframe`**: Especifica el nombre del DataFrame en el que se aplicará el método.

- **`n`**: Especifica el número de filas que deseamos seleccionar con los valores más bajos.

- **`columns`**: Especifica la columna o las columnas en las que se basará la selección de los valores más bajos. Puede ser una columna individual o una lista de columnas.

- **`keep`** (opcional): Determina cómo manejar los empates cuando varios valores ocupan la misma posición en el ranking. Los valores pueden ser:

  - `'first'` (predeterminado): Mantiene la primera aparición en caso de empate.

  - `'last'`: Mantiene la última aparición en caso de empate.

  - `'all'`: Devuelve todas las filas en caso de empate.


# Otras formas de filtrado

# Resumen de los métodos aprendidos

| Método          | Descripción                                                                 | Ejemplo en Python                                      |
|-----------------|-----------------------------------------------------------------------------|--------------------------------------------------------|
| `isin`          | Comprueba si los elementos están en una lista.                              | ```df['columna'].isin(['valor1', 'valor2'])```         |
| `between`       | Filtra filas basadas en valores en un rango.                                | ```df[df['columna'].between(5, 10)]```                 |
| `str.contains`  | Comprueba si una columna contiene un patrón.                                | ```df['columna'].str.contains('patrón')```             |
| `query`         | Filtra filas usando expresiones similares a SQL.                            | ```df.query('columna > 10 and otra_columna == "valor"')``` |
| `filter`        | Selecciona columnas o filas que cumplen ciertas condiciones.                | ```df.filter(like='patrón', axis=1)```                 |
| `nlargest`      | Selecciona las *n* filas con los valores más altos en una o varias columnas.| ```df.nlargest(5, ['columna1', 'columna2'])```         |
| `nsmallest`     | Selecciona las *n* filas con los valores más bajos en una o varias columnas.| ```df.nsmallest(5, ['columna1', 'columna2'])```        |
