# Filtrado de datos

In [1]:
# Importamos las librerias y el archivo csv:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)  # Para que aparezcan todas las columnas

In [2]:
path = 'C:/Users/Agus_Ana_María_Raúl/Agustin/DAM/MASTER/MÓDULO_7_PYTHON_FOR_DATA/2_PANDA/DatosPandasUniversidades.csv'
df_universidades = pd.read_csv(path, index_col = 2)

# Seleccionar únicamente las universidades que estén en 'United States'

In [None]:
# Obtenemos información de todos los registros que tengan la siguiente condición:
condicion_USA = df_universidades['country'] == 'United States'

universidades_USA = df_universidades[condicion_USA]
universidades_USA

# Obtener las universidades con más de un 90 de puntuación total "overall_score"

In [None]:
# Creamos la condición:
condicion_90 = df_universidades["overall_score"] > 90

universidades_90 = df_universidades[condicion_90]
universidades_90

# Combinar las dos condiciones anteriores con &, que se cumplan las dos condiciones

In [None]:
condicion_USA = df_universidades['country'] == 'United States'
condicion_90 = df_universidades["overall_score"] > 90

universidades_USA_90 = df_universidades[condicion_USA & condicion_90]
universidades_USA_90

# Combinar las dos condiciones anteriores con |, que se cumpla al menos una condición

In [None]:
condicion_USA = df_universidades['country'] == 'United States'
condicion_90 = df_universidades["overall_score"] > 90

universidades_USA_90 = df_universidades[condicion_USA | condicion_90]
universidades_USA_90

# Métodos

# isin()

In [None]:
# Se utiliza para filtrar filas en base a una lista de valores.

# Obtener las universidades en China y en Singapur.

paises = ['China', 'Singapore']

china_singapore = df_universidades[df_universidades['country'].isin(paises)]
china_singapore



# between()

In [None]:
# Se utiliza para filtrar filas en un DataFrame basándonos en un rango numérico o de fechas.

# Sintaxis:

# df[columna].between(inicio, fin, inclusive = both)

'''Donde:

- df: Nombre del DataFrame que vamos a utilizar.
- columna: Columna específica donde vamos a filtrar.
- inicio y fin: Indica el intervalo de valores que queremos filtrar.
- inclusive (opcional): Delimita si los valores del rango están incluidos o no.
    - left: Incluye sólo el inicio.
    - right: Incluye sólo el final.
    - both: Incluye ambos.
    - neither: No incluye ninguno.'''

In [None]:
# Seleccionar todas las universidades que tenga una reputación del empleado entre un 99 y un 100 incluyendo este último

uni_90_100 = df_universidades[df_universidades['employer_reputation'].between(99, 100, inclusive = 'right')]
uni_90_100

# str.contains()

In [None]:
# Se utiliza para verificar si un patrón de texto específico está presente en un objeto de tipo string.

# Sintaxis:

# df[columna].str.contains(pat, case = True, na = nan, regex = True)

'''
Donde:

- df: Nombre del DataFrame que vamos a utilizar.
- columna: Columna específica donde vamos a filtrar.
- pat: Patrón de texto a buscar.
- case (opcional): Especifica si se debe hacer una búsqueda sensible a mayúsculas y minúsculas
- na (opcional): Habrá que usarlo si nuestra columna tiene nulos.
    - True: Si nuestra columna tiene nulos y queremos que los incluya en el resultado.
    - False: Si no queremos que los incluya
- regex (opcional): Indica si el patrón ha de tratarse como una expresión regular
'''

In [None]:
# Buscar los países que contienen la palabra 'United' pero sin incluir los valores nulos

# 1º Buscamos en que columna hay valores nulos:
df_universidades.isnull().sum()  # Valores nulos solamente en la columna 'country'

In [None]:
universidades_united = df_universidades[df_universidades['country'].str.contains('United', case = True, na = False)]
universidades_united.head()

# filter()

In [None]:
# Se utiliza para filtrar los datos según un patrón de texto de las etiquetas de las filas o las columnas.

# Sintaxis:

# df.filter(items = None, like = None, regex = None,axis = None)

'''
Donde:

- df: Nombre del DataFrame que vamos a utilizar.
- items (opcional): Lista con las etiquetas que queremos filtrar.
- like (opcional): Patrón de texto que debe tener la etiqueta a filtrar.
- regex (opcional): La etiqueta debe tener la expresión regular especificada.
- axis: 0 para ver las filas que cumplen la condición. 1 para ver las columnas.
'''

In [None]:
# Seleccionar las columnas ratio de estudiantes internacionales y reputación académica

df_universidades.filter(['academic_reputation', 'international_students_ratio'])

In [None]:
# Seleccionar las filas que contengan la palabra 'University'

df_universidades.filter(like = 'University', axis = 0)

# No confundir con el str.contains(). El método filter() busca patrones en las ETIQUETAS de las filas y columnas, mientras que str.contains() busca patrones en los DATOS de nuestro DataFrame. Usaremos un método u otro en función de si queremos filtrar por filas y columnas o por los propios datos