# Filtros y selecciones en Pandas

## Importamos Dataset y hacemos un EDA

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importamos el Dataset Netflix
df = pd.read_csv("/content/drive/MyDrive/datasets/netflix_titles.csv")

In [None]:
# Ver información general del Dataframe
df.info()

In [None]:
df.head()

In [None]:
# Rápida exploración de
df.duplicated().sum()

In [None]:
# Rápida exploración de nulos
df.isnull().sum()
df[df.isnull().any(axis=1)]

## Selección de columnas y filas

In [None]:
# Visualizar columnas
df.columns

In [None]:
# Observar o filtrar una columna
df["title"]

In [None]:
# Observar o filtrar más de una columna
df[["title", "country"]]

In [None]:
# Agregamos ordenamiento
df[["title", "country"]].sort_values(by="title")

In [None]:
# Seleccionar filas específicas
df.loc[1:5] # Equivalente a un head

In [None]:
# Seleccionar un subset (filas y columnas especíicas)
df.loc[1:5, ["title", "country"]]

## Filtros

### Filtros con condiciones lógicas

In [None]:
# Filtrar los registros que sean Movie
df[df["type"] == "Movie"]

In [None]:
# df.head(2)
df["type"].unique()

In [None]:
# Listar los registros cuyo campo country es Argentina
df[df["country"]=="Argentina"]

In [None]:
# Listar los registros (movies/TV Shows) cuyo "release_year" es anterior al 2020
df[df["release_year"] < 2020].sort_values(by="release_year", ascending=False)


In [None]:
# Listar los registros (movies/TV Shows) cuyo date_added es anterior al 2020
df[df["date_added"] < 2020] # Analizar el error

In [None]:
# Comparar el dtype de las columnas "release_year" y "date_added"
df[["release_year", "date_added"]].dtypes

In [None]:
# Listar registros random
df.sample(10)[["release_year", "date_added"]]

In [None]:
# Convertimos el dtype de "date_added" a datetime
df["date_added_dt"] = pd.to_datetime(df["date_added"].str.strip())

In [None]:
# Validamos el nuevo dtype
df["date_added_dt"].dtypes

In [None]:
# Ejecutamos nuevamente la consulta
df[df["date_added_dt"].dt.year>2020].sort_values(by="release_year", ascending=False)

### Combinación de condiciones (&, |)

In [None]:
# Mostrar máximo 10 filas
pd.set_option("display.max_rows", 10)

In [None]:
# Filtrar las películas Argentinas cuyo time_added sea posterior al 2020
df[(df["date_added_dt"].dt.year > 2020) & (df["country"]=="Argentina")][["type", "country", "date_added_dt", "title"]]

In [None]:
# Listar las registros cuyo title incluya las palabra "cielo"
df[df["title"].str.contains("cielo", case=False)]

In [None]:
# Filtrar las películas cuyo director contiene Johnson
df[(df["type"]=="Movie") & (df["director"].str.contains("johnson", case=False))][["type", "title", "director"]]

In [None]:
# Listar los registros (movies/TV shows) de ["Argentina", "Mexico", "Chile"]
df[df["country"].isin(["Argentina", "Mexico", "Chile"])]

In [None]:
# Usar la IA para mejorar el filtro y que no sea case sensitive
countries = ["Argentina", "Mexico", "Chile"]
countries = [country.lower() for country in countries]
df[df["country"].str.lower().isin(countries)]