# Filtros y selecciones en Pandas

## Importamos Dataset y hacemos un EDA

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importamos el Dataset Netflix
df = pd.read_csv("/content/drive/MyDrive/datasets/netflix_titles.csv")
df.head()

In [None]:
# Ver información general del Dataframe
df.info()

In [None]:
# Ver los primeros registros
df.head(3)

In [None]:
# Rápida exploración de duplicados
df.duplicated().sum()

In [None]:
# Rápida exploración de nulos
df.isnull().sum()

## Selección de columnas y filas

In [None]:
df.columns

In [None]:
# Visualizar columnas
df["type"]

In [None]:
# Observar o filtrar una columna
cols = df.columns[1:5]
# df[["type", "title", "country"]]
df[cols]

In [None]:
# Observar o filtrar más de una columna
df[["type", "title", "country"]]

In [None]:
# Agregamos ordenamiento
df[["type", "title", "country"]].sort_values(by="country")

In [None]:
# Seleccionar filas específicas
df.loc[1:3]

In [None]:
# Seleccionar un subset (filas y columnas especíicas)
df.loc[1:3, ["type", "country"]]

## Filtros

### Filtros simples

In [None]:
df["type"].unique()

In [None]:
# Filtrar los registros que sean Movie
# df["type"].unique()
df[df["type"]=="TVShow"]

In [None]:
# Los registros cuyo campo country es Argentina
df[df["country"]=="Argentina"]

### Filtros con datetime

In [None]:
df.columns

In [None]:
# Listar los registros (movies/TV Shows) cuyo "release_year" es anterior al 2020
df[df["release_year"]<2020].sort_values(by="release_year", ascending=False)

In [None]:
# Listar los registros (movies/TV Shows) cuyo date_added es anterior al 2020
df_pp1=df[df["date_added"]<"2000"]

In [None]:
# Comparar el dtype de las columnas "release_year" y "date_added"
df[["release_year", "date_added"]].dtypes

In [None]:
# Listar registros random con "release_year" y "date_added"
df_pp1.sample(5)[["release_year", "date_added"]]

In [None]:
# Convertimos el dtype de "date_added" a datetime
df["date_added_dt"] = pd.to_datetime(df["date_added"].str.strip())

In [None]:
# Validar
df[["release_year", "date_added", "date_added_dt"]].dtypes

In [None]:
df["date_added_dt"].dt.month[2:5]

In [None]:
# Volver a correr el filtro
df[df["date_added_dt"].dt.year<2020].sort_values(by="date_added_dt", ascending=False)

### Combinación de condiciones (&, |)

In [None]:
# Filtrar las movies/TV Shows Argentinas cuyo time_added sea posterior al 2010
df[(df["country"]=="Argentina") & (df["date_added_dt"].dt.year>2010)]

In [None]:
# Filtrar las movies/TV Shows con release_year anterior al 2020 y date_added posterior al 2020
df[(df["release_year"]<2010) & (df["date_added_dt"].dt.year>2010)]

### Filtros con contains

In [None]:
# Listar las registros cuyo title incluya las palabra "cielo"
df[df["title"].str.contains("cielo", case=False)]

In [None]:
# Filtrar las películas cuyo director contiene Johnson

### Filtros con isin()

In [None]:
# Listar los registros (movies/TV shows) de ["Argentina", "Mexico", "Chile"]
df[df["country"].str.lower().str.strip().isin(["argentina", "mexico", "chile"])]

In [None]:
if "Argentina" in ("Argentina", "mexico", "chile"):
  print("Si")

In [None]:
# Usar la IA para mejorar el filtro y que no sea case sensitive
