# Filtros y selecciones en Pandas

## Importamos Dataset y hacemos un EDA

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importamos el Dataset Netflix
df = pd.read_csv("/content/drive/MyDrive/datasets/netflix_titles.csv")

In [None]:
# Ver información general del Dataframe
df.info()

In [None]:
df.head()

In [None]:
# Rápida exploración de
df.duplicated().sum()

In [None]:
# Rápida exploración de nulos
df.isnull().sum()
df[df.isnull().any(axis=1)]

## Selección de columnas y filas

In [None]:
# Visualizar columnas
df.columns

In [None]:
# Observar o filtrar una columna
df["title"]

In [None]:
# Observar o filtrar más de una columna
df[["title", "country"]]

In [None]:
# Agregamos ordenamiento
df[["title", "country"]].sort_values(by="title")

In [None]:
# Seleccionar filas específicas
df.loc[1:5] # Equivalente a un head

In [None]:
# Seleccionar un subset (filas y columnas especíicas)
df.loc[1:5, ["title", "country"]]

## Filtros

### Filtros con condiciones lógicas

In [None]:
# Filtrar los registros que sean Movie
df[df["type"] == "Movie"]

In [None]:
# df.head(2)
df["type"].unique()

In [None]:
# Los registros cuyo campo country es Argentina
df[df["country"]=="Argentina"]

In [None]:
# Los registros (movies/series) que cuyo año de "release" es anterior al 2020
df[df["release_year"] < 2020].sort_values(by="release_year", ascending=False)


In [None]:
# Verificar el dtype de la columna "release_year"
df["release_year"].dtypes

In [None]:
# Los registros (movies/series) que cuyo date_added es anterior al 2020
#df[df["date_added_norm"] < "2020-01-01"]
df[df["date_added_norm"].dt.year < 2019].sort_values(by="date_added_norm", ascending=False)

In [None]:
# Verificar el dtype de la columna "date_added"
# df["date_added"].dtypes
# df["date_added"][0]
df["date_added_norm"].dtypes
# df["date_added_norm"][0].year

In [None]:
# Convertimos el dtype de object a datetime
df["date_added_norm"] = pd.to_datetime(df["date_added"], errors="coerce")


### Combinación de condiciones (&, |)

In [None]:
# Mostrar máximo 10 filas
pd.set_option("display.max_rows", 10)

In [None]:
# Filtrar por más de una condición df[(df["campo1" == "valor"]) &| ("campo2" > valor)]
df[(df["type"] == "Movie") & (df["country"]=="Argentina")][["type", "country", "title"]]

In [None]:
# Usamos contains() para texto
df[df["title"].str.contains("Carro", case=False)]

In [None]:
# Retornar los
df[(df["title"].str.lower().duplicated(keep=False)) & (df["country"].str.lower() == "argentina")][["title", "director", "country"]]

In [None]:
# Usamos isin() para listas
# Supongamos que queremos filtrar las películas de 3 países
df[df["country"].isin(["Argentina", "Mexico", "Chile"])]
# df[df["country"].isin(["Argentina", "Mexico", "Chile"])][["country"]].value_counts()
# df_pp1=df.dropna(subset=["country"])
# df_pp1[df_pp1["country"].str.startswith("Chi")]["country"].unique()


In [None]:
# Uso de query - más legible para condiciones complejas
# Permite escribir una condicion como si fuera una consulta sql
# df[(df["type"] == "Movie") & (df["country"]=="Argentina")]
df.query('type == "Movie" and country == "Argentina"')