# Introducción a Pandas con Netflix 

## Clase modelo - Escuela de Ingeniería

### **Objetivo:** Cargaremos un archivo CSV con datos de Netflix y realizaremos operaciones básicas de selección, indexación y filtrado usando `pandas`.

¿Qué es PANDAS?

El término proviene de PANEL DATA, un término econométrico de los 80s, que hace sin duda al término innolvidable:

![Texto alternativo](https://media1.giphy.com/media/v1.Y2lkPTc5MGI3NjExbTkwZnlreXFwbTdoZWJrM2lldGlwaWZrNTR6YmZuZnpuZGJjZjRybSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/EatwJZRUIv41G/giphy.gif)

En realidad se trata de una estructura de datos específica donde se presenta una dimsensión temporal y diferentes variables específicas. En casos más generales, podría decirse que el término no necesariamente implica que la librería PANDAS de python solo se dedica a este tipo de series (como elementos unidimensionales con un índice asociado), es sin duda un conjunto de métodos que nos van a ayudar a realizar un análisis eficiente de las series y conjuntos de datos o dataframes (como arreglos rectangulares que contienen colecciones ordenadas, y que pueden tener diferentes tipos de valores como: numéricos, booleanos, texto, etc.).

En el libro recomendado para esta lección, encontrarán una lista exaustiva de esos tipos de dataframes que podremos analizar con PANDAS, aquí verán algunos ejemplos: 

![image.png](estructuras_datos.png)

Un esquema de esta lógica lo encuentran en: 
![image.png](pandas1.png)

Es importante notar que cada columna es una serie en un df: 
![image.png](pandas2.png)

# Vamos a ver PANDAS en acción

## Pregunta de negocio del board de NETFLIX

¿Qué tan diverso es el contenido original de Netflix según el país y el género, y cuál es la duración promedio de sus películas por país?

## El analista se debe preguntar inmediatamente
¿Qué calidad tiene mi información y con qué información cuento?

In [23]:
import pandas as pd
# Cargar el archivo que subiste manualmente a JupyterLite (usa el botón 'Upload')
df = pd.read_csv('netflix.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,duracion_min
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,14-Aug-20,2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...,4
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,23-Dec-16,2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...,93
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,20-Dec-18,2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow...",78
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,16-Nov-17,2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi...",80
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,1-Jan-20,2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...,123


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7787 entries, 0 to 7786
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       7787 non-null   object
 1   type          7787 non-null   object
 2   title         7787 non-null   object
 3   director      5398 non-null   object
 4   cast          7069 non-null   object
 5   country       7280 non-null   object
 6   date_added    7777 non-null   object
 7   release_year  7787 non-null   int64 
 8   rating        7780 non-null   object
 9   duration      7787 non-null   object
 10  listed_in     7787 non-null   object
 11  description   7787 non-null   object
 12  duracion_min  7787 non-null   int64 
dtypes: int64(2), object(11)
memory usage: 791.0+ KB


In [25]:
df.describe()

Unnamed: 0,release_year,duracion_min
count,7787.0,7787.0
mean,2013.93258,69.122769
std,8.757395,50.950743
min,1925.0,1.0
25%,2013.0,2.0
50%,2017.0,88.0
75%,2018.0,106.0
max,2021.0,312.0


In [26]:
df[['title', 'country', 'release_year', 'listed_in']].head()

Unnamed: 0,title,country,release_year,listed_in
0,3%,Brazil,2020,"International TV Shows, TV Dramas, TV Sci-Fi &..."
1,7:19,Mexico,2016,"Dramas, International Movies"
2,23:59,Singapore,2011,"Horror Movies, International Movies"
3,9,United States,2009,"Action & Adventure, Independent Movies, Sci-Fi..."
4,21,United States,2008,Dramas


## Filtrar contenido mexicano 🎥🇲🇽

In [None]:
df_mex = df[df['country'].str.contains('Mexico', na=False)]
df_mex[['title', 'release_year', 'type']].head()

## Filtrar películas dramáticas después de 2015

In [None]:
df_dramas = df[
    (df['listed_in'].str.contains('Dramas', na=False)) &
    (df['release_year'] > 2015)
]
df_dramas[['title', 'release_year', 'country']].head()

## Bibliografía recomendada en caso de que quieras profundizar más
- Python for Data Analysis: https://wesmckinney.com/book/pandas-basics