# Tabla de Contenidos

* [Contenidos](#Tabla-de-Contenidos)
    * [Pandas](#Pandas)
* [Ejercicios](#Ejercicios)

## Pandas

[Pandas](https://pandas.pydata.org/) es una herramienta de manipulación y análisis de datos de código abierto, rápida, potente, flexible y fácil de usar. Utilice la [documentación](https://pandas.pydata.org/) de Pandas como referencia a lo largo de este cuaderno. 

<div align="center">
    <img src="https://github.com/MCD-ESPOL/PCD/blob/main/notebooks/images/pandas.png?raw=true" width="35%">
</div>

## Importar librerías externas

In [1]:
# Importe la librería pandas, con: import pandas as pd

import pandas as pd

## Archivos

Descargue el archivo [netflix.csv](https://github.com/MCD-ESPOL/PCD/blob/main/notebooks/netflix.csv). Descargue y mueva el archivo al mismo directorio de este cuaderno.

## Dataset: Movies and TV Shows listings on Netflix

El conjunto es parte del dataset original de [películas y shows en Netflix](https://www.kaggle.com/shivamb/netflix-shows/notebooks), en [Kaggle](https://www.kaggle.com/). 

###  Carga de datos

La función [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv) permite leer un archivo de valores separados por comas (csv) en DataFrame. También admite la iteración o división opcional del archivo en fragmentos.

In [2]:
# Asigne a datos el resultado de pd.read_csv( 'netflix.csv' )

datos = pd.read_csv('netflix.csv')

### Dataframe

La variable _datos_ es un **dataframe**. Un _dataframe_ es un tipo de dato tabular bidimensionales, de tamaño variable, con columnas de tipo heterogéneo.



<div align="center">
    <img src="https://media.geeksforgeeks.org/wp-content/uploads/finallpandas.png" width="50%">
    <figcaption>Fuente: <a href="https://www.geeksforgeeks.org/python-pandas-dataframe/">Pandas Dataframe</a></figcaption>
</div>

In [3]:
# Muestre el dataframe datos

datos

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,81145628,Movie,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,TV-PG,90 min,"Children & Family Movies, Comedies",Before planning an awesome wedding for his gra...
1,80117401,Movie,Jandino: Whatever it Takes,,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,TV-MA,94 min,Stand-Up Comedy,Jandino Asporaat riffs on the challenges of ra...
2,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,80058654,TV Show,Transformers: Robots in Disguise,,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,TV-Y7,1 Season,Kids' TV,When a prison ship crash unleashes hundreds of...
4,80125979,Movie,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,TV-14,99 min,Comedies,When nerdy high schooler Dani finally attracts...
...,...,...,...,...,...,...,...,...,...,...,...,...
6229,80000063,TV Show,Red vs. Blue,,"Burnie Burns, Jason Saldaña, Gustavo Sorola, G...",United States,,2015,NR,13 Seasons,"TV Action & Adventure, TV Comedies, TV Sci-Fi ...","This parody of first-person shooter games, mil..."
6230,70286564,TV Show,Maron,,"Marc Maron, Judd Hirsch, Josh Brener, Nora Zeh...",United States,,2016,TV-MA,4 Seasons,TV Comedies,"Marc Maron stars as Marc Maron, who interviews..."
6231,80116008,Movie,Little Baby Bum: Nursery Rhyme Friends,,,,,2016,,60 min,Movies,Nursery rhymes and original music for children...
6232,70281022,TV Show,A Young Doctor's Notebook and Other Stories,,"Daniel Radcliffe, Jon Hamm, Adam Godley, Chris...",United Kingdom,,2013,TV-MA,2 Seasons,"British TV Shows, TV Comedies, TV Dramas","Set during the Russian Revolution, this comic ..."


### Vista previa

Para obtener una vista previa del dataframe:

- La función [head](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html#pandas.DataFrame.head) devuelve **las primeras _n_ filas** del objeto según su posición. 
- La función [tail](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html#pandas.DataFrame.tail) devuelve **las últimas _n_ filas** del objeto en función de la posición. 

Ambas son útiles para verificar datos rápidamente, por ejemplo, después de ordenar o agregar filas.

In [None]:
# Muestre los primeros 5 elementos del dataframe datos, con: datos.head()

datos.head()

In [None]:
# Muestre los últimos 5 elementos del dataframe datos, con: datos.tail()

datos.tail()

### Filas y columnas

La función [shape](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html#pandas.DataFrame.shape) muestra las dimensiones del dataframe.

In [4]:
# Muestre por pantalla la cantidad de filas y columnas del dataframe datos, con: datos.shape

datos.shape

(6234, 12)

El _dataframe_ datos está compuesto 6234 filas y 12 las columnas 




### Nombre de las columnas

In [None]:
# Muestre por pantalla los nombres de las columnas del dataframe datos, con: datos.columns
datos.columns

El _dataframe_ datos tiene las columnas son `'show_id'`, `'type'`, `'title'`, `'director'`, `'cast'`, `'country'`, `'date_added'`, `'release_year'`, `'rating'`, `'duration'`, `'listed_in'` y `'description'`.


### Acceso a columnas

In [None]:
# Asigne a df1 la columna 'titles' del dataframe datos, con: datos['title'] 
# Muestre por pantalla el dataframe df1
df1 = datos['title']
df1

In [None]:
# Asigne a df2 la columna 'director' del dataframe datos, con: datos['director'] 
# Muestre por pantalla el dataframe df2
df2 = datos['director']


In [None]:
df2

El _NaN_ significa "Not a Number", es un valor especial utilizado para representar valores indefinidos o no representables, como el resultado de 0/0 o la raíz cuadrada de un número negativo.

In [None]:
# Asigne a df3 las columnas 'title' y 'director' del dataframe datos, con: datos[['title', 'director']] 
# Muestre por pantalla el dataframe df3
df3 = datos[['title', 'director']] 
df3

### Acceso a filas

In [None]:
# Asigne a df4 la fila en el índice 0 del dataframe datos, con:  datos.iloc[0]
# Muestre por pantalla el dataframe df4
df4 = datos.iloc[0]
df4

In [None]:
# Asigne a df5 la fila en el índice 0 del dataframe datos, con:  datos.iloc[673]
# Muestre por pantalla el dataframe df5
df5 = datos.iloc[673]
df5

In [None]:
# Asigne a df6 la fila en el índice 0 del dataframe datos, con:  datos.iloc[1027]
# Muestre por pantalla el dataframe df6
df6 = datos.iloc[1027]
df6

## Descripción del dataset

In [None]:
# Muestre los tipos de datos de cada columna del dataframe datos, con: datos.dtypes 

datos.dtypes

In [None]:
# Muestre los elementos NaN del dataframe datos, con: datos.isnull()

datos.isnull()

In [None]:
# Muestre un resumen con la cantidad de elementos NaN del dataframe datos, con: datos.isnull().sum()

datos.isnull().sum()

In [None]:
# Muestre las medidas de tendencia central, dispersión y forma de la distribución del dataframe datos
# de las columnas numéricas, con: datos.describe()

datos.describe()

In [None]:
# Muestre las medidas de tendencia central, dispersión y forma de la distribución del dataframe datos
# de todas las columnas, con: datos.describe(include='all')

datos.describe(include='all')

## Limpieza de datos



In [None]:
# Asigne a datos2 el resultado de eliminar las filas con valores nulos (NaN), con: datos.dropna()
# Muestre el dataframe datos2
datos2 = datos.dropna()
datos2

In [None]:
# Muestre por pantalla la cantidad de filas y columnas del dataframe datos y datos2, con: datos.shape, datos2.shape
datos.shape, datos2.shape

In [None]:
# Muestre los elementos NaN del dataframe datos2, con: datos2.isnull()
datos2.isnull()

In [None]:
# Muestre un resumen con la cantidad de elementos NaN del dataframe datos2, con: datos2.isnull().sum()
datos2.isnull().sum()


In [None]:
# Muestre las medidas de tendencia central, dispersión y forma de la distribución del dataframe datos2
# de las columnas numéricas, con: datos2.describe()
datos2.describe()

In [None]:
# Muestre las medidas de tendencia central, dispersión y forma de la distribución del dataframe datos2
# de todas las columnas, con: datos2.describe(include='all')
datos2.describe(include='all')

## Ejercicios

En adelante, utilice el dataframe `datos2` para reproducir los siguientes ejercicios.

**Ejercicio 1:** 

Muestre en un gráfico de barras del conteo de tipos (columna `type`) en el dataframe **datos2**

In [None]:
# 1. Asigne a df5 la columna 'type' del dataframe datos2. Muestre por pantalla df5
df5 = datos2['type']
df5

In [None]:
# 2. Asigne a conteoPorTipo el conteo de los valores en df5, con: df5.value_counts(). Muestre por pantalla conteoPorTipo.
conteoPorTipo = df5.value_counts()
conteoPorTipo

In [None]:
# 3. Muestre el gráfico de barras el resultado del conteo, con: conteoPorTipo.plot.bar()
conteoPorTipo.plot.bar()

**Ejercicio 2:** 

Muestre en un gráfico de barras el del top5 del conteo de años de lanzamiento (columna `release_year`) en el dataframe **datos2**

In [None]:
df6 = datos2['release_year']
conteoPorEstreno = df6.value_counts()
conteoPorEstreno[:5].plot.bar()

**Ejercicio 3:** 

Muestre en un gráfico de barras el del top5 del conteo de paises (columna `country`) en el dataframe **datos2**