# Introducción a Pandas

Pandas es una librería construida encima de NumPy. Nos proporciona una eficiente implementación de objetos de datos construidos a base del arreglo de NumPy, además de otras operaciones para manipular datos. Este tipo de operaciones se conocen como **data wrangling** - los pasos requeridos para preparar la data a fin de que pueda ser consumida para extraer información y construir modelos.

La preparación de data es lo que toma más tiempo en un proyecto de ciencia de datos.

Existen dos (2) componentes fundamentales en Pandas: los objetos de **Series** y **DataFrame**. Una **Series** es esencialmente una columna y un **DataFrame** es una table multi-dimensional constituida a base de una colección de Series. La misma puede consistir de tipos de datos heterogéneos y también puede contener data faltante.

Los objetos de Pandas pueden ser pensados como versiones ampliadas de los arreglos de NumPy, donde las filas y columnas son identificadas con **labels**, e.g. "edad", en vez de índices, e.g. "1".

## Series desde Listas y Arreglos

### El objeto Series

Un objeto Series en Pandas es un arreglo unidimensional (1D) de data indexada 

---

esencialmente una columna.  Puede ser creada desde una lista o un arreglo utilizando el método `pd.Series()`.

In [None]:
import pandas as pd 
series = pd.Series([0, 1, 2, 3])
print(series)

0    0
1    1
2    2
3    3
dtype: int64


Notamos que el objeto Series consiste en: 
* secuencia de valores
* secuencia de índices

Los valores son simplemente un arreglo NumPy, pero el índice es un objeto parecido a un arreglo  de tipo `pd.Index`. Los valores pueden ser accedidos con el índice correspondiente, como veremos a continuación.

In [None]:
import pandas as pd 
series = pd.Series([0, 1, 2, 3, 4, 5])

print("Valores:", series.values)
print("Indices:", series.index, "\n")

print(series[1], "\n")   # Un solo valor

print(series[1:4]) # Un rango de valores

Valores: [0 1 2 3 4 5]
Indices: RangeIndex(start=0, stop=6, step=1) 

1 

1    1
2    2
3    3
dtype: int64


**Pregunta:** ¿Cómo puede acceder a los valores [2,3,4] del arreglo ([0, 1, 2, 3, 4, 5]), utilizando el índice correspondiente?

In [None]:
import pandas as pd
series = pd.Series([0, 1, 2, 3, 4, 5])

print("Valores:", series.values)

print(series[2:5]) 

No obstante, el índice no tiene que ser un número entero, puede consistir en valores de cualquier tipo, i.e. podemos utilizar cadenas de caracteres como índices.

In [None]:
import pandas as pd 
data = pd.Series([12, 24, 13, 54], 
                index=['a', 'b', 'c', 'd'])

print(data, "\n")
print("Valor en el indice b:", data['b'])

a    12
b    24
c    13
d    54
dtype: int64 

Valor en el indice b: 24


## Series desde Diccionarios

Podemos observar que el objeto Series se parecen a diccionarios en Python. Un diccionario es una estructura que hace un enlace entre una llave o clave y un valor; pero la Series es una estructura que hace un enlace entre llaves tipificadas y valores tipificados. Este tipo de información las hace más eficientes comparadas a un diccionario estándar. 

In [None]:
import pandas as pd 

fruits_dict = { 'manzanas': 10,
                'narajanjas': 8,
                'bananas': 3,
                'fresas': 20
               }

fruits = pd.Series(fruits_dict)
print("Valor para manazanas: ", fruits['manzanas'], "\n")

# Series también permiten operacioens de arreglos como rebanar o slicing:
print(fruits['bananas':'fresas'])

Valor para manazanas:  10 

bananas     3
fresas     20
dtype: int64


### El objeto DataFrame

El objeto *Series* es esencialmente una columna, sin embargo, el objeto *DataFrame* es un a table multi-dimensional construida a base de una colección de objetos Series. *DataFrame* nos permite guardar y manipular data tabular donde las filas consisten en observaciones y las columnas representan variables.

Existen varias formas de crear un objeto DatFrame utilizando `pd.DataFrame()`. Por ejemplo, podemos crear un *DataFrame* de las siguientes formas:
* pasando múltiples Series al objeto *DataFrame*
* convirtiendo un diccionario a un *DataFrame*
* importando data desde un archivo *csv*



#### Construyendo un DataFrame desde una Series

Podemos crear un *DataFrame* desde una *Series* al pasarle el objeto Series como dato de entrada el método de creación de un *DataFrame*, en adición a otros datos de entrada opcional como el parámetro `column` que nos permite nombrar columnas.

In [None]:
import pandas as pd 

data_s1 = pd.Series(
    [12, 24, 33, 15], 
    index=['manzanas', 'bananas', 'fresas', 'naranjas'])

# 'quantity' is the name for our column
dataframe1 = pd.DataFrame(data_s1, columns=['quantity'])
print(dataframe1)

          quantity
manzanas        12
bananas         24
fresas          33
naranjas        15


#### Construyendo un DataFrame desde un Diccionario

Podemos construir un *DataFrame* desde una lista de diccionarios. Digamos que tenemos un diccionario con países, sus capitales y alguna otra variable como población, tamaño del país, número de escuelas, etc.)

In [None]:
dict = {"país": ["Noruega", "Suecia", "España", "Francia"],
       "capital": ["Oslo", "Estocolmo", "Madrid", "Paris"],
       "OtraColumna": ["100", "200", "300", "400"]}

data = pd.DataFrame(dict)
print(data)

      país    capital OtraColumna
0  Noruega       Oslo         100
1   Suecia  Estocolmo         200
2   España     Madrid         300
3  Francia      Paris         400


#### Construyendo un DataFrame al importar Data desde un archivo

Es sencillo cargar datos a un *DataFrame* desde varios archivos con distintos formatos, e.g. csv, excel, json. Vamos a estar importando datos para analizar un dataset específico. 

In [None]:
import pandas as pd 

# Si tenemos un archivo llamado data1.csv en nuestro directorio
df = pd.read_csv('data1.csv')

# Si tenemos un archivo en formato json
df = pd.read_json('data2.json')

**Pregunta:** ¿Cúal es la diferencia entre un DataFrame construido desde una Series y un DataFrame construido desde un Diccionario?

## Explorando un Dataset

Vamos a trabajar con el dataset de películas denominado IMDB. Este dataset esta públicamente disponible y contiene información de 14,762 películas. Cada fila consiste en una película, y cada película tiene información como título, año de publicación, director, número de premios, puntaje, duración, etc.  

### Leyendo data desde un CSV

El dataset de IMDB lo podemos encontrar [aquí](https://www.kaggle.com/PromptCloudHQ/imdb-data/data).

Nota: Si el archivo de datos se encuentra en Google Drive, tenemos que conectarlo con Google Colab, importando `drive` de `google.colab` y ejecutar el método `drive.mount("/content/drive")`.Accede al enlace proporcionado y copy/paste el token de acceso.

Si todo marcha bien deberias ver el siguiente mensaje:
```
Mounted at /content/drive
```

In [None]:
from google.colab import drive
drive.mount("/content/drive")

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/drive


In [None]:
# revisemos que se ha montado el Google Drive
!ls

drive  sample_data


Podemos cargarlo utilizando el método de creación de *DataFrame* insertando la ruta del archivo como dato de entrada del método `pd.read_csv('ruta/del/archivo').

La manera más fácil de obtener la ruta del archivo en tu Drive es accediendo al *sidebar* de la izquierda, a fin de encontrar tu archivo dentro del directorio `/content/drive/My Drive`.

Si necesitas una ayuda visual, accede a este artículo [aquí](https://medium.com/ml-book/simplest-way-to-open-files-from-google-drive-in-google-colab-fae14810674).

In [None]:
import pandas as pd

ruta = '/content/drive/My Drive/Colab Notebooks/data/IMDB-Movie-Data.csv'

# leemos los datos en el archivo csv
peliculas_df = pd.read_csv(ruta)

Hemos creado un objeto DataFrame, `peliculas_df`, con índices pre-configurados. No obstante, ¿qué sucede si queremos acceder a cada fila por título de la película y no por número de índice? Podemos hacerlo si configuramos el título como nuestro índice. Esto lo podemos hacer de dos maneras: 
1. pasando el nombre de la columna como parámetro adicional a `index_col` en el método `read_csv`, cuando cargamos el archivo
2. después de haber cargado el archivo, podemos ejecutar el método `set_index()`

El índice nos permite hacer búsquedas rápidas y eficientes, toda vez que buscando filas por valores de índice es como buscar valores en un diccionario a base de una llave o clave.

In [None]:
# 1. cuando cargamos el archivo
peliculas_df_indice_x_titulo = pd.read_csv(ruta, index_col='Title')

# 2. despues de haber cargado el archivo
peliculas_df_indice_x_titulo = peliculas_df.set_index('Title')

### Viendo la Data

**Después** de haber creado el objeto DataFrame, el primer paso es darle una ojeada a la data, a fin de crear una imagen mental de la misma y llegar a familiarizarnos con ella.

Podemos utilizar el método `head()` para visualizar las primeras filas de nuestro dataset. Esto retorna las primeras cinco (5) filas del DataFrame por preconfiguración, pero podemos pasarle el número de filas que deseamos como parámetro de entrada.

In [None]:
# las primeras 5 filas
peliculas_df.head()

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


In [None]:
# las primeras 10 filas
peliculas_df.head(10)

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
5,6,The Great Wall,"Action,Adventure,Fantasy",European mercenaries searching for black powde...,Yimou Zhang,"Matt Damon, Tian Jing, Willem Dafoe, Andy Lau",2016,103,6.1,56036,45.13,42.0
6,7,La La Land,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682,151.06,93.0
7,8,Mindhorn,Comedy,A has-been actor best known for playing the ti...,Sean Foley,"Essie Davis, Andrea Riseborough, Julian Barrat...",2016,89,6.4,2490,,71.0
8,9,The Lost City of Z,"Action,Adventure,Biography","A true-life drama, centering on British explor...",James Gray,"Charlie Hunnam, Robert Pattinson, Sienna Mille...",2016,141,7.1,7188,8.01,78.0
9,10,Passengers,"Adventure,Drama,Romance",A spacecraft traveling to a distant colony pla...,Morten Tyldum,"Jennifer Lawrence, Chris Pratt, Michael Sheen,...",2016,116,7.0,192177,100.01,41.0


También podemos ver las últimas filas del dataset con el método `tail()`, que funciona de la misma manera que `head()`

In [None]:
# las ultimas 5 filas
peliculas_df.tail()

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
995,996,Secret in Their Eyes,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
996,997,Hostel: Part II,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
997,998,Step Up 2: The Streets,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
998,999,Search Party,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
999,1000,Nine Lives,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


**Pregunta:** ¿Cómo se pueden retornar las últimas tres (3) filas del DataFrame?

In [None]:
# las ultimas 3 filas
peliculas_df.tail(3)

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
997,998,Step Up 2: The Streets,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
998,999,Search Party,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
999,1000,Nine Lives,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


**Pregunta:** ¿Qué método permite visualizar las primeras filas de un dataset?


### Consiguiendo información de la Data

Como primer paso, es recomendado conseguir un buen pantallazo de la data. Vamos a utilizar 2 métodos sumamente útiles para esto: 
- `info()` -- nos permite ver detalles esenciales como el número de filas y columnas, el número de índices, el tipo de dato de cada columna, el número de valores que no son nulos, y la memoria utilizada por el DataFrame.
- `describe()` -- nos proporciona un breve análisis estadístico de nuestra data

In [None]:
peliculas_df_indice_x_titulo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Genre               1000 non-null   object 
 2   Description         1000 non-null   object 
 3   Director            1000 non-null   object 
 4   Actors              1000 non-null   object 
 5   Year                1000 non-null   int64  
 6   Runtime (Minutes)   1000 non-null   int64  
 7   Rating              1000 non-null   float64
 8   Votes               1000 non-null   int64  
 9   Revenue (Millions)  872 non-null    float64
 10  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(4)
memory usage: 133.8+ KB


Importante destacar que `info()` nos permite ver que:
- el dataset consiste de 1000 filas y 11 columnas
- utiliza 93KB de memoria
- las columnas *Revenue* y *Metascore* contiene valores nulos

El manejo de valores nulos es muy importante en la fase de preparación de datos y cualquier proyecto de ciencia de datos, toda vez que los algoritmos de aprendizaje de maquina y métodos de análisis de datos no pueden manipular valores nulos por si mismos.

El `Dtype` es útil para aclarar cualquier duda en cuanto el tipo de dato de cada columna. A veces una columna que esperamos sea de `numero entero` son en realidad `cadenas de caracteres` y en este debemos convertirlo a `numero` antes de realizar la operación de análisis.

In [None]:
# para saber el numero de filas y columnas
peliculas_df_indice_x_titulo.shape

(1000, 11)

**Pregunta:** ¿Qué proporciona el método describe()?

In [None]:
peliculas_df_indice_x_titulo.describe()

Unnamed: 0,Rank,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
count,1000.0,1000.0,1000.0,1000.0,1000.0,872.0,936.0
mean,500.5,2012.783,113.172,6.7232,169808.3,82.956376,58.985043
std,288.819436,3.205962,18.810908,0.945429,188762.6,103.25354,17.194757
min,1.0,2006.0,66.0,1.9,61.0,0.0,11.0
25%,250.75,2010.0,100.0,6.2,36309.0,13.27,47.0
50%,500.5,2014.0,111.0,6.8,110799.0,47.985,59.5
75%,750.25,2016.0,123.0,7.4,239909.8,113.715,72.0
max,1000.0,2016.0,191.0,9.0,1791916.0,936.63,100.0


El método `describe()` nos ha proporcionado bastante información de alto nivel de la data. Por ejemplo, podemos ver que:
- el data set consiste de películas entre 2006 (min) y 2016 (max)
- el ingreso más alto generado por una película es de 936.63 millones de dólares americanos, mientras que el más bajo fue de 82.9 millones de dólares americanos.

## Operaciones de DataFrame - Seleccionar, Rebanar y Filtrar

#### Trabajando con Columnas

In [None]:
# extraemos una columna utilizando su nombre
genero_df = peliculas_df['Genre']  # retorna un objeto Series

Lo anterior retorna un objeto Series. Si queremos obtener un objeto DataFrame, debemos pasarla el nombre de la columna como una lista, ver a continuación.

In [None]:
# We can select any column using its label:

# To obtain a Series as output
col_como_series = peliculas_df['Genre']

# Imprime el tipo de objeto y las primeras 5 filas
print(type(col_como_series))
col_como_series.head()


# Obtenemos un objeto DataFrame
col_como_df = peliculas_df[['Genre']]

# Imprime el tipo de objeto y las primeras 5 filas
print(type(col_como_df))
col_como_df.head()

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Genre
0,"Action,Adventure,Sci-Fi"
1,"Adventure,Mystery,Sci-Fi"
2,"Horror,Thriller"
3,"Animation,Comedy,Family"
4,"Action,Adventure,Fantasy"


**Pregunta:** ¿Cómo se extraen muchas columnas del DataFrame?

In [None]:
# podemos extraer muchas columnas
muchas_columnas = peliculas_df_indice_x_titulo[['Genre', 'Rating', 'Revenue (Millions)']]

muchas_columnas.head()

Unnamed: 0_level_0,Genre,Rating,Revenue (Millions)
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",8.1,333.13
Prometheus,"Adventure,Mystery,Sci-Fi",7.0,126.46
Split,"Horror,Thriller",7.3,138.12
Sing,"Animation,Comedy,Family",7.2,270.32
Suicide Squad,"Action,Adventure,Fantasy",6.2,325.02


Observemos también la diferencia entre utilizar un DataFrame indexado por título y el otro indexado por números. En este último ejemplo, el título de las películas se muestra en vez de los números de fila.

#### Trabajando con Filas

Podemos trabajar con fila con los siguientes indexadores:
- `loc` -- nos permite indexar y rebanar haciendo referencia explícita al índice pero ubicándolo por nombre. Por ejemplo, en el DataFrame indexado por título, podemos utilizar el título para seleccionar la fila requerida.
- `iloc` -- nos permite indexar y rebanar haciendo referencia implícita a la indexación nativa de Python pero ubicandolo por el número del índice. En el caso de nuestro DataFrame, le pasamos el número de índice de la película que deseamos seleccionar.


In [None]:
# Siendo explícito con el índice, "Guardians of the Galaxy":
gog = peliculas_df_indice_x_titulo.loc["Guardians of the Galaxy"]

# dando el índice numerico de "Guardians of the Galaxy":
gog = peliculas_df_indice_x_titulo.iloc[0]

gog

Rank                                                                  1
Genre                                           Action,Adventure,Sci-Fi
Description           A group of intergalactic criminals are forced ...
Director                                                     James Gunn
Actors                Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...
Year                                                               2014
Runtime (Minutes)                                                   121
Rating                                                              8.1
Votes                                                            757074
Revenue (Millions)                                               333.13
Metascore                                                            76
Name: Guardians of the Galaxy, dtype: object

In [None]:
# podemos tambien rebanar con múltiples filas
muchas_filas = peliculas_df_indice_x_titulo['Guardians of the Galaxy': 'Sing']
muchas_filas = peliculas_df_indice_x_titulo[0:4]

muchas_filas

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0


También podemos seleccionar filas y columnas. El primer índice hace referencia a filas, mientras que el segundo a columnas.

In [None]:
# selecciona todas las filas hasta Sing y todas las columnas hasta Director
peliculas_df_indice_x_titulo.loc[:'Sing', :'Director']
peliculas_df_indice_x_titulo.iloc[:4, :3]

Unnamed: 0_level_0,Rank,Genre,Description
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te..."
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea..."


Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


**Pregunta:** ¿Cuál es la diferencia entre el método loc y el método iloc?

### Seleccionar condicionalmente y filtrando

Hemos seleccionado filas y columnas con índices específicos. Sin embargo, ¿cómo hacemos para seleccionar cuando no conocemos el índice de antemano o cuando queremos filtrar a base de alguna condición? 

Por ejemplo, queremos que el DataFrame nos muestre las peliíulas desde 2016 o todas las películas que obtuvieron un rating de más de 8.0? Podemos aplicar condiciones booleanas a las columnas en el DataFrame.

In [None]:
# todas las peliculas del 2016
peliculas_df_indice_x_titulo[peliculas_df_indice_x_titulo['Year'] == 2016]

# peliculas con un puntaje mayor a 8.0
peliculas_df_indice_x_titulo[peliculas_df_indice_x_titulo['Rating'] > 8.0 ]

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
La La Land,7,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682,151.06,93.0
Hacksaw Ridge,17,"Biography,Drama,History","WWII American Army Medic Desmond T. Doss, who ...",Mel Gibson,"Andrew Garfield, Sam Worthington, Luke Bracey,...",2016,139,8.2,211760,67.12,71.0
Lion,19,"Biography,Drama",A five-year-old Indian boy gets lost on the st...,Garth Davis,"Dev Patel, Nicole Kidman, Rooney Mara, Sunny P...",2016,118,8.1,102061,51.69,69.0
Bahubali: The Beginning,27,"Action,Adventure,Drama","In ancient India, an adventurous and daring ma...",S.S. Rajamouli,"Prabhas, Rana Daggubati, Anushka Shetty,Tamann...",2015,159,8.3,76193,6.5,
Interstellar,37,"Adventure,Drama,Sci-Fi",A team of explorers travel through a wormhole ...,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",2014,169,8.6,1047747,187.99,74.0
Star Wars: Episode VII - The Force Awakens,51,"Action,Adventure,Fantasy",Three decades after the defeat of the Galactic...,J.J. Abrams,"Daisy Ridley, John Boyega, Oscar Isaac, Domhna...",2015,136,8.1,661608,936.63,81.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
The Prestige,65,"Drama,Mystery,Sci-Fi",Two stage magicians engage in competitive one-...,Christopher Nolan,"Christian Bale, Hugh Jackman, Scarlett Johanss...",2006,130,8.5,913152,53.08,66.0
Mad Max: Fury Road,68,"Action,Adventure,Sci-Fi",A woman rebels against a tyrannical ruler in p...,George Miller,"Tom Hardy, Charlize Theron, Nicholas Hoult, Zo...",2015,120,8.1,632842,153.63,90.0


Si queremos filtrar de manera más compleja lo podemos hacer con operadores `|` y `&`. Por ejemplo, si queremos seleccionar las ultimas películas (entre 2010-2016) que tuvieron un puntaje bajo (menos de 6.0) pero que están entre las películas que mas generaron ingresos (encima del 75%) 

In [None]:
peliculas_df_indice_x_titulo[
    ((peliculas_df_indice_x_titulo['Year'] >= 2010) & (peliculas_df_indice_x_titulo['Year'] <= 2016))
    & (peliculas_df_indice_x_titulo['Rating'] < 6.0)
    & (peliculas_df_indice_x_titulo['Revenue (Millions)'] > peliculas_df_indice_x_titulo['Revenue (Millions)'].quantile(0.75))
]

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fifty Shades of Grey,64,"Drama,Romance,Thriller",Literature student Anastasia Steele's life cha...,Sam Taylor-Johnson,"Dakota Johnson, Jamie Dornan, Jennifer Ehle,El...",2015,125,4.1,244474,166.15,46.0
Ghostbusters,80,"Action,Comedy,Fantasy","Following a ghost invasion of Manhattan, paran...",Paul Feig,"Melissa McCarthy, Kristen Wiig, Kate McKinnon,...",2016,116,5.3,147717,128.34,60.0
Transformers: Age of Extinction,127,"Action,Adventure,Sci-Fi",Autobots must escape sight from a bounty hunte...,Michael Bay,"Mark Wahlberg, Nicola Peltz, Jack Reynor, Stan...",2014,165,5.7,255483,245.43,32.0
The Twilight Saga: Breaking Dawn - Part 2,367,"Adventure,Drama,Fantasy","After the birth of Renesmee, the Cullens gathe...",Bill Condon,"Kristen Stewart, Robert Pattinson, Taylor Laut...",2012,115,5.5,194329,292.3,52.0
Grown Ups 2,395,Comedy,After moving his family back to his hometown t...,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",2013,101,5.4,114482,133.67,19.0
Clash of the Titans,576,"Action,Adventure,Fantasy","Perseus demigod, son of Zeus, battles the mini...",Louis Leterrier,"Sam Worthington, Liam Neeson, Ralph Fiennes,Ja...",2010,106,5.8,238206,163.19,39.0
Kickboxer: Vengeance,581,Action,A kick boxer is out to avenge his brother.,John Stockwell,"Dave Bautista, Alain Moussi, Gina Carano, Jean...",2016,90,4.9,6809,131.56,37.0
Teenage Mutant Ninja Turtles,658,"Action,Adventure,Comedy","When a kingpin threatens New York City, a grou...",Jonathan Liebesman,"Megan Fox, Will Arnett, William Fichtner, Noel...",2014,101,5.9,178527,190.87,31.0
Green Lantern,674,"Action,Adventure,Sci-Fi",Reckless test pilot Hal Jordan is granted an a...,Martin Campbell,"Ryan Reynolds, Blake Lively, Peter Sarsgaard,M...",2011,114,5.6,231907,116.59,39.0
G.I. Joe: Retaliation,879,"Action,Adventure,Sci-Fi",The G.I. Joes are not only fighting their mort...,Jon M. Chu,"Dwayne Johnson, Channing Tatum, Adrianne Palic...",2013,110,5.8,152145,122.51,41.0


El resultado nos indica que "Fifty Shades of Grey" es la película con el peor puntaje, pero con más altos ingresos. En total, hay 12 películas que dan con esas condiciones. 

Notemos también el 75% del `describe()` reportaba 113.715 millones de dólares americanos y todas las películas generaron más que eso.

## Operaciones de DataFrame - Agrupar y Ordenar

### Agrupando

Las cosas comienzan a ponerse interesante cuando agrupamos filas que cumplen cierto criterio y luego agregamos su data. 

Digamos que queremos agrupar las películas por director y ver cuanto ingreso generó cada director en total, además del puntaje promedio por director. 

Esto lo podemos hacer con la operación `groupby` en la columna de interés, seguida por el agregado correspondiente (suma o promedio)

In [None]:
# agrupemos por director y agreguemos por suma
peliculas_df.groupby('Director')[['Revenue (Millions)']].sum()

Unnamed: 0_level_0,Revenue (Millions)
Director,Unnamed: 1_level_1
Aamir Khan,1.20
Abdellatif Kechiche,2.20
Adam Leon,0.00
Adam McKay,438.14
Adam Shankman,157.33
...,...
Xavier Dolan,3.49
Yimou Zhang,45.13
Yorgos Lanthimos,8.81
Zack Snyder,975.74


In [None]:
# agrupemos por director y agreguemos por promedio
peliculas_df.groupby('Director')[['Rating']].mean()

Unnamed: 0_level_0,Rating
Director,Unnamed: 1_level_1
Aamir Khan,8.50
Abdellatif Kechiche,7.80
Adam Leon,6.50
Adam McKay,7.00
Adam Shankman,6.30
...,...
Xavier Dolan,7.55
Yimou Zhang,6.10
Yorgos Lanthimos,7.20
Zack Snyder,7.04


Podemos notar que Aamir Khan obtuvo el puntaje más alto, pero a la vez sus ingresos son más bajos en comparación a los otros directores.

Además de `sum()` y `mean()` Pandas también tiene otras funciones de agregación como `min(0` y `max()`.

### Ordenando

Observemos que los resultados anteriores fueron presentados en orden alfabético. Sin embargo, sería útil presentarlos por orden de ingresos generados. 

Para lograrlo, podemos utilizar el método `sort_values(columna, ascending=False)` 

In [None]:
peliculas_df.groupby('Director')[['Revenue (Millions)']].sum().sort_values(['Revenue (Millions)'], ascending=False)

Unnamed: 0_level_0,Revenue (Millions)
Director,Unnamed: 1_level_1
J.J. Abrams,1683.45
David Yates,1630.51
Christopher Nolan,1515.09
Michael Bay,1421.32
Francis Lawrence,1299.81
...,...
Jalil Lespert,0.00
Jamal Hill,0.00
James Franco,0.00
James Lapine,0.00


In [None]:
# si queremos obtener mayor ingresos y mayor puntaje
data_ordenada = peliculas_df_indice_x_titulo.sort_values(['Revenue (Millions)', 'Rating'], ascending=False)
data_ordenada.head(5)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Star Wars: Episode VII - The Force Awakens,51,"Action,Adventure,Fantasy",Three decades after the defeat of the Galactic...,J.J. Abrams,"Daisy Ridley, John Boyega, Oscar Isaac, Domhna...",2015,136,8.1,661608,936.63,81.0
Avatar,88,"Action,Adventure,Fantasy",A paraplegic marine dispatched to the moon Pan...,James Cameron,"Sam Worthington, Zoe Saldana, Sigourney Weaver...",2009,162,7.8,935408,760.51,83.0
Jurassic World,86,"Action,Adventure,Sci-Fi","A new theme park, built on the original site o...",Colin Trevorrow,"Chris Pratt, Bryce Dallas Howard, Ty Simpkins,...",2015,124,7.0,455169,652.18,59.0
The Avengers,77,"Action,Sci-Fi",Earth's mightiest heroes must come together an...,Joss Whedon,"Robert Downey Jr., Chris Evans, Scarlett Johan...",2012,143,8.1,1045588,623.28,69.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0


- Director que generó más ingresos: J.J. Abrams
- Película con mejor puntaje e ingresos: Star Wars

## Operaciones de DataFrame - Tratando valores nulos y duplicados

### Tratando valores nulos

La diferencia entre data falsa y data real es que la data real casi nunca es limpia y homogénea. Un detalle en particular que debemos abordar es la presencia de valores faltantes o nulos. 

Existen dos formas de cómo se pueden presentar valores faltantes o nulos:
- None - es un tipo de objeto de Python utilizado para tratar data que hace falta en Python. Se puede utilizar en arreglos con el tipo de dato "objeto", e.g. arreglos de objetos de Python
- NaN (Not a Number) - un valor de punto flotante especial utilizado para representar data faltante. Este tipo de dato implica que podemos realizar operaciones matemáticas. Sin embargo, el resultado de una operación aritmética con NaN es otro NaN.

In [None]:
import numpy as np
import pandas as pd

# Ejemplo con None
None_example = np.array([0, None, 2, 3])
print("dtype =", None_example.dtype)
print(None_example)

# Ejemplo con NaN
NaN_example = np.array([0, np.nan, 2, 3])
print("dtype =", NaN_example.dtype)
print(NaN_example)

# Operacion matematica con NaN retorna NaNs
print("Operaciones Aritmeticas")
print("Suma con NaNs:", NaN_example.sum())
print("Suma con None:", None_example.sum())

dtype = object
[0 None 2 3]
dtype = float64
[ 0. nan  2.  3.]
Operaciones Aritmeticas
Suma con NaNs: nan


TypeError: ignored

Afortunadamente Pandas fue construido para el manejo de `NaN` y `None` y trata los dos valores de la misma manera, clasificándolos como un valor faltante o nulo. Además, Pandas proporciona métodos para detectar, remover y reemplazar valores nulos: `isnull()`, `notnull()`, `dropna()`, y `fillna()`.

#### Detectando valores nulos

`inull()` y `notnull()` son útiles para detectar valores nulos en Pandas. Ambos retornan Booleanos encima de la data.

In [None]:
peliculas_df_indice_x_titulo.isnull()  # alguans columnas retornan True

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,False,False,False,False,False,False,False,False,False,False,False
Prometheus,False,False,False,False,False,False,False,False,False,False,False
Split,False,False,False,False,False,False,False,False,False,False,False
Sing,False,False,False,False,False,False,False,False,False,False,False
Suicide Squad,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,False,False,False,False,False,False,False,False,False,True,False
Hostel: Part II,False,False,False,False,False,False,False,False,False,False,False
Step Up 2: The Streets,False,False,False,False,False,False,False,False,False,False,False
Search Party,False,False,False,False,False,False,False,False,False,True,False


In [None]:
# podemos contar la cantidad de valores nulos
peliculas_df_indice_x_titulo.isnull().sum()  # no sabemos los ingresos de 128 peliculos

Rank                    0
Genre                   0
Description             0
Director                0
Actors                  0
Year                    0
Runtime (Minutes)       0
Rating                  0
Votes                   0
Revenue (Millions)    128
Metascore              64
dtype: int64

#### Removiendo valores nulos

Es fácil remover valores nulos; sin embargo, no es siempre la mejor manera de tratar valores nulos. Tenemos la opción de remover o reemplazar. En general, deberíamos remover cuando tenemos una cantidad pequeña de valores nulos, toda vez que no podemos simplemente remover los valores sin remover toda la fila o toda la columna.

El método `dropna()` nos permite remover filas o columnas. Si lo hacemos por fila o por columna depende del dataset. Por preconfiguración, este método remueve todas las filas que contiene un valore nulo y retorna un nuevo DataFrame sin alterar el original. Si queremos alterar el original entonces modficamos el parámetro `inplace=True`. Alternativamente, podemos remover todas las columnas que contienen valores nulos al especificar el parámetro `axis=1`.



In [None]:
# remueve todas las filas con valores nulos
peliculas_df_indice_x_titulo.dropna()

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Resident Evil: Afterlife,994,"Action,Adventure,Horror",While still out to destroy the evil Umbrella C...,Paul W.S. Anderson,"Milla Jovovich, Ali Larter, Wentworth Miller,K...",2010,97,5.9,140900,60.13,37.0
Project X,995,Comedy,3 high school seniors throw a birthday party t...,Nima Nourizadeh,"Thomas Mann, Oliver Cooper, Jonathan Daniel Br...",2012,88,6.7,164088,54.72,48.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0


In [None]:
# remueve todas las columnas con valores nulos
peliculas_df_indice_x_titulo.dropna(axis=1)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727
...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881


Sin embargo, **¿qué significa remover los valores nulos en nuestro dataset especifico?**
- Remover 128 filas donde el ingreso es nulo y 64 filas donde el metascore es nulo. Esto implica una perdida muy grande de data, ya que hay buena data en las otras columnas de esas filas
- Al remover las columnas se remueven las columnas de ingreso y metascore por entero, lo cual no es inteligente tampoco.

Para evitar perder toda esta data, podemos escoger remover filas o columnas a base de un límite de parámetro, en donde solo se remueve si la mayoría de la data es nula. Esto se puede lograr especificando los parámetros de `how` y `thresh`, que nos permite controlar el número de nulos que se permiten en el DataFrame

In [None]:
# Remueve las columnas donde todos los valores hacen falta
peliculas_df_indice_x_titulo.dropna(axis='columns', how='all')

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


In [None]:
# thresh para especificar el numero minimo de valores nulos
# para la fila/columna que se quedan
peliculas_df_indice_x_titulo.dropna(axis='rows', thresh=10)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


#### Reemplazando valores nulos

En vez de remover la data, podemos reemplazar los valores con un valor valido. Este nuevo valor puede ser un número o algún tipo de interpolación de algún valor bueno, como el promedio de la columna. Para eso, Pandas nos proporciona el método `fillna()`.

Por ejemplo, vamos a reemplazar los valores faltantes de la columna de ingresos con el promedio de ingresos.

In [None]:
# consigue el valor promerdio de la columna
ingreso = peliculas_df_indice_x_titulo['Revenue (Millions)']
ingreso_promedio = ingreso.mean()

print("Promedio de ingresos:", ingreso_promedio)

# reemplazemos todos los valores faltantes con este promedio
ingreso.fillna(ingreso_promedio, inplace=True)

# consigaos el valor actualizado de nulos
peliculas_df_indice_x_titulo.isnull().sum()

Promedio de ingresos: 82.9563761467888


Rank                   0
Genre                  0
Description            0
Director               0
Actors                 0
Year                   0
Runtime (Minutes)      0
Rating                 0
Votes                  0
Revenue (Millions)     0
Metascore             64
dtype: int64

#### Manejando duplicados



Afortunadamente no tenemos data duplicada en nuestro dataset, pero ese no siempre es el caso. Para los casos menos fortuitos, Pandas tiene un método `drop_duplicates()`. Este método retorna una copia del DataFrame con los duplicados removidos, salvo que especifiquemos `inplace=True`, en cuyo caso los remueve del dataset original.

#### Creando nuevas columnas desde columnas existentes

A veces tenemos que crear nuevas columnas desde otras que ya existen. Es fácil hacer esto en Pandas.

Por ejemplo, si queremos introducir una nueva columna que tiene los Ingresos por Minuto de cada película, podemos dividir el ingreso por la cantidad de minutos y creamos una nueva columna con este valor.

In [None]:
# We can use 'Revenue (Millions)' and 'Runtime (Minutes)' to calculate Revenue per Min for each movie:
peliculas_df_indice_x_titulo['Revenue per Min'] = \
peliculas_df_indice_x_titulo['Revenue (Millions)']/peliculas_df_indice_x_titulo['Runtime (Minutes)']

peliculas_df_indice_x_titulo.head(3)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore,Revenue per Min
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0,2.75314
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,1.019839
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0,1.180513


## Operaciones de DataFrame - Tablas Pivote y Funciones



### Tablas Pivote

Hemos visto como las agrupaciones nos permite explorar relaciones dentro de un dataset. Una table pivote es una operación similar. 

La tabla pivote toma una columna de data como entrada y agrupa todas las entradas en una tabla de dos dimensiones, a fin de dar un resumen multidimensional de la data.

Por ejemplo, si queremos comparar el dinero ganado por varios directores por año. Podemos crear una table pivote utilizando `pivot_table`; podemos fijar el `index='Director'` (fila de la tabla pivote) y obtenemos la información sobre valor de ingresos fijando `columns=Year'`;

In [None]:
# calculemos el promedio de ingresos por director
# pero utilizemos una tabla pivote
peliculas_df_indice_x_titulo.pivot_table('Revenue (Millions)', 
    index='Director',
    aggfunc='sum', 
    columns='Year'
  ).head()

Year,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
Director,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Aamir Khan,,1.2,,,,,,,,,
Abdellatif Kechiche,,,,,,,,2.2,,,
Adam Leon,,,,,,,,,,,82.956376
Adam McKay,148.21,,100.47,,119.22,,,,,70.24,
Adam Shankman,,118.82,,,,,38.51,,,,


El parámetro `aggfunc` controla el tipo de agregación que es aplicada (promedio por preconfiguración). Asá como en `1groupby`, esto puede ser una cadena de caracteres que representa una las muchas opciones comunes como `sum`, `mean`, `count`, `min`, `max`.

Nuestra tabla pivote nos permite observar que Aamir Khan nada más tiene ingresos en 2007. Esto puede implicar dos cosas: 2007 fue el ánico año en este período que algunas de sus películas fueron publicadas, o que simplemente no tenemos toda la data para este director. También podemos observar que Adam McKay tiene el mayor número de películas en este periodo de 10 años, con sus ingresos más altos en 2006 y los más bajos en 2015.

Con esta simple tabla pivote, podemos observar la tendencia anual de ingresos generados por director. Por tanto, son una herramienta sumamente útil en análisis de datos.

### Aplicando Funciones

Podemos aplicar funciones a un dataset con `apply()`. Este método retorna un valor después de procesar cada fila/columna de un dataset por otro método definido de forma arbitraria. 

Por ejemplo, podemos utilizar una función para clasificar películas en cuatro categorías a base de su puntaje: buenísima, buena, promedio, mala. Eso lo hacemos en dos pasos:
- define una función que determina la categoría en base al puntaje
- aplica la función al DataFrame

In [None]:
# paso 1
def rating_bucket(x):
    if x >= 8.0:
        return "buenisima"
    elif x >= 7.0:
        return "buena"
    elif x >= 6.0:
        return "promedio"
    else:
        return "mala"

# paso 2
peliculas_df_indice_x_titulo["Puntaje_Categoria"] = movies_df_title_indexed["Rating"].apply(rating_bucket)

# paso 3 - veamos el resultado
peliculas_df_indice_x_titulo.head(10)[['Rating','Puntaje_Categoria']]

Unnamed: 0_level_0,Rating,Puntaje_Categoria
Title,Unnamed: 1_level_1,Unnamed: 2_level_1
Guardians of the Galaxy,8.1,buenisima
Prometheus,7.0,buena
Split,7.3,buena
Sing,7.2,buena
Suicide Squad,6.2,promedio
The Great Wall,6.1,promedio
La La Land,8.3,buenisima
Mindhorn,6.4,promedio
The Lost City of Z,7.1,buena
Passengers,7.0,buena


## Otras lecturas

1. [Funcionalidades básicas ](http://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html)
2. [Tutoriales](http://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)
3. [Libro de recetas](http://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook)