# Introducción a Pandas

Pandas es una librería construida encima de NumPy. Nos proporciona una eficiente implementación de objetos de datos construidos a base del arreglo de NumPy, además de otras operaciones para manipular datos. Este tipo de operaciones se conocen como **data wrangling** - los pasos requeridos para preparar la data a fin de que pueda ser consumida para extraer información y construir modelos.

La preparación de data es lo que toma más tiempo en un proyecto de ciencia de datos.

Existen dos (2) componentes fundamentales en Pandas: los objetos de **Series** y **DataFrame**. Una **Series** es esencialmente una columna y un **DataFrame** es una table multi-dimensional constituida a base de una colección de Series. La misma puede consistir de tipos de datos heterogéneos y también puede contener data faltante.

Los objetos de Pandas pueden ser pensados como versiones ampliadas de los arreglos de NumPy, donde las filas y columnas son identificadas con **labels**, e.g. "edad", en vez de índices, e.g. "1".

# Series desde Listas y Arreglos

### El objeto Series

Un objeto Series en Pandas es un arreglo unidimensional (1D) de data indexada 

---

Es esencialmente una columna.  Puede ser creada desde una lista o un arreglo utilizando el método `pd.Series()`.

In [None]:
import pandas as pd 
series = pd.Series([0, 1, 2, 3])
print(series)

Notamos que el objeto Series consiste en: 
* secuencia de valores
* secuencia de índices

Los valores son simplemente un arreglo NumPy, pero el índice es un objeto parecido a un arreglo  de tipo `pd.Index`. Los valores pueden ser accedidos con el índice correspondiente, como veremos a continuación.

In [None]:
import pandas as pd 
series = pd.Series([0, 1, 2, 3, 4, 5])

print("Valores:", series.values)
print("Indices:", series.index, "\n")

print(series[1], "\n")   # Un solo valor

print(series[1:4]) # Un rango de valores

**Pregunta:** ¿Cómo puede acceder a los valores [2,3,4] del arreglo ([0, 1, 2, 3, 4, 5]), utilizando el índice correspondiente?

In [None]:
import pandas as pd
series = pd.Series([0, 1, 2, 3, 4, 5])

print("Valores:", series.values)

print(series[2:5]) 

No obstante, el índice no tiene que ser un número entero, puede consistir en valores de cualquier tipo, i.e. podemos utilizar cadenas de caracteres como índices.

In [None]:
import pandas as pd 
data = pd.Series([12, 24, 13, 54], 
                index=['a', 'b', 'c', 'd'])

print(data, "\n")
print("Valor en el indice b:", data['b'])

## Series desde Diccionarios

Podemos observar que el objeto Series se parecen a diccionarios en Python. Un diccionario es una estructura que hace un enlace entre una llave o clave y un valor; pero la Series es una estructura que hace un enlace entre llaves tipificadas y valores tipificados. Este tipo de información las hace más eficientes comparadas a un diccionario estándar. 

In [None]:
import pandas as pd 

fruits_dict = { 'manzanas': 10,
                'narajanjas': 8,
                'bananas': 3,
                'fresas': 20
               }

fruits = pd.Series(fruits_dict)
print("Valor para manzanas: ", fruits['manzanas'], "\n")

# Series también permiten operacioens de arreglos como rebanar o slicing:
print(fruits['bananas':'fresas'])

# El objeto DataFrame

El objeto *Series* es esencialmente una columna, sin embargo, el objeto *DataFrame* es un a table multi-dimensional construida a base de una colección de objetos Series. *DataFrame* nos permite guardar y manipular data tabular donde las filas consisten en observaciones y las columnas representan variables.

Existen varias formas de crear un objeto DataFrame utilizando `pd.DataFrame()`. Por ejemplo, podemos crear un *DataFrame* de las siguientes formas:
* pasando múltiples Series al objeto *DataFrame*
* convirtiendo un diccionario a un *DataFrame*
* importando data desde un archivo *csv*



#### Construyendo un DataFrame desde una Series

Podemos crear un *DataFrame* desde una *Series* al pasarle el objeto Series como dato de entrada el método de creación de un *DataFrame*, en adición a otros datos de entrada opcional como el parámetro `column` que nos permite nombrar columnas.

In [None]:
import pandas as pd 

data_s1 = pd.Series(
    [12, 24, 33, 15], 
    index=['manzanas', 'bananas', 'fresas', 'naranjas'])

# 'quantity' es el nombre de la columna
dataframe1 = pd.DataFrame(data_s1, columns=['quantity'])
print(dataframe1)

#### Construyendo un DataFrame desde un Diccionario

Podemos construir un *DataFrame* desde una lista de diccionarios. Digamos que tenemos un diccionario con países, sus capitales y alguna otra variable como población, tamaño del país, número de escuelas, etc.)

In [None]:
dict = {"país": ["Noruega", "Suecia", "España", "Francia"],
       "capital": ["Oslo", "Estocolmo", "Madrid", "Paris"],
       "OtraColumna": ["100", "200", "300", "400"]}

data = pd.DataFrame(dict)
print(data)

#### Construyendo un DataFrame al importar Data desde un archivo

Es sencillo cargar datos a un *DataFrame* desde varios archivos con distintos formatos, e.g. csv, excel, json. Vamos a estar importando datos para analizar un dataset específico. 

In [None]:
import pandas as pd 

# Si tenemos un archivo llamado data1.csv en nuestro directorio
df = pd.read_csv('data1.csv')

# Si tenemos un archivo en formato json
df = pd.read_json('data2.json')

**Pregunta:** ¿Cúal es la diferencia entre un DataFrame construido desde una Series y un DataFrame construido desde un Diccionario?

# Explorando un Dataset

Vamos a trabajar con el dataset de películas denominado IMDB. Este dataset esta públicamente disponible y contiene información de 14,762 películas. Cada fila consiste en una película, y cada película tiene información como título, año de publicación, director, número de premios, puntaje, duración, etc.  

### Leyendo data desde un CSV

El dataset de IMDB lo podemos encontrar [aquí](https://www.kaggle.com/PromptCloudHQ/imdb-data/data).

Nota: Si el archivo de datos se encuentra en Google Drive, tenemos que conectarlo con Google Colab, importando `drive` de `google.colab` y ejecutar el método `drive.mount("/content/drive")`.Accede al enlace proporcionado y copy/paste el token de acceso.

Si todo marcha bien deberias ver el siguiente mensaje:
```
Mounted at /content/drive
```

In [None]:
from google.colab import drive
drive.mount("/content/drive")

In [None]:
# revisemos que se ha montado el Google Drive
!ls

Podemos cargarlo utilizando el método de creación de *DataFrame* insertando la ruta del archivo como dato de entrada del método `pd.read_csv('ruta/del/archivo').

La manera más fácil de obtener la ruta del archivo en tu Drive es accediendo al *sidebar* de la izquierda, a fin de encontrar tu archivo dentro del directorio `/content/drive/My Drive`.

Si necesitas una ayuda visual, accede a este artículo [aquí](https://medium.com/ml-book/simplest-way-to-open-files-from-google-drive-in-google-colab-fae14810674).

In [None]:
# desde Google Colab
ruta = '/content/drive/My Drive/Colab Notebooks/data/IMDB-Movie-Data.csv'

Alternativamente, si usted esta usando Jupyter Notebook localmente y ha clonado nuestro repositorio en GitHub, el archivo se encuentra en la carpeta de datos: `./datos/imdb-movie-data.csv`.

In [None]:
# desde su maquina local
ruta = "./datos/imdb-movie-data.csv"

In [None]:
# leemos los datos en el archivo csv
import pandas as pd
peliculas_df = pd.read_csv(ruta)

Hemos creado un objeto DataFrame, `peliculas_df`, con índices pre-configurados. No obstante, ¿qué sucede si queremos acceder a cada fila por título de la película y no por número de índice? Podemos hacerlo si configuramos el título como nuestro índice. Esto lo podemos hacer de dos maneras: 
1. pasando el nombre de la columna como parámetro adicional a `index_col` en el método `read_csv`, cuando cargamos el archivo
2. después de haber cargado el archivo, podemos ejecutar el método `set_index()`

El índice nos permite hacer búsquedas rápidas y eficientes, toda vez que buscando filas por valores de índice es como buscar valores en un diccionario a base de una llave o clave.

In [None]:
# 1. cuando cargamos el archivo
peliculas_df_indice_x_titulo = pd.read_csv(ruta, index_col='Title')

In [None]:
# 2. despues de haber cargado el archivo
peliculas_df_indice_x_titulo = peliculas_df.set_index('Title')

### Viendo la Data

**Después** de haber creado el objeto DataFrame, el primer paso es darle una ojeada a la data, a fin de crear una imagen mental de la misma y llegar a familiarizarnos con ella.

Podemos utilizar el método `head()` para visualizar las primeras filas de nuestro dataset. Esto retorna las primeras cinco (5) filas del DataFrame por preconfiguración, pero podemos pasarle el número de filas que deseamos como parámetro de entrada.

In [None]:
# las primeras 5 filas
peliculas_df.head()

In [None]:
# las primeras 10 filas
peliculas_df.head(10)

También podemos ver las últimas filas del dataset con el método `tail()`, que funciona de la misma manera que `head()`

In [None]:
# las ultimas 5 filas
peliculas_df.tail()

**Pregunta:** ¿Cómo se pueden retornar las últimas tres (3) filas del DataFrame?

In [None]:
# las ultimas 3 filas
peliculas_df.tail(3)

**Pregunta:** ¿Qué método permite visualizar las primeras filas de un dataset?


**Pregunta:** ¿Cómo se pueden retornar las tres (3) primeras filas de un dataset?

### Consiguiendo información de la Data

Como primer paso, es recomendado conseguir un buen pantallazo de la data. Vamos a utilizar 2 métodos sumamente útiles para esto: 
- `info()` -- nos permite ver detalles esenciales como el número de filas y columnas, el número de índices, el tipo de dato de cada columna, el número de valores que no son nulos, y la memoria utilizada por el DataFrame.
- `describe()` -- nos proporciona un breve análisis estadístico de nuestra data

In [None]:
peliculas_df_indice_x_titulo.info()

Importante destacar que `info()` nos permite ver que:
- el dataset consiste de 1000 filas y 11 columnas
- utiliza 93KB de memoria
- las columnas *Revenue* y *Metascore* contiene valores nulos

El manejo de valores nulos es muy importante en la fase de preparación de datos y cualquier proyecto de ciencia de datos, toda vez que los algoritmos de aprendizaje de maquina y métodos de análisis de datos no pueden manipular valores nulos por si mismos.

El `Dtype` es útil para aclarar cualquier duda en cuanto el tipo de dato de cada columna. A veces una columna que esperamos sea de `numero entero` son en realidad `cadenas de caracteres` y en este debemos convertirlo a `numero` antes de realizar la operación de análisis.

In [None]:
# para saber el numero de filas y columnas
peliculas_df_indice_x_titulo.shape

**Pregunta:** ¿Qué proporciona el método `describe()`?

In [None]:
peliculas_df_indice_x_titulo.describe()

El método `describe()` nos ha proporcionado bastante información de alto nivel de la data. Por ejemplo, podemos ver que:
- el data set consiste de películas entre 2006 (min) y 2016 (max)
- el ingreso más alto generado por una película es de 936.63 millones de dólares americanos, mientras que el más bajo fue de 82.9 millones de dólares americanos.

# Operaciones de DataFrame - Seleccionar, Rebanar y Filtrar

#### Trabajando con Columnas

In [None]:
# extraemos una columna utilizando su nombre
genero_df = peliculas_df['Genre']  # retorna un objeto Series

Lo anterior retorna un objeto Series. Si queremos obtener un objeto DataFrame, debemos pasarla el nombre de la columna como una lista, ver a continuación.

In [None]:
# We can select any column using its label:

# To obtain a Series as output
col_como_series = peliculas_df['Genre']

# Imprime el tipo de objeto y las primeras 5 filas
print(type(col_como_series))
col_como_series.head()


# Obtenemos un objeto DataFrame
col_como_df = peliculas_df[['Genre']]

# Imprime el tipo de objeto y las primeras 5 filas
print(type(col_como_df))
col_como_df.head()

**Pregunta:** ¿Cómo se extraen varias columnas de un DataFrame?

In [None]:
# podemos extraer muchas columnas
muchas_columnas = peliculas_df_indice_x_titulo[['Genre', 'Rating', 'Revenue (Millions)']]

muchas_columnas.head()

Observemos también la diferencia entre utilizar un DataFrame indexado por título y el otro indexado por números. En este último ejemplo, el título de las películas se muestra en vez de los números de fila.

#### Trabajando con Filas

Podemos trabajar con fila con los siguientes indexadores:
- `loc` -- nos permite indexar y rebanar haciendo referencia explícita al índice pero ubicándolo por nombre. Por ejemplo, en el DataFrame indexado por título, podemos utilizar el título para seleccionar la fila requerida.
- `iloc` -- nos permite indexar y rebanar haciendo referencia implícita a la indexación nativa de Python pero ubicandolo por el número del índice. En el caso de nuestro DataFrame, le pasamos el número de índice de la película que deseamos seleccionar.


In [None]:
# Siendo explícito con el índice, "Guardians of the Galaxy":
gog = peliculas_df_indice_x_titulo.loc["Guardians of the Galaxy"]

# dando el índice numerico de "Guardians of the Galaxy":
gog = peliculas_df_indice_x_titulo.iloc[0]

gog

In [None]:
# podemos tambien rebanar con múltiples filas
muchas_filas = peliculas_df_indice_x_titulo['Guardians of the Galaxy': 'Sing']
muchas_filas = peliculas_df_indice_x_titulo[0:4]

muchas_filas

También podemos seleccionar filas y columnas. El primer índice hace referencia a filas, mientras que el segundo a columnas.

In [None]:
# selecciona todas las filas hasta Sing y todas las columnas hasta Director
peliculas_df_indice_x_titulo.loc[:'Sing', :'Director']
peliculas_df_indice_x_titulo.iloc[:4, :3]

**Pregunta:** ¿Cuál es la diferencia entre el método loc y el método iloc?

### Seleccionar condicionalmente y filtrando

Hemos seleccionado filas y columnas con índices específicos. Sin embargo, ¿cómo hacemos para seleccionar cuando no conocemos el índice de antemano o cuando queremos filtrar a base de alguna condición? 

Por ejemplo, queremos que el DataFrame nos muestre las peliíulas desde 2016 o todas las películas que obtuvieron un rating de más de 8.0? Podemos aplicar condiciones booleanas a las columnas en el DataFrame.

In [None]:
# todas las peliculas del 2016
peliculas_df_indice_x_titulo[peliculas_df_indice_x_titulo['Year'] == 2016]

# peliculas con un puntaje mayor a 8.0
peliculas_df_indice_x_titulo[peliculas_df_indice_x_titulo['Rating'] > 8.0 ]

Si queremos filtrar de manera más compleja lo podemos hacer con operadores `|` y `&`. Por ejemplo, si queremos seleccionar las ultimas películas (entre 2010-2016) que tuvieron un puntaje bajo (menos de 6.0) pero que están entre las películas que mas generaron ingresos (encima del 75%) 

In [None]:
peliculas_df_indice_x_titulo[
    ((peliculas_df_indice_x_titulo['Year'] >= 2010) & (peliculas_df_indice_x_titulo['Year'] <= 2016))
    & (peliculas_df_indice_x_titulo['Rating'] < 6.0)
    & (peliculas_df_indice_x_titulo['Revenue (Millions)'] > peliculas_df_indice_x_titulo['Revenue (Millions)'].quantile(0.75))
]

El resultado nos indica que "Fifty Shades of Grey" es la película con el peor puntaje, pero con más altos ingresos. En total, hay 12 películas que dan con esas condiciones. 

Notemos también el 75% del `describe()` reportaba 113.715 millones de dólares americanos y todas las películas generaron más que eso.

# Operaciones de DataFrame - Agrupar y Ordenar

### Agrupando

Las cosas comienzan a ponerse interesante cuando agrupamos filas que cumplen cierto criterio y luego agregamos su data. 

Digamos que queremos agrupar las películas por director y ver cuanto ingreso generó cada director en total, además del puntaje promedio por director. 

Esto lo podemos hacer con la operación `groupby` en la columna de interés, seguida por el agregado correspondiente (suma o promedio)

In [None]:
# agrupemos por director y agreguemos por suma
peliculas_df.groupby('Director')[['Revenue (Millions)']].sum()

In [None]:
# agrupemos por director y agreguemos por promedio
peliculas_df.groupby('Director')[['Rating']].mean()

Podemos notar que Aamir Khan obtuvo el puntaje más alto, pero a la vez sus ingresos son más bajos en comparación a los otros directores.

Además de `sum()` y `mean()` Pandas también tiene otras funciones de agregación como `min(0` y `max()`.

### Ordenando

Observemos que los resultados anteriores fueron presentados en orden alfabético. Sin embargo, sería útil presentarlos por orden de ingresos generados. 

Para lograrlo, podemos utilizar el método `sort_values(columna, ascending=False)` 

In [None]:
peliculas_df.groupby('Director')[['Revenue (Millions)']].sum().sort_values(['Revenue (Millions)'], ascending=False)

In [None]:
# si queremos obtener mayor ingresos y mayor puntaje
data_ordenada = peliculas_df_indice_x_titulo.sort_values(['Revenue (Millions)', 'Rating'], ascending=False)
data_ordenada.head(5)

- Director que generó más ingresos: J.J. Abrams
- Película con mejor puntaje e ingresos: Star Wars

**Pregunta:** Cual fue la película con el *Rating* mas bajo?

# Operaciones de DataFrame - Tratando valores nulos y duplicados

## Tratando valores nulos

La diferencia entre data falsa y data real es que la data real casi nunca es limpia y homogénea. Un detalle en particular que debemos abordar es la presencia de valores faltantes o nulos. 

Existen dos formas de cómo se pueden presentar valores faltantes o nulos:
- None - es un tipo de objeto de Python utilizado para tratar data que hace falta en Python. Se puede utilizar en arreglos con el tipo de dato "objeto", e.g. arreglos de objetos de Python
- NaN (Not a Number) - un valor de punto flotante especial utilizado para representar data faltante. Este tipo de dato implica que podemos realizar operaciones matemáticas. Sin embargo, el resultado de una operación aritmética con NaN es otro NaN.

In [None]:
import numpy as np
import pandas as pd

# Ejemplo con None
None_example = np.array([0, None, 2, 3])
print("dtype =", None_example.dtype)
print(None_example)

# Ejemplo con NaN
NaN_example = np.array([0, np.nan, 2, 3])
print("dtype =", NaN_example.dtype)
print(NaN_example)

# Operacion matematica con NaN retorna NaNs
print("Operaciones Aritmeticas")
print("Suma con NaNs:", NaN_example.sum())
print("Suma con None:", None_example.sum())

Afortunadamente Pandas fue construido para el manejo de `NaN` y `None` y trata los dos valores de la misma manera, clasificándolos como un valor faltante o nulo. Además, Pandas proporciona métodos para detectar, remover y reemplazar valores nulos: `isnull()`, `notnull()`, `dropna()`, y `fillna()`.

### Detectando valores nulos

`inull()` y `notnull()` son útiles para detectar valores nulos en Pandas. Ambos retornan Booleanos encima de la data.

In [None]:
peliculas_df_indice_x_titulo.isnull()  # algunas columnas retornan True

In [None]:
# podemos contar la cantidad de valores nulos
peliculas_df_indice_x_titulo.isnull().sum()  # no sabemos los ingresos de 128 peliculas

### Removiendo valores nulos

Es fácil remover valores nulos; sin embargo, no es siempre la mejor manera de tratar valores nulos. Tenemos la opción de remover o reemplazar. En general, deberíamos remover cuando tenemos una cantidad pequeña de valores nulos, toda vez que no podemos simplemente remover los valores sin remover toda la fila o toda la columna.

El método `dropna()` nos permite remover filas o columnas. Si lo hacemos por fila o por columna depende del dataset. Por preconfiguración, este método remueve todas las filas que contiene un valore nulo y retorna un nuevo DataFrame sin alterar el original. Si queremos alterar el original entonces modficamos el parámetro `inplace=True`. Alternativamente, podemos remover todas las columnas que contienen valores nulos al especificar el parámetro `axis=1`.



In [None]:
# remueve todas las filas con valores nulos
peliculas_df_indice_x_titulo.dropna()

In [None]:
# remueve todas las columnas con valores nulos
peliculas_df_indice_x_titulo.dropna(axis=1)

Sin embargo, **¿qué significa remover los valores nulos en nuestro dataset especifico?**
- Remover 128 filas donde el ingreso es nulo y 64 filas donde el metascore es nulo. Esto implica una perdida muy grande de data, ya que hay buena data en las otras columnas de esas filas
- Al remover las columnas se remueven las columnas de ingreso y metascore por entero, lo cual no es inteligente tampoco.

Para evitar perder toda esta data, podemos escoger remover filas o columnas a base de un límite de parámetro, en donde solo se remueve si la mayoría de la data es nula. Esto se puede lograr especificando los parámetros de `how` y `thresh`, que nos permite controlar el número de nulos que se permiten en el DataFrame

In [None]:
# Remueve las columnas donde todos los valores hacen falta
peliculas_df_indice_x_titulo.dropna(axis='columns', how='all')

In [None]:
# thresh para especificar el numero minimo de valores nulos
# para la fila/columna que se quedan
peliculas_df_indice_x_titulo.dropna(axis='rows', thresh=10)

### Reemplazando valores nulos

En vez de remover la data, podemos reemplazar los valores con un valor valido. Este nuevo valor puede ser un número o algún tipo de interpolación de algún valor bueno, como el promedio de la columna. Para eso, Pandas nos proporciona el método `fillna()`.

Por ejemplo, vamos a reemplazar los valores faltantes de la columna de ingresos con el promedio de ingresos.

In [None]:
# consigue el valor promerdio de la columna
ingreso = peliculas_df_indice_x_titulo['Revenue (Millions)']
ingreso_promedio = ingreso.mean()

print("Promedio de ingresos:", ingreso_promedio)

# reemplazemos todos los valores faltantes con este promedio
ingreso.fillna(ingreso_promedio, inplace=True)

# consigaos el valor actualizado de nulos
peliculas_df_indice_x_titulo.isnull().sum()

### Manejando duplicados



Afortunadamente no tenemos data duplicada en nuestro dataset, pero ese no siempre es el caso. Para los casos menos fortuitos, Pandas tiene un método `drop_duplicates()`. Este método retorna una copia del DataFrame con los duplicados removidos, salvo que especifiquemos `inplace=True`, en cuyo caso los remueve del dataset original.

### Creando nuevas columnas desde columnas existentes

A veces tenemos que crear nuevas columnas desde otras que ya existen. Es fácil hacer esto en Pandas.

Por ejemplo, si queremos introducir una nueva columna que tiene los Ingresos por Minuto de cada película, podemos dividir el ingreso por la cantidad de minutos y creamos una nueva columna con este valor.

In [None]:
# We can use 'Revenue (Millions)' and 'Runtime (Minutes)' to calculate Revenue per Min for each movie:
peliculas_df_indice_x_titulo['Revenue per Min'] = \
peliculas_df_indice_x_titulo['Revenue (Millions)']/peliculas_df_indice_x_titulo['Runtime (Minutes)']

peliculas_df_indice_x_titulo.head(3)

# Operaciones de DataFrame - Tablas Pivote y Funciones



### Tablas Pivote

Hemos visto como las agrupaciones nos permite explorar relaciones dentro de un dataset. Una table pivote es una operación similar. 

La tabla pivote toma una columna de data como entrada y agrupa todas las entradas en una tabla de dos dimensiones, a fin de dar un resumen multidimensional de la data.

Por ejemplo, si queremos comparar el dinero ganado por varios directores por año. Podemos crear una table pivote utilizando `pivot_table`; podemos fijar el `index='Director'` (fila de la tabla pivote) y obtenemos la información sobre valor de ingresos fijando `columns=Year'`;

In [None]:
# calculemos el promedio de ingresos por director
# pero utilizemos una tabla pivote
peliculas_df_indice_x_titulo.pivot_table('Revenue (Millions)', 
    index='Director',
    aggfunc='sum', 
    columns='Year'
  ).head()

El parámetro `aggfunc` controla el tipo de agregación que es aplicada (promedio por preconfiguración). Asá como en `1groupby`, esto puede ser una cadena de caracteres que representa una las muchas opciones comunes como `sum`, `mean`, `count`, `min`, `max`.

Nuestra tabla pivote nos permite observar que Aamir Khan nada más tiene ingresos en 2007. Esto puede implicar dos cosas: 2007 fue el ánico año en este período que algunas de sus películas fueron publicadas, o que simplemente no tenemos toda la data para este director. También podemos observar que Adam McKay tiene el mayor número de películas en este periodo de 10 años, con sus ingresos más altos en 2006 y los más bajos en 2015.

Con esta simple tabla pivote, podemos observar la tendencia anual de ingresos generados por director. Por tanto, son una herramienta sumamente útil en análisis de datos.

### Aplicando Funciones

Podemos aplicar funciones a un dataset con `apply()`. Este método retorna un valor después de procesar cada fila/columna de un dataset por otro método definido de forma arbitraria. 

Por ejemplo, podemos utilizar una función para clasificar películas en cuatro categorías a base de su puntaje: buenísima, buena, promedio, mala. Eso lo hacemos en dos pasos:
- define una función que determina la categoría en base al puntaje
- aplica la función al DataFrame

In [None]:
# paso 1
def rating_bucket(x):
    if x >= 8.0:
        return "buenisima"
    elif x >= 7.0:
        return "buena"
    elif x >= 6.0:
        return "promedio"
    else:
        return "mala"

# paso 2
peliculas_df_indice_x_titulo["Puntaje_Categoria"] = movies_df_title_indexed["Rating"].apply(rating_bucket)

# paso 3 - veamos el resultado
peliculas_df_indice_x_titulo.head(10)[['Rating','Puntaje_Categoria']]

## Otras lecturas

1. [Funcionalidades básicas ](http://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html)
2. [Tutoriales](http://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)
3. [Libro de recetas](http://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook)