# Introducción a Pandas

Una breve introducción de no más de 15 minutos a Pandas. Esta basado en el capítulo 2 de **Pandas in Action** de Boris Paskhaver.

In [None]:
import numpy as np
import pandas as pd

Leer el archivo movies.csv
Los datos de ese archivo son guardados en el **DataFrame** que hemos llamado movies.

In [None]:
movies = pd.read_csv("https://raw.githubusercontent.com/uvg-cc2005/jupyter-notebooks-2019/master/movies.csv")

Veamos de qué tipo es esta variable

In [None]:
type(movies)

Un DataFrame es una de los tipos de datos que maneja Pandas. Es similar a una hoja electrónica, organizado por filas y columnas.
Mostrar los primeros cuatro registros del DataFrame.

In [None]:
movies.head(4)

Puede notarse que al inicio de cada fila aparece un número resaltado en negritas.
Ese es el **índice** de la fila. (Recuerda el índice cuando se emplean listas). Inicia desde el número 0.

Cada columna tiene un título: Rank, Title, Studio, Gross, Year

Podemos ver también, los últimos 4 registros del DataFrame.

In [None]:
movies.tail(4)

Varias funciones de Python funcionan con los DataFrame. Por ejemplo podemos saber la cantidad de filas con len (como lo hacemos también con las listas):

In [None]:
len(movies)

Se puede saber la cantidad de filas y columnas del DataFrame:


In [None]:
movies.shape

Se puede localizar una fila por su índice. Por ejemplo cual es la fila que tiene índice 499 (recordar que los índices inician en 0, como todo en Python)

In [None]:
movies.iloc[499]

Podemos ver también un rango de filas, de la misma manera que lo hariamos con un slice de una lista:

In [None]:
movies.iloc[10:15]

Podemos ver de qué tipo es cada una de las columnas

In [None]:
movies.info()

Pandas considera las cadenas como un Objeto.  Notar que la columna "Gross" no es un número por el "$" y la ","

Podemos obtener unas estadísticas simples

In [None]:
movies.describe()

Vemos que no hay estadístticas para "Gross" porque no es numérica la columna.

De todos modos si podemos generar algunos datos de interés sobre las columnas no numéricas

In [None]:
movies.describe(include=np.object) 

# Consultas sobre el DataFrame

Podemos ver cuales son las películas más recientes. Para eso podemos ordenar el DataFrame por la columna Year. (Solo veremos las primeras 6 filas de ese resultado, recordar que el DataFrame tiene muchas más filas)

In [None]:
movies.sort_values("Year",ascending=False).head(6)

Ahora ordenaremos el DataFrame por dos columnas: Studio (alfabéticamente) y luego por Year (en orden ascendente). Solo veremos las primeras filas del resultado.

In [None]:
movies.sort_values(["Studio","Year"]).head()

# Contando valores

Contemos cuantas películas se han producido por Studio. Primero seleccionemos la columna. **NOTA**: recuerda que aquí siempre usamos head() solo para limitar la cantidad de lineas mostradas (porque son muchas filas).

In [None]:
movies["Studio"].head()

Una de las cosas bonitas de Pandas es que podemos "encadenar" (poner una tras otra) instrucciones

Ahora si viene la instrucción completa para contar las películas por Studio:

In [None]:
movies["Studio"].value_counts().head(10)

# Filtrado: seleccionar solo filas deseadas

Seleccionar solo las películas producidas por el Studio MGM. 

Hay varias formas de hacerlo.  La primera, poner una condición dentro del índice de lo que buscamos:

In [None]:
movies[movies["Studio"]=="MGM"]

Ver que el criterio para la búsqueda es tomar las filas que tienen **Studio** igual a "MGM". 

La segunda forma es creando una "máscara" en base al criterio:

In [None]:
producidas_por_MGM = movies["Studio"] == "MGM"

La "máscara" se ve así:

In [None]:
producidas_por_MGM

Ahora **la máscara** guarda los índices de las filas que cumplen con la condición deseada. Así lo podemos emplear para mostrar esas filas:

In [None]:
movies[producidas_por_MGM]

Ambos resultados son iguales. Pero muchas veces es más claro poner una instrucción adicional para expresar el criterio (máscara) y luego emplearlo en la selección de las filas.

Una tercera forma es utilizando la instrucción "query".  Aquellos que han trabajado con lenguajes para bases de datos les parecerá familiar:

In [None]:
movies.query('Studio == "MGM"')

Podemos combinar criterios. Por ejemplo crearemos un criterio adicional para las películas estrenadas después del año 2000:

In [None]:
estrenos_despues_2000 = movies['Year'] > 2000

In [None]:
estrenos_despues_2000

Y ahora combinamos ambos criterios para ver las películas producidas por MGM y que se hayan estrenado después del año 2000:

In [None]:
movies[producidas_por_MGM & estrenos_despues_2000]

Con la instrucción "query"

In [None]:
movies.query('(Studio == "MGM") and (Year > 2000)')

También podemos combinar los criterios indicando que se cumpla uno u el otro critero (or lógico):

In [None]:
movies[producidas_por_MGM | estrenos_despues_2000]

Con la instrucción query:

In [None]:
movies.query('(Studio == "MGM") or (Year > 2000)')

# Limpiar datos (opcional)

Una de las labores que usualmente tenemos que hacer en nuestras labores de análisis de datos (y Data Science) es ajustar los valores que se nos proporcionan para poder hacer cálculos con ellos.

Vamos a "limpiar" la columna **Gross** para que sea numérica. Observar que ahorita tiene el signo $ y comas para separar los millares. Los quitaremos y la convertiremos a flotante.

Primero eliminamos el "$" reemplazándolo por el caracter nulo '' utilizando las instrucciones ya conocidas para manejar cadenas, del módulo "str"

In [None]:
movies['Gross'].str.replace('$','')

Podemos quitar el "$" y ls "," encadenando las instrucciones

In [None]:
movies['Gross'].str.replace('$','').str.replace(',','')

Ya se quitaron el signo $ y las comas. Ahora le agregaremos que lo convierta a números flotantes.

In [None]:
movies['Gross'].str.replace('$','').str.replace(',','').astype(float)

Nótese que hasta este último paso, el tipo de la columna cambió a "float64"

Aca lo hicimos en pasos, pero solo es necesario usar esta última instrucción gracias al "encadenamiento" de instrucciones

Estas operaciones han creado una columna (en Pandas se llama Series) distinta de nuestro DataFrame, para que éste no sea alterado. 
Ya vimos que si es lo que queremos y ahora sustituiremos la columna Gross de nuestro DataFrame:

In [None]:
movies['Gross'] = movies['Gross'].str.replace('$','').str.replace(',','').astype(float)

veamos si funcionó, mostrar la columna **Gross**

In [None]:
movies['Gross']

Listo! Ya hemos limpiado nuestros datos para que se puedan hacer cálculos con ellos.

In [None]:
movies.describe()

# Agrupar Datos

Sacaremos los totales de ingresos de la columna **Gross** agrupados por **Studio** que produjo las películas.

Primero agruparemos el DataFrame por Studio:

In [None]:
studios = movies.groupby('Studio')

Y ahora encontrar los totales por la columna Gross.
Usaremos head para desplegar solo las primeras filas

In [None]:
studios['Gross'].sum().head()

Si queremos varias estadísticas, podemos "agregarlas" con la función "agg"

In [None]:
studios["Gross"].agg(['sum', 'mean']).head()

Pero los queremos ordenados por el que tiene más ingresos en la columna Gross:

In [None]:
studios['Gross'].sum().sort_values(ascending= False).head()