# Introducción a Pandas

Una breve introducción de no más de 15 minutos a Pandas. Esta basado en el capítulo 2 de **Pandas in Action** de Boris Paskhaver.

In [1]:
import pandas as pd

Leer el archivo movies.csv
Los datos de ese archivo son guardados en el **DataFrame** que hemos llamado movies.

In [3]:
movies = pd.read_csv("movies-1.csv")

Un DataFrame es una de los tipos de datos que maneja Pandas. Es similar a una hoja electrónica, organizado por filas y columnas.
Mostrar los primeros cuatro registros del DataFrame.

In [None]:
movies.head(4)

Unnamed: 0,Rank,Title,Studio,Gross,Year
0,1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
1,2,Avatar,Fox,"$2,789.70",2009
2,3,Titanic,Paramount,"$2,187.50",1997
3,4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015


Puede notarse que al inicio de cada fila aparece un número resaltado en negritas.
Ese es el **índice** de la fila. (Recuerda el índice cuando se emplean listas). Inicia desde el número 0.

Cada columna tiene un título: Rank, Title, Studio, Gross, Year

Podemos ver también, los últimos 4 registros del DataFrame.

In [None]:
movies.tail(4)

Unnamed: 0,Rank,Title,Studio,Gross,Year
778,779,Garfield: The Movie,Fox,$200.80,2004
779,780,Cats & Dogs,Warner Brothers,$200.70,2001
780,781,The Hunt for Red October,Paramount,$200.50,1990
781,782,Valkyrie,MGM,$200.30,2008


Varias funciones de Python funcionan con los DataFrame. Por ejemplo podemos saber la cantidad de filas con len (como lo hacemos también con las listas):

In [None]:
len(movies)

782

Se puede saber la cantidad de filas y columnas del DataFrame:


In [None]:
movies.shape

(782, 5)

In [6]:
titan= pd.read_csv("titanic.csv")

In [7]:
titan.index

RangeIndex(start=0, stop=887, step=1)

Se puede localizar una fila por su índice. Por ejemplo cual es la fila que tiene índice 499 (recordar que los índices inician en 0, como todo en Python)

In [None]:
movies.iloc[300]

Rank                               301
Title     Independence Day: Resurgence
Studio                             Fox
Gross                         $389.70 
Year                              2016
Name: 300, dtype: object

Podemos ver también un rango de filas, de la misma manera que lo hariamos con un slice de una lista:

In [None]:
movies.iloc[10:15]

Unnamed: 0,Rank,Title,Studio,Gross,Year
10,11,Harry Potter and the Deathly Hallows Part 2,Warner Brothers,"$1,341.70",2011
11,12,Star Wars: The Last Jedi,Buena Vista,"$1,332.50",2017
12,13,Jurassic World: Fallen Kingdom,Universal,"$1,309.50",2018
13,14,Frozen,Buena Vista,"$1,276.50",2013
14,15,Beauty and the Beast,Buena Vista,"$1,263.50",2017


# Consultas sobre el DataFrame

Podemos ver cuales son las películas más recientes. Para eso podemos ordenar el DataFrame por la columna Year. (Solo veremos las primeras 6 filas de ese resultado, recordar que el DataFrame tiene muchas más filas)

In [None]:
movies.sort_values("Year",ascending=False).head(6)

Unnamed: 0,Rank,Title,Studio,Gross,Year
0,1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
457,458,John Wick: Chapter 3 - Parabellum,Lionsgate,$304.70,2019
113,114,The Wandering Earth,China Film Corporation,$699.80,2019
197,198,Toy Story 4,Buena Vista,$519.80,2019
198,199,How to Train Your Dragon: The Hidden World,Universal,$519.80,2019
262,263,Pokemon Detective Pikachu,Warner Brothers,$427.50,2019


Ahora ordenaremos el DataFrame por dos columnas: Studio (alfabéticamente) y luego por Year (en orden ascendente). Solo veremos las primeras filas del resultado.

In [None]:
movies.sort_values(["Studio","Year"]).head()

Unnamed: 0,Rank,Title,Studio,Gross,Year
587,588,The Blair Witch Project,Artisan,$248.60,1999
707,708,101 Dalmatians,Buena Vista,$215.90,1961
754,755,The Jungle Book,Buena Vista,$205.80,1967
409,410,Who Framed Roger Rabbit,Buena Vista,$329.80,1988
635,636,Dead Poets Society,Buena Vista,$235.90,1989


# Contando valores

Contemos cuantas películas se han producido por Studio. Primero seleccionemos la columna. **NOTA**: recuerda que aquí siempre usamos head() solo para limitar la cantidad de lineas mostradas (porque son muchas filas).

In [None]:
movies["Studio"].head()

0    Buena Vista
1            Fox
2      Paramount
3    Buena Vista
4    Buena Vista
Name: Studio, dtype: object

Ahora si viene la instrucción completa para contar las películas por Studio:

In [None]:
movies["Studio"].value_counts().head(10)

Warner Brothers    132
Buena Vista        125
Fox                117
Universal          109
Sony                86
Paramount           76
Dreamworks          27
Lionsgate           21
New Line            16
MGM                 11
Name: Studio, dtype: int64

# Filtrado: seleccionar solo filas deseadas

Seleccionar solo las películas producidas por el Studio MGM. 

In [None]:
movies[movies["Studio"]=="MGM"]

Unnamed: 0,Rank,Title,Studio,Gross,Year
259,260,Die Another Day,MGM,$432.00,2002
287,288,Gone with the Wind,MGM,$402.40,1939
348,349,The World Is Not Enough,MGM,$361.80,1999
360,361,Rain Man,MGM,$354.80,1988
366,367,GoldenEye,MGM,$352.20,1995
370,371,Hannibal,MGM,$351.70,2001
403,404,Tomorrow Never Dies,MGM,$333.00,1997
466,467,Rocky IV,MGM,$300.50,1985
717,718,Creed II,MGM,$214.10,2018
740,741,Moonraker,MGM,$210.30,1979


Ver que el criterio para la búsqueda es tomar las filas que tienen **Studio** igual a "MGM". Ese criterio lo podemos también escribir:

In [None]:
producidas_por_MGM = movies["Studio"] == "MGM"

Ahora **criterio** guarda los índices de las filas que cumplen con la condición deseada. Así lo podemos emplear para mostrar esas filas:

In [None]:
movies[producidas_por_MGM]

Unnamed: 0,Rank,Title,Studio,Gross,Year
259,260,Die Another Day,MGM,$432.00,2002
287,288,Gone with the Wind,MGM,$402.40,1939
348,349,The World Is Not Enough,MGM,$361.80,1999
360,361,Rain Man,MGM,$354.80,1988
366,367,GoldenEye,MGM,$352.20,1995
370,371,Hannibal,MGM,$351.70,2001
403,404,Tomorrow Never Dies,MGM,$333.00,1997
466,467,Rocky IV,MGM,$300.50,1985
717,718,Creed II,MGM,$214.10,2018
740,741,Moonraker,MGM,$210.30,1979


Ambos resultados son iguales. Pero muchas veces es más claro poner una instrucción adicional para expresar el criterio y luego emplearlo en la selección de las filas.

Podemos combinar criterios. Por ejemplo crearemos un criterio adicional para las películas estrenadas después del año 2000:

In [None]:
estrenos_despues_2000 = movies['Year'] > 2000

Y ahora combinamos ambos criterios para ver las películas producidas por MGM y que se hayan estrenado después del año 2000:

In [None]:
movies[producidas_por_MGM & estrenos_despues_2000]

Unnamed: 0,Rank,Title,Studio,Gross,Year
259,260,Die Another Day,MGM,$432.00,2002
370,371,Hannibal,MGM,$351.70,2001
717,718,Creed II,MGM,$214.10,2018
781,782,Valkyrie,MGM,$200.30,2008


También podemos combinar los criterios indicando que se cumpla uno u el otro critero (or lógico):

In [None]:
movies[producidas_por_MGM | estrenos_despues_2000]

Unnamed: 0,Rank,Title,Studio,Gross,Year
0,1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
1,2,Avatar,Fox,"$2,789.70",2009
3,4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
4,5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
5,6,Jurassic World,Universal,"$1,671.70",2015
...,...,...,...,...,...
776,777,21 Jump Street,Sony,$201.60,2012
777,778,Yogi Bear,Warner Brothers,$201.60,2010
778,779,Garfield: The Movie,Fox,$200.80,2004
779,780,Cats & Dogs,Warner Brothers,$200.70,2001


# Limpiar datos (opcional)

Una de las labores que usualmente tenemos que hacer en nuestras labores de análisis de datos (y Data Science) es ajustar los valores que se nos proporcionan para poder hacer cálculos con ellos.

Vamos a "limpiar" la columna **Gross** para que sea numérica. Observar que ahorita tiene el signo $ y comas para separar los millares. Los quitaremos y la convertiremos a flotante.

In [None]:
movies['Gross'].str.replace('$','').str.replace(',','')

  """Entry point for launching an IPython kernel.


0      2796.30 
1      2789.70 
2      2187.50 
3      2068.20 
4      2048.40 
         ...   
777     201.60 
778     200.80 
779     200.70 
780     200.50 
781     200.30 
Name: Gross, Length: 782, dtype: object

Ya se quitaron el signo $ y las comas. Ahora le agregaremos que lo convierta a números flotantes.

In [None]:
movies['Gross'].str.replace('$','').str.replace(',','').astype(float)

  """Entry point for launching an IPython kernel.


0      2796.3
1      2789.7
2      2187.5
3      2068.2
4      2048.4
        ...  
777     201.6
778     200.8
779     200.7
780     200.5
781     200.3
Name: Gross, Length: 782, dtype: float64

Estas operaciones han creado una columna (en Pandas se llama Series) distinta de nuestro DataFrame, para que éste no sea alterado. 
Ya vimos que si es lo que queremos y ahora sustituiremos la columna Gross de nuestro DataFrame:

In [None]:
movies['Gross'] = movies['Gross'].str.replace('$','').str.replace(',','').astype(float)

  """Entry point for launching an IPython kernel.


veamos si funcionó, mostrar la columna **Gross**

In [None]:
movies['Gross']

0      2796.3
1      2789.7
2      2187.5
3      2068.2
4      2048.4
        ...  
777     201.6
778     200.8
779     200.7
780     200.5
781     200.3
Name: Gross, Length: 782, dtype: float64

Listo! Ya hemos limpiado nuestros datos para que se puedan hacer cálculos con ellos.

# Agrupar Datos

Sacaremos los totales de ingresos de la columna **Gross** agrupados por **Studio** que produjo las películas.

Primero agruparemos el DataFrame por Studio:

In [None]:
studios = movies.groupby('Studio')

Y ahora encontrar los totales por la columna Gross.
Usaremos head para desplegar solo las primeras filas

In [None]:
studios['Gross'].sum().head()

Studio
Artisan                     248.6
Buena Vista               73585.0
CL                          228.1
China Film Corporation      699.8
Columbia                   1276.6
Name: Gross, dtype: float64

Pero los queremos ordenados por el que tiene más ingresos en la columna Gross:

In [None]:
studios['Gross'].sum().sort_values(ascending= False).head()

Studio
Buena Vista        73585.0
Warner Brothers    58643.8
Fox                50420.8
Universal          44302.3
Sony               32822.5
Name: Gross, dtype: float64