A continuación se importan los módulos a utilizar.

In [1]:
import pandas as pd
import time

Se crea una lista con letras arbitrarias y a partir de esta se crea un *dataframe*.

In [2]:
list_a = ["a", "b", "c", "d"]

# Creamos un dataframe a partir de una lista.
df = pd.DataFrame(list_a, columns=["Value A"])
df

Unnamed: 0,Value A
0,a
1,b
2,c
3,d


Se crea otra lista con números arbitrarios y estos se añaden como una nueva columna al *dataframe* creado en la celda anterior.

In [3]:
list_b = [1,2,3,4]

# Agregamos una nueva columna al dataframe
df["Value B"] = list_b
df

Unnamed: 0,Value A,Value B
0,a,1
1,b,2
2,c,3
3,d,4


Al utilizar .colums se puede visualizar los nombres de las columnas del *dataframe*.

In [4]:
df.columns

Index(['Value A', 'Value B'], dtype='object')

El siguiente código muestra la fila correspondiente al número que se entrega, mediante índices. En este caso como se coloca 0, muestra la primera fila del *dataframe*. Se recomienda probar con ambas líneas por separado y cambiar el valor.

In [5]:
# df[0]
df.iloc[0]

Value A    a
Value B    1
Name: 0, dtype: object

El siguiente código elimina las etiquetas especificadas de filas o columnas. Al escribir **df** se puede visualizar como quedó el *dataframe* luego de utilizar *drop*. 

In [6]:
df = df.drop(0, axis = 0)
df

Unnamed: 0,Value A,Value B
1,b,2
2,c,3
3,d,4


A continuación se crean otras dos listas arbitrarias y se agregan al *dataframe*.

In [7]:
list_c = ["a", "a", "b"]
df["Value C"] = list_c
df

Unnamed: 0,Value A,Value B,Value C
1,b,2,a
2,c,3,a
3,d,4,b


In [8]:
list_c = [1, 10, 5]
df["Value D"] = list_c
df

Unnamed: 0,Value A,Value B,Value C,Value D
1,b,2,a,1
2,c,3,a,10
3,d,4,b,5


.groupby() se utiliza para dividir los datos en grupos según algunos criterios, en este caso es "Value C" y luego se utiliza .mean() para calcular la media.

In [9]:
df.groupby(by = "Value C").mean()

Unnamed: 0_level_0,Value B,Value D
Value C,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,5.5
b,4.0,5.0


## Ejemplo cargando un CSV

A continuación se define una url, se utiliza pd.read_csv(url) para obtener los datos del csv que se encuentran en la url definida. Lego se utiliza .drop() para eliminar las columnas con las etiquetas "0", "ID" y "Type". Finalmente se utiliza data para visualizar la tabla de datos obtenida.

In [10]:
url = "https://raw.githubusercontent.com/Exploratorio-DCC-PUC/Syllabus/master/Tareas/TG1/datos.csv"

data = pd.read_csv(url)
# data = pd.read_csv("datos.csv")
data = data.drop(columns=["Unnamed: 0", "ID", "Type"])
data

Unnamed: 0,Title,Year,Age,IMDb,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+,Directors,Genres,Country,Language,Runtime
0,Inception,2010,13+,8.8,87%,1,0,0,0,Christopher Nolan,"Action,Adventure,Sci-Fi,Thriller","United States,United Kingdom","English,Japanese,French",148.0
1,The Matrix,1999,18+,8.7,87%,1,0,0,0,"Lana Wachowski,Lilly Wachowski","Action,Sci-Fi",United States,English,136.0
2,Avengers: Infinity War,2018,13+,8.5,84%,1,0,0,0,"Anthony Russo,Joe Russo","Action,Adventure,Sci-Fi",United States,English,149.0
3,Back to the Future,1985,7+,8.5,96%,1,0,0,0,Robert Zemeckis,"Adventure,Comedy,Sci-Fi",United States,English,116.0
4,"The Good, the Bad and the Ugly",1966,18+,8.8,97%,1,0,1,0,Sergio Leone,Western,"Italy,Spain,West Germany",Italian,161.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16739,The Ghosts of Buxley Hall,1980,,6.2,,0,0,0,1,Bruce Bilson,"Comedy,Family,Fantasy,Horror",United States,English,120.0
16740,The Poof Point,2001,7+,4.7,,0,0,0,1,Neal Israel,"Comedy,Family,Sci-Fi",United States,English,90.0
16741,Sharks of Lost Island,2013,,5.7,,0,0,0,1,Neil Gelinas,Documentary,United States,English,
16742,Man Among Cheetahs,2017,,6.6,,0,0,0,1,Richard Slater-Jones,Documentary,United States,English,


El código que se muestra a continuación permite visualizar las columnas "Title", "Year" y "IMDb". 

In [11]:
data_acotada = pd.read_csv(url, usecols=["Title", "Year", "IMDb"])
data_acotada

Unnamed: 0,Title,Year,IMDb
0,Inception,2010,8.8
1,The Matrix,1999,8.7
2,Avengers: Infinity War,2018,8.5
3,Back to the Future,1985,8.5
4,"The Good, the Bad and the Ugly",1966,8.8
...,...,...,...
16739,The Ghosts of Buxley Hall,1980,6.2
16740,The Poof Point,2001,4.7
16741,Sharks of Lost Island,2013,5.7
16742,Man Among Cheetahs,2017,6.6


Así se pueden ver los elementos de una columna en particular, en este caso se muestra con la columna "Title".

In [12]:
data["Title"]

0                             Inception
1                            The Matrix
2                Avengers: Infinity War
3                    Back to the Future
4        The Good, the Bad and the Ugly
                      ...              
16739         The Ghosts of Buxley Hall
16740                    The Poof Point
16741             Sharks of Lost Island
16742                Man Among Cheetahs
16743                  In Beaver Valley
Name: Title, Length: 16744, dtype: object

El siguiente código muestra la fila correspondiente al número que se entrega, mediante índices. En este caso como se coloca 0, muestra la primera fila del *dataframe*. 

In [13]:
# data[0]
data.iloc[0]

Title                                     Inception
Year                                           2010
Age                                             13+
IMDb                                            8.8
Rotten Tomatoes                                 87%
Netflix                                           1
Hulu                                              0
Prime Video                                       0
Disney+                                           0
Directors                         Christopher Nolan
Genres             Action,Adventure,Sci-Fi,Thriller
Country                United States,United Kingdom
Language                    English,Japanese,French
Runtime                                         148
Name: 0, dtype: object

Se utiliza time() para ver cuanto se demora en ejecutar dos códigos diferentes con la finalidad de ver que tanto más rápido es utilizar pandas.

In [14]:
t1 = time.time()
suma = data["Runtime"].sum()
tiempo_1 = (time.time() - t1)*1000
print("Se ha demorado {} milisegundos\nLa suma es: {}".format(tiempo_1, suma))

t2 = time.time()
suma = 0
for monto in data["Runtime"]:
  if not pd.isnull(monto):
    suma += monto
tiempo_2 = (time.time() - t2)*1000
print("Se ha demorado {} milisegundos\nLa suma es: {}".format(tiempo_2, suma))

print("-"*40)
print("Pandas fue {} veces más rápido".format(tiempo_2/tiempo_1))

Se ha demorado 0.9388923645019531 milisegundos
La suma es: 1508814.0
Se ha demorado 9.073019027709961 milisegundos
La suma es: 1508814.0
----------------------------------------
Pandas fue 9.663534789233113 veces más rápido


Pandas nos permite filtrar datos de la tabla según ciertas condiciones, al hacer esto retorna una serie de valores que pueden ser True, si el valor respectivo cumple con las condiciones o False en caso contrario.

Por ejemplo digamos que queremos ver que películas duran mas de 50 minutos, hacemos lo siguiente:

In [20]:
(data["Runtime"] > 50)

0         True
1         True
2         True
3         True
4         True
         ...  
16739     True
16740     True
16741    False
16742    False
16743    False
Name: Runtime, Length: 16744, dtype: bool

Esto está muy bien, sin embargo no nos dice mucho.
Si queremos ver los **datos** de las películas que duran mas de 50 minutos, debemos poner ese código dentro de un "selector" de datos.

In [21]:
new_data = data[data["Runtime"]>50]
new_data

Unnamed: 0,Title,Year,Age,IMDb,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+,Directors,Genres,Country,Language,Runtime
0,Inception,2010,13+,8.8,87%,1,0,0,0,Christopher Nolan,"Action,Adventure,Sci-Fi,Thriller","United States,United Kingdom","English,Japanese,French",148.0
1,The Matrix,1999,18+,8.7,87%,1,0,0,0,"Lana Wachowski,Lilly Wachowski","Action,Sci-Fi",United States,English,136.0
2,Avengers: Infinity War,2018,13+,8.5,84%,1,0,0,0,"Anthony Russo,Joe Russo","Action,Adventure,Sci-Fi",United States,English,149.0
3,Back to the Future,1985,7+,8.5,96%,1,0,0,0,Robert Zemeckis,"Adventure,Comedy,Sci-Fi",United States,English,116.0
4,"The Good, the Bad and the Ugly",1966,18+,8.8,97%,1,0,1,0,Sergio Leone,Western,"Italy,Spain,West Germany",Italian,161.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16734,Sultan And The Rock Star,1980,,5.9,,0,0,0,1,Edward M. Abroms,"Adventure,Drama,Family",United States,English,60.0
16737,The Bears and I,1974,all,6.2,,0,0,0,1,Bernard McEveety,"Drama,Family",United States,English,89.0
16738,Whispers: An Elephant's Tale,2000,all,5.0,,0,0,0,1,Dereck Joubert,"Adventure,Family",United States,English,72.0
16739,The Ghosts of Buxley Hall,1980,,6.2,,0,0,0,1,Bruce Bilson,"Comedy,Family,Fantasy,Horror",United States,English,120.0


Lo cual sólo nos muestra los datos de las películas que cumplen con la condición.

Podemos también juntar varias de estas condiciones usando los operadores lógicos

& para AND

\| para OR

^ para XOR

~ para NOT

In [25]:
new_data = data[(data["Runtime"] > 50) & (data["Disney+"] == 1)]
# new_data = data[~(data["Runtime"] > 50) ^ (data["Disney+"] == 1)]
# new_data = data[(data["Runtime"] < 60) | (data["Runtime"] > 110)]
# new_data = data[data["Country"] == "United States"]
new_data

Unnamed: 0,Title,Year,Age,IMDb,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+,Directors,Genres,Country,Language,Runtime
95,Saving Mr. Banks,2013,13+,7.5,79%,1,0,0,1,John Lee Hancock,"Biography,Comedy,Drama","United States,United Kingdom,Australia",English,125.0
103,Amy,2015,18+,7.8,95%,1,0,1,1,,Drama,United States,English,60.0
122,Bolt,2008,7+,6.8,89%,1,0,0,1,"Byron Howard,Chris Williams","Animation,Adventure,Comedy,Drama,Family",United States,English,96.0
125,The Princess and the Frog,2009,all,7.1,85%,1,0,0,1,"Ron Clements,John Musker","Animation,Adventure,Comedy,Family,Fantasy,Musi...",United States,"English,French",97.0
150,Miracle,2004,7+,7.5,81%,1,0,0,1,Gavin O'Connor,"Biography,Drama,History,Sport","Canada,United States",English,135.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16734,Sultan And The Rock Star,1980,,5.9,,0,0,0,1,Edward M. Abroms,"Adventure,Drama,Family",United States,English,60.0
16737,The Bears and I,1974,all,6.2,,0,0,0,1,Bernard McEveety,"Drama,Family",United States,English,89.0
16738,Whispers: An Elephant's Tale,2000,all,5.0,,0,0,0,1,Dereck Joubert,"Adventure,Family",United States,English,72.0
16739,The Ghosts of Buxley Hall,1980,,6.2,,0,0,0,1,Bruce Bilson,"Comedy,Family,Fantasy,Horror",United States,English,120.0


Finalmente, tenenmos estas últimas dos funciones que sirven para darnos los N valores mas grandes o mas pequeños de una columna específica.

In [19]:
top_10 = data.nlargest(10, "Runtime")
top_10
# bottom_10 = data.nsmallest(10, "Runtime")
# bottom_10

Unnamed: 0,Title,Year,Age,IMDb,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+,Directors,Genres,Country,Language,Runtime
13179,Colorado,1940,all,5.9,,0,0,1,0,,"Action,Adventure,Drama,Romance,Western",United States,English,1256.0
4405,Law of the Lawless,1964,,6.1,,0,1,1,0,,"Action,Crime,Drama",Russia,Russian,750.0
15295,The Vatican Museums,2007,,5.0,,0,0,1,0,Luca De Mata,,Italy,English,410.0
12475,Scarlett,2016,16+,4.4,,0,0,1,0,,"Drama,Romance","France,United States,Germany,Italy,United King...",English,360.0
14113,The Inner Circle,2009,,6.6,,0,0,1,0,,Drama,Sweden,Swedish,360.0
13115,Carlos el terrorista,1980,,6.1,,0,0,1,0,,"Biography,Crime,Drama,Thriller","France,Germany","English,Arabic,German,Spanish,French,Hungarian...",334.0
13048,Custer's Last Stand,1936,,4.6,,0,0,1,0,Elmer Clifton,"Adventure,History,Romance,War,Western",United States,English,328.0
6245,Gone,2012,13+,5.9,10%,0,0,1,0,,"Drama,Mystery",United Kingdom,English,270.0
3861,Dina,2017,,6.8,98%,0,1,0,0,,"Adventure,Drama,Fantasy,Sci-Fi","United States,Canada,Germany,Italy","English,Italian",265.0
5673,The Greatest Story Ever Told,1965,all,6.6,41%,0,0,1,0,"George Stevens,David Lean,Jean Negulesco","Biography,Drama,History",United States,English,260.0
