# ÍNDICE
# **Repsol D4D/D4B**
# **Introducción a Python para Análisis de Datos 🐍 📊**
# *Notebook 2: Introducción a DataFrames*

---

### ÍNDICE DE CONTENIDO
1. INTRODUCCIÓN A DATAFRAMES
2. SELECCIONAR ELEMENTOS EN UN DATAFRAME
3. OPERACIONES BÑASICAS CON DATAFRAMES
4. EJERCICIOS

### Juan Martin Bellido
* [linkedin.com/in/jmartinbellido](https://www.linkedin.com/in/jmartinbellido/) 

* jmbellido@isdi.education


Antes de comenzar, importamos las librerías que utilizaremos en la sesión

In [None]:
# Importamos librerías, en caso de error corroboramos que estén instaladas
import pandas as pd

# 1. INTRODUCCIÓN A DATAFRAMES
---
Un "dataframe" es en esencia una tabla de datos, es decir, una estructura de datos de dos dimensiones donde los valores se encuentran indexados por filas y columnas. Se trata de la estructura de datos más utilizada en análisis de datos, no obstante no forma parte de Python base, sino que ha sido introducida en Python por la librería *pandas*.

> ✅ En un DataFrame, el índice identifica filas

> ✅ Por defecto, los DataFrames se generan con un índice numérico, donde *0* es la primera fila y *n-1* la última (siendo *n* el número total de filas)

> ⚠️ El índice siempre se visualiza a la izquierda de la estructura, es importante no confundirla con una columna



### Importar un DataFrame
---
Tras haber importado la librería *pandas*, utilizaremos una de sus funciones para importar datos a nuestro entorno en formato DataFrame.

```
pd.read_csv('path')
```
* El método *pd.read_csv()* permite importar como DataFrame archivos almacenados en formato CSV o TXT
* El 'path' puede ser tanto una ruta a un archivo local como, en nuestro caso, una URL

In [None]:
# A continuación, importamos un dataframe almacenado en una URL por medio del método read_csv() de pd
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")


Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


In [None]:
# Repetimos la operación, pero esta vez almacenamos la información importada en un objeto
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# Utilizamos la función type() para corroborar el tipo de objeto
type(df_jamesbond)

pandas.core.frame.DataFrame

### Exportar un DataFrame
---
Utilizaremos el método *pd.to_csv()* para exportar un dataframe a nuestro entorno local. Si no especificamos un *path* determinado, el archivo se exportará automáticamente a nuestro directorio de trabajo (nuestro *path* por defecto).

```
df.to_csv('path')
```
> ⚠️ Este método no funciona en *Google Colab*

In [None]:
# A continuación, exportamos dataframe a directorio de trabajo
df_jamesbond.to_csv("dataset_jamesbond.csv")

In [None]:
# Podemos exportar el dataframe en formato .txt, cambiando el parámetro (opcional) "sep"
df_jamesbond.to_csv("dataset_jamesbond.txt",sep='\t')

In [None]:
# podemos consultar nuestro directorio de trabajo utilizando os.getcwd()
import os
os.getcwd()

'/content'

### Primeras operaciones con un DataFrame
---
Primeras operaciones que realizaremos:
* consultar columnas (variables) disponibles en un DataFrame
* consultar cantidad de filas en un DataFrame
* cambiar el índice en un DataFrame
* consultar las primeras/últimas filas en un DataFrame

In [None]:
# Método .dtypes: permite visualizar rápidamente nombre y tipo de columnas en un dataframe
df_jamesbond.dtypes

Film                  object
Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

In [None]:
# Función len(): permite visualizar cantidad de filas en un dataframe
len(df_jamesbond)

26

In [None]:
# En algunos casos, nos puede interesar identificar a las filas de nuestro dataframe por un campo distinto que una simple escala numérica
# En tal caso, podríamos tomar una de las columnas existentes y convertirla en nuestro índice
# Método .set_index(column): convertimos una columna en el índice de nuestra estructura
df_jamesbond.set_index("Film") # elegimos la columna "Film" como parámetro del método

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


In [None]:
# Método head()/ tail(): permite consultar las primeras/últimas n filas. Por defecto, n = 5
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


### Crear un DataFrame manualmente
---
Aunque no suele ser común, podemos crear un DataFrame manualmente partiendo de estructuras de datos básicas de Python.

In [None]:
# Creamos un dictionary
car_dic = {
    "car":['Honda Civic','VW Golf','Toyota Corolla'],
    "price":[12000,13000,15000],
    "is_new":[False,True,True]
    }

In [None]:
# Método pd.DataFrame(): permite crear un DataFrame manualmente
pd.DataFrame(car_dic)

Unnamed: 0,car,price,is_new
0,Honda Civic,12000,False
1,VW Golf,13000,True
2,Toyota Corolla,15000,True


# 2. SELECCIONAR ELEMENTOS EN UN DATAFRAME
---
Al querer seleccionar datos en un DataFrame, podemos encontrarnos ante alguna de las siguientes situaciones:
* *buscamos seleccionar (filtrar) filas o columnas*
* *buscamos seleccionar filas/columnas, según su posición*
* *buscamos seleccionar filas/columnas, según su valor*
* *buscamos seleccionar filas, según una prueba lógica*
* *buscamos seleccionar columnas, según tipo de variable*

In [None]:
# Importamos dataframe desde una URL
# Almacenamos la data en un objeto
df_cars = pd.read_csv('https://data-wizards.s3.amazonaws.com/datasets/dataset_us_cars.csv')

In [None]:
# Sobrescribimos el objeto, almacenando únicamente las primeras 10 filas
df_cars = df_cars.head(10)

In [None]:
# Invocamos el objeto
df_cars

Unnamed: 0,year,brand,price,mileage,color,state,country
0,2008,toyota,6300,274117,black,new jersey,usa
1,2011,ford,2899,190552,silver,tennessee,usa
2,2018,dodge,5350,39590,silver,georgia,usa
3,2014,ford,25000,64146,blue,virginia,usa
4,2018,chevrolet,27700,6654,red,florida,usa
5,2018,dodge,5700,45561,white,texas,usa
6,2010,chevrolet,7300,149050,black,georgia,usa
7,2017,gmc,13350,23525,gray,california,usa
8,2018,chevrolet,14600,9371,silver,florida,usa
9,2017,ford,5250,63418,black,texas,usa


### Utilizando Python base
---
La sintaxis básica en Python para seleccionar elementos dentro de una estructura de datos (cualquier) es la siguiente:

```
data_structure[x]
```
* Utilizamos siempre brackets [ ] para seleccionar data almacenada
* Esto aplica tanto a *lists, dictionaries, tupples, sets y DataFrames*
* El tratamiento dentro de los brackets depende del tipo de estructura

> ⚠️ Revisar *notebook 1: Python Base*, en caso de dudas


#### Seleccionar columnas

Para seleccionar una columna, incluimos un objeto de tipo texto dentro del parámetro de selección,
```
df["column_name"]
```

En caso de querer seleccionar más de una columna, incorporamos una list como parámetro,

```
df[["column_1","column_2"]]
```





In [None]:
# Invocamos una columna específica
df_cars["brand"]

0       toyota
1         ford
2        dodge
3         ford
4    chevrolet
5        dodge
6    chevrolet
7          gmc
8    chevrolet
9         ford
Name: brand, dtype: object

In [None]:
# Invocamos tres columnas
df_cars[["brand","price","mileage"]]

Unnamed: 0,brand,price,mileage
0,toyota,6300,274117
1,ford,2899,190552
2,dodge,5350,39590
3,ford,25000,64146
4,chevrolet,27700,6654
5,dodge,5700,45561
6,chevrolet,7300,149050
7,gmc,13350,23525
8,chevrolet,14600,9371
9,ford,5250,63418


De forma alternativa, cuando queremos seleccionar una única columna, podemos optar por la siguiente sintaxis simplificada,

```
object.column_name
```
> ✅ Pandas interpreta los nombres de columnas como atributos del objeto



In [None]:
df_cars.brand

0       toyota
1         ford
2        dodge
3         ford
4    chevrolet
5        dodge
6    chevrolet
7          gmc
8    chevrolet
9         ford
Name: brand, dtype: object

#### Seleccionar filas
Para seleccionar filas utilizando Python base, podemos incorporar como parámetro un vector (*list*) con objetos *booleanos* (uno par cada fila en el DataFrame, en orden). Las filas que corresponsan a valores *True* quedarán seleccionadas.

```
df[[True,False,False...]]
```
> ✅ En caso de detectar valores booleanos dentro del parámetro de selección, Python interpreta que estamos seleccionando filas (no columnas)

> ⚠️ El vector booleano deberá tener tantos elementos, como filas existan en el DataFrame

Por el momento, esta receta no tiene mucho valor práctico, ya que no solemos filtrar filas creando manualmente vectores booleanos. No obstante, esto es fundamental para cuando aprendamos a filtrar filas según condiciones.

In [None]:
# Creamos un list con valores booleanos (10 valores, tantos como filas en DataFrame)
# Utilizamos el list dentro del parámetro de selección para filtrar filas
my_boolean_list = [True,False,False,False,False,True,True,True,True,True]
df_cars[my_boolean_list]
# Como podemos comprobar, conservamos únicamente las filas primera y últimas cinco, que coinciden con los valores True en el vector

Unnamed: 0,year,brand,price,mileage,color,state,country
0,2008,toyota,6300,274117,black,new jersey,usa
5,2018,dodge,5700,45561,white,texas,usa
6,2010,chevrolet,7300,149050,black,georgia,usa
7,2017,gmc,13350,23525,gray,california,usa
8,2018,chevrolet,14600,9371,silver,florida,usa
9,2017,ford,5250,63418,black,texas,usa


### Seleccionar elementos utilizando Pandas: loc[ ] & iloc[ ]
---
Los métodos .loc[] y .iloc[] de pandas nos permiten filtrar filas y columnas de forma matricial (filas, columnas).

> ⚠️ Por excepción, estos dos métodos admiten parámetros utilizando brackets [ ] y no paréntesis ( )


#### Método loc[ ]

El method *.loc[]* permite acceder a filas y columnas utilizando nombres.

```
object.loc[rows,columns]
object.loc[[row_1,row_2,...],[col_1,col_2,...]]
```

In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
df_jamesbond = df_jamesbond.set_index("Film") # cambiamos índice
df_jamesbond.head() # visualizamos primeras entradas

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [None]:
# A continuación, utilizaremos el método .loc[] para seleccionar elementos en nuestro df
df_jamesbond.loc[["From Russia with Love","Goldfinger"],:] # seleccionamos dos filas según nombre, todas las columnas

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


In [None]:
# Invocamos filas según rango y dos columnas según nombre
df_jamesbond.loc["From Russia with Love":"Goldfinger",["Year","Director"]] 

Unnamed: 0_level_0,Year,Director
Film,Unnamed: 1_level_1,Unnamed: 2_level_1
From Russia with Love,1963,Terence Young
Goldfinger,1964,Guy Hamilton


#### Método iloc[ ]
El method *.iloc[]* permite acceder a filas y columnas, según su posición dentro de la estructura

```
object.iloc[row_position,column_position]
```


In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# A continuación, seleccionamos elementos según su posición en el dataframe
df_jamesbond.iloc[:5,[1,3,5]] # seleccionamos todas las filas hasta la 5ta; columnas 1,3,5

Unnamed: 0,Year,Director,Budget
0,1962,Terence Young,7.0
1,1963,Terence Young,12.6
2,1964,Guy Hamilton,18.6
3,1965,Terence Young,41.9
4,1967,Ken Hughes,85.0


### Filtrar filas, según condición lógica
---

Podemos utilizar operadores para crear vectores booleanos de forma dinámica, luego utilizar estos para filtrar filas en un DataFrame.

```
object[object[condition]]
```



In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# A continuación, seleccionaremos elementos del dataframe a partir de condiciones lógicas
cond = df_jamesbond["Budget"]>100 # creamos un objeto con una prueba lógica, esto nos devolverá un vector booleano
cond

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20     True
21     True
22     True
23     True
24     True
25     True
Name: Budget, dtype: bool

In [None]:
# Utilizaremos el objeto que almacena el vector booleano como parámetro en el df
df_jamesbond[cond] # filtramos el df

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# creamos condiciones y las almacenamos en objetos
cond_1 = df_jamesbond["Budget"]>100
cond_2 = df_jamesbond["Actor"]=='Daniel Craig'
cond_3 = df_jamesbond["Year"]<1965

df_jamesbond[(cond_1 & cond_2) | cond_3] # seleccionamos filas que cumplen con múltiples condiciones


Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# combinamos métodos para seleccinar filas y columnas
df_jamesbond[(cond_1 & cond_2) | cond_3][['Year','Director','Actor']]

Unnamed: 0,Year,Director,Actor
0,1962,Terence Young,Sean Connery
1,1963,Terence Young,Sean Connery
2,1964,Guy Hamilton,Sean Connery
22,2006,Martin Campbell,Daniel Craig
23,2008,Marc Forster,Daniel Craig
24,2012,Sam Mendes,Daniel Craig
25,2015,Sam Mendes,Daniel Craig


In [None]:
# También podemos negar condiciones
cond_1 = df_jamesbond["Actor"]=='Daniel Craig'
df_jamesbond[-cond_1] # negamos nuestro vector booleano, convirtiendo los True en False y viceversa

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


#### Funciones útiles para filtrar


In [None]:
# podemos utilizar el método .isin() para filtrar por múltiples valores en una variable categórica
cond = df_jamesbond['Director'].isin(['Martin Campbell','Terence Young']) # filtramos por más de un valor para una variable categórica
df_jamesbond[cond]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3


In [None]:
# creamos condiciones para reconocer patrones específicos de texto
cond_1 = df_jamesbond['Film'].str.contains('love', regex=False, case=False)
cond_2 = df_jamesbond['Film'].str.contains('die', regex=False, case=False)

# creamos una condición, reconociendo un patrón en un campo de tipo texto
df_jamesbond[cond_1 | cond_2]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


### Filtrar columnas, según tipo de variable
---

El método .select_dtypes() permite selcecionar colunas, según tipo de variable

```
df.select_dtypes(include=[...], exclude=[...])
```





In [None]:
# Importamos df
# Utilizamos método .dtypes para visualizar nombres de columnas y tipo de variables
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
df_jamesbond.dtypes

Film                  object
Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

In [None]:
# Utilizamos .select_dtypes para seleccionar columnas de tipo "object" (texto) e "int64" (numérico, enteros)
df_jamesbond.select_dtypes(include=['object','int64']).head()

Unnamed: 0,Film,Year,Actor,Director
0,Dr. No,1962,Sean Connery,Terence Young
1,From Russia with Love,1963,Sean Connery,Terence Young
2,Goldfinger,1964,Sean Connery,Guy Hamilton
3,Thunderball,1965,Sean Connery,Terence Young
4,Casino Royale,1967,David Niven,Ken Hughes


In [None]:
# De forma alternativa, utilizamos el parámetro "exclude" para seleccionar todas las columnas, salvo aquellas de tipo "object" (texto)
df_jamesbond.select_dtypes(exclude='object').head()

Unnamed: 0,Year,Box Office,Budget,Bond Actor Salary
0,1962,448.8,7.0,0.6
1,1963,543.8,12.6,1.6
2,1964,820.4,18.6,3.2
3,1965,848.1,41.9,4.7
4,1967,315.0,85.0,


### Filtrar filas utilizando SQL
---
En caso de estar familiarizados con el lenguaje SQL (de consultas a bases de datos), puede resultarnos cómodo filtrar filas en un DataFrame utilizando una sintaxis *similar* a SQL.


```
df.query("cond")
```
* *En caso de operar con múltiples condiciones, las relacionamos con un & (and) / or*


In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# Utilizamos el método .query() para filtrar utilizando una sintaxis similar a SQL
df_jamesbond.query("Year > 2000 or Actor == 'Daniel Craig'")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


# 3. OPERACIONES BÁSICAS CON DATAFRAMES
---


In [None]:
# importamos dataframe desde una URL
df_cars = pd.read_csv('https://data-wizards.s3.amazonaws.com/datasets/dataset_us_cars.csv')

In [None]:
# para simplificar el dataframe (df), acotamos el df utilizando la función head()
df_cars = df_cars.head()

In [None]:
# invocamos el objeto para visualizarlo
df_cars

Unnamed: 0,year,brand,price,mileage,color,state,country
0,2008,toyota,6300,274117,black,new jersey,usa
1,2011,ford,2899,190552,silver,tennessee,usa
2,2018,dodge,5350,39590,silver,georgia,usa
3,2014,ford,25000,64146,blue,virginia,usa
4,2018,chevrolet,27700,6654,red,florida,usa


### Crear una nueva columna (variable)
---
Para crear una nueva columna en un dataframe:
* utilizamos la sintaxis básica de selección de Python
* definimos un nombre
* utilizamos el signo igual (=) para indicar que estamos definiendo una variable

> ✅ En caso de detectar una columna (variable) existente con el mismo nombre, Python la sobreescribirá. En caso de no encontrar ninguna columna definida con ese nombre, la incorporará al DataFrame

```
df["new_column"] = [...]
```
* Al definir una columna, debemos utilizar una *list* con la misma cantidad de elementos que filas en el DataFrame




In [None]:
# A continuación, crearemos una nueva columna en el df "df_cars"
df_cars["is_ford_card"] = [False,True,False,True,False] # aquí definimos una nueva columna
df_cars # en esta línea de código invocamos el objeto para visualizarlo

Unnamed: 0,year,brand,price,mileage,color,state,country,is_ford_card
0,2008,toyota,6300,274117,black,new jersey,usa,False
1,2011,ford,2899,190552,silver,tennessee,usa,True
2,2018,dodge,5350,39590,silver,georgia,usa,False
3,2014,ford,25000,64146,blue,virginia,usa,True
4,2018,chevrolet,27700,6654,red,florida,usa,False


In [None]:
# Ahora modificaremos una variable existente
df_cars["brand"] = ["Toyota","Ford","Dodge","Ford","Chevrolet"] # notar que el sistema reconoce que es una variable existente, por tanto no la crea, sino que la modifica
df_cars # invocamos objeto para visualizarlo

Unnamed: 0,year,brand,price,mileage,color,state,country,is_ford_card
0,2008,Toyota,6300,274117,black,new jersey,usa,False
1,2011,Ford,2899,190552,silver,tennessee,usa,True
2,2018,Dodge,5350,39590,silver,georgia,usa,False
3,2014,Ford,25000,64146,blue,virginia,usa,True
4,2018,Chevrolet,27700,6654,red,florida,usa,False


In [None]:
# Creamos una columna a partir de una operación entre dos columnas existentes
df_cars["brand-color"] = df_cars["brand"] + " - " + df_cars["color"]
df_cars

Unnamed: 0,year,brand,price,mileage,color,state,country,is_ford_card,brand-color
0,2008,Toyota,6300,274117,black,new jersey,usa,False,Toyota - black
1,2011,Ford,2899,190552,silver,tennessee,usa,True,Ford - silver
2,2018,Dodge,5350,39590,silver,georgia,usa,False,Dodge - silver
3,2014,Ford,25000,64146,blue,virginia,usa,True,Ford - blue
4,2018,Chevrolet,27700,6654,red,florida,usa,False,Chevrolet - red


### Eliminar columnas en un dataframe
---
Para eliminar una columna, podríamos simplemente *seleccionar el resto de variables* utilizando algunos de los métodos que hemos presentado en este notebook. No obstante, en algunas casos es más cómodo explicitar la variable en concreto a ser eliminada. Para ello, podemos utilizar el método .drop():

```
df.drop("column_name",axis="columns")
```
* debemos utilizar el parámetro "axis", especificando que estamos eliminando columnas


In [None]:
# A continuación, eliminaremos una columna específica
df_cars.drop("state",axis="columns") # importante editar el parámetro axis

Unnamed: 0,year,brand,price,mileage,color,country,is_ford_card,brand-color
0,2008,Toyota,6300,274117,black,usa,False,Toyota - black
1,2011,Ford,2899,190552,silver,usa,True,Ford - silver
2,2018,Dodge,5350,39590,silver,usa,False,Dodge - silver
3,2014,Ford,25000,64146,blue,usa,True,Ford - blue
4,2018,Chevrolet,27700,6654,red,usa,False,Chevrolet - red


In [None]:
# Importante: en la operación anterior no hemos sobreescrito el objeto df_cars
df_cars

Unnamed: 0,brand-color,year,brand,price,mileage,color,state,country,is_ford_card
0,Toyota - black,2008,Toyota,6300,274117,black,new jersey,usa,False
1,Ford - silver,2011,Ford,2899,190552,silver,tennessee,usa,True
2,Dodge - silver,2018,Dodge,5350,39590,silver,georgia,usa,False
3,Ford - blue,2014,Ford,25000,64146,blue,virginia,usa,True
4,Chevrolet - red,2018,Chevrolet,27700,6654,red,florida,usa,False


### Especificar un índice (index)
---
Por defecto, el índice se genera automáticamente asigando valores continuos de 0 al n-1 para cada fila de nuestro dataframe. Podemos optar por asignar una de nuestras columnas como valor índice de nuestro dataframe utilizando la función set_index():

```
df.set_index("col_name")
```




In [None]:
# Configuramos una columna como índice del df 
df_cars = df_cars.set_index('brand-color') # utilizamos la función .set_index() para redefinir el índice del df
df_cars

Unnamed: 0_level_0,year,brand,price,mileage,color,state,country,is_ford_card
brand-color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Toyota - black,2008,Toyota,6300,274117,black,new jersey,usa,False
Ford - silver,2011,Ford,2899,190552,silver,tennessee,usa,True
Dodge - silver,2018,Dodge,5350,39590,silver,georgia,usa,False
Ford - blue,2014,Ford,25000,64146,blue,virginia,usa,True
Chevrolet - red,2018,Chevrolet,27700,6654,red,florida,usa,False


> ⚠️ *La celda a continuación dará intencionalmente como resultado error*

In [None]:
# Importante: al definir una columna como índice, esta pierde las propiedades de variable/columna
df_cars["brand-color"] # esto nos dará error, ya que "brand-color" ha dejado de ser una variable/columna

KeyError: ignored

In [None]:
# Podemos resetear index utilizando la función reset_index()
df_cars = df_cars.reset_index()
df_cars

Unnamed: 0,brand-color,year,brand,price,mileage,color,state,country,is_ford_card
0,Toyota - black,2008,Toyota,6300,274117,black,new jersey,usa,False
1,Ford - silver,2011,Ford,2899,190552,silver,tennessee,usa,True
2,Dodge - silver,2018,Dodge,5350,39590,silver,georgia,usa,False
3,Ford - blue,2014,Ford,25000,64146,blue,virginia,usa,True
4,Chevrolet - red,2018,Chevrolet,27700,6654,red,florida,usa,False


### Renombrar columnas en un dataframe
---

Utilizaremos la función rename() para renombrar elementos en un dataframe,

```
df.rename({name:new_name},axis="rows/columns")
```



In [None]:
# A continuación, cambiaremos los nombres de dos columnas en nuestro DataFrame
# Primero, crearemos un dictionary donde establecer "nombre columna":"nuevo nombre"
# En segundo lugar, utilizaremos el método .rename() utilizando como parámetro nuestro dictionary e indicando que estamos modificando columnas

new_names_dic = {"brand":"car_brand","price":"car_price"} # creamos nuestro dictionary
df_cars.rename(new_names_dic,axis="columns") # cambiamos nombres de columnas

Unnamed: 0_level_0,year,car_brand,car_price,mileage,color,state,country,is_ford_card
brand-color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Toyota - black,2008,Toyota,6300,274117,black,new jersey,usa,False
Ford - silver,2011,Ford,2899,190552,silver,tennessee,usa,True
Dodge - silver,2018,Dodge,5350,39590,silver,georgia,usa,False
Ford - blue,2014,Ford,25000,64146,blue,virginia,usa,True
Chevrolet - red,2018,Chevrolet,27700,6654,red,florida,usa,False


### Ordenar un DataFrame
---
Podemos establecer un criterio de orden en nuestro DataFrame de dos formas:
* *según índice*
* *según una columna*





#### Ordenar según índice
El method *sort_index()* ordena el DataFrame según el campo especificado como índice; por defecto lo hace en sentido ascendente.

```
object.sort_index(ascending=True/False)
```

In [None]:
# Importamos nuestro df, establecemos un índice no numérico
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
df_jamesbond = df_jamesbond.set_index("Film")
df_jamesbond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [None]:
# Utilizamos .sort_index() para ordenar según índice
# Por defecto, este método ordena en criterio ascendente. Esto lo podemos modificar con .sort_index(ascending=False)
df_jamesbond.sort_index()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
For Your Eyes Only,1981,Roger Moore,John Glen,449.4,60.2,
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


#### Ordenar según columna
El method *sort_values()* permite establecer un criterio de orden, según una o más variables en el DataFrame.

```
object.sort_values(column,ascending=True/False)
```



In [None]:
# Importamos un df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# Ordenamos, según variable
df_jamesbond.sort_values("Bond Actor Salary",ascending=False)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
15,A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
17,Licence to Kill,1989,Timothy Dalton,John Glen,250.9,56.7,7.9
14,Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
16,The Living Daylights,1987,Timothy Dalton,John Glen,313.5,68.8,5.2


In [None]:
# Ordenamos el dataframe en función de dos criterios
df_jamesbond.sort_values(["Actor","Year"],ascending=[True,False])
# Observar que debemos utilizar un list como parámetro dentro de la función

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1


### Anidar operaciones
---
Python permite anidar operaciones con métodos de forma nativa. Es decir, podemos realizar múltiples operaciones sin necesidad de definir y sobrescribir variables.

Ejemplo:

```
df.iloc[x,y].head().sort_values(x)
```
* En este ejemplo, estaríamos realizando tres operaciones anidadas


In [None]:
# A modo de ejemplo, realizamos a continuación cuatro operaciones anidadas
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv").iloc[0:5,:].head().sort_values("Film")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7


#### Python method chaining
Al anidar múltiples operaciones, con frecuencia podemos encontrarnos realizando líneas de código demasiado extensas. Ante estas situaciones, podemos optar por separar nuestras operaciones en nuevas líneas de código utilizando una sintaxis especial llamada *method chaining*.

```
df.iloc[x,y]\
  .head()\
  .sort_values(x)
```
* utilizamos una barra invertida (\) para separar operaciones
* la barra invertida se coloca tras terminar una operación
* tras la barra invertida, damos enter para cambiar de línea de código; no debemos dejar ningún caracter adicional

> ⚠️ *Method chaining no admite ningún caracter tras la barra invertida, tampoco comentarios*

In [None]:
# Repetimos las cuatro operaciones anteriores, esta vez utilizando el method chaining
# Este método adquiere mayor utilidad cuanto más operaciones realicemos
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")\
  .iloc[0:5,:]\
  .head()\
  .sort_values("Film")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7


# EJERCICIOS
---
> ⚠️ *Nota: la solución a los ejercicios será enviada al finalizar el notebook.*


### EX 1 Seleccionar elementos en un DataFrame
---

1. Importar dataframe. Seleccionar columnas *name*, *homeworld*, *species* para las primeras 10 filas del dataframe
2. Seleccionar personajes que a) no sean *species* hombre y b) sean *homeworld,* *Naboo*, *Endor* o *Kashyyyk*

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv*




### EX 2 Seleccionar elementos en un DataFrame
---

1. Importar dataframe. Seleccionar columnas *country*, *director_name*, *imdb_score* para las primeras 10 filas del dataframe
2. Seleccionar películas (i) *producidas fuera de USA*, (ii) *con IMDB score mayor a 7* y (iii) *dirigidas por James Cameron o Peter Jackson*

> Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv




### EX 3 Operaciones básicas con DataFrames
---
1. Importar dataframe. Seleccionar columnas "Company", "Sector" y "Revenue"
2. Renombrar columna "Revenue" por "Company_Revenue"
3. Crear una columna "Profits_per_Employee" como operación entre las columnas "Profits" / "Employees"

> Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv




### EX 4 Operaciones básicas con DataFrames
---

Importar dataframe. Extraer top 10 empresas con mayor facturación (revenue) del sector tecnología

> Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv




### EX 5 Operaciones básicas con DataFrames
---
##### Importar dataframe. Extraer top 10 películas de Sci-Fi con mayor IMDB score, seleccionar únicamente campos *title_year*, *director_name* y *imdb_score*.

> Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv


