
# **Introducción a Python para Análisis de Datos**
## Capítulo 2: Introducción a DataFrames
---
**Autor:** Juan Martin Bellido  

**Descripción**  
En este notebook comenzaremos a trabajar con DataFrames, partiendo de las operaciones más básicas. Tras terminar este capítulo, estaremos listos para avanzar hacia manipulación avanzada.

**¿Feedback? ¿comentarios?** Por favor compártelo conmigo escribiéndome por [LinkedIn](https://www.linkedin.com/in/jmartinbellido/)  

**Material Adicional**

* [Guía Python Importar/Exportar DataFrames](https://datawizards.es/contenido/codigo-para-analisis-de-datos/guias/python-importar-exportar)
* [Comandos Jupyter Notebook](https://datawizards.es/contenido/codigo-para-analisis-de-datos/guias/comandos-rapidos-jupyter)
* [Sintaxis Markdown](https://datawizards.es/contenido/codigo-para-analisis-de-datos/guias/sintaxis-markdown)



## INDICE
---
1. Librerías
2. Introducción a DataFrames
3. Seleccionar elementos en DataFrames
4. Operaciones básicas con DataFrames
5. Ejercicios


Convenciones utilizadas en este documento
> 👉 *Esto es una nota u observación*

> ⚠️ *Esto es una advertencia*

# 1. Librerías
---


### Importar librerías

Python es un lenguaje de programación *open-source* y *colaborativo*. Por tanto, está abierto a que cualquier persona cree y comparta nuevas funcionalidades. Las funcionalidades están agrupadas en *paquetes* o *librerías* que debemos instalar (una única vez) e importar cada vez que querramos utilizarlas.

> 👉 Muchas librerías populares están pre-instaladas en nuestros entornos, por tanto únicamente necesitamos importarlas. Para importar una librería, utilizamos la siguiente sintaxis

```
import (library) as (tag)
```

Tras haber importado una librería, estaremos referenciándola cada vez que invoquemos una función contenida en esta. A modo de simplificar esta tarea, podemos opcionalmente utilizar *tags* (etiquetas) para renombrar una librería en nuestra sesión de trabajo.

> 👉 Los *tags* de las librerías más populares suelen estar estandarizados. Ej. pd para pandas

In [None]:
# importamos librería "pandas" y le asignamos el tag "pd"
import pandas as pd

Al importar una librería, estamos importando código que contiene funciones y métodos; estos pasan a estar listos para ser invocados en nuestra sesión de trabajo. Las librerías pueden ser muy extensas, por tanto suelen estructurarse en varias subdivisiones llamadas *módulos*.

En ocasiones, nos puede interesar importar únicamente un módulo específico dentro de una la librería (y no la librería por completo). Para ello usamos la siguiente sintaxis

```
from (library) import (module) as (tag)
```







In [None]:
# importamos módulo "figure" dentro de librería "matplotlib"
from matplotlib import figure
# el tag es siempre opcional, en este caso no los hemos utilizado

### Instalar librerías

Únicamente podremos importar una librería en nuestra sesión si se encuentra instalada en nuestro entorno. Existen varias formas de instalar una librería en Python, la más popular es mediante *pip*, un sistema de gestión de librerías para Python desarrollado por el MIT.

A continuación, se presenta la sintaxis que se utilizaría para instalar la librería *pandas*.

```
pip install pandas
```

> ⚠️ Para poder realizar esta operación, necesitamos tener instalado pip en nuestro entorno.

> 👉 ¿Cómo saber si necesitamos instalar una librería? La forma más sencilla es simplemente intentar importarla. En caso de no encontrarla entre aquellas instaladas en nuestro entorno, esto nos dará error y sabremos que tendremos que proceder a instalarla.

# 2. Introducción a DataFrames
---

In [None]:
# importamos librerías que utilizaremos en este notebook
import pandas as pd
import numpy as np

### Primeros pasos con un DataFrame

En el capítulo anterior (Python base) introducimos las cuatro únicas estructuras de datos disponibles en Python de forma nativa. Tal como pudimos observar, ninguna de estas logra representar una *tablas de datos*, es decir, una estructura donde la información esté estructurada según filas y columnas.

> 👉 El hecho de que Python no contemple una estructura para tablas de datos es prueba de que el lenguaje no fue originalmente creado para el análisis de datos

La librería *Pandas*, la más extensa e importante en análisis de datos, logra suplir esta ausencia con sus *DataFrames*. Se trata de estructuras de dos dimensiones donde la información está indexada tanto en filas como en columnas. 



Vamos a comenzar haciendo algo que rara vez haríamos en la práctica: crear un DataFrame de forma manual. Para ello, utilizaremos una primer función propia de pandas.


```
pandas.DataFrame()
```

> 👉 Como hemos utilizado el tag *pd* para importarla, invocamos esta función como *pd.DataFrame()*


In [None]:
# a continuación, vamos a crear un primer DataFrame a partir de un dictionary (estructura propia de Python base)
# creamos un dictionary con tres elementos, cada uno de ellos contiene un list
car_dic = {
    "car":['Honda Civic','VW Golf','Toyota Corolla'],
    "price":[12000,13000,15000],
    "is_new":[False,True,True]
    }

# utilizamos la función pandas.DataFrame() para convertir el dictionary en un DataFrame
df_cars = pd.DataFrame(car_dic)

# invocamos
df_cars

Unnamed: 0,car,price,is_new
0,Honda Civic,12000,False
1,VW Golf,13000,True
2,Toyota Corolla,15000,True


In [None]:
# utilizamos la función type(), propia de Python base, para confirmar que el objeto efectivamente almacena un DataFrame
type(df_cars)

pandas.core.frame.DataFrame

Los DataFrames contienen dos atributos esenciales: *columns* (columnas) e *index* (índices). 

In [None]:
# el método .columns nos permite consultar las columnas en un DataFrame
df_cars.columns.values

array(['car', 'price', 'is_new'], dtype=object)

Los *index* permiten identificar las filas en nuestro DataFrame. Por defecto, pandas crea índices numéricos que van del 0 al *n-1*, siendo *n* el número total de filas. 

> ⚠️ Al invocar un DataFrame, veremos siempre el índice en al margen izquierdo. Es importante no confundirlo con una columna.

In [None]:
# podemos utilizar los métodos anidados .index y .values para consultar los índices en un DataFrame
df_cars.index.values

array([0, 1, 2])

### Importar un DataFrame
En la práctica, rara vez creamos un DataFrame de forma manual. Por lo contrario, solemos importarlos a nuestra sesión de trabajo de múltiples fuentes.

A continuación, introduciremos la función *pd.read_csv()*, que permite importar tablas de datos de múltiples formatos y convertirlas automaticamente en DataFrames.

```
pandas.read_csv('path')
```

Esta función suele ser utilizada para importar una tabla de datos almacenada en nuestro entorno local (ej. en nuestro ordenador). En estos casos, como argumento de la función proporcionamos la ruta local al archivo.

A lo largo de este curso, estaremos importando muchas tablas de datos. A modo de simplificar esta tarea, estaremos importando esta información directamente de la web. Por tanto, utilizaremos constantemente URLs como argumentos de esta función.

> 👉 No es común trabajar con tablas de datos que *estén disponibles abiertamente en la web*. Esto es algo que haremos a lo largo del curso por fines didácticos y a modo de simplificar la tarea de importar información.


In [None]:
# a continuación, importamos un dataframe almacenado en una URL por medio del método read_csv() de pd
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
# esta información será simplemente desplegada, pero no almacenada (ya que no la estamos almacenando en un objeto)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


In [None]:
# repetimos la operación, pero esta vez almacenamos la información importada en un objeto
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
# a diferencia del caso anterior, esta ejecución no generará un output

In [None]:
# podríamos comprobar que el objeto df_jamesbond almacena un DataFrame
type(df_jamesbond)

pandas.core.frame.DataFrame

### Exportar un DataFrame
De igual manera, tras terminar de trabajar con un DataFrame a lo largo de nuestra sesión, seguramente estemos interesados en exportarlo. Esto nos permite conservar el resultado final para poder compartirlo o utilizarlo en otras herramientas.

El método .to_csv() permite exportar un DataFrame a nuestro entorno local, tanto en formato *csv* como *txt*.

```
df.to_csv('path')
```


In [None]:
# a continuación, exportamos DataFrame
df_jamesbond.to_csv("dataset_jamesbond.csv")

In [None]:
# podemos exportar un DataFrame en formato .txt, cambiando el parámetro (opcional) "sep"
df_jamesbond.to_csv("dataset_jamesbond.txt",sep='\t')

> 👉 Las opciones para importar y exportar tablas de datos son muy amplias. Las funciones (y método) *pd.read_csv()* y .*to_csv()* contienen muchos parámetros que permiten un alto grado de customizacioón.

> 👉 Puedes consultar estas opciones en [esta guía](https://datawizards.es/contenido/codigo-para-analisis-de-datos/guias/python-importar-exportar)


### Primeras operaciones con un DataFrame
Comenzaremos a operar con nuestro DataFrame, realizando las siguientes acciones:
* consultar columnas (variables) disponibles en un DataFrame
* consultar cantidad de filas en un DataFrame
* consultar las primeras/últimas filas en un DataFrame
* cambiar el índice en un DataFrame


In [None]:
# método .dtypes: permite visualizar rápidamente nombres y tipo de columnas en un DataFrame
df_jamesbond.dtypes

Film                  object
Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

In [None]:
# función len(): aplicada a un DataFrane permite visualizar cantidad de filas
len(df_jamesbond)

26

In [None]:
# método head()/ tail(): permite consultar las primeras/últimas n filas. Por defecto, n = 5
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


En algunos casos, nos puede interesar identificar a las filas de nuestro DataFrame utilizando un campo específico y no una simple escala numérica. Para ello, podríamos tomar una de las columnas existentes y convertirla en nuestro índice utilizando el método *.set_index()*.

In [None]:
# método .set_index(column): convertimos una columna en el índice de nuestra estructura
df_jamesbond.set_index("Film") # elegimos la columna "Film" como parámetro del método
# la operación a continuación no será almacenada, ya que no estamos sobreescribiendo el objeto original

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


In [None]:
# para conservar el cambio, debemos sobreescribir el objeto
df_jamesbond = df_jamesbond.set_index("Film")
df_jamesbond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


El método *.reset_index()* nos permite reiniciar el índice, volviendo a uno numérico y recuperando el campo "Film" como columna.

In [None]:
df_jamesbond.reset_index()

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


# 3. Seleccionar elementos en un DataFrame
---
Algo tan sencillo como seleccionar elementos (filas, columnas) puede ser un desafío cuando comenzamos a operar con DataFrames. Antes de comenzar, vamos a definir dos DataFrames con los que trabajaremos.

In [None]:
# importamos DataFrame
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# creamos un DataFrame de forma manual
car_dic = {
    "car":['Honda Civic','VW Golf','Toyota Corolla'],
    "price":[12000,13000,15000],
    "is_new":[False,True,True]
    }
df_cars = pd.DataFrame(car_dic)

### Seleccionar columnas según nombre
Si recordamos, la sintaxis básica de Python para seleccionar elementos dentro de un objeto que contiene una estructura de datos es la siguiente,

```
obj[element]
```

Para invocar columnas en un DataFrame, utilizaremos la misma sintaxis utilizando inputs de tipo texto.



In [None]:
# seleccionamos una columna por su nombre
df_jamesbond['Actor']

0       Sean Connery
1       Sean Connery
2       Sean Connery
3       Sean Connery
4        David Niven
5       Sean Connery
6     George Lazenby
7       Sean Connery
8        Roger Moore
9        Roger Moore
10       Roger Moore
11       Roger Moore
12       Roger Moore
13      Sean Connery
14       Roger Moore
15       Roger Moore
16    Timothy Dalton
17    Timothy Dalton
18    Pierce Brosnan
19    Pierce Brosnan
20    Pierce Brosnan
21    Pierce Brosnan
22      Daniel Craig
23      Daniel Craig
24      Daniel Craig
25      Daniel Craig
Name: Actor, dtype: object

> ⚠️ En caso de querer invocar más de una columna, debemos utilizar un *list* que contenga los nombres de las columnas


In [None]:
# utilizamos un list para seleccionar más de una columna por sus nombres
df_jamesbond[['Film','Actor','Box Office']]

Unnamed: 0,Film,Actor,Box Office
0,Dr. No,Sean Connery,448.8
1,From Russia with Love,Sean Connery,543.8
2,Goldfinger,Sean Connery,820.4
3,Thunderball,Sean Connery,848.1
4,Casino Royale,David Niven,315.0
5,You Only Live Twice,Sean Connery,514.2
6,On Her Majesty's Secret Service,George Lazenby,291.5
7,Diamonds Are Forever,Sean Connery,442.5
8,Live and Let Die,Roger Moore,460.3
9,The Man with the Golden Gun,Roger Moore,334.0


De forma alternativa, podemos seleccionar una columna por su nombre utilizando la siguiente sintaxis simplificada, 

```
object.column_name
```

> ⚠️ Esta sintaxis funciona únicamente para 
* seleccionar una única columna
* columnas que están definidas sin espacios en el nombre


In [None]:
df_jamesbond.Actor

0       Sean Connery
1       Sean Connery
2       Sean Connery
3       Sean Connery
4        David Niven
5       Sean Connery
6     George Lazenby
7       Sean Connery
8        Roger Moore
9        Roger Moore
10       Roger Moore
11       Roger Moore
12       Roger Moore
13      Sean Connery
14       Roger Moore
15       Roger Moore
16    Timothy Dalton
17    Timothy Dalton
18    Pierce Brosnan
19    Pierce Brosnan
20    Pierce Brosnan
21    Pierce Brosnan
22      Daniel Craig
23      Daniel Craig
24      Daniel Craig
25      Daniel Craig
Name: Actor, dtype: object

### Seleccionar filas según posiciones

Podemos utilizar una sintaxis similar a la que acabamos de introducir para filtrar filas según posiciones. 

```
obj[element]
```

Repetiremos esta misma estructura pero, esta vez, no utilizaremos input de tipo texto, sino un *list con booleanos y tantos elementos como filas en el DataFrame*.





In [None]:
# el siguiente df (DataFrame) contiene tres filas
# utilizamos un list con tres elementos booleanos
df_cars[[True, False, True]]

Unnamed: 0,car,price,is_new
0,Honda Civic,12000,False
2,Toyota Corolla,15000,True


Las filas que se correspondan con valores *False* en nuestro list quedarán omitidas de la selección. En otras palabras, conservaremos únicamente las filas que se correspondan con valores *True* en nuestro list.

> 👉 En este caso, tenemos un DataFrame con tan solo 3 filas. En la práctica, operamos regularmente con DataFrames de miles o millones de filas; evidentemente no sería práctico tener que crear un list con tantos elementos booleanos para poder filtrar filas.

> 👉 Retomaremos este tema cuando introduzcamos filtrar filas utilizando condiciones lógicas


### Seleccionar filas y columnas utilizando los métodos *.loc[ ]* y *.iloc[ ]*

A continuación, introducimos dos métodos de Pandas que buscan simplificar la tarea de filtrar filas y columnas. Los métodos *.loc[ ]* y *.iloc[ ]* permiten filtrar filas y columnas según etiquetas (nombres) y posiciones, respectivamente.

> 👉 Estos métodos permiten filtrar filas y columnas siguiendo una lógica de matrices 

> ⚠️ Por excepción, definimos estos dos métodos utilizando brackets [ ] y no paréntesis ( ). Esto es una excepción que aplica únicamente para estos dos métodos. Los creadores de Pandas han intentado

#### Método loc[ ]

El method *.loc[]* permite acceder a filas y columnas utilizando nombres.

```
object.loc[rows,columns]
object.loc[[row_1,row_2,...],[col_1,col_2,...]]
```

El método contiene dos parámetros, el primero de ellos es donde definimos (filtramos) filas, el segundo donde filtramos columnas.

In [None]:
# visualizamos las primeras filas de nuestro df
df_jamesbond.head()
# podemos comprobar que tenemos un índice numérico (se genera de forma automática)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [None]:
# para este ejemplo, convertiremos la columna Film en nuestro índice
df_jamesbond = df_jamesbond.set_index("Film") # cambiamos índice, sobreescribimos objeto
df_jamesbond.head() # visualizamos primeras entradas

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [None]:
# a continuación, utilizaremos el método .loc[] para seleccionar elementos en nuestro df
df_jamesbond.loc[["From Russia with Love","Goldfinger"],:] # seleccionamos dos filas según nombre, todas las columnas

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


> 👉 Hemos utilizado un list con dos elementos de tipo texto en el primer parámetro, donde filtramos filas

> 👉 Hemos utilizado un *wildcard* (comodín) : (dos puntos) en el parámetro de las columnas para indicar que queremos conservar todas las columnas

In [None]:
# otro ejemplo
df_jamesbond.loc[:'Thunderball',['Actor','Director']]

Unnamed: 0_level_0,Actor,Director
Film,Unnamed: 1_level_1,Unnamed: 2_level_1
Dr. No,Sean Connery,Terence Young
From Russia with Love,Sean Connery,Terence Young
Goldfinger,Sean Connery,Guy Hamilton
Thunderball,Sean Connery,Terence Young


> 👉 Hemos utilizado el *wildcard* antes del valor *Thunderball* para indicar que queremos esta fila y todas las anteriores

> 👉 Utilizamos un list en el segundo parámetro para filtrar dos columnas

#### Método iloc[ ]
El método *.iloc[]* es completamente análogo al anteerior, pero este permite filtrar filas y columnas según su posiciones.

```
object.iloc[row_position,column_position]
``` 

In [None]:
# volvemos a cargar DataFrame
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
df_jamesbond.head() # observamos que volvemos a tener índice numérico; también recuperamos Film como columna

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [None]:
# a continuación, seleccionamos elementos según su posición en el dataframe
df_jamesbond.iloc[:5,[1,3,5]] # seleccionamos todas las filas hasta la 5ta; columnas 1,3,5

Unnamed: 0,Year,Director,Budget
0,1962,Terence Young,7.0
1,1963,Terence Young,12.6
2,1964,Guy Hamilton,18.6
3,1965,Terence Young,41.9
4,1967,Ken Hughes,85.0


> 👉 Hemos seleccionados todas las filas hasta la 5ta; columnas 1,3,5

In [None]:
df_jamesbond.iloc[5:10,:]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


> 👉 En este segundo ejemplo, hemos filtrado filas según un rango (6ta a décima) y conservado todas las columnas



En ocasiones, combinamos ambos métodos para, por ejemplo, filtrar elementos según posiciones, luego filtrar según etiquetas. Para esto utilizamos ambos métodos de forma anidada.

In [None]:
# anidamos ambos métodos 
df_jamesbond.iloc[:10,:].loc[:,['Film','Actor','Director']]

Unnamed: 0,Film,Actor,Director
0,Dr. No,Sean Connery,Terence Young
1,From Russia with Love,Sean Connery,Terence Young
2,Goldfinger,Sean Connery,Guy Hamilton
3,Thunderball,Sean Connery,Terence Young
4,Casino Royale,David Niven,Ken Hughes
5,You Only Live Twice,Sean Connery,Lewis Gilbert
6,On Her Majesty's Secret Service,George Lazenby,Peter R. Hunt
7,Diamonds Are Forever,Sean Connery,Guy Hamilton
8,Live and Let Die,Roger Moore,Guy Hamilton
9,The Man with the Golden Gun,Roger Moore,Guy Hamilton


### Filtrar filas, según condición lógica

Hasta ahora, hemos estado filtrando filas en nuestro DataFrame según sus índices y posiciones. Frecuentemente, nos interesa filtrar filas según condiciones lógicas. 

```
object[object[condition]]
```

In [None]:
# comenzaremos creando un objeto con elementos booleanos a partir de una prueba lógica
cond = df_jamesbond['Year'] >= 1990 # usamos operadores de comparación sobre una columna
cond

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18     True
19     True
20     True
21     True
22     True
23     True
24     True
25     True
Name: Year, dtype: bool

In [None]:
# utilizamos el objeto con booleanos como selección dentro de nuestro DataFrame, logrando filtrar filas
df_jamesbond[cond]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# lo anterior es equivalente a la siguiente operación
df_jamesbond[df_jamesbond['Year'] >= 1990]
# en este caso, no hemos necesitado ningún objeto auxiliar

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# creamos condiciones y las almacenamos en objetos
cond_1 = df_jamesbond["Budget"]>150
cond_2 = df_jamesbond["Actor"]=='Daniel Craig'

# relacionamos las condiciones con un operador de tipo AND (&)
df_jamesbond[cond_1 & cond_2] # seleccionamos filas que cumplen con ambas condiciones de forma simultánea

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# creamos condiciones y las almacenamos en objetos
cond_1 = df_jamesbond["Budget"]>150
cond_2 = df_jamesbond["Actor"]=='Daniel Craig'

# relacionamos las condiciones con un operador de tipo OR (|)
df_jamesbond[cond_1 | cond_2] # seleccionamos filas que cumplan con al menos una condición

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# creamos condiciones y las almacenamos en objetos
cond_1 = df_jamesbond["Box Office"]>500
cond_2 = df_jamesbond["Actor"]=='Daniel Craig'

# relacionamos las condiciones con un operador de tipo AND (&)
# en esta ocasión, negamos la condición 2
df_jamesbond[cond_1 & -cond_2] 

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
11,Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1


#### Métodos útiles al crear condiciones para filtrar filas

In [None]:
# podemos utilizar el método .isin() para filtrar por múltiples valores en una variable categórica
cond = df_jamesbond['Director'].isin(['Martin Campbell','Terence Young']) # filtramos por más de un valor para una variable categórica
df_jamesbond[cond]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3


In [None]:
# creamos condiciones para reconocer patrones específicos de texto
cond_1 = df_jamesbond['Film'].str.contains('love', regex=False, case=False)
cond_2 = df_jamesbond['Film'].str.contains('die', regex=False, case=False)

# creamos una condición, reconociendo un patrón en un campo de tipo texto
df_jamesbond[cond_1 | cond_2]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


### Filtrar columnas, según tipo de variable
El método *.select_dtypes()* permite selcecionar colunas, según tipo de variable

```
df.select_dtypes(include=[...], exclude=[...])
```

In [None]:
# importamos df
# utilizamos método .dtypes para visualizar nombres de columnas y tipo de variables
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
df_jamesbond.dtypes

Film                  object
Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

In [None]:
# utilizamos .select_dtypes para seleccionar columnas de tipo "object" (texto) e "int64" (numérico, enteros)
df_jamesbond.select_dtypes(include=['object','int64']).head()

Unnamed: 0,Film,Year,Actor,Director
0,Dr. No,1962,Sean Connery,Terence Young
1,From Russia with Love,1963,Sean Connery,Terence Young
2,Goldfinger,1964,Sean Connery,Guy Hamilton
3,Thunderball,1965,Sean Connery,Terence Young
4,Casino Royale,1967,David Niven,Ken Hughes


In [None]:
# de forma alternativa, utilizamos el parámetro "exclude" para seleccionar todas las columnas, salvo aquellas de tipo "object" (texto)
df_jamesbond.select_dtypes(exclude='object').head()

Unnamed: 0,Year,Box Office,Budget,Bond Actor Salary
0,1962,448.8,7.0,0.6
1,1963,543.8,12.6,1.6
2,1964,820.4,18.6,3.2
3,1965,848.1,41.9,4.7
4,1967,315.0,85.0,


### Filtrar filas utilizando SQL

SQL es un lenguaje de consulta y administración de bases de datos relacionales. Si estás familiarizado con este lenguaje, puedes usar el método *.query()* para filtrar filas utilizando una sintaxis similar.

In [None]:
# utilizamos el método .query() para filtrar utilizando una sintaxis similar a SQL
df_jamesbond.query("Year > 2000 or Actor == 'Daniel Craig'")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


# 4. Operaciones básicas con un DataFrame 
---

In [None]:
# importamos DataFrame
df_cars = pd.read_csv('https://data-wizards.s3.amazonaws.com/datasets/dataset_us_cars.csv')
df_cars.head()

Unnamed: 0,year,brand,price,mileage,color,state,country
0,2008,toyota,6300,274117,black,new jersey,usa
1,2011,ford,2899,190552,silver,tennessee,usa
2,2018,dodge,5350,39590,silver,georgia,usa
3,2014,ford,25000,64146,blue,virginia,usa
4,2018,chevrolet,27700,6654,red,florida,usa


### Crear una nueva columna a partir de campos

Podemos crear nuevas columnas a partir de campos existentes en nuestro DataFrame.

In [None]:
# creamos una nueva columna a partir de operar una columna existente
df_cars['price_eur'] = df_cars['price']/1.2

In [None]:
# visualizamos
df_cars.head()

Unnamed: 0,year,brand,price,mileage,color,state,country,price_eur
0,2008,toyota,6300,274117,black,new jersey,usa,5250.0
1,2011,ford,2899,190552,silver,tennessee,usa,2415.833333
2,2018,dodge,5350,39590,silver,georgia,usa,4458.333333
3,2014,ford,25000,64146,blue,virginia,usa,20833.333333
4,2018,chevrolet,27700,6654,red,florida,usa,23083.333333


In [None]:
# repetimos ejercicio, esta vez redondeando decimales utilizando la función round()
df_cars['price_eur'] = round(df_cars['price']/1.2)
# visualizamos
df_cars.head()

Unnamed: 0,year,brand,price,mileage,color,state,country,price_eur
0,2008,toyota,6300,274117,black,new jersey,usa,5250.0
1,2011,ford,2899,190552,silver,tennessee,usa,2416.0
2,2018,dodge,5350,39590,silver,georgia,usa,4458.0
3,2014,ford,25000,64146,blue,virginia,usa,20833.0
4,2018,chevrolet,27700,6654,red,florida,usa,23083.0


In [None]:
# creamos otro ejemplo, esta vez operando dos columnas de tipo texto
df_cars["brand-color"] = df_cars["brand"] + " - " + df_cars["color"] # utilizamos el operador + para concatenar texto
df_cars.head()

Unnamed: 0,year,brand,price,mileage,color,state,country,price_eur,brand-color
0,2008,toyota,6300,274117,black,new jersey,usa,5250.0,toyota - black
1,2011,ford,2899,190552,silver,tennessee,usa,2416.0,ford - silver
2,2018,dodge,5350,39590,silver,georgia,usa,4458.0,dodge - silver
3,2014,ford,25000,64146,blue,virginia,usa,20833.0,ford - blue
4,2018,chevrolet,27700,6654,red,florida,usa,23083.0,chevrolet - red


### Crear una nueva columna a partir de una prueba lógica

A continuación, crearemos una nueva columna a partir de una condición *if/else* utilizando la función *np.where()*. En este caso, el valor del campo dependará de una *condición lógica*, no de una operación matemática.

```
np.where(condition, value if true, value if false)
```

In [None]:
# creamos una condición
cond = df_cars['brand'].isin(['ford','dodge','chevrolet','chrysler'])
# utilizamos la función np.where() para crear 
df_cars['is_Brand_US'] = np.where(cond,'US brand','non-US brand')
df_cars.head()

Unnamed: 0,year,brand,price,mileage,color,state,country,price_eur,brand-color,is_Brand_US
0,2008,toyota,6300,274117,black,new jersey,usa,5250.0,toyota - black,non-US brand
1,2011,ford,2899,190552,silver,tennessee,usa,2416.0,ford - silver,US brand
2,2018,dodge,5350,39590,silver,georgia,usa,4458.0,dodge - silver,US brand
3,2014,ford,25000,64146,blue,virginia,usa,20833.0,ford - blue,US brand
4,2018,chevrolet,27700,6654,red,florida,usa,23083.0,chevrolet - red,US brand


### Eliminar columnas en un DataFrame

Para eliminar una columna, podríamos simplemente *seleccionar el resto de variables* utilizando algunos de los métodos que hemos presentado en este notebook. No obstante, en algunas casos es más cómodo explicitar la variable en concreto a ser eliminada. Para ello, podemos utilizar el método *.drop()*

```
df.drop(columns=[column_list])
```


In [None]:
df_cars.drop(columns=['year','price_eur','brand-color'])

Unnamed: 0,brand,price,mileage,color,state,country,is_Brand_US
0,toyota,6300,274117,black,new jersey,usa,non-US brand
1,ford,2899,190552,silver,tennessee,usa,US brand
2,dodge,5350,39590,silver,georgia,usa,US brand
3,ford,25000,64146,blue,virginia,usa,US brand
4,chevrolet,27700,6654,red,florida,usa,US brand
...,...,...,...,...,...,...,...
2494,nissan,7800,23609,red,california,usa,non-US brand
2495,nissan,9200,34553,silver,florida,usa,non-US brand
2496,nissan,9200,31594,silver,florida,usa,non-US brand
2497,nissan,9200,32557,black,florida,usa,non-US brand


### Renombrar columnas en un DataFrame

Utilizaremos el método *.rename()* para renombrar elementos en un dataframe.

```
df.rename(columns={name:new_name})
```

In [None]:
# a continuación, cambiaremos los nombres de dos columnas en nuestro DataFrame
# primero, crearemos un dictionary donde establecer "nombre columna":"nuevo nombre"
# en segundo lugar, utilizaremos el método .rename() utilizando como parámetro nuestro dictionary e indicando que estamos modificando columnas
new_names_dic = {"brand":"car_brand","price":"car_price"} # creamos nuestro dictionary
df_cars.rename(columns = new_names_dic) # cambiamos nombres de columnas

Unnamed: 0,year,car_brand,car_price,mileage,color,state,country,price_eur,brand-color,is_Brand_US
0,2008,toyota,6300,274117,black,new jersey,usa,5250.0,toyota - black,non-US brand
1,2011,ford,2899,190552,silver,tennessee,usa,2416.0,ford - silver,US brand
2,2018,dodge,5350,39590,silver,georgia,usa,4458.0,dodge - silver,US brand
3,2014,ford,25000,64146,blue,virginia,usa,20833.0,ford - blue,US brand
4,2018,chevrolet,27700,6654,red,florida,usa,23083.0,chevrolet - red,US brand
...,...,...,...,...,...,...,...,...,...,...
2494,2019,nissan,7800,23609,red,california,usa,6500.0,nissan - red,non-US brand
2495,2018,nissan,9200,34553,silver,florida,usa,7667.0,nissan - silver,non-US brand
2496,2018,nissan,9200,31594,silver,florida,usa,7667.0,nissan - silver,non-US brand
2497,2018,nissan,9200,32557,black,florida,usa,7667.0,nissan - black,non-US brand


### Ordenar filas en un DataFrame

El method *sort_values()* permite establecer un criterio de orden, según una o más variables en el DataFrame.

```
object.sort_values(column,ascending=True/False)
```


In [None]:
# importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# ordenamos, según variable
df_jamesbond.sort_values("Bond Actor Salary",ascending=False)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
15,A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
17,Licence to Kill,1989,Timothy Dalton,John Glen,250.9,56.7,7.9
14,Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
16,The Living Daylights,1987,Timothy Dalton,John Glen,313.5,68.8,5.2


In [None]:
# ordenamos el dataframe en función de dos criterios
df_jamesbond.sort_values(["Actor","Year"],ascending=[True,False])
# observar que debemos utilizar un list como parámetro dentro de la función

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1


### Python method chaining

Al anidar múltiples operaciones, con frecuencia podemos encontrarnos realizando líneas de código demasiado extensas. Ante estas situaciones, podemos optar por separar nuestras operaciones en nuevas líneas de código utilizando una sintaxis especial llamada *method chaining*.

```
df.iloc[x,y]\
  .head()\
  .sort_values(x)
```
* utilizamos una barra invertida (\) para separar operaciones
* la barra invertida se coloca tras terminar una operación
* tras la barra invertida, damos enter para cambiar de línea de código; no debemos dejar ningún caracter adicional

> ⚠️ *Method chaining no admite ningún caracter tras la barra invertida, tampoco comentarios*

In [None]:
# comenzamos realizando operaciones anidadas sin utilizar el method chanining
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv").iloc[0:5,:].head().sort_values("Film")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7


In [None]:
# repetimos las cuatro operaciones anteriores, esta vez utilizando el method chaining
# este método adquiere mayor utilidad cuanto más operaciones realicemos
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")\
  .iloc[0:5,:]\
  .head()\
  .sort_values("Film")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7


# 5. Ejercicios
---
> 👉 Puedes encontrar las soluciones a los ejercicios [aquí](https://nbviewer.org/github/jmartinbellido/Python-Curso-Introductorio/blob/main/Capitulo%202%20Ejercicios.ipynb)

### Ejercicio #1

##### 1A. Importar dataframe. Seleccionar columnas "name", "homeworld", "species" para las primeras 10 filas del DataFrame.

##### 1B. Seleccionar personajes que a) no sean *species* hombre y b) sean *homeworld* Naboo, Endor o Kashyyyk.

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv*



### Ejercicio #2

##### EX 2A. Importar dataframe. Seleccionar columnas *country*, *director_name*, *imdb_score* para las primeras 10 filas del dataframe
##### EX 2B. Seleccionar películas:  
(i) producidas fuera de USA o con IMDB score mayor a 8.5, y  
(ii) dirigidas por alguno de lo siguientes directores: James Cameron, Peter Jackson, Tim Burton.

> Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv

### Ejercicio #3
---
#### EX 3A. Importar dataframe. Seleccionar columnas "Company", "Sector" y "Revenue".
#### EX 3B. Renombrar columna "Revenue" por "Company_Revenue".
#### EX 3C. Crear una columna "Profits_per_Employee" como operación entre las columnas "Profits" / "Employees".


> Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv


### Ejercicio #4

Importar dataframe. Extraer top 10 empresas con mayor facturación (*revenue*) del sector tecnología.

> Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv

### Ejercicio #5

Importar dataframe. Extraer top 10 películas de Sci-Fi con mayor IMDB score, seleccionar únicamente campos *title_year*, *director_name* y *imdb_score*.

> Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv
