# 🐍 **Introducción a Python para el Análisis de Datos**<br>

### 👨‍💻 Jorge Gómez Galván
* LinkedIn: [linkedin.com/in/jorgeggalvan/](https://www.linkedin.com/in/jorgeggalvan/) 
* E-mail: gomezgalvanjorge@gmail.com

## **Capítulo 2: DataFrames**
---

Este notebook presenta la estructura fundamental para el análisis de datos: los DataFrames de la librería Pandas. Se aborda cómo importarlos y realizar una consulta inicial de su estructura y contenido. Además, se exploran diversas operaciones sobre ellos, incluyendo la selección de elementos, el filtrado y manipulaciones básicas, para facilitar un manejo eficiente de los datos.

*El notebook ha sido adaptado a partir del trabajo de Juan Martín Bellido, cuyo contenido original se encuentra en [este enlace](https://github.com/jmartinbellido/Python-Curso-Introductorio/blob/main/Capitulo%202%20DataFrames.ipynb).*

### Índice
---

[1. Librerías](#2.1---Librerías)  
[2. Introducción a los DataFrames](#2.2---Introducción-a-los-DataFrames)  
[3. Primeras operaciones con DataFrames](#2.3---Primeras-operaciones-con-DataFrames)  
[4. Seleccionar elementos en un DataFrame](#2.4---Seleccionar-elementos-en-un-DataFrame)  
[5. Operaciones básicas con un DataFrame](#2.5---Operaciones-básicas-con-un-DataFrame)  

### 2.1 - Librerías
---

Python destaca por ser un lenguaje de programación open-source y colaborativo, lo que permite a cualquier persona puede contribuir creando y compartiendo nuevas funcionalidades. Es por esto que una de las principales fortalezas de Python es su amplia variedad de librerías, que son paquetes de códigos que permiten a los programadores reutilizar funcionalidades ya existentes en lugar que tener que escribirlas de cero.

#### Instalar librerías

Antes de utilizar una librería en un proyecto de Python, es necesario instalarla en el entorno. Esto generalmente se realiza una única vez y se puede llevar a cabo mediante un instalador de paquetes para Python como `pip`. 

Para tener instalado `pip`, hay que ejecutar lo siguiente:

> ```python
> !curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
> ```  

> ```python
> !python get-pip.py
> ```

In [1]:
# Verificamos si pip está instalado correctamente
!pip --version

pip 24.2 from C:\Users\jorge\anaconda3\Lib\site-packages\pip (python 3.12)



Con `pip` instalado y actualizado, se pueden instalar librerías de Python utilizando la siguiente sintaxis:

> ```python
> !pip install librery_name
> ```

👉 La forma más sencilla Para saber si es necesario instalar una librería es intentar importarla. Si no está instalada en el entorno, el código devolverá un mensaje de error indicando que no se pudo encontrar el módulo.

In [2]:
# Así se instalaría la librería Pandas
#!pip install pandas

#### Importar librerías

Las librerías se deben instalar una sola vez e importar cada vez que se quieran utilizar. Muchas librerías populares vienen preinstaladas en los entornos, lo que significa que sólo es necesario importarlas para comenzar a usarlas. 

Para importar una librería, se utiliza la siguiente sintaxis:

> ```python
> import librery_name as alias
> ```

Una vez que se ha importado una librería, se debe hacer referencia a ella cada vez que se invoque una de sus funciones. Para simplificar este proceso, es posible utilizar alias (o etiquetas) para renombrar la librería en la sesión de trabajo.

👉 Los alias de las librerías más populares suelen estar estandarizados en la comunidad. Por ejemplo, se utiliza `pd` para referirse a Pandas.

In [3]:
# Importamos la librería Pandas, asignando el alias 'pd'
import pandas as pd

Al importar una librería, se incorpora código que contiene diversas funciones y métodos, los cuales quedan disponibles para su uso en la sesión de trabajo. Debido a que las librerías pueden ser bastante extensas, a menudo se estructuran en subdivisiones conocidas como módulos.

En ciertas ocasiones, puede ser insteresante importar sólo un módulo específico de una librería en lugar de toda la librería. Para ello, se utiliza la siguiente sintaxis:

> ```python
> from library_name import module_name
> ```

In [4]:
# Importamos el módulo 'figure' de la librería Matplotlib
from matplotlib import figure # El alias es siempre opcional

### 2.2 - Introducción a los DataFrames
---

In [5]:
# Importamos las librerías que utilizamos en este notebook
import pandas as pd
import numpy as np

Como se trató en la capítulo anterior, Python sólo incluye de manera nativa cuatro estructuras de datos, pero ninguna de estas representa una <u>tablas de datos</u>, es decir, una colección de datos estructurados en filas y columnas.

Pandas, la librería más importante yampliamente utilizada en el análisis de datos, suple esta ausencia con sus DataFrames. Un DataFrame es una estructura de datos bidimensional que permite almacenar información indexada tanto en filas como en columnas.

#### Crear manualmente un DataFrame

Para comenzar a trabajar con DataFrames, se procederá a realizar una tarea poco común en la práctica: crear un DataFrame de forma manual. Esto se puede lograr utilizando la siguiente función propia de Pandas:

> ```python
> pandas.DataFrame(data_structure)
> ```

> ```python
> pd.DataFrame(data_structure)
> ```

👉 Si se ha importado la biblioteca Pandas utilizando el alias `pd`, es posible invocar las funciones tanto con `pandas` como con `pd`.

In [6]:
# Creamos un diccionario que utilizaremos para convertirlo en un DataFrame
dic_products = {
    'company': 'Apple Inc.',
    'products': ['iPhone', 'iPad', 'Mac', 'Apple Watch', 'AirPods'],
    'price': [959, 399, 2029, 449, 149],
    'is_new': [True, False, False, True, True]
}

dic_products

{'company': 'Apple Inc.',
 'products': ['iPhone', 'iPad', 'Mac', 'Apple Watch', 'AirPods'],
 'price': [959, 399, 2029, 449, 149],
 'is_new': [True, False, False, True, True]}

In [7]:
# Convertimos el diccionario en un DataFrame
df_products = pd.DataFrame(dic_products)

# Invocamos el DataFrame
df_products

Unnamed: 0,company,products,price,is_new
0,Apple Inc.,iPhone,959,True
1,Apple Inc.,iPad,399,False
2,Apple Inc.,Mac,2029,False
3,Apple Inc.,Apple Watch,449,True
4,Apple Inc.,AirPods,149,True


In [8]:
# Comprobamos que es un DataFrame
type(df_products)

pandas.core.frame.DataFrame

Los DataFrames contienen dos atributos esenciales: las columnas y los índices, los cuales pueden ser consultados utilizando lo siguiente:

* `df.columns.values` para obtener una lista con los nombres de las columnas.
* `df.index.values` para obtener una lista con los índices de las filas.

👉 Los índices permiten identificar las filas en un DataFrame. Por defecto, Pandas crea índices numéricos que van del 0 al n-1, siendo n el número total de filas del DataFrame.

In [9]:
# Consultamos las columnas de un DataFrame
df_products.columns.values

array(['company', 'products', 'price', 'is_new'], dtype=object)

In [10]:
# Consultamos los índices del DataFrame
df_products.index.values

array([0, 1, 2, 3, 4], dtype=int64)

Además de los datos, la función `pd.DataFrame()` puede recibir los parámetros de `index` y `columns` para personalizar el índice y gestionar las columnas en el DataFrame:

> ```python
> pd.DataFrame(data_structure, index=index, columns=columns)
> ```

Como se ha comprobado anteriormente, si no se especifican estos parámetros, se asignan automáticamente los índices y los nombres de columnas predeterminados.

In [11]:
# Convertimos el diccionario en un DataFrame asignando unos índices del 1 al 5 y eliminando la columna 'is_new'
df_products = pd.DataFrame(dic_products, index=range(1,6), columns=['company', 'products', 'price'])
df_products

Unnamed: 0,company,products,price
1,Apple Inc.,iPhone,959
2,Apple Inc.,iPad,399
3,Apple Inc.,Mac,2029
4,Apple Inc.,Apple Watch,449
5,Apple Inc.,AirPods,149


#### Importar un DataFrame

En la práctica, es poco común crear un DataFrame de forma manual. Generalmente los DataFrames se importan a la sesión de trabajo desde diversas fuentes de datos. Una de las funciones más utilizadas para este propósito es `pd.read_table()`, la cual permite cargar tablas de datos en varios formatos y convertirlas automáticamente en DataFrames.

La sintaxis es la siguiente:

> ```python
> pd.read_table('path/file_name.csv', sep='separator')
> ```

Esta función se emplea para importar datos almacenados en archivos locales o desde un sitio web. En el primer caso, se proporciona la ruta local del archivo, mientras que, en el segundo, se utiliza una URL directamente como argumento.

👉 Para facilitar la localización de la ruta en el sistema de archivos, se puede utilizar la función `os.getcwd()` de la librería os.

In [12]:
# Importamos la biblioteca os
import os

In [13]:
# Mostramos el directorio de trabajo actual
os.getcwd()

'D:\\Data\\ISDI\\MDA12 - Curso Introductorio de Python'

In [14]:
# Importamos un DataFrame indicando su delimitador y desplegamos la información sin almacenarla (ya que no la estamos almacenando en una variable)
pd.read_table('./data/james_bond.csv', sep=',')

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,"England, Switzerland, Portugal",291.5,37.3,0.6,6.7
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7


In [15]:
# Importamos un DataFrame y almacenamos la información importada en una variable
df_jamesbond = pd.read_table('./data/james_bond.csv', sep=',')

In [16]:
# Comprobamos que es un DataFrame
type(df_jamesbond)

pandas.core.frame.DataFrame

##### Importar archivos CSV

Uno de los formatos más habituales para el manejo de datos es el CSV, que consiste en un archivo de texto plano en el que las columnas están separadas por comas. Los datos en cada posición de la tabla pueden estar entre comillas o sin ellas.

Para importar archivos CSV, Pandas ofrece la función `pd.read_csv()`, que facilita la importación de estos archivos:

> ```python
> pd.read_csv('path/file_name.csv')
> ```

In [17]:
# Importamos un DataFrame desde un archivo CSV
df_jamesbond = pd.read_csv('./data/james_bond.csv') 
df_jamesbond

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,"England, Switzerland, Portugal",291.5,37.3,0.6,6.7
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7


In [18]:
# Comprobamos que es un DataFrame
type(df_jamesbond)

pandas.core.frame.DataFrame

##### Importar archivos Excel

Para importar archivos Excel, Pandas ofrece la función `pd.read_excel()`, que facilita la importación de hojas de cálculo en diferentes formatos de Excel, como .xls y .xlsx:

> ```python
> pd.read_excel('path/file_name.xlsx', sheet_name='sheet_name')
> ```

👉 El argumento `sheet_name` es opcional y permite seleccionar qué hoja se desea importar del archivo. Si no se especifica, Pandas cargará la primera hoja por defecto.

In [19]:
# Importamos un DataFrame desde un archivo Excel
df_jamesbond = pd.read_excel('./data/james_bond.xlsx')
df_jamesbond

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,"England, Switzerland, Portugal",291.5,37.3,0.6,6.7
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7


In [20]:
# Comprobamos que es un DataFrame
type(df_jamesbond)

pandas.core.frame.DataFrame

#### Exportar un DataFrame

De igual manera que se puede importar un DataFrame, es probable estar interesado en exportarlo al finalizar el trabajo durante una sesión. Esto permite guardar el DataFrame final para compartirlo o utilizarlo en otras herramientas.

##### Exportar archivos CSV

El método `.to_csv()` permite guardar el DataFrame como un archivo CSV, donde los valores están separados por comas.

> ```python
> df.to_csv('path/file_name.csv')
> ```

In [21]:
# Exportamos el DataFrame en formato CSV
df_jamesbond.to_csv('james_bond.csv')

##### Exportar archivos txt

También se puede utilizar el método `.to_csv()` con un delimitador personalizado para exportar a un archivo de texto plano, permitiendo crear archivos txt donde los datos están separados por un carácter específico, como tabulaciones o espacios.


> ```python
> pd.to_csv('path/file_name.txt', sep='separator')
> ```

In [22]:
# Exportamos el DataFrame en formato txt
df_jamesbond.to_csv('james_bond.txt', sep='\t')

##### Exportar archivos Excel

Para exportar un DataFrame a un archivo Excel, se utiliza el método `.to_excel()`. 

> ```python
> pd.to_excel('path/file_name.xlsx')
> ```

In [23]:
# Exportamos el DataFrame en formato Excel
df_jamesbond.to_excel('james_bond.xlsx')

`.to_excel()`, al igual que `.to_csv`, cuenta con el parámetro `index`, que se puede establecer en `False` para evitar que se incluya la columna de índice en el archivo exportado.

In [24]:
# Exportamos el DataFrame en formato Excel sin la columna de índices
df_jamesbond.to_excel('james_bond.xlsx', index=False)

### 2.3 - Primeras operaciones con DataFrames
---

Para comenzar a operar con un DataFrame, se van a llevar a cabo las siguientes acciones:

* Consultar información de las columnas disponibles de un DataFrame
* Consultar la dimensión (número de filas y columnas) de un DataFrame
* Explorar las filas de un DataFrame
* Operar con el índice de un DataFrame

#### Consultar información de columnas

##### Consultar nombres de columnas disponibles

Para consultar las columnas (o variables) presentes en un DataFrame, se utiliza el atributo `.columns`, que devuelve un objeto tipo `Index` que lista los nombres de las columnas.

👉 Un objeto `Index` en Pandas es una estructura inmutable que almacena las etiquetas de las filas o columnas en un DataFrame.

In [25]:
# Consultamos las columnas disponibles del DataFrame
df_jamesbond.columns

Index(['Film', 'Year', 'Actor', 'Director', 'Shooting Locations', 'Box Office',
       'Budget', 'Bond Actor Salary', 'IMDb Score'],
      dtype='object')

In [26]:
# Convertimos el objeto de tipo Index en una lista
list(df_jamesbond.columns)

['Film',
 'Year',
 'Actor',
 'Director',
 'Shooting Locations',
 'Box Office',
 'Budget',
 'Bond Actor Salary',
 'IMDb Score']

##### Consultar tipos de las columnas

`.dtypes` muestra los tipos de datos de cada columna en el DataFrame. Esto es útil para comprobar si las columnas contienen datos numéricos, cadenas de texto, fechas, etc.

In [27]:
# Consultamos los nombres y los tipos de las variables del DataFrame
df_jamesbond.dtypes

Film                   object
Year                    int64
Actor                  object
Director               object
Shooting Locations     object
Box Office            float64
Budget                float64
Bond Actor Salary     float64
IMDb Score            float64
dtype: object

#### Consultar dimensión de un DataFrame

Si se desea consultar la dimensión de un DataFrame, se puede obtener la cantidad de filas mediante la función `len()`, mientras que el método `.shape` devuelve una tupla que representa la dimensión (número de filas, número de columnas) del DataFrame.

In [28]:
# Consultamos la dimensión del DataFrame
df_jamesbond.shape

(27, 9)

In [29]:
# Obtenemos el número de filas del DataFrame
len(df_jamesbond)

27

#### Explorar las filas de un DataFrame

##### Explorar las primeras y últimas filas

Los métodos `.head()` y `.tail()` se utilizan para visualizar rápidamente las primeras o últimas filas de un DataFrame. Por defecto, ambos métodos muestran 5 filas. Se puede especificar el número diferente de filas a mostrar al pasar un argumento entero dentro de los paréntesis.

In [30]:
# Mostramos las 5 primeras filas del DataFrame
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0


In [31]:
# Mostramos las 10 últimas filas del DataFrame
df_jamesbond.tail(10)

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
17,Licence to Kill,1989,Timothy Dalton,John Glen,"Mexico, United States",250.9,56.7,7.9,6.6
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,"England, France, Germany, Thailand",463.2,133.9,10.0,6.5
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3


##### Explorar una muestra aleatoria de filas

Cuando se necesita mostrar filas de manera aleatoria, se puede utilizar `.sample()`, que selecciona de forma predeterminada una sola fila al azar, aunque también se puede especificar cuántas filas se desean mediante un argumento entero.

In [32]:
# Mostramos una fila aleatoria del DataFrame
df_jamesbond.sample()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9


In [33]:
# Mostramos 5 filas aleatorias del DataFrame
df_jamesbond.sample(5)

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0


#### Operar con índices

##### Consultar índices

El atributo `.index` permite acceder a los índices del DataFrame.

In [34]:
# Consultamos el rango de índices del DataFrame
df_jamesbond.index

RangeIndex(start=0, stop=27, step=1)

##### Modificar índices

Puede ser muy útil identificar las filas de un DataFrame utilizando un campo específico y no una simple escala numérica. Para ello, se puede cambiar el índice por una columna específica del DataFrame usando `.set_index('column_name')`.

In [35]:
# Convertimos la columna 'Film' en el índice del DataFrame
df_jamesbond = df_jamesbond.set_index('Film')
df_jamesbond.head() # Mostramos sólo las primeras filas del DataFrame

Unnamed: 0_level_0,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0


In [36]:
# Al seleccionar la columna 'Film' como índice, esta ya no se considera una columna del DataFrame
df_jamesbond.dtypes

Year                    int64
Actor                  object
Director               object
Shooting Locations     object
Box Office            float64
Budget                float64
Bond Actor Salary     float64
IMDb Score            float64
dtype: object

In [37]:
# Consultamos los índices del DataFrame
df_jamesbond.index

Index(['Dr. No', 'From Russia with Love', 'Goldfinger', 'Thunderball',
       'Casino Royale', 'You Only Live Twice',
       'On Her Majesty's Secret Service', 'Diamonds Are Forever',
       'Live and Let Die', 'The Man with the Golden Gun',
       'The Spy Who Loved Me', 'Moonraker', 'For Your Eyes Only',
       'Never Say Never Again', 'Octopussy', 'A View to a Kill',
       'The Living Daylights', 'Licence to Kill', 'GoldenEye',
       'Tomorrow Never Dies', 'The World Is Not Enough', 'Die Another Day',
       'Casino Royale', 'Quantum of Solace', 'Skyfall', 'Spectre',
       'No Time to Die'],
      dtype='object', name='Film')

El método `.reset_index()` permite reiniciar el índice de un DataFrame (devolviéndolo a un formato numérico), lo que recupera el campo que se había utilizado como índice y se añade nuevamente como una columna.

> ```python
> df.reset_index(names='index_colum_name', drop=True/False)
> ```

`'index_colum_name'` es un parámetro opcional que permite especificar un nombre para la columna del índice que se restablece. Si no se proporciona, se usa el nombre predeterminado para las columnas del índice ('index').

Por otro lado, el parámetro `drop` recibe un booleano: `drop=False` (valor predeterminado) permite que el índice anterior se convierta en una columna adicional en el DataFrame, mientras que `drop=True` elimina el índice anterior y no lo agrega como columna en el DataFrame

In [38]:
# Reiniciamos el índice, recuperando el campo 'Film' como columna 
df_jamesbond = df_jamesbond.reset_index()
df_jamesbond.head() # Mostramos sólo las primeras filas del DataFrame

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0


### 2.4 - Seleccionar elementos en un DataFrame
---

#### Seleccionar columnas según nombre

Para seleccionar columnas de un DataFrame, se emplea una sintaxis similar a la utilizada para acceder a elementos de las estructuras básicas de datos de Python:

> ```python
> df['column_name']
> ```

⚠️ El nombre de la columna debe coincidir de manera exacta con el definido en el DataFrame, respetando mayúsculas, minúsculas, espacios o carácteres especiales.

⚠️ En caso de querer seleccionar más de una columna, se debe utilizar una lista que contenga los nombres de las columnas:

> ```python
> df[['column_name_1', 'column_name_2', ..., 'column_name_n']]
> ```

In [39]:
# Seleccionamos la columna 'Actor' por su nombre
df_jamesbond['Actor']

0       Sean Connery
1       Sean Connery
2       Sean Connery
3       Sean Connery
4        David Niven
5       Sean Connery
6     George Lazenby
7       Sean Connery
8        Roger Moore
9        Roger Moore
10       Roger Moore
11       Roger Moore
12       Roger Moore
13      Sean Connery
14       Roger Moore
15       Roger Moore
16    Timothy Dalton
17    Timothy Dalton
18    Pierce Brosnan
19    Pierce Brosnan
20    Pierce Brosnan
21    Pierce Brosnan
22      Daniel Craig
23      Daniel Craig
24      Daniel Craig
25      Daniel Craig
26      Daniel Craig
Name: Actor, dtype: object

In [40]:
# Utilizamos una lista para seleccionar tres columnas por sus respectivos nombres
df_jamesbond[['Film', 'Actor', 'IMDb Score']]

Unnamed: 0,Film,Actor,IMDb Score
0,Dr. No,Sean Connery,7.2
1,From Russia with Love,Sean Connery,7.3
2,Goldfinger,Sean Connery,7.7
3,Thunderball,Sean Connery,6.9
4,Casino Royale,David Niven,5.0
5,You Only Live Twice,Sean Connery,6.8
6,On Her Majesty's Secret Service,George Lazenby,6.7
7,Diamonds Are Forever,Sean Connery,6.5
8,Live and Let Die,Roger Moore,6.7
9,The Man with the Golden Gun,Roger Moore,6.7


De manera alternativa, se puede seleccionar una columna por su nombre utilizando la siguiente sintaxis simplificada:

> ```python
> df.column_name
> ```

⚠️ Esta sintaxis sólo funciona cuando se selecciona una única columna y el nombre de esta no contiene espacios.

In [41]:
# Seleccionamos la columna 'Actor' por su nombre
df_jamesbond.Actor

0       Sean Connery
1       Sean Connery
2       Sean Connery
3       Sean Connery
4        David Niven
5       Sean Connery
6     George Lazenby
7       Sean Connery
8        Roger Moore
9        Roger Moore
10       Roger Moore
11       Roger Moore
12       Roger Moore
13      Sean Connery
14       Roger Moore
15       Roger Moore
16    Timothy Dalton
17    Timothy Dalton
18    Pierce Brosnan
19    Pierce Brosnan
20    Pierce Brosnan
21    Pierce Brosnan
22      Daniel Craig
23      Daniel Craig
24      Daniel Craig
25      Daniel Craig
26      Daniel Craig
Name: Actor, dtype: object

##### Obtener los valores únicos de una columna

Conociendo cómo seleccionar una columna, es posible consultar los valores únicos de esa columna con el método `.unique()`, lo que permite eliminar los valores duplicados.

In [42]:
# Obtenemos los valores únicos de la columna 'Actor'
df_jamesbond['Actor'].unique()

array(['Sean Connery', 'David Niven', 'George Lazenby', 'Roger Moore',
       'Timothy Dalton', 'Pierce Brosnan', 'Daniel Craig'], dtype=object)

In [43]:
# Obtenemos los valores únicos de la columna 'Director'
df_jamesbond['Director'].unique()

array(['Terence Young', 'Guy Hamilton', 'Ken Hughes', 'Lewis Gilbert',
       'Peter R. Hunt', 'John Glen', 'Irvin Kershner', 'Martin Campbell',
       'Roger Spottiswoode', 'Michael Apted', 'Lee Tamahori',
       'Marc Forster', 'Sam Mendes', 'Cary Joji Fukunaga'], dtype=object)

#### Seleccionar filas según posiciones

Para seleccionar filas según sus posiciones, se repite la sintaxis anteriormente introducida, pero en lugar de emplear una lista con elementos de tipo texto, se utiliza una con booleanos. Esta lista debe contener tantos elementos como filas hay en el DataFrame.

> ```python
> df[[boolean_1, boolean_2, ..., boolean_n]]
> ```

👉 Cada booleano representa un valor que indica si se debe incluir (`True`) o excluir (`False`) la fila correspondiente. En otras palabras, se conservan únicamente las filas que correspondan a los valores `True` de la lista, mientras que las filas asociadas a los valores `False` se omiten.

In [44]:
# Utilizamos un DataFrame previamente definido
df_products

Unnamed: 0,company,products,price
1,Apple Inc.,iPhone,959
2,Apple Inc.,iPad,399
3,Apple Inc.,Mac,2029
4,Apple Inc.,Apple Watch,449
5,Apple Inc.,AirPods,149


In [45]:
# Seleccionamos 3 filas utilizando una lista con 5 booleanos, ya que hay 5 filas en total
df_products[[True, True, False, True, False]]

Unnamed: 0,company,products,price
1,Apple Inc.,iPhone,959
2,Apple Inc.,iPad,399
4,Apple Inc.,Apple Watch,449


#### Seleccionar filas y columnas con `.loc[]` e `.iloc[]`

A continuación, se presentan dos métodos que son específicos de Pandas y que se utilizan para filtrar filas y columnas: `.loc[]` y `.iloc[]`. Estos métodos permiten realizar selecciones de una manera más simplificada mediante nombres para `.loc[]` y posiciones para `.iloc[]`.

##### Método `.loc[]`

El método `.loc[]` permite acceder a filas y columnas de un DataFrame utilizando las etiquetas de sus nombres. 

> ```python
> df.loc['index_labels', 'column_names']
> ```

Este método tiene dos parámetros: el primero se utiliza para seleccionar (o filtrar) las filas, mientras que el segundo se utiliza para seleccionar las columnas.

A continuación, se presenta una tabla que detalla los distintos usos de este método:

<div style="float: left;">
    <table style="border: 1px solid black; border-collapse: collapse;">
        <tr>
            <th style="border: 1px solid black; padding: 8px;">Selección</th>
            <th style="border: 1px solid black; padding: 8px;">Sintaxis</th>
            <th style="border: 1px solid black; padding: 8px;">Descripción</th></tr>
        <tr>
            <td rowspan="3" style="border: 1px solid black; padding: 8px;">Filas</td>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['index_label']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona una fila específica por su etiqueta.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[['index_label_1','index_label_2',...]]</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas por sus etiquetas.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['start_index_label':'end_index_label']</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas desde un índice inicial hasta un índice final (inclusive).</td></tr>
        <tr>
            <td rowspan="3" style="border: 1px solid black; padding: 8px;">Columnas</td>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[:, 'column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona una columna específica por su nombre.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[:, ['column_name_1','column_name_2',...]]</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias columnas por sus nombres.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[:, 'start_column_name':'end_column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de columnas desde una columna inicial hasta una columna final (inclusive).</td></tr>
        <tr>
            <td rowspan="9" style="border: 1px solid black; padding: 8px;">Filas y columnas</td>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['index_label', 'column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona una fila y una columna específicas.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[['index_label_1','index_label_2',...], 'column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas para una columna específica.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['start_index_label':'end_index_label', 'column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas para una columna específica.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['index_label', ['column_name_1','column_name_2',...]]</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias columnas para una fila específica.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['index_label', 'start_column_name':'end_column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de columnas para una fila específica.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[['index_label_1','index_label_2',...], ['column_name_1','column_name_2',...]]</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas para varias columnas.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc[['index_label_1','index_label_2',...], 'start_column_name':'end_column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Seleccionar varias filas para un rango de columnas.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['start_index_label':'end_index_label', ['column_name_1','column_name_2',...]]</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas para varias columnas.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><code>df.loc['start_index_label':'end_index_label', 'start_column_name':'end_column_name']</code></td>
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas y un rango de columnas.</td></tr>
    </table>
</div>

👉 Si se deja vacío el inicio o el final de un rango, se seleccionan todas las filas o columnas hasta el extremo opuesto.

⚠️ Para utilizar intervalos al seleccionar filas con `.loc[]`, es importante que los índices de las filas sean únicos.

In [46]:
# Seleccionamos la fila 0 por su índice numérico (que se genera de forma automática)
df_jamesbond.loc[0]

Film                            Dr. No
Year                              1962
Actor                     Sean Connery
Director                 Terence Young
Shooting Locations    England, Jamaica
Box Office                       448.8
Budget                             7.0
Bond Actor Salary                  0.6
IMDb Score                         7.2
Name: 0, dtype: object

In [47]:
# Seleccionamos varias filas específicas por sus índices numéricos
df_jamesbond.loc[[21,22]]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0


In [48]:
# Seleccionamos varias filas específicas por sus índices numéricos
df_jamesbond.loc[[21,22], :] # No es necesario utilizar ':' en el segundo parámetro para seleccionar todas las columnas

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0


In [49]:
# Convertimos la columna 'Film' en el índice
df_jamesbond = df_jamesbond.set_index('Film')
df_jamesbond.head()

Unnamed: 0_level_0,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0


In [50]:
# Seleccionamos una fila específica por su etiqueta
df_jamesbond.loc['Casino Royale'] 
# Como hay dos filas con el índice 'Casino Royale', se muestran las dos filas

Unnamed: 0_level_0,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0
Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0


In [51]:
# Seleccionamos varios columnas por su nombre
df_jamesbond.loc[:, ['Actor','Bond Actor Salary']]

Unnamed: 0_level_0,Actor,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1
Dr. No,Sean Connery,0.6
From Russia with Love,Sean Connery,1.6
Goldfinger,Sean Connery,3.2
Thunderball,Sean Connery,4.7
Casino Royale,David Niven,
You Only Live Twice,Sean Connery,4.4
On Her Majesty's Secret Service,George Lazenby,0.6
Diamonds Are Forever,Sean Connery,5.8
Live and Let Die,Roger Moore,
The Man with the Golden Gun,Roger Moore,


In [52]:
# Seleccionamos un rango de filas para dos columnas específicas
df_jamesbond.loc['GoldenEye':'Die Another Day', ['Actor','Bond Actor Salary']]

Unnamed: 0_level_0,Actor,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1
GoldenEye,Pierce Brosnan,5.1
Tomorrow Never Dies,Pierce Brosnan,10.0
The World Is Not Enough,Pierce Brosnan,13.5
Die Another Day,Pierce Brosnan,17.9


In [53]:
# Seleccionamos las filas desde 'Skyfall' hasta el final para dos columnas específicas
df_jamesbond.loc['Skyfall':, ['Actor','Bond Actor Salary']]

Unnamed: 0_level_0,Actor,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1
Skyfall,Daniel Craig,14.5
Spectre,Daniel Craig,
No Time to Die,Daniel Craig,


##### Método `.iloc[]`

El método `.iloc[]` es completamente análogo al anterior, permitiendo acceder a filas y columnas de un DataFrame según sus posiciones.

> ```python
> df.iloc['row_positions', 'column_positions']
> ```

Este método también tiene dos parámetros: el primero para seleccionar (o filtrar) las filas y el segundo para seleccionar las columnas.

A continuación, se presenta una tabla que detalla los distintos usos de este método:

<div style="float: left;"> 
    <table style="border: 1px solid black; border-collapse: collapse;"> 
        <tr> 
            <th style="border: 1px solid black; padding: 8px;">Selección</th> 
            <th style="border: 1px solid black; padding: 8px;">Sintaxis</th> 
            <th style="border: 1px solid black; padding: 8px;">Descripción</th>
        </tr> 
        <tr> 
            <td rowspan="3" style="border: 1px solid black; padding: 8px;">Filas</td> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[row_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona una fila específica por su posición.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[[row_index_1, row_index_2, ...]]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas por sus posiciones.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[start_row_index:end_row_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas desde un índice inicial hasta un índice final (exclusivo).</td>
        </tr> 
        <tr> 
            <td rowspan="3" style="border: 1px solid black; padding: 8px;">Columnas</td> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[:, column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona una columna específica por su posición.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[:, [column_index_1, column_index_2, ...]]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias columnas por sus posiciones.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[:, start_column_index:end_column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de columnas desde una columna inicial hasta una columna final (exclusivo).</td>
        </tr> 
        <tr> 
            <td rowspan="9" style="border: 1px solid black; padding: 8px;">Filas y columnas</td> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[row_index, column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona una fila y una columna específicas.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[[row_index_1, row_index_2, ...], column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas para una columna específica.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[start_row_index:end_row_index, column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas para una columna específica.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[row_index, [column_index_1, column_index_2, ...]]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias columnas para una fila específica.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[row_index, start_column_index:end_column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de columnas para una fila específica.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[[row_index_1, row_index_2, ...], [column_index_1, column_index_2, ...]]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas para varias columnas.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[[row_index_1, row_index_2, ...], start_column_index:end_column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona varias filas para un rango de columnas.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[start_row_index:end_row_index, [column_index_1, column_index_2, ...]]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas para varias columnas.</td>
        </tr> 
        <tr> 
            <td style="border: 1px solid black; padding: 8px;"><code>df.iloc[start_row_index:end_row_index, start_column_index:end_column_index]</code></td> 
            <td style="border: 1px solid black; padding: 8px;">Selecciona un rango de filas y un rango de columnas.</td>
        </tr> 
    </table> 
</div>

👉 Si se deja vacío el inicio o el final de un rango, se seleccionan todas las filas o columnas hasta el extremo opuesto.

⚠️ El método `.iloc[]` sólo acepta índices enteros y se utiliza exclusivamente para la selección por posición, no por etiquetas.

In [54]:
# Volvemos a importar el DataFrame
df_jamesbond = pd.read_csv('./data/james_bond.csv') 
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0


In [55]:
# Seleccionamos un rango de filas desde la posición 5 hasta la 9
df_jamesbond.iloc[5:10]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,"England, Switzerland, Portugal",291.5,37.3,0.6,6.7
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7


In [56]:
# Seleccionamos un rango de filas para varias columnas específicas
df_jamesbond.iloc[:5, [1,3,5]]

Unnamed: 0,Year,Director,Box Office
0,1962,Terence Young,448.8
1,1963,Terence Young,543.8
2,1964,Guy Hamilton,820.4
3,1965,Terence Young,848.1
4,1967,Ken Hughes,260.0


Es posible anidar los métodos `.loc[]` y `.iloc[]` para, por ejemplo, selección elementos según posiciones y después según etiquetas.

In [57]:
# Anidamos ambos métodos
df_jamesbond.iloc[:10, :].loc[:, ['Film','Actor','Director']]

Unnamed: 0,Film,Actor,Director
0,Dr. No,Sean Connery,Terence Young
1,From Russia with Love,Sean Connery,Terence Young
2,Goldfinger,Sean Connery,Guy Hamilton
3,Thunderball,Sean Connery,Terence Young
4,Casino Royale,David Niven,Ken Hughes
5,You Only Live Twice,Sean Connery,Lewis Gilbert
6,On Her Majesty's Secret Service,George Lazenby,Peter R. Hunt
7,Diamonds Are Forever,Sean Connery,Guy Hamilton
8,Live and Let Die,Roger Moore,Guy Hamilton
9,The Man with the Golden Gun,Roger Moore,Guy Hamilton


#### Filtrar filas con condiciones lógicas

Filtrar filas en un DataFrame según condiciones lógicas es una de las operaciones más comunes y útiles en el análisis de datos, ya que permite filtrar conjuntos de datos que cumplen criterios específicos, facilitando así el filtrado en lugar de depender únicamente de los índices o posiciones para acceder a las filas.

La sintaxis para filtrar filas con una condición lógica es la siguiente:

> ```python
> df[df[condition]]
> ```

`condition` es una expresión sigue este formato: `df['column_name'] operator_comparator value`.

👉 La condición lógica se construye utilizando operadores de comparación, como `>`, `>=`, `<`, `<=`, `==`, y `!=`.

In [58]:
# Creamos una variable con elementos booleanos a partir de una condición lógica
condition = df_jamesbond['Year'] >= 2000
condition

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21     True
22     True
23     True
24     True
25     True
26     True
Name: Year, dtype: bool

In [59]:
# Aplicamos la condición booleana al DataFrame para filtrar las filas correspondientes
df_jamesbond[condition]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3


In [60]:
# Realizamos el mismo filtrado en una sola línea, sin necesidad de crear una variable auxiliar
df_jamesbond[df_jamesbond['Year'] >= 2000]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3


##### Filtras filas con múltiples condiciones

Cuando es necesario aplicar múltiples criterios para el filtrado, se pueden combinar condiciones utilizando los operadores lógicos específicos para Pandas.

Los operadores lógicos de Pandas son:

<div style="float: left;">
    <table style="border: 1px solid black; border-collapse: collapse;">
        <tr>
            <th style="border: 1px solid black; padding: 8px;">Operador</th>
            <th style="border: 1px solid black; padding: 8px;">Descripción</th></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>condition_1 & condition_2</code></b></td>
            <td style="border: 1px solid black; padding: 8px;" rowspan="1">(AND) Selecciona filas que cumplen todas las condiciones.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>condition_1 | condition_2</code></b></td>
            <td style="border: 1px solid black; padding: 8px;" rowspan="1">(OR) Selecciona filas que cumplen cualquiera de las condiciones.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>~condition</code></b></td>
            <td style="border: 1px solid black; padding: 8px;" rowspan="2">(NOT) Invierte una condición, seleccionando filas que no cumplen con la condición especificada.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>-condition</code></b></td></tr>
    </table>
</div>

 La sintaxis para filtrar filas con varias condiciones es la siguiente:
 
 > ```python
 > df[(condition_1) logical_operator (condition_2)]
 > ```

In [61]:
# Creamos dos condiciones que almacenamos en variables
cond_1 = df_jamesbond['Year'] >= 2000
cond_2 = df_jamesbond['Director'] == 'Sam Mendes'

# Filtramos el DataFrame aplicando las dos condiciones con el operador '&' (AND)
df_jamesbond[cond_1 & cond_2] 

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8


In [62]:
# Realizamos el mismo filtrado en una sola línea, sin necesidad de crear variables auxiliares
df_jamesbond[(df_jamesbond['Year'] >= 2000) & (df_jamesbond['Director'] == 'Sam Mendes')] 

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8


In [63]:
# Creamos dos nuevas condiciones 
cond_1 = df_jamesbond['Budget'] >= 150
cond_2 = df_jamesbond['Actor'] == 'Daniel Craig'

# Filtramos el DataFrame aplicando las dos condiciones con el operador '|' (OR)
df_jamesbond[cond_1 | cond_2] 

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3


In [64]:
# Creamos dos condiciones en las que se verifica si 'Box Office' es superior a 500 y si 'Actor' es 'Daniel Craig'
cond_1 = df_jamesbond['Box Office'] > 500
cond_2 = df_jamesbond['Actor'] == 'Daniel Craig'

# Filtramos el DataFrame aplicando las dos condiciones con el operador '&' (AND) y, en esta ocasión, negamos la 2ª condición con '-' (NOT)
df_jamesbond[cond_1 & -cond_2] 

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,"England, Switzerland, Canada, Scotland, Egypt,...",533.0,45.1,,7.0
11,Moonraker,1979,Roger Moore,Lewis Gilbert,"England, France, Italy, United States, Brazil,...",535.0,91.5,,6.2
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2


##### Métodos útiles al crear condiciones para filtrar

El método `.isin()` se utiliza para filtrar filas basadas en función de si los valores de una columna se encuentran dentro de una lista específica de valores.

> ```python
> df[df['column_name'].isin([value_1, value_2, ...])]
> ```

In [65]:
# Creamos una condición con el método .isin() para filtrar por múltiples valores en una variable categórica
cond = df_jamesbond['Director'].isin(['Martin Campbell', 'Guy Hamilton'])

# Filtramos el DataFrame aplicando la condición
df_jamesbond[cond]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0


El método `.between()` permite filtrar filas en función de si los valores de una columna están dentro de un rango específico, muy útil cuando se trabaja con datos numéricos.

> ```python
> df[df['column_name'].between(lower_bound, upper_bound)]
> ```

In [66]:
# Creamos una condición con el método .between() para filtrar filas donde el valor de 'IMDb Score' está entre 7 y 8
cond = df_jamesbond['IMDb Score'].between(7, 8)

# Filtramos el DataFrame aplicando la condición
df_jamesbond[cond]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,"England, Switzerland, Canada, Scotland, Egypt,...",533.0,45.1,,7.0
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3


El método `.str.contains()` se aplica a columnas de tipo *string* y permite filtrar filas que contienen un texto o patrón específico para encontrar coincidencias de texto dentro de una columna.

> ```python
> d[df['column_name'].str.contains('text_pattern', case=False, na=False)]
> ```

* `case = False`: Para que la búsqueda no distinga entre mayúsculas y minúsculas.
* `na = False`: Excluye valores NaN de la búsqueda.

In [67]:
# Creamos una condición para filtrar las filas que contienen la subcadena 'Spain' dentro de la columna 'Shooting Locations'
cond = df_jamesbond['Shooting Locations'].str.contains('Spain', regex=False, case=False)

# Filtramos el DataFrame aplicando la condición
df_jamesbond[cond]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6


#### Filtrar filas utilizando SQL

Una alternativa para filtrar filas es utilizar `.query()`, que permite escribir condiciones de manera similar a SQL.

In [68]:
# Filtramos con una sintaxis similar a la de SQL con .query()
df_jamesbond.query("Year > 2000 or Actor == 'Pierce Brosnan'")

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,"England, France, Germany, Thailand",463.2,133.9,10.0,6.5
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3


#### Filtrar columnas por tipo de variable

Para filtrar columnas según el tipo de variable que contienen, se puede utilizar el método `.select_dtypes()` de Pandas. Este método permite seleccionar columnas que coinciden con tipos de datos específicos.

👉 El tipo de dato `'number'` incluye todas las columnas numéricas (enteros y decimales).

In [69]:
# Consultamos los tipos de las variables
df_jamesbond.dtypes

Film                   object
Year                    int64
Actor                  object
Director               object
Shooting Locations     object
Box Office            float64
Budget                float64
Bond Actor Salary     float64
IMDb Score            float64
dtype: object

In [70]:
# Seleccionamos sólo las columnas de tipo 'object' (texto) e 'int64' (número entero)
df_jamesbond.select_dtypes(include=['object','int64']).head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica"
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey"
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States"
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States"
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland"


In [71]:
# Seleccionamos todas las columnas menos las de tipo 'object' (texto)
df_jamesbond.select_dtypes(exclude='object').head()

Unnamed: 0,Year,Box Office,Budget,Bond Actor Salary,IMDb Score
0,1962,448.8,7.0,0.6,7.2
1,1963,543.8,12.6,1.6,7.3
2,1964,820.4,18.6,3.2,7.7
3,1965,848.1,41.9,4.7,6.9
4,1967,260.0,70.0,,5.0


In [72]:
# Excluimos todas las columnas numéricas (tanto de tipo 'int64' como 'float64')
df_jamesbond.select_dtypes(exclude='number').head()

Unnamed: 0,Film,Actor,Director,Shooting Locations
0,Dr. No,Sean Connery,Terence Young,"England, Jamaica"
1,From Russia with Love,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey"
2,Goldfinger,Sean Connery,Guy Hamilton,"England, Switzerland, United States"
3,Thunderball,Sean Connery,Terence Young,"England, France, Bahamas, United States"
4,Casino Royale,David Niven,Ken Hughes,"England, Ireland"


### 2.5 - Operaciones básicas con un DataFrame
---

#### Crear una nueva columna a partir de campos

En Pandas, es posible crear nuevas columnas en un DataFrame utilizando los valores de otras columnas existentes. Esto se puede realizar mediante operaciones aritméticas, funciones o cualquier otra manipulación sobre los datos originales.

In [73]:
# Creamos una columna llamada 'Bond Actor Salary (EUR)'
df_jamesbond['Bond Actor Salary (EUR)'] = df_jamesbond['Bond Actor Salary'] / 1.1
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Bond Actor Salary (EUR)
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,0.545455
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3,1.454545
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7,2.909091
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9,4.272727
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0,


In [74]:
# Repetimos la creación de la columna, pero redondeando
df_jamesbond['Bond Actor Salary (EUR)'] = round(df_jamesbond['Bond Actor Salary'] / 1.1, 2)
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Bond Actor Salary (EUR)
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,0.55
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3,1.45
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7,2.91
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9,4.27
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0,


##### Concatenar columnas

Una de las opciones más comunes es concatenar columnas con el operador `+`, pero es importante que todas las columnas utilizadas sean de tipo texto (*object*). 

👉 Si las columnas contienen datos de otros tipos, como números o fechas, es necesario convertirlas previamente a texto utilizando el método `.astype(str)` para evitar errores durante la concatenación.

In [75]:
# Creamos una nueva columna concatenando texto con el operador '+'
df_jamesbond['Film (Year)'] = df_jamesbond['Film'] + ' (' + df_jamesbond['Year'].astype(str) + ')' # Convertimos la columna 'Year' a tipo texto para permitir la concatenación
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Bond Actor Salary (EUR),Film (Year)
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,0.55,Dr. No (1962)
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3,1.45,From Russia with Love (1963)
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7,2.91,Goldfinger (1964)
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9,4.27,Thunderball (1965)
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0,,Casino Royale (1967)


#### Crear una nueva columna a partir de pruebas lógicas

Además de crear columnas a partir de otras, se puede necesitar crear columanas a partir condiciones lógicas que permitan clasificar o categorizar los datos  según criterios específicos. Se pueden utilizar varias técnicas para lograrlo, siendo `np.where()` y `.apply()` con una función `lambda` dos de las más utilizadas.

##### Función `np.where()`

La función `np.where()` pertenece a la librería Numpy, una librería fundamental para crear vectores y matrices grandes multidimensionales, y que también ofrece una gran colección de funciones matemáticas.

Esta función se utiliza para crear una nueva columna según una condición lógica a partir de tres argumentos: la condición que se desea evaluar, el valor que se asigna si la condición es verdadera y el valor que se asigna si la condición es falsa.

> ```python
> np.where(condition, value_if_true, value_if_false)
> ```

In [76]:
# Creamos una condición que verifica si el año es mayor a 2000
cond = df_jamesbond['Year'] > 2000

# Utilizamos 'np.where()' para crear una nueva columna 'Century', asignando '21st' si la condición es verdadera y '20th' si es falsa
df_jamesbond['Century'] = np.where(cond, '21st', '20th')
df_jamesbond.iloc[18:23] # Mostramos las filas de la 18 a la 22 para verificar los resultados

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Bond Actor Salary (EUR),Film (Year),Century
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2,4.64,GoldenEye (1995),20th
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,"England, France, Germany, Thailand",463.2,133.9,10.0,6.5,9.09,Tomorrow Never Dies (1997),20th
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4,12.27,The World Is Not Enough (1999),20th
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1,16.27,Die Another Day (2002),21st
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0,3.0,Casino Royale (2006),21st


##### Función `np.select()`

Si se necesita asignar diferentes valores en función de múltiples condiciones, existe otra función de NumPy llamada `np.select()` que permite hacerlo a través de la siguiente sintaxis:

> ```python
> np.select([cond_1, cond_2, ...], [value_1, value_2, ...], default=value_if_all_false)
> ```

La función evalúa las condiciones en el orden en que se pasan y asigna el valor correspondiente a los elementos que las cumplen. Si un elemento no cumple ninguna de las condiciones, se le asigna el valor de `default` (si se especifica).

In [77]:
# Creamos tres condiciones basadas en la puntuación de IMDb
cond_1 = df_jamesbond['IMDb Score'].between(8, 10)
cond_2 = df_jamesbond['IMDb Score'].between(7, 7.9)
cond_3 = df_jamesbond['IMDb Score'].between(6, 6.9)

# Utilizamos 'np.select()' para asignar etiquetas basadas en las condiciones creadas
df_jamesbond['Score'] = np.select([cond_1, cond_2, cond_3], ['Excellent', 'Good', 'Okay'], default='Bad')
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Bond Actor Salary (EUR),Film (Year),Century,Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,0.55,Dr. No (1962),20th,Good
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3,1.45,From Russia with Love (1963),20th,Good
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7,2.91,Goldfinger (1964),20th,Good
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9,4.27,Thunderball (1965),20th,Okay
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0,,Casino Royale (1967),20th,Bad


##### Método `.apply()` con función `lambda`

La otra alternativa de crear nuevas columnas basadas en condiciones es mediante el método `.apply()` junto con una función `lambda`. La función `lambda` permite definir una lógica que se aplica a cada fila del DataFrame.

La sintaxis es la siguiente:

> ```python
> df.apply(lambda row: value_if_true if condition else value_if_false, axis=1)
> ```

En esta sintaxis, `row` representa cada fila del DataFrame, y se evalúa la condición para determinar el valor que se asigna a la nueva columna. Si la condición es verdadera, se asigna `value_if_true`; de lo contrario, se asigna `value_if_false`. Al establecer `axis=1`, se asegura que la función se aplique a lo largo de las filas.

In [78]:
# Creamos una nueva columna 'Century' utilizando '.apply()' con una función 'lambda'
df_jamesbond['Century'] = df_jamesbond.apply(lambda row: '21st' if row['Year'] > 2000 else '20th', axis=1)
df_jamesbond.iloc[18:23] # Mostramos las filas de la 18 a la 22 para verificar los resultados

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Bond Actor Salary (EUR),Film (Year),Century,Score
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2,4.64,GoldenEye (1995),20th,Good
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,"England, France, Germany, Thailand",463.2,133.9,10.0,6.5,9.09,Tomorrow Never Dies (1997),20th,Okay
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4,12.27,The World Is Not Enough (1999),20th,Okay
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1,16.27,Die Another Day (2002),21st,Okay
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0,3.0,Casino Royale (2006),21st,Excellent


#### Eliminar columnas

Para eliminar una columna de un DataFrame, se podría utilizar la sintaxis que se ha repasado en el punto anterior, en la que se seleccionan explícitamente las columnas que se desean conservar.

Sin embargo, en muchas situaciones es cómodo especificar directamente la columna que se desea eliminar. Para ello, se utilizar el método `.drop()`, que permite eliminar una o más columnas.

> ```python
> df.drop(columns=[column_list])
> ```

In [79]:
# Eliminamos las tres columnas que hemos creado antes
df_jamesbond = df_jamesbond.drop(columns=['Bond Actor Salary (EUR)', 'Film (Year)', 'Century'])

In [80]:
# Comprobamos las columnas se han eliminado
df_jamesbond.head()

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,Good
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3,Good
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7,Good
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9,Okay
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0,Bad


#### Renombrar columnas

Además de eliminar columnas del dataset original o creadas, puede ser necesario renombrar columnas para facilitar la comprensión o la manipulación de estas.

Esto se realiza mediante el método `.rename()`:

> ```python
> df.rename(columns = {'column_name_1': 'new_column_name_1', ...})
> ```

In [81]:
# Renombramos las columnas de película y de actor
df_jamesbond.rename(columns = {'Film':'Film Title', 'Actor':'Bond Actor'}).head()

Unnamed: 0,Film Title,Year,Bond Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,Good
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3,Good
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7,Good
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9,Okay
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0,Bad


#### Renombrar índices

Aunque no es muy habitual, también se puede renombrar los índices a través del método `.rename()` de una manera muy similar a como se realiza con las columnas:

> ```python
> df.rename(index = {'index_name': 'new_index_name'})
> ```

In [82]:
# Renombramos el índice '0' a 'ID_0'
df_jamesbond.rename(index = {0:'ID_0'}).head(1)

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Score
ID_0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,Good


In [83]:
# Podemos renombrar el índice sin especificar el parámetro 'index'
df_jamesbond.rename({0:'ID_0'}).head(1)

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Score
ID_0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2,Good


#### Modificar el valor de una celda

Para modificar el valor de una celda en un DataFrame, se puede utilizar el método `.loc[]`, que permite acceder a un grupo de filas y columnas para realizar cambios específicos en los datos.

La sintaxis básica para modificar el valor de una celda es la siguiente:

> ```python
> df.loc[index_label, column_name] = new_value
> ```

In [84]:
# Modificamos el valor de una celda específica
df_jamesbond.loc[4, 'Film'] = 'Casino Royale (1967)'

In [85]:
# Modificamos los valores de dos celdas específicas de una misma columna
df_jamesbond.loc[[4,22], 'Film'] = ['Casino Royale (1967)', 'Casino Royale (2006)']

In [86]:
# Modificamos los valores de dos celdas específicas de una misma fila
df_jamesbond.loc[4, ['Film','Bond Actor Salary']] = ['Casino Royale (1967)', 1.0]

In [87]:
# Comprobamos las modificaciones realizadas en las dos filas
df_jamesbond.loc[[4,22]]

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score,Score
4,Casino Royale (1967),1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,1.0,5.0,Bad
22,Casino Royale (2006),2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0,Excellent


#### Ordenar filas de un DataFrame

Una operación muy habitual a la hora de analizar datos es ordenar las filas de un DataFrame, ya que facilita la comparación de valores y la identificación de tendencias. Esta ordenación puede realizarse en función de una o varias columnas, o incluso a partir del índice.

##### Ordenar filas por columnas

Para ordenar por los valores de una o varias variables, se utiliza el método `.sort_values()`, que permite definir uno o más criterios, especificando las columnas según las cuales se desea organizar la información.

> ```python
> df.sort_values(by='column_name', ascending=True/False)
> ```

In [88]:
# Volvemos a importar el DataFrame
df_jamesbond = pd.read_csv('./data/james_bond.csv') 

In [89]:
# Ordenamos las filas del DataFrame según el 'IMDb Score'
df_jamesbond.sort_values(by='IMDb Score', ascending=False).head(10) # Mostramos el top 10

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,"England, Switzerland, Canada, Scotland, Egypt,...",533.0,45.1,,7.0
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8


In [90]:
# Ordenamos las filas del DataFrame por el 'Director' en orden ascendente y luego por el 'Budget' en orden descendente
df_jamesbond.sort_values(by=['Director','Budget'], ascending=[True,False])

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
13,Never Say Never Again,1983,Sean Connery,Irvin Kershner,"England, France, Bahamas",314.0,86.0,,6.1
16,The Living Daylights,1987,Timothy Dalton,John Glen,"England, Germany, Austria, Italy, Morocco",313.5,68.8,5.2,6.7
12,For Your Eyes Only,1981,Roger Moore,John Glen,"England, Italy, Malta, Greece",449.4,60.2,,6.7
17,Licence to Kill,1989,Timothy Dalton,John Glen,"Mexico, United States",250.9,56.7,7.9,6.6
15,A View to a Kill,1985,Roger Moore,John Glen,"England, Switzerland, Iceland, France, United ...",275.2,54.5,9.1,6.3


##### Ordenar filas por su índice

Si se busca ordenar las filas de un DataFrame por su índice, se utiliza el método `.sort_index()`.

> ```python
> df.sort_index(ascending=True/False)
> ```

In [91]:
# Ordenamos las filas del DataFrame de forma ascendente según su índice.
df_jamesbond.sort_index().head(10) # Mostramos el top 10

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
0,Dr. No,1962,Sean Connery,Terence Young,"England, Jamaica",448.8,7.0,0.6,7.2
1,From Russia with Love,1963,Sean Connery,Terence Young,"England, Scotland, Italy, Switzerland, Turkey",543.8,12.6,1.6,7.3
2,Goldfinger,1964,Sean Connery,Guy Hamilton,"England, Switzerland, United States",820.4,18.6,3.2,7.7
3,Thunderball,1965,Sean Connery,Terence Young,"England, France, Bahamas, United States",848.1,41.9,4.7,6.9
4,Casino Royale,1967,David Niven,Ken Hughes,"England, Ireland",260.0,70.0,,5.0
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,"Japan, Spain, Norway",514.2,59.9,4.4,6.8
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,"England, Switzerland, Portugal",291.5,37.3,0.6,6.7
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,"England, France, Germany, Netherlands, United ...",442.5,34.7,5.8,6.5
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,"England, United States, Jamaica",460.3,30.8,,6.7
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,"England, Thailand, Hong Kong, Portugal",334.0,27.7,,6.7


In [92]:
# Ordenamos las filas del DataFrame de forma descendente según su índice
df_jamesbond.sort_index(ascending=False)

Unnamed: 0,Film,Year,Actor,Director,Shooting Locations,Box Office,Budget,Bond Actor Salary,IMDb Score
26,No Time to Die,2021,Daniel Craig,Cary Joji Fukunaga,"England, Scotland, Faroe Islands, Jamaica",396.8,226.4,,7.3
25,Spectre,2015,Daniel Craig,Sam Mendes,"England, Austria, Italy, Vatican City, Mexico,...",725.5,206.3,,6.8
24,Skyfall,2012,Daniel Craig,Sam Mendes,"England, Scotland, Turkey, China",943.5,170.2,14.5,7.8
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,"England, Italy, Spain, Panama, Mexico, Chile, ...",514.2,181.4,8.1,6.6
22,Casino Royale,2006,Daniel Craig,Martin Campbell,"England, Italy, Czech Republic, Bahamas, Unite...",589.4,145.3,3.3,8.0
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,"England, Spain, Iceland, Norway, United States",465.4,154.2,17.9,6.1
20,The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,"England, Scotland, France, Spain, Turkey, Azer...",439.5,158.3,13.5,6.4
19,Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,"England, France, Germany, Thailand",463.2,133.9,10.0,6.5
18,GoldenEye,1995,Pierce Brosnan,Martin Campbell,"England, France, Monaco, Switzerland, Russia, ...",518.5,76.9,5.1,7.2
17,Licence to Kill,1989,Timothy Dalton,John Glen,"Mexico, United States",250.9,56.7,7.9,6.6


#### Anidar operaciones con *method chaining*

Al anidar o combinar múltiples operaciones, es común que las líneas de código se vuelvan demasiado extensas. Ante estas situaciones, se puede optar por separar nuestras operaciones en nuevas líneas de código utilizando una sintaxis especial llamada *method chaining*, lo que mejora la legibilidad y el mantenimiento del código.

> ```python
> df.operation_1\
>     .operation_2\
>     .operation_3\
> ``` 
 
⚠️ *Method chaining* no admite ningún carácter tras la barra invertida ni tampoco comentarios.

In [93]:
# Realizamos operaciones anidadas sin utilizar method chaining
df_jamesbond[df_jamesbond['Year'] > 2000].loc[:, ['Film', 'Year', 'Budget', 'IMDb Score']].sort_values(by='IMDb Score', ascending=False).head(10)

Unnamed: 0,Film,Year,Budget,IMDb Score
22,Casino Royale,2006,145.3,8.0
24,Skyfall,2012,170.2,7.8
26,No Time to Die,2021,226.4,7.3
25,Spectre,2015,206.3,6.8
23,Quantum of Solace,2008,181.4,6.6
21,Die Another Day,2002,154.2,6.1


In [94]:
# Utilizamos method chaining para anidar operaciones
df_jamesbond[df_jamesbond['Year'] > 2000]\
    .loc[:, ['Film', 'Year', 'Budget', 'IMDb Score']]\
    .sort_values(by='IMDb Score', ascending=False)\
    .head(10)

Unnamed: 0,Film,Year,Budget,IMDb Score
22,Casino Royale,2006,145.3,8.0
24,Skyfall,2012,170.2,7.8
26,No Time to Die,2021,226.4,7.3
25,Spectre,2015,206.3,6.8
23,Quantum of Solace,2008,181.4,6.6
21,Die Another Day,2002,154.2,6.1


### 2.6 - Ejercicios
---

📘 Puedes encontrar las soluciones a los ejercicios [aquí](https://github.com/jorgeggalvan/Data-Analysis-Fundamentals-with-Python/blob/main/Python_Data_Analysis_2.2_Exercises.ipynb).

#### Ejercicio 2.1

> Dataset a utilizar:  `star_wars.csv`

**2.1A:** Importa el dataset de personajes de Star Wars y selecciona las columnas 'Name', 'Homeworld' y 'Species', mostrando las primeras 10 filas del dataframe.

**2.1B:** Selecciona únicamente los personajes que:

* No pertenezcan a la especie 'Human'.
* Su planeta de origen ('Homeworld') sea 'Naboo', 'Kashyyyk' o 'Endor'.

##### Ejercicio 2.1A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.1B

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.2

> Dataset a utilizar:  `fortune_1000.csv`

**2.2A:** Importa el dataset de las mayores empresas estadounidenses y selecciona las columnas 'Company', 'Location', 'Employees' y 'Profits'.

**2.2B:** Crea una nueva columna llamada 'Profits per Employee' que se calcule dividiendo la columna 'Profits' entre la columna 'Employees'.

**2.2C:** Crea una nueva columna llamada 'Company HQ' que combine los valores de las columnas 'Company' y 'Location'.

##### Ejercicio 2.2A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.2B

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.2C

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.3

> Dataset a utilizar:  `imdb_movies.csv`

**2.3A:** Importa el dataset de películas y consulta su dimensión (números de filas y columnas).

**2.3B:** Lista todas las clasificaciones únicas de contenido ('content_rating') presentes en las películas.

##### Ejercicio 2.3A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.3B

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.4

> Dataset a utilizar:  `imdb_movies.csv`

Importa el dataset de películas, seleccionando las columnas 'movie_title', 'country', 'director_name' y 'imdb_score', y filtra las películas por los siguientes criterios:

* Que sean producidas fuera de USA o con una calificación en IMDb mayor a 8,5.
* Que sean dirigidas por alguno de los siguientes directores: Peter Jackson, Tim Burton o Steven Spielberg.

👉 Para mostrar todas las columnas de un DataFrame, se puede utilizar esta configuración de Pandas: `pd.set_option('display.max_columns', None)`

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.5

> Dataset a utilizar:  `fortune_1000.csv`

**2.5A:** Importa el dataset de las mayores empresas estadounidenses y extrae las 10 empresas con mayor facturación ('Revenue') del sector tecnológico.

**2.5B:** Renombra la columna 'Company' por 'Tech Company', y elimina las columnas 'Sector' y 'Rank'.

##### Ejercicio 2.5A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.5B

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.6

> Dataset a utilizar:  `imdb_movies.csv`

Importa el dataset de películas y extrae las 10 películas del género animación con mayor 'imbd_score', seleccionando únicamente los campos 'movie_title', 'title_year' y 'imbd_score'.

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.7

> Dataset a utilizar:  `imdb_movies.csv`

**2.7A:** Importa el dataset de películas y calcula el número de películas españolas.

**2.7B:** Extrae las 10 películas españolas con más ingresos brutos ('gross'), siempre y cuando cuenten con al menos 100 reseñas de usuarios ('num_user_for_reviews'). Extrae sólo las columnas 'movie_title', 'title_year', 'actor_1_name' y 'gross'.

**2.7C:** Modifica el valor de 'actor_1_name' para la película 'The Legend of Zorro' en el DataFrame original y cámbialo a 'Antonio Banderas'.

##### Ejercicio 2.7A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.7B

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.7C

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 2.8

> Dataset a utilizar:  `star_wars.csv`

**2.8A:** Importa el dataset de personajes Star Wars y crea una nueva columna en el DataFrame que clasifique los títulos de las películas ('Films') según si pertenecen a la trilogía original. Asigna el valor 'Original trilogy' a aquellas A New Hope, The Empire Strikes Back, Return of Jedi' y 'New films' a las demás.

**2.8B:** Exporta el DataFrame modificado en un archivo Excel.

##### Ejercicio 2.8A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 2.8B

In [None]:
# Escribe la solución al ejercicio aquí