# 🐍 **Introducción a Python para el Análisis de Datos**<br>

### 👨‍💻 Jorge Gómez Galván
* LinkedIn: [linkedin.com/in/jorgeggalvan/](https://www.linkedin.com/in/jorgeggalvan/) 
* E-mail: gomezgalvanjorge@gmail.com

## **Capítulo 3: Manipulación de Datos**
---

Este notebook aborda las técnicas fundamentales para la manipulación de datos, incluyendo la agregación de datos para resumir información, las operaciones con fechas mediante la librería Datetime, y la unión de tablas en Pandas para combinar datasets. También se explora el pivoteo de tablas para reorganizar datos.

*El notebook ha sido adaptado a partir del trabajo de Juan Martín Bellido, cuyo contenido original se encuentra en [este enlace](https://github.com/jmartinbellido/Python-Curso-Introductorio/blob/main/Capitulo%203%20Manipulacion.ipynb).*

### Índice
---

[1. Agregación de datos](#3.1---Agregación-de-datos)  
[2. Operaciones con fechas](#3.2---Operaciones-con-fechas)  
[3. Unir tablas de datos](#3.3---Unir-tablas-de-datos)  
[4. Pivotar tablas de datos](#3.4---Pivotar-tablas-de-datos)  

### 3.1 - Agregación de datos
---

En el contexto del análisis de datos, agregar datos es fundamental para realizar cálculos que permitan resumir información y extraer insights de valor. Este proceso es similar al que se hace al crear tablas dinámicas (*pivot tables*) en Excel, donde los datos se resumen y ordenan para facilitar su interpretación y análisis.

Al realizar una agregación, se debe definir el tipo de cálculo que se desee aplicar. Para esto, se utilizan las funciones de agregación específicas diseñadas para realizar cálculos resumidos. 

A continuación, se presentan las funciones de agregación más comunes:

<div style="float: left;">
    <table style="border: 1px solid black; border-collapse: collapse;">
        <tr>
            <th style="border: 1px solid black; padding: 8px;">Función de agregación</th>
            <th style="border: 1px solid black; padding: 8px;">Operación</th></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>count()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número de filas no nulas</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>size()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número total de filas (incluyendo nulos)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>nunique()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número de valores únicos</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>sum()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Suma</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>mean()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Media aritmética</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>median()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Mediana</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>mode()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Moda</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>max()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Valor máximo</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>min()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Valor mínimo</td></tr>
    </table>
</div>

#### Agregaciones básicas

Para realizar una agregación básica sobre un DataFrame, puedes utilizar directamente las funciones de agregación.

> ```python
> df.agg_function()
> ```

In [1]:
# Importamos Pandas
import pandas as pd

In [2]:
# Importamos un DataFrame
df_jamesbond = pd.read_csv('./data/james_bond.csv') 

In [3]:
# Aplicamos la función de agregación 'max()' para cada una de las variables
df_jamesbond.max()

Film                    You Only Live Twice
Year                                   2021
Actor                        Timothy Dalton
Director                      Terence Young
Shooting Locations    Mexico, United States
Box Office                            943.5
Budget                                226.4
Bond Actor Salary                      17.9
IMDb Score                              8.0
dtype: object

In [4]:
# Seleccionamos una variable y obtenemos su media
df_jamesbond['Bond Actor Salary'].mean()

6.85

In [5]:
# Seleccionamos dos variables y obtenemos su suma, redondeando el resultado
df_jamesbond[['Box Office', 'Budget']].sum().round()

Box Office    13064.0
Budget         2310.0
dtype: float64

In [6]:
# Seleccionamos una variable y obtenemos sus valores únicos
df_jamesbond['Actor'].nunique()

7

In [7]:
# Para seleccionar una única variable sin espacios en su nombre, podemos usar la notación de punto
df_jamesbond.Actor.nunique()

7

#### Método `.agg()`

Pandas incluye el método `.agg()`, dedicado expresamente a agregar datos que permite aplicar varias funciones de agregación a diferentes columnas de un DataFrame.

La sintaxis que se utiliza es la siguiente:

> ```python
> df.agg({'column_name':'agg_func'})
> ```

👉 Se utiliza un diccionario para especificar las variables sobre las cuales se realizan las operaciones de agregación.

In [8]:
# Obtenemos los actores únicos con '.agg()'
df_jamesbond.agg({'Actor':'nunique'})

Actor    7
dtype: int64

In [9]:
# Calculamos el mínimo, el máximo y la media de 'Box Office'
df_jamesbond.agg({'Box Office':['min', 'max', 'mean']})

Unnamed: 0,Box Office
min,250.9
max,943.5
mean,483.866667


In [10]:
# Agregamos dos variables, y calculamos el mínimo, el máximo y la media
df_jamesbond.agg({'Budget':['min', 'max', 'mean'], 
                  'Bond Actor Salary':['min', 'max', 'mean']})

Unnamed: 0,Budget,Bond Actor Salary
min,7.0,0.6
max,226.4,17.9
mean,85.559259,6.85


In [11]:
# Agregamos dos variables, y calculamos el mínimo, el máximo y la media
df_jamesbond.agg({'Budget':['min', 'max', 'mean'], 
                  'Bond Actor Salary':['min', 'max', 'mean']})

Unnamed: 0,Budget,Bond Actor Salary
min,7.0,0.6
max,226.4,17.9
mean,85.559259,6.85


In [12]:
# Podemos realizar calculos diferentes al agregar más de una variable
df_jamesbond.agg({'Budget':['min', 'max', 'mean'], 
                  'Bond Actor Salary':['mean', 'sum']})

Unnamed: 0,Budget,Bond Actor Salary
min,7.0,
max,226.4,
mean,85.559259,6.85
sum,,123.3


#### Agregaciones agrupadas

El método `.groupby()` de Pandas es muy importante para analizar datos, ya que se utiliza con mucha frecuencia para realizar agregaciones. Este método permite agrupar datos en función de una o más sobre variables categóricas y luego aplicar funciones de agregación sobre cada grupo.

La sintaxis para agrupar por más de una columna categórica es:

> ```python
> df.groupby('column_name_1').agg({'column_name_2':'agg_func'})
> ```

> ```python
> df.groupby('column_name_1')['column_name_2'].agg_func
> ```

- `column_name_1` es la columna por las que se desea agrupar los datos.
- `column_name_2` es la columna a la que aplica la función de agregación.

In [13]:
# Agrupamos por actor y calculamos la mediana de dos variables para cada uno
df_jamesbond.groupby('Actor')[['Bond Actor Salary','Box Office']].median()

Unnamed: 0_level_0,Bond Actor Salary,Box Office
Actor,Unnamed: 1_level_1,Unnamed: 2_level_1
Daniel Craig,8.1,589.4
David Niven,,260.0
George Lazenby,0.6,291.5
Pierce Brosnan,11.75,464.3
Roger Moore,8.45,449.4
Sean Connery,3.8,514.2
Timothy Dalton,6.55,282.2


In [14]:
# Repetimos la agrupación anterior utilizando el método '.agg()'
df_jamesbond.groupby('Actor').agg({'Bond Actor Salary':'median',
                                   'Box Office':'median'})

Unnamed: 0_level_0,Bond Actor Salary,Box Office
Actor,Unnamed: 1_level_1,Unnamed: 2_level_1
Daniel Craig,8.1,589.4
David Niven,,260.0
George Lazenby,0.6,291.5
Pierce Brosnan,11.75,464.3
Roger Moore,8.45,449.4
Sean Connery,3.8,514.2
Timothy Dalton,6.55,282.2


👉 Al realizar agregaciones en DataFrames, puede ser buena práctica utilizar otros métodos para formatear los resultados. Por ejemplo, se puede renombrar los nombres de las nuevas columnas, ordenar los datos o resetear los índices para mejorar la claridad y la interpretabilidad.

In [15]:
# Repetimos otra vez la agrupación anterior y la almacenamos en un nuevo DataFrame 
df_bond_actor = df_jamesbond.groupby('Actor').agg({'Bond Actor Salary':'median',
                                                   'Box Office':'median'})

# Ordenamos la agregación agrupada y renombramos las columnas por defecto
df_bond_actor.sort_values(by='Bond Actor Salary', ascending=False).rename(columns={'Bond Actor Salary':'Median Actor Salary','Box Office':'Median Box Office'})

Unnamed: 0_level_0,Median Actor Salary,Median Box Office
Actor,Unnamed: 1_level_1,Unnamed: 2_level_1
Pierce Brosnan,11.75,464.3
Roger Moore,8.45,449.4
Daniel Craig,8.1,589.4
Timothy Dalton,6.55,282.2
Sean Connery,3.8,514.2
George Lazenby,0.6,291.5
David Niven,,260.0


👉 Se puede agrupar los datos por varias columnas con una lista de nombres de columnas al método `.groupby()`, y aplicar diferentes funciones de agregación a una o más columnas especificadas.

> ```python
> df.groupby(['column_1', 'column_2']).agg({'column_3':['agg_func_1','agg_func_2',...], 
>                                           'column_4':['agg_func_1',...]})
> ```

In [16]:
# Agrupamos por actor y calculamos varias estadísticas para 'Bond Actor Salary' y 'Budget'
df_jamesbond.groupby('Actor').agg({'Bond Actor Salary':['size','sum','max','mean'],
                                   'Budget':['max','mean']})

Unnamed: 0_level_0,Bond Actor Salary,Bond Actor Salary,Bond Actor Salary,Bond Actor Salary,Budget,Budget
Unnamed: 0_level_1,size,sum,max,mean,max,mean
Actor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Daniel Craig,5,25.9,14.5,8.633333,226.4,185.92
David Niven,1,0.0,,,70.0,70.0
George Lazenby,1,0.6,0.6,0.6,37.3,37.3
Pierce Brosnan,4,46.5,17.9,11.625,158.3,130.825
Roger Moore,7,16.9,9.1,8.45,91.5,51.957143
Sean Connery,7,20.3,5.8,3.383333,86.0,37.242857
Timothy Dalton,2,13.1,7.9,6.55,68.8,62.75


In [17]:
# Agrupamos por director y actor, y calculamos la media de 'Box Office'
df_jamesbond.groupby(['Director','Actor']).agg({'Box Office':'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Box Office
Director,Actor,Unnamed: 2_level_1
Cary Joji Fukunaga,Daniel Craig,396.8
Guy Hamilton,Roger Moore,397.15
Guy Hamilton,Sean Connery,631.45
Irvin Kershner,Sean Connery,314.0
John Glen,Roger Moore,366.133333
John Glen,Timothy Dalton,282.2
Ken Hughes,David Niven,260.0
Lee Tamahori,Pierce Brosnan,465.4
Lewis Gilbert,Roger Moore,534.0
Lewis Gilbert,Sean Connery,514.2


#### Método `.value_counts()`

Una alternativa rápida para agrupar y contar la frecuencia de los valores únicas de una columna es utilizando el método `.value_counts()`. Este método, aunque no es una función de agregación en el sentido estricto del término, proporciona una forma sencilla de obtener un resumen de cuántas veces se repiten los valores en una columna específica.

> ```python
> serie.value_counts()
> ```

In [18]:
# Calculamos la cantidad de apariciones únicas de cada valor en la columna 'Actor'
df_jamesbond['Actor'].value_counts()

Actor
Sean Connery      7
Roger Moore       7
Daniel Craig      5
Pierce Brosnan    4
Timothy Dalton    2
David Niven       1
George Lazenby    1
Name: count, dtype: int64

In [19]:
# Calculamos la cantidad de combinaciones únicas de valores en las columnas 'Actor' y 'Director'
df_jamesbond[['Actor', 'Director']].value_counts()

Actor           Director          
Sean Connery    Terence Young         3
Roger Moore     John Glen             3
Timothy Dalton  John Glen             2
Roger Moore     Guy Hamilton          2
Daniel Craig    Sam Mendes            2
Sean Connery    Guy Hamilton          2
Roger Moore     Lewis Gilbert         2
Sean Connery    Lewis Gilbert         1
                Irvin Kershner        1
Daniel Craig    Cary Joji Fukunaga    1
                Marc Forster          1
Pierce Brosnan  Michael Apted         1
                Martin Campbell       1
                Lee Tamahori          1
George Lazenby  Peter R. Hunt         1
David Niven     Ken Hughes            1
Daniel Craig    Martin Campbell       1
Pierce Brosnan  Roger Spottiswoode    1
Name: count, dtype: int64

👉 `.value_counts()` siempre devuelve una Series (otra estructura de Pandas), por lo que puede ser útil aplicar el método `.to_frame()` para convertirla en un DataFrame.

In [20]:
# Convertimos el resultado anterior en un DataFrame
df_jamesbond['Actor'].value_counts().to_frame()

Unnamed: 0_level_0,count
Actor,Unnamed: 1_level_1
Sean Connery,7
Roger Moore,7
Daniel Craig,5
Pierce Brosnan,4
Timothy Dalton,2
David Niven,1
George Lazenby,1


In [21]:
# Renombramos la columna de conteo y reseteamos el índice del resultado anterior
df_jamesbond['Actor'].value_counts().to_frame().rename(columns={'Actor':'Total Films'}).reset_index(names='Actor')

Unnamed: 0,Actor,count
0,Sean Connery,7
1,Roger Moore,7
2,Daniel Craig,5
3,Pierce Brosnan,4
4,Timothy Dalton,2
5,David Niven,1
6,George Lazenby,1


### 3.2 - Operaciones con fechas
---

En Python, las fechas y horas no son tipos de variable nativos. Para poder trabajar con fechas y realizar operaciones con ellas, es necesario importar librerías específicas.

La librería principal para este propósito es el módulo Datetime. Este módulo `datetime` incluye varias clases para manejar fechas y horas.

In [22]:
# Importamos el módulo Datetime y las clases que utilizaremos
from datetime import date, datetime, timedelta

#### Operaciones básicas con fechas

##### Crear una fecha específica

Para crear una fecha específica en Python, se utiliza la función `date` de la siguiente manera:

> ```python
> date(year, month, day)
> ```

⚠️ No se debe definir una variable con el nombre 'date', porque se sobreescribiría la referencia a la clase `date`, lo que implicaría que no se podría crear otra fecha con esta clase.

In [23]:
# Creamos una variable con una fecha específica con 'date()'
new_date = date(2024, 10, 14)
new_date

datetime.date(2024, 10, 14)

Si además de la fecha, se desea incluir horas, minutos o segundos, se puede utilizar la clase `datetime`.

> ```python
> date(year, month, day, hour, minute, second, milisecond)
> ```

In [24]:
# Creamos una fecha específica incluyendo la hora y el minuto con 'datetime()'
datetime(2024, 10, 14, 18, 30)

datetime.datetime(2024, 10, 14, 18, 30)

##### Obtener la fecha actual

La fecha actual se puede obtener mediante el método `.today()`, el cual devuelve la fecha del sistema en el formato año, mes y día.

> ```python
> date.today()
> ```

In [25]:
# Obtenemos la fecha actual
today = date.today()
today

datetime.date(2025, 6, 15)

##### Realizar operaciones con una fecha

Es posible restar dos fechas para calcular la diferencia en días, devolviendo una variable de tipo *timedelta*. Sin embargo, no se puede sumar dos fechas directamente, sólo restarlas.

Para ajustar una fecha, ya sea sumando o restando días o semanas, se utiliza el objeto `timedelta()`, que permite realizar operaciones aritméticas con fechas.

El formato básico de `timedelta()` es el siguiente:

> ```python
> timedelta(weeks=0, days=0, hours=0, minutes=0)
> ```

In [26]:
# Restamos dos fechas
date(2024, 10, 14) - date(2024, 9, 14)

datetime.timedelta(days=30)

In [27]:
# Restamos 7 días a la fecha
date(2024, 10, 14) + timedelta(days = -7)

datetime.date(2024, 10, 7)

In [28]:
# Sumamos 6 semanas a la fecha
date(2024, 10, 14) + timedelta(weeks = 6)

datetime.date(2024, 11, 25)

In [29]:
# Sumamos 30 minutos a la fecha y hora
datetime(2024, 10, 14, 18, 30) + timedelta(minutes = 30)

datetime.datetime(2024, 10, 14, 19, 0)

#### Convertir a tipo fecha

En muchos de los datasets que se importan, es común que las fechas se encuentren almacenadas como cadenas de texto o números, lo que implica convertirlas a un objeto de tipo *date* o *datetime*. Esto se puede solucionar con la función `.to_datetime()` de Pandas.

In [30]:
# Importamos un DataFrame con fechas
df_amzn = pd.read_csv('./data/amzn_stock.csv')
df_amzn

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,1997-05-15,0.121875,0.125000,0.096354,0.097917,1443120000
1,1997-05-16,0.098438,0.098958,0.085417,0.086458,294000000
2,1997-05-19,0.088021,0.088542,0.081250,0.085417,122136000
3,1997-05-20,0.086458,0.087500,0.081771,0.081771,109344000
4,1997-05-21,0.081771,0.082292,0.068750,0.071354,377064000
...,...,...,...,...,...,...
7050,2025-05-23,198.899994,202.369995,197.850006,200.990005,33393500
7051,2025-05-27,203.089996,206.690002,202.190002,206.020004,34892000
7052,2025-05-28,205.919998,207.660004,204.410004,204.720001,28549800
7053,2025-05-29,208.029999,208.809998,204.229996,205.699997,34650000


In [31]:
# Consultamos los tipos de variables del DataFrame
df_amzn.dtypes

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

In [32]:
# Convertimos la columna 'Date' a tipo fecha
df_amzn['Date'] = pd.to_datetime(df_amzn['Date'])
df_amzn.dtypes

Date      datetime64[ns]
Open             float64
High             float64
Low              float64
Close            float64
Volume             int64
dtype: object

En caso de que Pandas no identifique automáticamente el formato de fecha, se puede especificar editando el parámetro opcional `format`.

In [33]:
# Convertimos la columna 'Date' a tipo fecha, especificando el formato
df_amzn['Date'] = pd.to_datetime(df_amzn['Date'], format = '%Y-%m-%d')
df_amzn.dtypes

Date      datetime64[ns]
Open             float64
High             float64
Low              float64
Close            float64
Volume             int64
dtype: object

#### Extraer campos a partir de fechas

A partir de una fecha de tipo *datetime*, se pueden extraer diversos componentes que resultan muy útiles. Estos componentes permiten descomponer una fecha en sus elementos constitutivos, facilitando el análisis y la manipulación de información temporal.

A continuación, se indican los principales campos que se pueden obtener a partir de una fecha:

<div style="float: left;">
    <table style="border: 1px solid black; border-collapse: collapse;">
        <tr>
            <th style="border: 1px solid black; padding: 8px;">Campo</th>
            <th style="border: 1px solid black; padding: 8px;">Descripción</th></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>year</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Año</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>month_name()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Nombre completo del mes (January, February...)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>month</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número del mes (1 a 12)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>day</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número del día del mes (1 a 31)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>day_name()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Nombre del día de la semana (Monday, Tuesday...)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>weekday</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número del día de la semana (0 = lunes, 6 = domingo)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>quarter</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Trimestre del año (1 a 4)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>isocalendar().week</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número de la semana del año (1 a 52/53)</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>dayofyear</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Número del día del año (1 a 365/366)</td></tr>
    </table>
</div>

In [34]:
# Creamos una columna con el año
df_amzn['Year'] = df_amzn['Date'].dt.year

# Creamos una columna con el mes (texto)
df_amzn['Month Name'] = df_amzn['Date'].dt.month_name()

# Creamos una columna con el mes
df_amzn['Month'] = df_amzn['Date'].dt.month

# Creamos una columna con el día
df_amzn['Day'] = df_amzn['Date'].dt.day

# Creamos una columna con el día de la semana (texto)
df_amzn['Week Day'] = df_amzn['Date'].dt.day_name()

# Creamos una columna con el día de la semana
df_amzn['Week Day Number'] = df_amzn['Date'].dt.weekday + 1 # Sumamos 1 para que el lunes sea 1 y el domingo sea 7

In [35]:
# Creamos una columna con el trimestre
df_amzn['Quarter'] = df_amzn['Date'].dt.quarter

# Creamos una columna con el número de semana
df_amzn['Week Number'] = df_amzn['Date'].dt.isocalendar().week

# Creamos una columna con el día del año
df_amzn['Day of Year'] = df_amzn['Date'].dt.dayofyear

In [36]:
# Mostramos el DataFrame con los nuevos campos creados
df_amzn.tail()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Year,Month Name,Month,Day,Week Day,Week Day Number,Quarter,Week Number,Day of Year
7050,2025-05-23,198.899994,202.369995,197.850006,200.990005,33393500,2025,May,5,23,Friday,5,2,21,143
7051,2025-05-27,203.089996,206.690002,202.190002,206.020004,34892000,2025,May,5,27,Tuesday,2,2,22,147
7052,2025-05-28,205.919998,207.660004,204.410004,204.720001,28549800,2025,May,5,28,Wednesday,3,2,22,148
7053,2025-05-29,208.029999,208.809998,204.229996,205.699997,34650000,2025,May,5,29,Thursday,4,2,22,149
7054,2025-05-30,204.839996,205.990005,201.699997,205.009995,51679400,2025,May,5,30,Friday,5,2,22,150


#### Agregar datos por componentes de fecha

Se pueden agregar datos agrupando por componentes de fecha que se hayan calculado, utilizándolos como variables categóricas.

In [37]:
# Agrupamos por año y trimestre para calcular la media de 'Close'
df_amzn.groupby(['Year', 'Quarter']).agg({'Close':'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Close
Year,Quarter,Unnamed: 2_level_1
1997,2,0.077759
1997,3,0.131816
1997,4,0.220105
1998,1,0.282681
1998,2,0.447464
...,...,...
2024,2,183.703016
2024,3,182.457500
2024,4,204.584687
2025,1,217.002334


In [38]:
# Calculamos la media de 'Close' agrupando por el año
amzn_yearly_close = df_amzn.groupby('Year').agg({'Close':'mean'})
amzn_yearly_close.tail(10) # Mostramos los últimos 10 años

Unnamed: 0_level_0,Close
Year,Unnamed: 1_level_1
2016,34.976157
2017,48.408351
2018,82.086309
2019,89.45946
2020,134.042755
2021,167.193349
2022,126.098819
2023,121.3728
2024,184.628691
2025,206.16598


#### Método `.shift()`

El método `.shift()` permite comparar un valor con sus valores anteriores o siguientes en la misma columna, ya que toma el valor de filas anteriores o posteriores.

> ```python
> df['colum_name'].shift(periods, fill_value)
> ```

- `periods`: número de períodos que se van a desplazar (puede ser positivo o negativo).
- `fill_value`: valor que se utiliza para los valores nulos (por defecto, *NaN*).

In [39]:
# Creamos una columna en la que se asigna los valores de 'Close' desplazados una fila hacia abajo
amzn_yearly_close['Last Year Close'] = amzn_yearly_close['Close'].shift(1)
amzn_yearly_close.tail(10)

Unnamed: 0_level_0,Close,Last Year Close
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,34.976157,23.906915
2017,48.408351,34.976157
2018,82.086309,48.408351
2019,89.45946,82.086309
2020,134.042755,89.45946
2021,167.193349,134.042755
2022,126.098819,167.193349
2023,121.3728,126.098819
2024,184.628691,121.3728
2025,206.16598,184.628691


In [40]:
# Calculamos el porcentaje del crecimiento anual
amzn_yearly_close['YOY Growth Rate'] = ((amzn_yearly_close['Close'] / amzn_yearly_close['Last Year Close']) - 1).round(2)
amzn_yearly_close.tail(10)

Unnamed: 0_level_0,Close,Last Year Close,YOY Growth Rate
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,34.976157,23.906915,0.46
2017,48.408351,34.976157,0.38
2018,82.086309,48.408351,0.7
2019,89.45946,82.086309,0.09
2020,134.042755,89.45946,0.5
2021,167.193349,134.042755,0.25
2022,126.098819,167.193349,-0.25
2023,121.3728,126.098819,-0.04
2024,184.628691,121.3728,0.52
2025,206.16598,184.628691,0.12


### 3.3 - Unir tablas de datos
---

Las uniones de DataFrames son fundamentales en el análisis de datos, ya que permiten combinar múltiples datasets para obtener información más completa y realizar análisis más profundos. En Pandas, existen varios métodos para unir dos o más DataFrames, y cada uno tiene características específicas sobre cómo se combinan las tablas.

Se pueden distinguir tres principales formas de unir tablas de datos, especificando si son por filas o por columnas:

<div style="float: left;">
    <table style="border: 1px solid black; border-collapse: collapse;">
        <tr>
            <th style="border: 1px solid black; padding: 8px;">Método</th>
            <th style="border: 1px solid black; padding: 8px;">Tipo de unión</th>
            <th style="border: 1px solid black; padding: 8px;">Descripción</th></tr>
        <tr>
            <td rowspan="2" style="border: 1px solid black; padding: 8px;"><b><code>pd.concat()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Concatenación por filas</td>
            <td style="border: 1px solid black; padding: 8px;">Apila DataFrames uno sobre otro.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;">Concatenación por columnas</td>
            <td style="border: 1px solid black; padding: 8px;">Combina DataFrames uno al lado del otro.</td></tr>
        <tr>
            <td rowspan="4" style="border: 1px solid black; padding: 8px;"><b><code>.merge()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Left Join</td>
            <td style="border: 1px solid black; padding: 8px;">Incluye todas las filas del DataFrame principal y, del secundario, sólo aquellas donde la clave coincida con la del primero.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;">Right Join</td>
            <td style="border: 1px solid black; padding: 8px;">Incluye todas las filas del DataFrame secundario y, del principal, sólo aquellas donde la clave coincida con la del segundo.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;">Inner Join</td>
            <td style="border: 1px solid black; padding: 8px;">Incluye sólo filas con claves coincidentes en ambos DataFrames.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;">Outer Join</td>
            <td style="border: 1px solid black; padding: 8px;">Incluye todas las filas de ambos DataFrames.</td></tr>
        <tr>
            <td style="border: 1px solid black; padding: 8px;"><b><code>.join()</code></b></td>
            <td style="border: 1px solid black; padding: 8px;">Unión por índices</td>
            <td style="border: 1px solid black; padding: 8px;">Combina DataFrames a partir de sus índices.</td></tr>
    </table>
</div>

####  Concatenar tablas

La función `pd.concat()` permite unir DataFrames de manera vertical (apilándolos por filas) u horizontal (combinándolos por columnas).

##### Concatenar tablas por filas

Al concatenar DataFrames verticalmente, se apilan uno sobre otro, aumentando el número de filas. Esta función es útil cuando se tienen DataFrames con la misma estructura, es decir, que contienen las mismas columnas.

La sintaxis básica es:

> ```python
> pd.concat([df_1, df_2, ...])
> ```

👉 El orden de las columnas no es relevante, siempre que los nombres sean iguales en ambos DataFrames.

⚠️ Si los nombres de las columnas no coinciden entre DataFrames, se agregan las columnas adicionales y se completan con `NaN` aquellas celdas donde falten datos en algún DataFrame

In [41]:
# Importamos dos DataFrames
df_aapl_23 = pd.read_csv('./data/aapl_stock_2023.csv')
df_aapl_24 = pd.read_csv('./data/aapl_stock_2024.csv')

# Convertimos las columnas 'Date' a tipo fecha
df_aapl_23['Date'] = pd.to_datetime(df_aapl_23['Date'])
df_aapl_24['Date'] = pd.to_datetime(df_aapl_24['Date'])

In [42]:
# Mostramos las primeras filas del primer DataFrame
df_aapl_23.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2023-01-03,130.279999,130.899994,124.169998,125.07,112117500
1,2023-01-04,126.889999,128.660004,125.080002,126.360001,89113600
2,2023-01-05,127.129997,127.769997,124.760002,125.019997,80962700


In [43]:
# Mostramos las primeras filas del segundo DataFrame
df_aapl_24.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2024-01-02,185.789438,187.070068,182.553143,184.290421,82488700
1,2024-01-03,182.880742,184.528677,182.096477,182.910522,58414500
2,2024-01-04,180.82577,181.758939,179.565014,180.587524,71983600


In [44]:
# Unimos los dos DataFrames por filas
df_aapl = pd.concat([df_aapl_23, df_aapl_24])
df_aapl

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2023-01-03,130.279999,130.899994,124.169998,125.070000,112117500
1,2023-01-04,126.889999,128.660004,125.080002,126.360001,89113600
2,2023-01-05,127.129997,127.769997,124.760002,125.019997,80962700
3,2023-01-06,126.010002,130.289993,124.889999,129.619995,87754700
4,2023-01-09,130.470001,133.410004,129.889999,130.149994,70790800
...,...,...,...,...,...,...
247,2024-12-24,254.875189,257.588630,254.675658,257.578674,23234700
248,2024-12-26,257.568678,259.474086,257.010028,258.396667,27237100
249,2024-12-27,257.209530,258.077462,252.451019,254.974930,42355300
250,2024-12-30,251.623020,252.889969,250.146586,251.593094,35557500


El parámetro `keys` permite agregar etiquetas en el eje de concatenación para rastrear el origen de las filas en el DataFrame resultante

In [45]:
# Añadimos etiquetas al unir los dos DataFrame para ayudar a identificar el origen de los datos
pd.concat([df_aapl_23, df_aapl_24], keys=[2023, 2024])

Unnamed: 0,Unnamed: 1,Date,Open,High,Low,Close,Volume
2023,0,2023-01-03,130.279999,130.899994,124.169998,125.070000,112117500
2023,1,2023-01-04,126.889999,128.660004,125.080002,126.360001,89113600
2023,2,2023-01-05,127.129997,127.769997,124.760002,125.019997,80962700
2023,3,2023-01-06,126.010002,130.289993,124.889999,129.619995,87754700
2023,4,2023-01-09,130.470001,133.410004,129.889999,130.149994,70790800
...,...,...,...,...,...,...,...
2024,247,2024-12-24,254.875189,257.588630,254.675658,257.578674,23234700
2024,248,2024-12-26,257.568678,259.474086,257.010028,258.396667,27237100
2024,249,2024-12-27,257.209530,258.077462,252.451019,254.974930,42355300
2024,250,2024-12-30,251.623020,252.889969,250.146586,251.593094,35557500


##### Concatenar tablas por columnas

Si se desea unir DataFrames horizontalmente, uno al lado del otro, se utiliza también `pd.concat()` especificando el parámetro `axis=1`.

> ```python
> pd.concat([df_1, df_2, ...], axis=1)
> ```

In [46]:
# Unimos los dos DataFrames por columnas
pd.concat([df_aapl_23, df_aapl_24], axis=1)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Date.1,Open.1,High.1,Low.1,Close.1,Volume.1
0,2023-01-03,130.279999,130.899994,124.169998,125.070000,112117500.0,2024-01-02,185.789438,187.070068,182.553143,184.290421,82488700
1,2023-01-04,126.889999,128.660004,125.080002,126.360001,89113600.0,2024-01-03,182.880742,184.528677,182.096477,182.910522,58414500
2,2023-01-05,127.129997,127.769997,124.760002,125.019997,80962700.0,2024-01-04,180.825770,181.758939,179.565014,180.587524,71983600
3,2023-01-06,126.010002,130.289993,124.889999,129.619995,87754700.0,2024-01-05,180.666963,181.431354,178.860187,179.862839,62303300
4,2023-01-09,130.470001,133.410004,129.889999,130.149994,70790800.0,2024-01-08,180.766224,184.250716,180.180517,184.210999,59144500
...,...,...,...,...,...,...,...,...,...,...,...,...
247,2023-12-27,192.490005,193.500000,191.089996,193.149994,48087700.0,2024-12-24,254.875189,257.588630,254.675658,257.578674,23234700
248,2023-12-28,194.139999,194.660004,193.169998,193.580002,34049900.0,2024-12-26,257.568678,259.474086,257.010028,258.396667,27237100
249,2023-12-29,193.899994,194.399994,191.729996,192.529999,42628800.0,2024-12-27,257.209530,258.077462,252.451019,254.974930,42355300
250,NaT,,,,,,2024-12-30,251.623020,252.889969,250.146586,251.593094,35557500


####  Unir tablas por columnas o índices

Para unir tablas a partir de campos comunes o de índices, se emplean los métodos `.merge()` y `.join()`, respectivamente.

#####  Unir tablas con campos en común (por columnas)

El método `.merge()` permite combinar DataFrames mediante uniones similares a las que se realizan en bases de datos SQL, es decir, en uno o más campos o claves comunes que están presentes en ambos DataFrames.

La sintaxis es la siguiente:

> ```python
> df_1.merge(df_2, how='join_type', left_on='key_1', right_on='key_2')
> ```

👉 En toda unión entre DataFrames, es fudamental que se identifiquen claramente las claves o *keys* (las columnas comunes utilizadas para emparejar las filas entre los datasets). Si no se especifican las claves, `.merge()` intentará utilizar cualquier columna con el mismo nombre en ambos DataFrames para realizar la unión. En caso de las claves tengan nombres diferentes en cada DataFrame, se deben utilizar los parámetros `left_on` y `right_on` dentro del método `.merge()`, indicando qué columnas son las claves para la unión.

Respecto a los tipos de uniones, este método admite cinco:

- **Left Join** (`how='left'`)**:** devuelve todas las filas del DataFrame principal (izquierdo) y sólo las filas coincidentes del DataFrame secundario (derecho). Las filas del DataFrame principal que no encuentren coincidencia en el secundario tendrán valores `NaN` en las columnas correspondientes al secundario.

- **Left Join** (`how='right'`)**:** devuelve todas las filas del DataFrame secundario (derecho) y sólo las filas coincidentes del DataFrame principal (izquierdo). Las filas del DataFrame secundario que no encuentren coincidencia en el principal tendrán valores `NaN` en las columnas correspondientes al principal.

- **Outer Join** (`how='outer'`)**:** devuelve todas las filas de ambos DataFrames, completando con `NaN` en las columnas del DataFrame que no tenga coincidencia en el otro, y viceversa.

- **Inner Join** (`how='inner'`)**:** devuelve sólo las filas coincidentes en ambos DataFrames, eliminando las filas sin coincidencias, por lo que no se generan `NaN`.

- **Cross Join** (`how='cross'`)**:** devuelve todas las combinaciones posibles de filas entre ambos DataFrames. No requiere claves de unión y no se generan `NaN`.

In [47]:
# Unimos dos DataFrames por una columna en común ('Date')
df_amzn[['Date','Close']].merge(df_aapl[['Date','Close']], # Seleccionamos el DataFrame principal y secundario
                                how='left', # Especificamos el tipo de unión
                                left_on='Date', right_on='Date') # Especificamos las claves

Unnamed: 0,Date,Close_x,Close_y
0,1997-05-15,0.097917,
1,1997-05-16,0.086458,
2,1997-05-19,0.085417,
3,1997-05-20,0.081771,
4,1997-05-21,0.071354,
...,...,...,...
7050,2025-05-23,200.990005,
7051,2025-05-27,206.020004,
7052,2025-05-28,204.720001,
7053,2025-05-29,205.699997,


👉 El parámetro `suffixes` en el método `.merge()` es de mucha utilidad para diferenciar columnas que pueden tener el mismo nombre en ambos DataFrames.

In [48]:
# Repetimos la unión anterior añadiendo sufijos
df_amzn[['Date','Close']].merge(df_aapl[['Date','Close']], how='left', left_on='Date', right_on='Date', suffixes=(' AMZN', ' AAPL')) 

Unnamed: 0,Date,Close AMZN,Close AAPL
0,1997-05-15,0.097917,
1,1997-05-16,0.086458,
2,1997-05-19,0.085417,
3,1997-05-20,0.081771,
4,1997-05-21,0.071354,
...,...,...,...
7050,2025-05-23,200.990005,
7051,2025-05-27,206.020004,
7052,2025-05-28,204.720001,
7053,2025-05-29,205.699997,


In [49]:
# Importamos dos DataFrames
df_queen_tracks = pd.read_csv('./data/queen_tracks.csv')
df_queen_albums = pd.read_csv('./data/queen_albums.csv')

In [50]:
# Mostramos las primeras del filas del primer DataFrame
df_queen_tracks.head()

Unnamed: 0,Album ID,Track,Year,Track Duration,Key,Mode,Tempo,Time Signature,Loudness,Energy,Danceability,Valence,Acousticness,Instrumentalness,Speechiness,Liveness,Popularity
0,1,Doing Alright,1973,249.21,9,1,93.294,4,-12.408,0.293,0.341,0.178,0.756,2.3e-05,0.0356,0.0833,32
1,1,Great King Rat,1973,343.01,4,0,135.276,4,-12.363,0.851,0.35,0.428,0.0404,0.000619,0.208,0.115,26
2,1,Jesus,1973,224.17,11,0,114.756,4,-7.077,0.74,0.356,0.531,0.153,1e-06,0.163,0.165,22
3,1,Keep Yourself Alive - 2011 Mix,1973,226.72,2,1,134.204,4,-9.498,0.721,0.419,0.593,0.25,4.2e-05,0.0792,0.104,31
4,1,Liar,1973,383.92,2,1,149.084,4,-7.227,0.787,0.261,0.267,0.00279,0.0626,0.212,0.178,23


In [51]:
# Mostramos el segundo DataFrame
df_queen_albums

Unnamed: 0,Album ID,Album,Release Year,Producers,Genre,Spotify Album
0,1,Queen,1973,"Queen, Roy Baker, John Anthony",Hard Rock,5SSpz2RyyEhLt5FDymT4Ph
1,2,Queen II,1974,"Queen, Roy Baker, Robin Cable",Hard Rock,2RKEso6nin3nhRyAd36Omv
2,3,Sheer Heart Attack,1974,"Queen, Roy Baker",Hard Rock,5CooX2xg5YibepSfjbRFNT
3,4,A Night At The Opera,1975,"Queen, Roy Baker",Hard Rock,75eP8LZolyNBpqIRyB5pvB
4,5,A Day At The Races,1976,Queen,Hard Rock,3f45rzbU4dYQBTV9v5RFBB
5,6,News of the World,1977,Queen,Hard Rock,3TKTjR4E3LAMfRsPeRsNhT
6,7,Jazz,1978,"Queen, Roy Baker",Hard Rock,5X3rA8To5GDOeIWdQyMEcE
7,8,The Game,1980,"Queen, Reinhold Mack",Pop Rock,1h0j80HhdzIMsUGUFiVkqa
8,9,Flash Gordon,1980,"Queen, Reinhold Mack, Brian May",Pop Rock,2SS9qutxzz0XZf4zmoQVdx
9,10,Hot Space,1982,"Queen, Reinhold Mack",Pop Rock,0fZCqpTHYq2k89uG6pPTYE


In [52]:
# Unimos dos DataFrames por una columna en común ('Album ID')
df_queen_albums[['Album ID','Album']].merge(df_queen_tracks, how='right', left_on='Album ID', right_on='Album ID')

Unnamed: 0,Album ID,Album,Track,Year,Track Duration,Key,Mode,Tempo,Time Signature,Loudness,Energy,Danceability,Valence,Acousticness,Instrumentalness,Speechiness,Liveness,Popularity
0,1,Queen,Doing Alright,1973,249.21,9,1,93.294,4,-12.408,0.2930,0.341,0.1780,0.75600,0.000023,0.0356,0.0833,32
1,1,Queen,Great King Rat,1973,343.01,4,0,135.276,4,-12.363,0.8510,0.350,0.4280,0.04040,0.000619,0.2080,0.1150,26
2,1,Queen,Jesus,1973,224.17,11,0,114.756,4,-7.077,0.7400,0.356,0.5310,0.15300,0.000001,0.1630,0.1650,22
3,1,Queen,Keep Yourself Alive - 2011 Mix,1973,226.72,2,1,134.204,4,-9.498,0.7210,0.419,0.5930,0.25000,0.000042,0.0792,0.1040,31
4,1,Queen,Liar,1973,383.92,2,1,149.084,4,-7.227,0.7870,0.261,0.2670,0.00279,0.062600,0.2120,0.1780,23
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172,15,Made in Heaven,Mother Love,1995,286.17,7,0,184.109,4,-7.862,0.4120,0.373,0.2370,0.22900,0.000577,0.0328,0.4110,13
173,15,Made in Heaven,My Life Has Been Saved,1995,195.39,7,1,204.165,4,-7.344,0.5840,0.344,0.3090,0.08230,0.000001,0.0296,0.1450,11
174,15,Made in Heaven,Too Much Love Will Kill You,1995,259.21,7,1,145.259,4,-7.600,0.3960,0.386,0.2110,0.58200,0.000057,0.0298,0.1590,14
175,15,Made in Heaven,Untitled,1995,1354.93,2,1,129.457,5,-31.607,0.0124,0.165,0.0311,0.68100,0.913000,0.0540,0.0803,8


#####  Unir tablas sin campos en común (por índices)

El método `.join()` permite combinar DataFrames utilizando sus índices como clave de unión, lo que significa que los valores de los índices en ambos DataFrames se encuentran alineados. Este método puede ser más sencillo de usar que `.merge()` cuando se trabaja principalmente con índices, ya que no requiere especificar explícitamente las columnas de unión.

La sintaxis para unir tablas por los índices es la siguiente:

> ```python
> df_1.join(df_2)
> ```

Por defecto, realiza una unión de tipo left join, es decir, incluye todas las filas del DataFrame izquierdo y sólo aquellas del DataFrame derecho que tengan un índice coincidente. Sin embargo, también se pueden especificar otros tipos de uniones, como inner, outer y right, con el parámetro `how`.

In [53]:
# Creamos un primer DataFrame seleccionando dos columnas
df_1 = df_queen_albums[['Album','Release Year']]
df_1

Unnamed: 0,Album,Release Year
0,Queen,1973
1,Queen II,1974
2,Sheer Heart Attack,1974
3,A Night At The Opera,1975
4,A Day At The Races,1976
5,News of the World,1977
6,Jazz,1978
7,The Game,1980
8,Flash Gordon,1980
9,Hot Space,1982


In [54]:
# Creamos un segundo DataFrame seleccionando dos columnas
df_2 = df_queen_albums[['Producers','Genre']]
df_2

Unnamed: 0,Producers,Genre
0,"Queen, Roy Baker, John Anthony",Hard Rock
1,"Queen, Roy Baker, Robin Cable",Hard Rock
2,"Queen, Roy Baker",Hard Rock
3,"Queen, Roy Baker",Hard Rock
4,Queen,Hard Rock
5,Queen,Hard Rock
6,"Queen, Roy Baker",Hard Rock
7,"Queen, Reinhold Mack",Pop Rock
8,"Queen, Reinhold Mack, Brian May",Pop Rock
9,"Queen, Reinhold Mack",Pop Rock


In [55]:
# Unimos los dos DataFrames por sus índices
df_1.join(df_2)

Unnamed: 0,Album,Release Year,Producers,Genre
0,Queen,1973,"Queen, Roy Baker, John Anthony",Hard Rock
1,Queen II,1974,"Queen, Roy Baker, Robin Cable",Hard Rock
2,Sheer Heart Attack,1974,"Queen, Roy Baker",Hard Rock
3,A Night At The Opera,1975,"Queen, Roy Baker",Hard Rock
4,A Day At The Races,1976,Queen,Hard Rock
5,News of the World,1977,Queen,Hard Rock
6,Jazz,1978,"Queen, Roy Baker",Hard Rock
7,The Game,1980,"Queen, Reinhold Mack",Pop Rock
8,Flash Gordon,1980,"Queen, Reinhold Mack, Brian May",Pop Rock
9,Hot Space,1982,"Queen, Reinhold Mack",Pop Rock


### 3.4 - Pivotar tablas de datos
---

En ocasiones, las tablas de datos están estructuradas de una manera que no resulta adecuada para la exploración y el análisis que se desea realizar. En estos casos, el pivoteo de tablas es una solución para reorganizar la información y facilitar su manipulación.

A través de esta técnica, los datos pueden transformarse de un formato largo o *long* a un formato ancho o *wide*, o viceversa.

#### Convertir datos de formato *long* a *wide*

El método `.pivot()` toma una tabla que puede estar en formato *long* y la transforma en un formato *wide*. En términos simples, permite reestructurar los datos cambiando filas a columnas.

> ```python
> df.pivot(index='index_columns', columns='new_columns', values='value_columns')
> ```

- `index`: columna o columnas que se utilizan como índice en la nueva tabla.
- `columns`: columna o columnas cuyos valores se convierten en las columnas de la nueva tabla.
- `values`: columna o columnas cuyos valores que se utilizan para completar las celdas de la nueva tabla. Si se omite, se utilizan todos los valores disponibles.

In [56]:
# Importamos un DataFrame
df_eu_countries = pd.read_csv('./data/european_countries_long.csv')
df_eu_countries

Unnamed: 0,Country,Year,Indicator,Value
0,Albania,1990,Population,3286542.00
1,Albania,2000,Population,3089027.00
2,Albania,2010,Population,2913021.00
3,Albania,2020,Population,2837849.00
4,Albania,1990,Life Expectancy,73.14
...,...,...,...,...
571,United Kingdom,2020,Life Expectancy,80.35
572,United Kingdom,1990,GDP,10931693.89
573,United Kingdom,2000,GDP,16655348.77
574,United Kingdom,2010,GDP,24854825.96


In [57]:
# Pivotamos el DataFrame de formato long a wide
df_eu_countries.pivot(index='Country', columns=['Indicator', 'Year'], values='Value')

Indicator,Population,Population,Population,Population,Life Expectancy,Life Expectancy,Life Expectancy,Life Expectancy,GDP,GDP,GDP,GDP
Year,1990,2000,2010,2020,1990,2000,2010,2020,1990,2000,2010,2020
Country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Albania,3286542.0,3089027.0,2913021.0,2837849.0,73.14,75.4,77.94,76.99,20285.54,34803.55,119269.27,151627.34
Andorra,53569.0,66097.0,71519.0,77700.0,,,,82.5,10289.9,14326.06,34499.26,28910.01
Armenia,3556539.0,3168523.0,2946293.0,2805608.0,68.82,70.62,73.16,72.17,22568.63,19115.64,92602.86,126416.99
Austria,7677850.0,8011566.0,8363404.0,8916864.0,75.57,78.13,80.58,81.19,1664633.86,1972896.25,3922751.07,4350493.17
Azerbaijan,7175200.0,8048600.0,9054332.0,10093121.0,62.35,64.89,69.53,66.87,88848.48,52726.16,529092.95,426930.0
Belarus,10189348.0,9979610.0,9483836.0,9379952.0,70.84,68.91,70.4,72.46,,127367.8,572319.05,613717.55
Belgium,9967379.0,10251250.0,10895586.0,11538604.0,76.05,77.72,80.18,80.7,2053317.48,2367924.6,4814208.83,5260215.13
Bosnia and Herzegovina,4494310.0,4179350.0,3811088.0,3318407.0,72.35,74.5,77.07,76.22,77534.78,55677.73,171763.16,202260.37
Bulgaria,8718289.0,8170172.0,7395599.0,6934015.0,71.64,71.66,73.51,73.66,206320.91,132459.9,507609.29,703687.58
Croatia,4777368.0,4468302.0,4295427.0,4047680.0,72.17,72.81,76.48,77.72,256502.13,221284.15,588364.06,582213.01


#### Convertir datos de formato *wide* a *long*

El método `.melt()` se utiliza para transformar un DataFrame de un formato *wide* a un formato *long*. Es decir, permite desagregar columnas en filas.

> ```python
> df.melt(id_vars='id_columns', value_vars='value_columns', var_name='variable_name', value_name='value_name')
> ```

- `id_vars`:  columna o columnas que se mantienen fijas en la nueva tabla. Si no se especifican, se utilizan todas las columnas que no están en `value_vars`.
- `value_vars`: columna o columnas que se transforman en una única columna en la nueva. Si no se especifican, se utilizan todas las columnas que no están en `id_vars`.
- `var_name`: nombre de la nueva columna que contienen los nombres de las columnas transformadas en una única. Por defecto, se utiliza el nombre "variable".
- `value_name`: nombre de la nueva columna que contienen los valores de las columnas transformadas en una única. Por defecto, se utiliza el nombre "value".

In [58]:
# Importamos un DataFrame
df_eu_countries = pd.read_csv('./data/european_countries_wide.csv')
df_eu_countries.head()

Unnamed: 0,Country,Population 1990,Population 2000,Population 2010,Population 2020,Life Expectancy 1990,Life Expectancy 2000,Life Expectancy 2010,Life Expectancy 2020,GDP 1990,GDP 2000,GDP 2010,GDP 2020
0,Albania,3286542.0,3089027.0,2913021.0,2837849.0,73.144,75.404,77.936,76.989,20285.54,34803.55,119269.27,151627.34
1,Andorra,53569.0,66097.0,71519.0,77700.0,,,,82.5,10289.9,14326.06,34499.26,28910.01
2,Armenia,3556539.0,3168523.0,2946293.0,2805608.0,68.821,70.624,73.16,72.173,22568.63,19115.64,92602.86,126416.99
3,Austria,7677850.0,8011566.0,8363404.0,8916864.0,75.568293,78.126829,80.580488,81.192683,1664633.86,1972896.25,3922751.07,4350493.17
4,Azerbaijan,7175200.0,8048600.0,9054332.0,10093121.0,62.352,64.891,69.529,66.868,88848.48,52726.16,529092.95,426930.0


In [59]:
# Pivotamos el DataFrame de formato wide a long
df_eu_countries.melt(id_vars = 'Country', var_name = 'Indicator', value_name = 'Value')

Unnamed: 0,Country,Indicator,Value
0,Albania,Population 1990,3286542.00
1,Andorra,Population 1990,53569.00
2,Armenia,Population 1990,3556539.00
3,Austria,Population 1990,7677850.00
4,Azerbaijan,Population 1990,7175200.00
...,...,...,...
571,Sweden,GDP 2020,5470541.74
572,Switzerland,GDP 2020,7419994.06
573,Turkey,GDP 2020,7203384.98
574,Ukraine,GDP 2020,1566177.22


In [60]:
# Pivotamos los datos de formato wide a long especificando columnas a convertir en filas
df_eu_countries.melt(id_vars = 'Country', value_vars = ['Population 1990','Population 2000','Population 2010','Population 2020'], 
                     var_name = 'Indicator', value_name = 'Value')

Unnamed: 0,Country,Indicator,Value
0,Albania,Population 1990,3286542.0
1,Andorra,Population 1990,53569.0
2,Armenia,Population 1990,3556539.0
3,Austria,Population 1990,7677850.0
4,Azerbaijan,Population 1990,7175200.0
...,...,...,...
187,Sweden,Population 2020,10353442.0
188,Switzerland,Population 2020,8638167.0
189,Turkey,Population 2020,83384680.0
190,Ukraine,Population 2020,44207754.0


### 3.5 - Ejercicios
---

📘 Puedes encontrar las soluciones a los ejercicios [aquí](https://github.com/jorgeggalvan/Data-Analysis-Fundamentals-with-Python/blob/main/Python_Data_Analysis_3.2_Exercises.ipynb).

#### Ejercicio 3.1

> Dataset a utilizar:  `fortune_1000.csv`

**3.1A:** Calcula la suma total de la facturación ('Revenue') por sector.

**3.1B:** Repite el apartado anterior, pero filtrando únicamente por los sectores 'Retailing', 'Technology' y 'Wholesalers'.

##### Ejercicio 3.1A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 3.1B

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.2

> Dataset a utilizar:  `star_wars.csv`

Extrae los 5 planetas ('Homeworld') que contienen el mayor número de personajes incluidos en el dataset.

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.3

> Dataset a utilizar:  `world_countries.csv`

Calcula las siguientes métricas por continente:

- Población total.
- Esperanza de vida media.
- Producto Interior Bruto (PIB) per cápita medio ('GDP' / 'Population').

In [None]:
pd.read_csv('./data/world_countries.csv')

#### Ejercicio 3.4

> Dataset a utilizar:  `imdb_movies.csv`

**3.4A:** De los 10 países con más películas producidas en el siglo XXI, crea un DataFrame que incluya el conteo total de películas agrupadas por país, así como la puntuación media y máxima de IMDb, y la duración media y máxima de las películas.

**3.4B:** Lista la cantidad de películas disponibles en cada uno de los idiomas presentes en los datos.

##### Ejercicio 3.4A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 3.4B

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.5

> Dataset a utilizar:  `laliga_results.csv`

**3.5A:** Añade un nuevo campo que indique el día de la semana, expresado en texto, correspondiente a cada partido.

**3.5B:** Muestra el total de goles que se han marcado en cada uno de los 7 días de la semana.

##### Ejercicio 3.5A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 3.5B

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.6

> Dataset a utilizar: `amzn_stock.csv`

**3.6A:** Crea un DataFrame que permita calcular la media mensual del valor de cotización de apertura ('Open') de los últimos dos años.

**3.6B:** Identifica la semana con mejor rendimiento en términos de cotización de cierre, calculando el mayor valor promedio de 'Close'.

**3.6C:** Repite el apartado anterior, pero esta vez calcula la semana con el mayor aumento porcentual en el valor de cotización de cierre en comparación con la semana anterior.

##### Ejercicio 3.6A

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 3.6B

In [None]:
# Escribe la solución al ejercicio aquí

##### Ejercicio 3.6C

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.7

> Datasets a utilizar:  `queen_albums.csv` & `queen_tracks.csv`

Crea un DataFrame en el que se integre la información de los álbumes y las canciones de Queen, mostrando para cada álbum la duración total de sus canciones ('Track Duration'), el valor promedio de energía ('Energy') y el promedio de "danceability" ('Danceability').

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.8

> Dataset a utilizar:  `laliga_results.csv`

Crea la clasificación final de LaLiga 2023-2024 que muestre los puntos acumulados por cada uno de equipos a lo largo de la competición.

<u>Pasos para realizar el ejercicio:</u>

1. Crea un DataFrame que contenga los puntos ganados por los equipos locales ('HT Points') y otro con los puntos ganados por los equipos visitantes ('AT Points').

2. Combina los dos DataFrames creados en el paso anterior.

3. Agrupa el DataFrame combinado por equipo y suma los puntos totales ganados por cada uno.

In [None]:
# Escribe la solución al ejercicio aquí

#### Ejercicio 3.9

> Dataset a utilizar:  `laliga_results.csv`

Crea una matriz de resultados que muestre los resultados de todos los partidos de LaLiga entre los 20 equipos.

<u>Pasos para realizar el ejercicio:</u>

1. Crea una nueva columna en la que se combinen los goles locales y los visitantes, mostrando los resultados de los partidos en el formato "goles_local - goles_visitante".

2. Pivota el DataFrame para crear una matriz donde las filas representen los equipos locales ('Home Team'), las columnas representen los equipos visitantes ('Away Team') y las celdas contengan los resultados de los partidos (la columna creada).

In [None]:
# Escribe la solución al ejercicio aquí