# Combinación de DataFrames

# Con Pandas tenemos tres métodos para unir datos:

    ● Concat: Se utiliza para combinar dos DataFrames de forma horizontal o vertical. Permite unirlos a lo largo del eje para crear un nuevo DataFrame. No hay columna de referencia para unirlos.

    ● Merge: Sirve para combinar dos DataFrames basándose en una o más columnas comunes. Estas columnas se deben especificar. Hay muchos tipos de uniones.

    ● Join: En este caso, la combinación se basa en las etiquetas de índice en lugar de columnas comunes.

In [2]:
# Importamos las librerias y el archivo csv:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)  # Para que aparezcan todas las columnas

# Cargar los tres csv

In [11]:
path = 'C:/Users/Agus_Ana_María_Raúl/Agustin/DAM/MASTER/MÓDULO_7_PYTHON_FOR_DATA/2_PANDA/datos_ford_2023.csv'
coches_2023 = pd.read_csv(path, index_col = 0)  # Columna 0 como índice
coches_2023.head()

Unnamed: 0,VIN,modelo_coche,id_del_vendedor,fecha_venta
0,1FABPBLT3JL200051,Ford Fiesta,113,2023-01-15
1,2FADP4EJ9CL200052,Ford Focus,114,2023-02-02
2,3FABP4EJ8CR200053,Ford Mustang,115,2023-01-20
3,4FADS2LJ2CL200054,Ford Explorer,113,2023-02-10
4,5FAHP3K22CL200055,Ford Escape,114,2023-01-05


In [3]:
path1 = 'C:/Users/Agus_Ana_María_Raúl/Agustin/DAM/MASTER/MÓDULO_7_PYTHON_FOR_DATA/2_PANDA/datos_ford_2024.csv'
coches_2024 = pd.read_csv(path1, index_col = 0)
coches_2024.head()

Unnamed: 0,VIN,modelo_coche,id_del_vendedor,fecha_venta
0,1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15
1,2FADP4EJ9CL100002,Ford Focus,102,2024-02-02
2,3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20
3,4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10
4,5FAHP3K22CL100005,Ford Escape,102,2024-01-05


In [4]:
path2 = 'C:/Users/Agus_Ana_María_Raúl/Agustin/DAM/MASTER/MÓDULO_7_PYTHON_FOR_DATA/2_PANDA/datos_ford_caracteristicas.csv'
coches_caracteristicas = pd.read_csv(path2, index_col = 0)
coches_caracteristicas.head()

Unnamed: 0,VIN,numero_puertas,camara_trasera,sensor_aparcamiento
0,1FABPBLT3JL100001,5,True,True
1,2FADP4EJ9CL100002,3,False,False
2,3FABP4EJ8CR100003,5,True,True
3,4FADS2LJ2CL100004,5,False,True
4,5FAHP3K22CL100005,3,False,False


# concat()

# El método concat sirve para concatenar un conjunto de datos a lo largo de un eje específico. 

# Sintaxis:

df_concat = pd.concat([df_1,df_2], axis = 0,join = 'outer', ignore_index = False)

'''
Donde:
- df_concat: Nombre del nuevo DataFrame creado.
- df: Es el nombre del DataFrame que vamos a usar.
- axis: Eje en el que queremos concatenar.
    - 0 para filas, es decir, se concatenan verticalmente,
    - 1 se usa para concatenar columnas (horizontalmente).
- join (opcional): Tipo de unión que vamos a realizar.
    - Outer: Se unen todas las columnas, estén en ambos conjuntos de datos o no.
    - Inner: Se unen sólo las columnas que coincidan en ambos conjuntos de datos.
- ignore_index (opcional): Indica si se deben restablecer los índices originales. Por defecto es `False` .

# Concatenar los dataframe con axis = 1

In [7]:
concat_1 = pd.concat([coches_2024, coches_2023], axis = 1, join = 'inner')
concat_1.head()

Unnamed: 0,VIN,modelo_coche,id_del_vendedor,fecha_venta,VIN.1,modelo_coche.1,id_del_vendedor.1,fecha_venta.1
0,1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15,1FABPBLT3JL200051,Ford Fiesta,113,2023-01-15
1,2FADP4EJ9CL100002,Ford Focus,102,2024-02-02,2FADP4EJ9CL200052,Ford Focus,114,2023-02-02
2,3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20,3FABP4EJ8CR200053,Ford Mustang,115,2023-01-20
3,4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10,4FADS2LJ2CL200054,Ford Explorer,113,2023-02-10
4,5FAHP3K22CL100005,Ford Escape,102,2024-01-05,5FAHP3K22CL200055,Ford Escape,114,2023-01-05


# Concatenar los dataframe con axis = 0

In [7]:
concat_0 = pd.concat([coches_2024, coches_2023], axis = 0, join = 'inner')
concat_0

# Como las columnas se llamaban igual, la nueva información se ha añadido debajo de la anterior. Esta segunda forma es mucho 
# más conveniente en este caso, ya que los datos quedan mejor organizados.

Unnamed: 0,VIN,modelo_coche,id_del_vendedor,fecha_venta
0,1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15
1,2FADP4EJ9CL100002,Ford Focus,102,2024-02-02
2,3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20
3,4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10
4,5FAHP3K22CL100005,Ford Escape,102,2024-01-05
...,...,...,...,...
45,1FABP4BJ3DL200096,Ford Fusion,127,2023-11-18
46,2FABP4AV1FL200097,Ford Bronco,125,2023-11-25
47,3FAHP0JA4CL200098,Ford Edge,126,2023-12-02
48,4FABP4EJ7CL200099,Ford Ranger,127,2023-12-10


# merge()

# El método merge sirve para combinar dos o más DataFrames en función de una o más columnas comunes. 

# Sintaxis:

df_left.merge(df_right, how = 'inner', on = None, left_on = None, right_on = None)

'''
Donde:
- df_left y df_right: Son los DataFrames que se van a combinar.
- how (opcional): Especifica el tipo de unión que se va a realizar.
    - `inner` : Intersección de las claves de ambos DataFrames, es decir, sólo los valores comunes.
    - `left` : Valores comunes de ambos DataFrames y no comunes del izquierdo.
    - `right` : Valores comunes de ambos DataFrames y no comunes del derecho.
    - `outer` : Utiliza TODOS los valores de ambos DataFrames.
- on: Especifica las columnas comunes en las que se van a basar la unión. Estas columnas DEBEN TENER EL MISMO NOMBRE.
- left_on: Nombre de la columna del df_left en la que se basará la unión.
- right_on: Nombre de la columna del df_right en la que se basará la unión.
'''

# Todos los conjuntos de datos tienen una columna llamada VIN

# Vamos a utilizar el método merge() con los dataframe coches_2023 y coches_caracteristicas

In [None]:
coches_2023_merge = coches_2023.merge(coches_caracteristicas, how = 'inner', on = 'VIN')    
coches_2023_merge

# Salida: No hay ninguma coincidencia entre las dos columnas, por eso el dataframe resultante está vacío.

Unnamed: 0,VIN,modelo_coche,id_del_vendedor,fecha_venta,numero_puertas,camara_trasera,sensor_aparcamiento


# Vamos a utilizar el método merge() con los dataframe coches_2024 y coches_caracteristicas

In [6]:
coches_2024_merge = coches_2024.merge(coches_caracteristicas, how = 'inner', on = 'VIN')    
coches_2024_merge.head()

# Salida: Se combinan los dos dataframe cuando los valores de la columna 'VIN' son coincidentes.

Unnamed: 0,VIN,modelo_coche,id_del_vendedor,fecha_venta,numero_puertas,camara_trasera,sensor_aparcamiento
0,1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15,5,True,True
1,2FADP4EJ9CL100002,Ford Focus,102,2024-02-02,3,False,False
2,3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20,5,True,True
3,4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10,5,False,True
4,5FAHP3K22CL100005,Ford Escape,102,2024-01-05,3,False,False


# join()

# Se utiliza para combinar dos DataFrames en función de los índices. 

# Sintaxis:

df_join = df_left.join(df_right, how = 'tipo_de_join', lsuffix = '', rsuffix = '')

'''
Donde:
- df_join: DataFrame resultado.
- df_left y df_right: Son los DataFrames que se van a combinar.
- how (opcional): Especifica el tipo de unión que se va a realizar.
    - inner : Intersección de las claves de ambos DataFrames, es decir, sólo los valores comunes.
    - left : Valores comunes de ambos DataFrames y no comunes del izquierdo.
    - right : Valores comunes de ambos DataFrames y no comunes del derecho.
    - outer : Utiliza TODOS los valores de ambos DataFrames.
- lsuffix (opcional): Por defecto nada. Si coinciden columnas en los DataFrames que queremos unir, será el sufijo que aparecerá en esas columnas en el DataFrame izquierdo.
- rsuffix (opcional): Por defecto nada. Si coinciden columnas en los DataFrames que queremos unir, será el sufijo que aparecerá en esas columnas en el DataFrame derecho.
'''

# Para hacer un join las columnas a combinar deben llamarse igual y ser las de los índices de los DataFrames

# Debemos modificar estos índices usando el método set_index()

In [19]:
coches_2024.set_index(['VIN'], inplace = True)
coches_2024.head()

Unnamed: 0_level_0,modelo_coche,id_del_vendedor,fecha_venta
VIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15
2FADP4EJ9CL100002,Ford Focus,102,2024-02-02
3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20
4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10
5FAHP3K22CL100005,Ford Escape,102,2024-01-05


In [None]:
coches_caracteristicas.set_index(['VIN'], inplace = True)
coches_caracteristicas.head()

Unnamed: 0_level_0,numero_puertas,camara_trasera,sensor_aparcamiento
VIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1FABPBLT3JL100001,5,True,True
2FADP4EJ9CL100002,3,False,False
3FABP4EJ8CR100003,5,True,True
4FADS2LJ2CL100004,5,False,True
5FAHP3K22CL100005,3,False,False


# Realizar join() con los dataframe coches_2024 y coches_caracteristicas

In [None]:
# Cuando los dos dataframe tienen el mismo índice, 'VIN'
coches_join = coches_2024.join(coches_caracteristicas, how = 'inner')
coches_join.head()


Unnamed: 0_level_0,modelo_coche,id_del_vendedor,fecha_venta,numero_puertas,camara_trasera,sensor_aparcamiento
VIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15,5,True,True
2FADP4EJ9CL100002,Ford Focus,102,2024-02-02,3,False,False
3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20,5,True,True
4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10,5,False,True
5FAHP3K22CL100005,Ford Escape,102,2024-01-05,3,False,False


In [26]:
# Cuando quieres unir por una columna del DataFrame izquierdo (coches_2024).
# coches_caracteristicas si debe tener VIN como índice.
# coches_2024 no necesita tener VIN como índice, solo como columna.

coches_join_1 = coches_2024.join(coches_caracteristicas, on = 'VIN')
coches_join_1.head()

Unnamed: 0_level_0,modelo_coche,id_del_vendedor,fecha_venta,numero_puertas,camara_trasera,sensor_aparcamiento
VIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1FABPBLT3JL100001,Ford Fiesta,101,2024-01-15,5,True,True
2FADP4EJ9CL100002,Ford Focus,102,2024-02-02,3,False,False
3FABP4EJ8CR100003,Ford Mustang,103,2024-01-20,5,True,True
4FADS2LJ2CL100004,Ford Explorer,101,2024-02-10,5,False,True
5FAHP3K22CL100005,Ford Escape,102,2024-01-05,3,False,False


# Pivotado de datos

# Funcion pivot_table()

# Sirve para crear tablas dinámicas a partir de un dataframe. Las tablas dinámicas resumen y organizan información de un conjunto de datos como un dataframe.

# Sintaxis:

df.pivot_table(values = None, index = None, columns = None, aggfunc = 'mean')

'''
Donde:
- df: DataFrame que vamos a usar.
- values: Columna o columnas cuyos valores vamos a resumir y a realizar la función e agregación. Qué valores vamos a utilizar para unir index con columna.
- index: Claves de donde se van a hacer las agrupaciones. Serán los valores del índice del DataFrame.
- columna: Valores que van a tener los nombres de las columnas.
- aggfunc: Función de agregación que se va a realizar sobre los datos.
'''

# Calcular cuántos modelos de coche ha vendido cada vendedor durante los años 2023 y 2024.

In [14]:
# Recuperamos el dataframe concat_0

concat_0.pivot_table(values = 'fecha_venta', index = 'id_del_vendedor', columns = 'modelo_coche', aggfunc = 'count').head()

#  Se usa la columna fecha_venta para contar cuántas ventas hubo

modelo_coche,Ford Bronco,Ford Edge,Ford Escape,Ford Explorer,Ford Fiesta,Ford Focus,Ford Fusion,Ford Mustang,Ford Ranger,Ford Transit
id_del_vendedor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
101,1.0,,,1.0,1.0,,,,,1.0
102,,1.0,1.0,,,1.0,,,,
103,,,,,,,1.0,1.0,1.0,
104,1.0,,,1.0,1.0,,,,,1.0
105,,1.0,1.0,,,1.0,,,,
