# Fusión de DataFrames en Pandas

- La fusión de DataFrames en Pandas es una técnica fundamental cuando necesitas combinar información de diferentes fuentes o tablas en una sola estructura de datos. Pandas proporciona la función merge() para realizar fusiones, similar a las uniones (JOIN) en SQL.

## Conceptos Clave:
#### Tipos de Uniones:

- Inner Join: Combina solo las filas que tienen coincidencias en ambas tablas.
- Left Join: Combina todas las filas del DataFrame de la izquierda, y las filas coincidentes del DataFrame de la derecha.
- Right Join: Combina todas las filas del DataFrame de la derecha, y las filas coincidentes del DataFrame de la izquierda.
- Outer Join: Combina todas las filas de ambos DataFrames, rellenando con NaN donde no hay coincidencias.
## Claves de Fusión (on, left_on, right_on):

- La fusión se basa en una o más columnas de los DataFrames, conocidas como claves de fusión. Puedes especificar las columnas utilizando los parámetros on, left_on, y right_on.

In [1]:
import pandas as pd 

In [2]:
#creando DtaFrame de ejemplo 
dfA = pd.DataFrame({
    'key' : ['A', 'B', 'C', 'D', 'E','F', 'G','H', 'I', 'J'],
    'values' : [1,2,3,4,5,6,7,8,9,10]
})

dfB = pd.DataFrame({
    'key' : ['K', 'L', 'N', 'Ñ', 'O','P', 'Q','R', 'S', 'T'],
    'values' : [11,12,13,14,15,16,17,18,19,20]

})

print(dfA)
print(dfB)

  key  values
0   A       1
1   B       2
2   C       3
3   D       4
4   E       5
5   F       6
6   G       7
7   H       8
8   I       9
9   J      10
  key  values
0   K      11
1   L      12
2   N      13
3   Ñ      14
4   O      15
5   P      16
6   Q      17
7   R      18
8   S      19
9   T      20


In [3]:
# Uniendo los dos dataframe con merge
inner_merged = pd.merge(dfA, dfB, on='key', how='inner')
print(inner_merged)

Empty DataFrame
Columns: [key, values_x, values_y]
Index: []


In [4]:
outer_merged = pd.merge(dfA, dfB, on='key', how='outer')
print(outer_merged)

   key  values_x  values_y
0    A       1.0       NaN
1    B       2.0       NaN
2    C       3.0       NaN
3    D       4.0       NaN
4    E       5.0       NaN
5    F       6.0       NaN
6    G       7.0       NaN
7    H       8.0       NaN
8    I       9.0       NaN
9    J      10.0       NaN
10   K       NaN      11.0
11   L       NaN      12.0
12   N       NaN      13.0
13   O       NaN      15.0
14   P       NaN      16.0
15   Q       NaN      17.0
16   R       NaN      18.0
17   S       NaN      19.0
18   T       NaN      20.0
19   Ñ       NaN      14.0


In [5]:
right_merged = pd.merge(dfA, dfB, on='key', how='right')
print(right_merged)

  key  values_x  values_y
0   K       NaN        11
1   L       NaN        12
2   N       NaN        13
3   Ñ       NaN        14
4   O       NaN        15
5   P       NaN        16
6   Q       NaN        17
7   R       NaN        18
8   S       NaN        19
9   T       NaN        20


In [6]:
# Nuevos conjuntos 
dfC = pd.DataFrame({
    'A' : ['A1','A2','A3','A4','A5','A6','A7','A8','A9','A10'],
    'B' : ['B11','B12','B13','B14','B15','B16','B17','B18','B19','B20']
})

dfD = pd.DataFrame({
    'A' : ['A21','A22','A23','A24','A25','A26','A27','A28','A29','A30'],
    'B' : ['B31','B32','B33','B34','B35','B36','B37','B38','B39','B40']
})

print(dfC)
print(dfD)

     A    B
0   A1  B11
1   A2  B12
2   A3  B13
3   A4  B14
4   A5  B15
5   A6  B16
6   A7  B17
7   A8  B18
8   A9  B19
9  A10  B20
     A    B
0  A21  B31
1  A22  B32
2  A23  B33
3  A24  B34
4  A25  B35
5  A26  B36
6  A27  B37
7  A28  B38
8  A29  B39
9  A30  B40


In [7]:
#Concatenando dataframe verticalmente 
vertical_concat = pd.concat([dfC, dfD])
print(vertical_concat)

     A    B
0   A1  B11
1   A2  B12
2   A3  B13
3   A4  B14
4   A5  B15
5   A6  B16
6   A7  B17
7   A8  B18
8   A9  B19
9  A10  B20
0  A21  B31
1  A22  B32
2  A23  B33
3  A24  B34
4  A25  B35
5  A26  B36
6  A27  B37
7  A28  B38
8  A29  B39
9  A30  B40


In [8]:
#Concatenacion Horizontalmente
horizontal_concat = pd.concat([dfC, dfD], axis=1)
print(horizontal_concat)


     A    B    A    B
0   A1  B11  A21  B31
1   A2  B12  A22  B32
2   A3  B13  A23  B33
3   A4  B14  A24  B34
4   A5  B15  A25  B35
5   A6  B16  A26  B36
6   A7  B17  A27  B37
7   A8  B18  A28  B38
8   A9  B19  A29  B39
9  A10  B20  A30  B40


In [18]:
# Nuevos conjuntos 
dfE = pd.DataFrame({
    'A' : ['A1','A2','A3','A4','A5','A6','A7','A8','A9','A10'],
    'B' : ['B1','B2','B3','B4','B5','B6','B7','B8','B9','B10']
},    index=['K1','K2','K3','K4','K5','K6','K7','K8','K9','K10'])


dfF = pd.DataFrame({
    'C' : ['A1','A2','A3','A4','A5','A6','A7','A8','A9','A10'],
    'D' : ['B1','B2','B3','B4','B5','B6','B7','B8','B9','B10']
},    index=['K1','K2','K3','K4','K5','K6','K7','K8','K9','K10'])

print(dfE)
print(dfF)

       A    B
K1    A1   B1
K2    A2   B2
K3    A3   B3
K4    A4   B4
K5    A5   B5
K6    A6   B6
K7    A7   B7
K8    A8   B8
K9    A9   B9
K10  A10  B10
       C    D
K1    A1   B1
K2    A2   B2
K3    A3   B3
K4    A4   B4
K5    A5   B5
K6    A6   B6
K7    A7   B7
K8    A8   B8
K9    A9   B9
K10  A10  B10


In [19]:
# JOIN ==> Joined combina DataFrames con base a un indice o columna clave 
joined = dfE.join(dfF, how='inner')
print(joined)

       A    B    C    D
K1    A1   B1   A1   B1
K2    A2   B2   A2   B2
K3    A3   B3   A3   B3
K4    A4   B4   A4   B4
K5    A5   B5   A5   B5
K6    A6   B6   A6   B6
K7    A7   B7   A7   B7
K8    A8   B8   A8   B8
K9    A9   B9   A9   B9
K10  A10  B10  A10  B10


In [20]:
# Crear DataFrames dfE y dfF
dfE = pd.DataFrame({
    'A': ['A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8', 'A9', 'A10'],
    'B': ['B1', 'B2', 'B3', 'B4', 'B5', 'B6', 'B7', 'B8', 'B9', 'B10']
}, index=['K1', 'K2', 'K3', 'K4', 'K5', 'K6', 'K7', 'K8', 'K9', 'K10'])

dfF = pd.DataFrame({
    'A': ['A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8', 'A9', 'A10'],
    'B': ['B1', 'B2', 'B3', 'B4', 'B5', 'B6', 'B7', 'B8', 'B9', 'B10']
}, index=['K1', 'K2', 'K3', 'K4', 'K5', 'K6', 'K7', 'K8', 'K9', 'K10'])

# Imprimir los DataFrames originales
print("dfE:\n", dfE)
print("\ndfF:\n", dfF)

# JOIN ==> Combinar DataFrames basados en el índice, con sufijos para columnas superpuestas
joined = dfE.join(dfF, how='inner', lsuffix='_dfE', rsuffix='_dfF')

# Imprimir el DataFrame combinado
print("\nJoined DataFrame:\n", joined)

dfE:
        A    B
K1    A1   B1
K2    A2   B2
K3    A3   B3
K4    A4   B4
K5    A5   B5
K6    A6   B6
K7    A7   B7
K8    A8   B8
K9    A9   B9
K10  A10  B10

dfF:
        A    B
K1    A1   B1
K2    A2   B2
K3    A3   B3
K4    A4   B4
K5    A5   B5
K6    A6   B6
K7    A7   B7
K8    A8   B8
K9    A9   B9
K10  A10  B10

Joined DataFrame:
     A_dfE B_dfE A_dfF B_dfF
K1     A1    B1    A1    B1
K2     A2    B2    A2    B2
K3     A3    B3    A3    B3
K4     A4    B4    A4    B4
K5     A5    B5    A5    B5
K6     A6    B6    A6    B6
K7     A7    B7    A7    B7
K8     A8    B8    A8    B8
K9     A9    B9    A9    B9
K10   A10   B10   A10   B10


### Ejemplo con un Script:
- Supongamos que tienes dos DataFrames: uno con información de ventas y otro con información de productos. Vamos a fusionarlos para obtener un DataFrame combinado.

In [21]:
# DataFrame de ventas
ventas = pd.DataFrame({
    'InvoiceNo': [1, 2, 3, 4],
    'ProductID': [101, 102, 103, 104],
    'Quantity': [10, 20, 30, 40]
})

# DataFrame de productos
productos = pd.DataFrame({
    'ProductID': [101, 102, 103, 104, 105],
    'ProductName': ['Producto A', 'Producto B', 'Producto C', 'Producto D', 'Producto E'],
    'Price': [15.5, 25.0, 35.0, 45.0, 55.0]
})

# Fusión de los DataFrames utilizando 'ProductID' como clave
resultado = pd.merge(ventas, productos, on='ProductID', how='inner')

# Mostrar el DataFrame resultado
print(resultado)

   InvoiceNo  ProductID  Quantity ProductName  Price
0          1        101        10  Producto A   15.5
1          2        102        20  Producto B   25.0
2          3        103        30  Producto C   35.0
3          4        104        40  Producto D   45.0


### DataFrames Iniciales:

- ventas: Contiene información sobre las ventas, incluyendo el número de factura (InvoiceNo), el ID del producto (ProductID), y la cantidad vendida (Quantity).
productos: Contiene detalles sobre los productos, como el nombre del producto (ProductName) y su precio (Price).
### Fusión de los DataFrames:

- Se utiliza pd.merge() para combinar ambos DataFrames, uniendo las filas donde ProductID coincide en ambos DataFrames.
on='ProductID' especifica la columna en la que se basa la fusión.
how='inner' indica que solo se combinarán las filas donde hay coincidencias en ambos DataFrames.
### Resultado:

- El DataFrame resultante contiene las columnas InvoiceNo, ProductID, Quantity, ProductName, y Price, mostrando solo las filas donde los ProductID coinciden en ambos DataFrames.
- Este es un ejemplo básico, pero la función merge() puede manejar fusiones más complejas, incluyendo fusiones en múltiples claves, y control de prefijos para evitar conflictos de nombres de columnas.

In [11]:
path = '/home/jhonfypy/NpyPandaNuevos/NpyPandaAnalisisFYNEKA/data/Online_Retail.csv'
retail_data = pd.read_csv(path, encoding='latin1')
print(type(retail_data))
print(retail_data)

<class 'pandas.core.frame.DataFrame'>
       InvoiceNo StockCode                          Description  Quantity  \
0         536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1         536365     71053                  WHITE METAL LANTERN         6   
2         536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3         536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4         536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...          ...       ...                                  ...       ...   
541904    581587     22613          PACK OF 20 SPACEBOY NAPKINS        12   
541905    581587     22899         CHILDREN'S APRON DOLLY GIRL          6   
541906    581587     23254        CHILDRENS CUTLERY DOLLY GIRL          4   
541907    581587     23255      CHILDRENS CUTLERY CIRCUS PARADE         4   
541908    581587     22138        BAKING SET 9 PIECE RETROSPOT          3   

          InvoiceDate  UnitPrice  Cus

In [12]:
path = '/home/jhonfypy/NpyPandaNuevos/NpyPandaAnalisisFYNEKA/data/Estudiantes.csv'
estudiante_data = pd.read_csv(path, delimiter=';')
print(type(path))
print(estudiante_data)

<class 'str'>


      Marital status  Application mode  Application order  Course  \
0                  1                17                  5     171   
1                  1                15                  1    9254   
2                  1                 1                  5    9070   
3                  1                17                  2    9773   
4                  2                39                  1    8014   
...              ...               ...                ...     ...   
4419               1                 1                  6    9773   
4420               1                 1                  2    9773   
4421               1                 1                  1    9500   
4422               1                 1                  1    9147   
4423               1                10                  1    9773   

      Daytime/evening attendance\t  Previous qualification  \
0                                1                       1   
1                                1             

In [13]:
outer_merged = pd.merge(dfA, dfB, on='key', how='outer')
print(outer_merged)

   key  values_x  values_y
0    A       1.0       NaN
1    B       2.0       NaN
2    C       3.0       NaN
3    D       4.0       NaN
4    E       5.0       NaN
5    F       6.0       NaN
6    G       7.0       NaN
7    H       8.0       NaN
8    I       9.0       NaN
9    J      10.0       NaN
10   K       NaN      11.0
11   L       NaN      12.0
12   N       NaN      13.0
13   O       NaN      15.0
14   P       NaN      16.0
15   Q       NaN      17.0
16   R       NaN      18.0
17   S       NaN      19.0
18   T       NaN      20.0
19   Ñ       NaN      14.0


In [14]:
vertical_concat = pd.concat([retail_data, estudiante_data])
print(vertical_concat)

     InvoiceNo StockCode                          Description  Quantity  \
0       536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER       6.0   
1       536365     71053                  WHITE METAL LANTERN       6.0   
2       536365    84406B       CREAM CUPID HEARTS COAT HANGER       8.0   
3       536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE       6.0   
4       536365    84029E       RED WOOLLY HOTTIE WHITE HEART.       6.0   
...        ...       ...                                  ...       ...   
4419       NaN       NaN                                  NaN       NaN   
4420       NaN       NaN                                  NaN       NaN   
4421       NaN       NaN                                  NaN       NaN   
4422       NaN       NaN                                  NaN       NaN   
4423       NaN       NaN                                  NaN       NaN   

       InvoiceDate  UnitPrice  CustomerID         Country  Marital status  \
0     12/1/10 8:26    