In [9]:
import pandas as pd
import numpy as np
from pathlib import Path

DATA_DIR = Path(".") / ".." / ".." / "data"

In [10]:
df1 = pd.DataFrame(
    np.arange(9).reshape(3, 3),
    index=list("ijk"),
    columns=list("abc")
)
df2 = pd.DataFrame(
    np.arange(20, 26).reshape(2, 3),
    index=list("lm"),
    columns=list("abc")
)
print(f"*-* df1 *-*\n{df1}")
print(f"*-* df2 *-*\n{df2}")
print(f"*-* pd.concat([df1, df2]) *-*\n{pd.concat([df1, df2])}")

df4 = pd.DataFrame(
    np.arange(20, 26).reshape(3, 2),
    index=list("ijk"),
    columns=list("de")
)
print(f"*-* df4 *-*\n{df4}")
print(f"*-* pd.concat([df1, df4], axis=1) *-*\n{pd.concat([df1, df4], axis=1)}")

*-* df1 *-*
   a  b  c
i  0  1  2
j  3  4  5
k  6  7  8
*-* df2 *-*
    a   b   c
l  20  21  22
m  23  24  25
*-* pd.concat([df1, df2]) *-*
    a   b   c
i   0   1   2
j   3   4   5
k   6   7   8
l  20  21  22
m  23  24  25
*-* df4 *-*
    d   e
i  20  21
j  22  23
k  24  25
*-* pd.concat([df1, df4], axis=1) *-*
   a  b  c   d   e
i  0  1  2  20  21
j  3  4  5  22  23
k  6  7  8  24  25


In [11]:
df6 = df4.loc[::-1, :]
print(f"*-* df6 *-*\n{df6}")
print(
    f"*-* pd.concat([df1, df6], axis=1) *-*\n{pd.concat([df1, df6], axis=1)}"
)  # Automatically aligns the indices

*-* df6 *-*
    d   e
k  24  25
j  22  23
i  20  21
*-* pd.concat([df1, df6], axis=1) *-*
   a  b  c   d   e
i  0  1  2  20  21
j  3  4  5  22  23
k  6  7  8  24  25


In [12]:
print(f"*-* df1 *-*\n{df1}")
df8 = pd.DataFrame(
    np.arange(6).reshape(2, 3),
    index=list("lm"),
    columns=list("abd")
)
print(f"*-* df8 *-*\n{df8}")
print(f"*-* pd.concat([df1, df8]) *-*\n{pd.concat([df1, df8])}")
print(f"*-* pd.concat([df1, df8], join='inner') *-*\n{pd.concat([df1, df8], join='inner')}")

*-* df1 *-*
   a  b  c
i  0  1  2
j  3  4  5
k  6  7  8
*-* df8 *-*
   a  b  d
l  0  1  2
m  3  4  5
*-* pd.concat([df1, df8]) *-*
   a  b    c    d
i  0  1  2.0  NaN
j  3  4  5.0  NaN
k  6  7  8.0  NaN
l  0  1  NaN  2.0
m  3  4  NaN  5.0
*-* pd.concat([df1, df8], join='inner') *-*
   a  b
i  0  1
j  3  4
k  6  7
l  0  1
m  3  4


In [13]:
print(f"*-* df1 *-*\n{df1}")
df10 = pd.DataFrame(
    np.arange(60, 66).reshape(3, 2), 
    index=list("ijl"),
    columns=list("de")
)
print(f"*-* df10 *-*\n{df10}")
print(f"*-* pd.concat([df1, df10], axis=1) *-*\n{pd.concat([df1, df10], axis=1)}")
print(f"*-* pd.concat([df1, df10], axis=1, join='inner') *-*\n{pd.concat([df1, df10], axis=1, join='inner')}")

*-* df1 *-*
   a  b  c
i  0  1  2
j  3  4  5
k  6  7  8
*-* df10 *-*
    d   e
i  60  61
j  62  63
l  64  65
*-* pd.concat([df1, df10], axis=1) *-*
     a    b    c     d     e
i  0.0  1.0  2.0  60.0  61.0
j  3.0  4.0  5.0  62.0  63.0
k  6.0  7.0  8.0   NaN   NaN
l  NaN  NaN  NaN  64.0  65.0
*-* pd.concat([df1, df10], axis=1, join='inner') *-*
   a  b  c   d   e
i  0  1  2  60  61
j  3  4  5  62  63


# Merge

In [14]:
clientes = pd.DataFrame(
    {
        "dni": ["12345678", "23456789", "34567890", "01234567"],
        "nombre": ["José", "Pedro", "María", "Blanca"],
        "apellido1": ["Pérez", "Martínez", "Sánchez", "Ruiz"],
        "apellido2": ["Martínez", "Moreno", "Meseguer", "Torres"],
    }
)
pedidos = pd.DataFrame(
    {
        "id": [10, 12, 21, 22, 24, 25, 28],
        "dni": np.repeat(
            ["23456789", "12345678", "34567890", "87654321"], repeats=[2, 3, 1, 1]
        ),
        "id_producto": [
            "AAA123",
            "SOX433",
            "QWE000",
            "SOX433",
            "PII342",
            "ZXY099",
            "PII342",
        ],
    }
)

productos = pd.DataFrame(
    {
        "id": ["AAA123", "SOX433", "QWE000", "PII342", "ZXY099"],
        "nombre": ["Pila", "Bombilla", "Interruptor", "Enchufe", "Toma"],
    }
)

print(f"*-* clientes *-*\n{clientes}")
print(f"*-* pedidos *-*\n{pedidos}")
print(f"*-* productos *-*\n{productos}")

*-* clientes *-*
        dni  nombre apellido1 apellido2
0  12345678    José     Pérez  Martínez
1  23456789   Pedro  Martínez    Moreno
2  34567890   María   Sánchez  Meseguer
3  01234567  Blanca      Ruiz    Torres
*-* pedidos *-*
   id       dni id_producto
0  10  23456789      AAA123
1  12  23456789      SOX433
2  21  12345678      QWE000
3  22  12345678      SOX433
4  24  12345678      PII342
5  25  34567890      ZXY099
6  28  87654321      PII342
*-* productos *-*
       id       nombre
0  AAA123         Pila
1  SOX433     Bombilla
2  QWE000  Interruptor
3  PII342      Enchufe
4  ZXY099         Toma


In [15]:
print(f"*-* pd.merge(clientes, pedidos) *-*\n{pd.merge(clientes, pedidos)}")
# Busca entre clientes y pedidos las columnas comunes e intenta realizar el merge con esa columna
# Hay algunos valores de clientes, que no esta en pedidos, y no se tiene en cuenta al realizar el
# merge (default how='inner', que significa que se toman los valores que estan en ambos DataFrames)

*-* pd.merge(clientes, pedidos) *-*
        dni nombre apellido1 apellido2  id id_producto
0  12345678   José     Pérez  Martínez  21      QWE000
1  12345678   José     Pérez  Martínez  22      SOX433
2  12345678   José     Pérez  Martínez  24      PII342
3  23456789  Pedro  Martínez    Moreno  10      AAA123
4  23456789  Pedro  Martínez    Moreno  12      SOX433
5  34567890  María   Sánchez  Meseguer  25      ZXY099


In [16]:
# El comportamiento anterior se puede cambiar con el parametro how
print(f"*-* pd.merge(clientes, pedidos, how='left') *-*\n{pd.merge(clientes, pedidos, how='left')}")
# Con how='left' se toman todos los valores del primer DataFrame (clientes) y se intenta hacer el merge con el
# segundo DataFrame (pedidos), aunque no haya valores en el segundo DataFrame

*-* pd.merge(clientes, pedidos, how='left') *-*
        dni  nombre apellido1 apellido2    id id_producto
0  12345678    José     Pérez  Martínez  21.0      QWE000
1  12345678    José     Pérez  Martínez  22.0      SOX433
2  12345678    José     Pérez  Martínez  24.0      PII342
3  23456789   Pedro  Martínez    Moreno  10.0      AAA123
4  23456789   Pedro  Martínez    Moreno  12.0      SOX433
5  34567890   María   Sánchez  Meseguer  25.0      ZXY099
6  01234567  Blanca      Ruiz    Torres   NaN         NaN


In [17]:
print(f"*-* pd.merge(clientes, pedidos, how='right') *-*\n{pd.merge(clientes, pedidos, how='right')}")
# Con how='right' se toman todos los valores del segundo DataFrame (pedidos) y se intenta hacer el merge con el
# primer DataFrame (clientes), aunque no haya valores en el primer DataFrame

*-* pd.merge(clientes, pedidos, how='right') *-*
        dni nombre apellido1 apellido2  id id_producto
0  23456789  Pedro  Martínez    Moreno  10      AAA123
1  23456789  Pedro  Martínez    Moreno  12      SOX433
2  12345678   José     Pérez  Martínez  21      QWE000
3  12345678   José     Pérez  Martínez  22      SOX433
4  12345678   José     Pérez  Martínez  24      PII342
5  34567890  María   Sánchez  Meseguer  25      ZXY099
6  87654321    NaN       NaN       NaN  28      PII342


In [18]:
print(f"*-* pd.merge(clientes, pedidos, how='outer') *-*\n{pd.merge(clientes, pedidos, how='outer')}")
# Con how='outer' se toman todos los valores de ambos DataFrames y se intenta hacer el merge con el otro DataFrame,
# aunque no haya valores en el otro DataFrame

*-* pd.merge(clientes, pedidos, how='outer') *-*
        dni  nombre apellido1 apellido2    id id_producto
0  01234567  Blanca      Ruiz    Torres   NaN         NaN
1  12345678    José     Pérez  Martínez  21.0      QWE000
2  12345678    José     Pérez  Martínez  22.0      SOX433
3  12345678    José     Pérez  Martínez  24.0      PII342
4  23456789   Pedro  Martínez    Moreno  10.0      AAA123
5  23456789   Pedro  Martínez    Moreno  12.0      SOX433
6  34567890   María   Sánchez  Meseguer  25.0      ZXY099
7  87654321     NaN       NaN       NaN  28.0      PII342


In [19]:
# TODO go to interactive classes an continue on "especificar las columnas sobre las que se basa el merge" 

In [29]:
clientes_pedidos = pd.merge(clientes, pedidos)
print(f"*-* clientes_pedidos *-*\n{clientes_pedidos}")
print("Hay conflicto de nombres de columnas entre clientes_pedidos y productos")
print("Hay que realizar el merge indicando las columnas sobre las que se basa el merge")
print(f"*-* clientes_pedidos.dtypes *-*\n{clientes_pedidos.dtypes}")
print(f"*-* productos.dtypes *-*\n{productos.dtypes}")
print("Ademas, observamos que el tipo de dato en la columna \"id\" es distinto en ambas fuentes, por tanto tampoco puede hacer merge automatico")
# print(clientes_pedidos.merge(productos))

*-* clientes_pedidos *-*
        dni nombre apellido1 apellido2  id id_producto
0  12345678   José     Pérez  Martínez  21      QWE000
1  12345678   José     Pérez  Martínez  22      SOX433
2  12345678   José     Pérez  Martínez  24      PII342
3  23456789  Pedro  Martínez    Moreno  10      AAA123
4  23456789  Pedro  Martínez    Moreno  12      SOX433
5  34567890  María   Sánchez  Meseguer  25      ZXY099
Hay conflicto de nombres de columnas entre clientes_pedidos y productos
Hay que realizar el merge indicando las columnas sobre las que se basa el merge
*-* clientes_pedidos.dtypes *-*
dni            object
nombre         object
apellido1      object
apellido2      object
id              int64
id_producto    object
dtype: object
*-* productos.dtypes *-*
id        object
nombre    object
dtype: object
Ademas, observamos que el tipo de dato en la columna "id" es distinto en ambas fuentes, por tanto tampoco puede hacer merge automatico


In [34]:

clientes_pedidos["id"] = clientes_pedidos["id"].astype(str)
print(f"*-* clientes_pedidos.dtypes *-*\n{clientes_pedidos.dtypes}")
print(f"*-* clientes_pedidos.merge(productos) *-*\n{clientes_pedidos.merge(productos)}")
productos.rename(columns={"nombre": "nombre_producto"}, inplace=True)
print(f"*-* productos *-*\n{productos}")

*-* clientes_pedidos.dtypes *-*
dni            object
nombre         object
apellido1      object
apellido2      object
id             object
id_producto    object
dtype: object
*-* clientes_pedidos.merge(productos) *-*
Empty DataFrame
Columns: [dni, nombre, apellido1, apellido2, id, id_producto, nombre_producto]
Index: []
*-* productos *-*
       id nombre_producto
0  AAA123            Pila
1  SOX433        Bombilla
2  QWE000     Interruptor
3  PII342         Enchufe
4  ZXY099            Toma


In [35]:
print(f"*-* clientes_pedidos.merge(productos, left_on='id_producto', right_on='id') *-*\n{clientes_pedidos.merge(productos, left_on='id_producto', right_on='id')}")

*-* clientes_pedidos.merge(productos, left_on='id_producto', right_on='id') *-*
        dni nombre apellido1 apellido2 id_x id_producto    id_y  \
0  12345678   José     Pérez  Martínez   21      QWE000  QWE000   
1  12345678   José     Pérez  Martínez   22      SOX433  SOX433   
2  12345678   José     Pérez  Martínez   24      PII342  PII342   
3  23456789  Pedro  Martínez    Moreno   10      AAA123  AAA123   
4  23456789  Pedro  Martínez    Moreno   12      SOX433  SOX433   
5  34567890  María   Sánchez  Meseguer   25      ZXY099  ZXY099   

  nombre_producto  
0     Interruptor  
1        Bombilla  
2         Enchufe  
3            Pila  
4        Bombilla  
5            Toma  


In [37]:
print(f"*-* clientes_pedidos.merge(productos, left_on='id_producto', right_on='id', suffixes=[\"_pedido\", \"_producto\"]) *-*\n{clientes_pedidos.merge(productos, left_on='id_producto', right_on='id', suffixes=["_pedido", "_producto"])}")

*-* clientes_pedidos.merge(productos, left_on='id_producto', right_on='id', suffixes=["_pedido", "_producto"]) *-*
        dni nombre apellido1 apellido2 id_pedido id_producto id_producto  \
0  12345678   José     Pérez  Martínez        21      QWE000      QWE000   
1  12345678   José     Pérez  Martínez        22      SOX433      SOX433   
2  12345678   José     Pérez  Martínez        24      PII342      PII342   
3  23456789  Pedro  Martínez    Moreno        10      AAA123      AAA123   
4  23456789  Pedro  Martínez    Moreno        12      SOX433      SOX433   
5  34567890  María   Sánchez  Meseguer        25      ZXY099      ZXY099   

  nombre_producto  
0     Interruptor  
1        Bombilla  
2         Enchufe  
3            Pila  
4        Bombilla  
5            Toma  


In [40]:
print(f"*-* clientes.merge(pedidos, how='outer', indicator=True) *-*\n{clientes.merge(pedidos, how='outer', indicator=True)}")
print(f"*-* clientes.merge(pedidos, how='outer', indicator=True)['_merge'].value_counts() *-*\n{clientes.merge(pedidos, how='outer', indicator=True)['_merge'].value_counts()}")

*-* clientes.merge(pedidos, how='outer', indicator=True) *-*
        dni  nombre apellido1 apellido2    id id_producto      _merge
0  01234567  Blanca      Ruiz    Torres   NaN         NaN   left_only
1  12345678    José     Pérez  Martínez  21.0      QWE000        both
2  12345678    José     Pérez  Martínez  22.0      SOX433        both
3  12345678    José     Pérez  Martínez  24.0      PII342        both
4  23456789   Pedro  Martínez    Moreno  10.0      AAA123        both
5  23456789   Pedro  Martínez    Moreno  12.0      SOX433        both
6  34567890   María   Sánchez  Meseguer  25.0      ZXY099        both
7  87654321     NaN       NaN       NaN  28.0      PII342  right_only
*-* clientes.merge(pedidos, how='outer', indicator=True)['_merge'].value_counts() *-*
_merge
both          6
left_only     1
right_only    1
Name: count, dtype: int64
