# Uniones de bases de datos

Hoy vamos a conocer algunas de las funciones más comunes para unir bases de datos.\
El objetivo es jugar y _cacharrearle_ a las funciones para conocer de primera mano el _que pasaría si_.

*Funciones:*
<ul>
    <li>Pandas - Append</li>
    <li>Pandas - Concat</li>
    <li>Pandas - Join</li>
    <li>Pandas - Merge</li>
</ul>

# Librerías

In [12]:
!pip install pytictoc

Collecting pytictoc
  Downloading pytictoc-1.5.3-py2.py3-none-any.whl (4.0 kB)
Installing collected packages: pytictoc
Successfully installed pytictoc-1.5.3


In [13]:
import pandas as pd
from pytictoc import TicToc
t = TicToc()

## Append

DataFrame.**append**(other, ignore_index=False, verify_integrity=False, sort=False)

Parámetros:
<ul>
    <li><b>other</b>: Información para unir. Permite DF, Series, Diccionarios o listas.</li>
    <li><b>ignore_index</b>: Booleano. Si es verdadero el índice queda numerado de 0 a n.</li>
    <li><b>verify_integrity</b>: Booleano. Si es verdadero crea un error al crear un índice duplicado.</li>
    <li><b>sort</b>: Booleano. Deja organizar el DF.</li>
</ul>

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'), index=['x', 'y'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'), index=['x', 'y'])
l1 = ["a", "b"]

In [None]:
df

Unnamed: 0,A,B
x,1,2
y,3,4


In [None]:
df2

Unnamed: 0,A,B
x,5,6
y,7,8


In [None]:
df.append(df2, ignore_index=True) # Intentemos cambiando el valor en ignore_index y veamos que pasa

  df.append(df2, ignore_index=True) # Intentemos cambiando el valor en ignore_index y veamos que pasa


Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6
3,7,8


In [None]:
pd.DataFrame(l1)

Unnamed: 0,0
0,a
1,b


In [None]:
df.append(l1, ignore_index=True) # Que pasa si tenemos una lista

  df.append(l1, ignore_index=True) # Que pasa si tenemos una lista


Unnamed: 0,A,B,0
0,1.0,2.0,
1,3.0,4.0,
2,,,a
3,,,b


In [None]:
df

Unnamed: 0,A,B
x,1,2
y,3,4


In [None]:
df.loc[len(df)] = l1
df

Unnamed: 0,A,B
x,1,2
y,3,4
2,a,b
3,a,b


## Concatenando

pandas.**concat**(objs, *, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None)

Parámetros:
<ul>
    <li><b>objs</b>: Objetos para unir. Permite DF, Series o Diccionarios.</li>
    <li><b>axis</b>: Eje para concatenar. 0 para concatenar vertical y 1 para concatenar horizontal.</li>
    <li><b>join</b>: Especificar "inner" o "outer". Permitiría eliminar información o agregar.</li>
    <li><b>ignore_index</b>: Booleano. Toma encuenta el ínidice propio de cada objeto o no.</li>
    <li><b>keys</b>: Secuencia. Tomémoslo como un segundo índice.</li>
    <li><b>levels</b>: Lista de secuencias. Para construir multiíndices.</li>
    <li><b>names</b>: Lista. Nombres de cada nivel.</li>
    <li><b>verify_integrity</b>: Booleano. Verificar por duplicados.</li>
    <li><b>sort</b>: Booleano. Deja organizazr el DF por los índices.</li>
    <li><b>copy</b>: Booleano. Generar una copia.</li>
</ul>

Dentro de la ccomunidad se tiende a recomendar el uso de Concat en lugar de append. La función `concat` puede hacer todo lo que se hace con append y un poco más de cosas.

In [None]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"]
    },
    #index=[0, 1, 2, 3],
)
df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"]
    },
    #index=[4, 5, 6, 7],
)
df3 = pd.DataFrame(
    {
        "A": ["A8", "A9", "A10", "A11"],
        "B": ["B8", "B9", "B10", "B11"],
        "C": ["C8", "C9", "C10", "C11"],
        "D": ["D8", "D9", "D10", "D11"]
    },
    #index=[8, 9, 10, 11],
)
df4 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "D": ["D2", "D3", "D6", "D7"],
        "F": ["F2", "F3", "F6", "F7"],
    },
    index=[2, 3, 6, 7],
)

In [None]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


Cambiemos el criterio en ignore_index e intentemos llamar celdas por el índice. `.loc[]`

In [None]:
pd.concat([df1, df2, df3], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [None]:
# Concatenar hacia abajo
pd.concat([df1,df2,df3])
pd.concat([df1,df2,df3], ignore_index=False)#.loc[0]

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7
0,A8,B8,C8,D8
1,A9,B9,C9,D9


Tenemos una concatenación y usamos un segundo índice.<br>
¿Si removemos el primer signo `#` y buscamos por el índice `.loc[]`, que pasaría?

In [None]:
pd.concat([df1,df2,df3], keys=["x", "y", "z"])


Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,0,A4,B4,C4,D4
y,1,A5,B5,C5,D5
y,2,A6,B6,C6,D6
y,3,A7,B7,C7,D7
z,0,A8,B8,C8,D8
z,1,A9,B9,C9,D9


In [None]:
pd.concat([df1,df2,df3], keys=["x", "y", "z"]).loc["x"].loc[2] # location (localizar)
#.iloc[]

A    A2
B    B2
C    C2
D    D2
Name: 2, dtype: object

In [None]:
# Concatenar horizontal
pd.concat([df1, df2, df3], axis=1) #concat con respec eje horizontal

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,A4,B4,C4,D4,A8,B8,C8,D8
1,A1,B1,C1,D1,A5,B5,C5,D5,A9,B9,C9,D9
2,A2,B2,C2,D2,A6,B6,C6,D6,A10,B10,C10,D10
3,A3,B3,C3,D3,A7,B7,C7,D7,A11,B11,C11,D11


Si tenemos índices específicos se van a respetar al momento de concatenar.

In [None]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [None]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [None]:
# Expandir los DF al unir
pd.concat([df1, df4], axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [None]:
# Dejándo únicamente las filas que hacen match
pd.concat([df1, df4], axis=1, join="inner")

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [None]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


Podemos trasponer un DF. ¿Creen que esto cambie el tipo de variable del DF?

In [None]:
df1.T # 10 cols ; 2 fil --> 10 filas; 2 cols

Unnamed: 0,0,1,2,3
A,A0,A1,A2,A3
B,B0,B1,B2,B3
C,C0,C1,C2,C3
D,D0,D1,D2,D3


## Join

DataFrame.**join**(other, on=None, how='left', lsuffix='', rsuffix='', sort=False, validate=None)

Parámetros:
<ul>
    <li><b>other</b>: Objetos para unir. Permite DF o Series.</li>
    <li><b>on</b>: str. Llave por la cual se van a unir las bases.</li>
    <li><b>how</b>: str. Método para unir los objetos.</li>
    <li><b>lsufix</b>: str. Complementos a los nombres de las variables para diferenciar entre los objetos (Izquierda).</li>
    <li><b>rsufix</b>: str. Complementos a los nombres de las variables para diferenciar entre los objetos (Derecha).</li>
    <li><b>sort</b>: Bool. Ordenar por el índice.</li>
    <li><b>validate</b>: str. Verifica si el cruce se realizó 1:1, 1:m o m:1.</li>
</ul>

In [None]:
dfa = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                   'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
dfb = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                      'B': ['B0', 'B1', 'B2']})

In [None]:
dfa # por defecto how = 'left

Unnamed: 0,key,A
0,K0,A0
1,K1,A1
2,K2,A2
3,K3,A3
4,K4,A4
5,K5,A5


In [None]:
dfb

Unnamed: 0,key,B
0,K0,B0
1,K1,B1
2,K2,B2


In [None]:
dfa.join(dfb, lsuffix='_A', rsuffix='_B')

Unnamed: 0,key_A,A,key_B,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1
2,K2,A2,K2,B2
3,K3,A3,,
4,K4,A4,,
5,K5,A5,,


In [None]:
dfa_new = dfa.set_index('key')
dfb_new = dfb.set_index('key')

In [None]:
dfa_new.join(dfb_new)

Unnamed: 0_level_0,A,B
key,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,A0,B0
K1,A1,B1
K2,A2,B2
K3,A3,
K4,A4,
K5,A5,


In [None]:
dfa.set_index('key').join(dfb.set_index('key'))#.reset_index()

Unnamed: 0_level_0,A,B
key,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,A0,B0
K1,A1,B1
K2,A2,B2
K3,A3,
K4,A4,
K5,A5,


In [None]:
dfa

Unnamed: 0,key,A
0,K0,A0
1,K1,A1
2,K2,A2
3,K3,A3
4,K4,A4
5,K5,A5


In [None]:
dfa.join(dfb_new, on='key') #recomendable --> on =

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,
4,K4,A4,
5,K5,A5,


## Merge

Ahora si vamos a ver una de las herramientas más útiles que tenemos.<br>
La función Merge nos va a permitir unir bases de datos de múltiples formas, pero tenemos unas recomendaciones:<br>
<ul>
    <li>Si el cruce es 1:1, recomendamos que de la base que cruses mires primero si hay duplicados, de lo contrario, estos duplicados te van a duplicar la información de la base inicial.</li>
    <li>Merge permite combinar tablas por una llave, pero si la llave en las 2 tablas no es la misma, la función va a crear un duplicado de la columna, lo cual sería una columna que no aportaría ningún valor. Para esto puedes cambiar el nombre de la columna o después de usar la función elimina una de las columnas.</li>
    <li>Ten presente que la función Merge no sobreescribe el primer DF, para esto se puede usar `inplace` o asignar el resultado a una variable</li></ul>

DataFrame.**merge**(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)

Parámetros:
<ul>
    <li><b>right</b>: DF o Serie para unir. </li>
    <li><b>how</b>: str. Método para unir los objetos.</li>
    <li><b>on</b>: str. Llave por la cual se van a unir las bases.</li>
    <li><b>left_on</b>: str. Llave del DF de la izquierda por la cual se van a unir las bases.</li>
    <li><b>right_on</b>: str. Llave del DF de la derecha por la cual se van a unir las bases.</li>
    <li><b>left_index</b>: Booleano. Usado para unir por el índice.</li>
    <li><b>right_on</b>: Booleano. Usado para unir por el índice.</li>
    <li><b>sort</b>: Booleano. Ordenar por el índice.</li>
    <li><b>sufixes</b>: list. Complementos a los nombres de las variables para diferenciar entre los objetos.</li>
    <li><b>copy</b>: Booleano. Mejor evitar.</li>
    <li><b>indicator</b>: Booleano. Agrega una columna terminada en _merge con información de la unión.</li>
    <li><b>validate</b>: str. Verifica si el cruce se realizó 1:1, 1:m o m:1.</li>
</ul>

Vamos a hacer un ejercicio.<br>
Ya sabemos cómo leer la función y cómo funciona la unión por medio de Merge.<br>
Ahora vamos a agregar un código a una base de datos usando la función Merge.

### Primero intentemos unir dos tablas con un for loop

Primero vamos a cargar una base de datos de las bases que está tiene Pydataset para practicar.

In [3]:
! pip install pydataset
from pydataset import data

Collecting pydataset
  Downloading pydataset-0.2.0.tar.gz (15.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.9/15.9 MB[0m [31m67.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pydataset
  Building wheel for pydataset (setup.py) ... [?25l[?25hdone
  Created wheel for pydataset: filename=pydataset-0.2.0-py3-none-any.whl size=15939415 sha256=e4cf259c0ec2c3ef9ab04ecc161cd8c80b01d0ae677a2cc277156669db39834c
  Stored in directory: /root/.cache/pip/wheels/2b/83/5c/073c3755e8b7704e4677557b2055e61026c1a2342149214c13
Successfully built pydataset
Installing collected packages: pydataset
Successfully installed pydataset-0.2.0
initiated datasets repo at: /root/.pydataset/


Esta es la lista de todas las bases de datos que tiene esta librería.

In [22]:
my_df = data()

In [23]:
my_df[ my_df["dataset_id"]  == "HairEyeColor"]

Unnamed: 0,dataset_id,title
4,HairEyeColor,Hair and Eye Color of Statistics Students


Cargamos la base de datos con el comando `data("Nombre de la base")`

In [24]:
df_HEC = data("HairEyeColor")
print(df_HEC.shape)
df_HEC.reset_index().head()

(32, 4)


Unnamed: 0,index,Hair,Eye,Sex,Freq
0,1,Black,Brown,Male,32
1,2,Brown,Brown,Male,53
2,3,Red,Brown,Male,10
3,4,Blond,Brown,Male,3
4,5,Black,Blue,Male,11


Vamos a crear un código para el color del pelo.

In [7]:
df_Hair = df_HEC["Hair"].value_counts().reset_index()

In [8]:
df_Hair.drop("Hair", axis= 1, inplace = True)

In [9]:
df_Hair

Unnamed: 0,index
0,Black
1,Brown
2,Red
3,Blond


In [19]:
df_Hair = df_HEC["Hair"].value_counts().reset_index()
df_Hair.drop("Hair", axis= 1, inplace = True)
df_Hair.rename(columns={"index": "Colores"}, inplace=True)
df_Hair["Código"] = ["Bk","Br","Re","Bl"]
df_Hair

Unnamed: 0,Colores,Código
0,Black,Bk
1,Brown,Br
2,Red,Re
3,Blond,Bl


Veamos una función que nos deja saber cuánto tiempo real se demora nuestro PC en correr una parte del código.

In [None]:
df_Hair[df_Hair["Colores"] == "Black"]

Unnamed: 0,Colores,Código
0,Black,Bk


In [None]:
df_Hair[df_Hair["Colores"] == "Red"].reset_index()["Código"][0]

'Re'

In [None]:
t.tic()
a = 0
for i in range(100000):
    a += 1
print(a)
t.toc()

100000
Elapsed time is 0.022493 seconds.


Ahora vamos a contabilizar el tiempo que toma hacer la unión por medio de un **for loop**.

In [None]:
t.tic()

df_HEC["Hair_forMerge"] = ""

for ind in df_HEC.index:
    if df_HEC["Hair"][ind] in df_Hair["Colores"].to_list():
        df_HEC["Hair_forMerge"][ind] = df_Hair[df_Hair["Colores"] == df_HEC["Hair"][ind]].reset_index()["Código"][0]
t.toc()

Elapsed time is 0.068868 seconds.


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_HEC["Hair_forMerge"][ind] = df_Hair[df_Hair["Colores"] == df_HEC["Hair"][ind]].reset_index()["Código"][0]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_HEC["Hair_forMerge"][ind] = df_Hair[df_Hair["Colores"] == df_HEC["Hair"][ind]].reset_index()["Código"][0]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_HEC["Hair_forMerge"][ind] = df_Hair[df_Hair["Colores"] == df_HEC["Hair"][ind]].reset_index()["Código"][0]
A value is trying to be set on a copy of a slice 

In [None]:
df_HEC

Unnamed: 0,Hair,Eye,Sex,Freq,Hair_forMerge
1,Black,Brown,Male,32,Bk
2,Brown,Brown,Male,53,Br
3,Red,Brown,Male,10,Re
4,Blond,Brown,Male,3,Bl
5,Black,Blue,Male,11,Bk
6,Brown,Blue,Male,50,Br
7,Red,Blue,Male,10,Re
8,Blond,Blue,Male,30,Bl
9,Black,Hazel,Male,10,Bk
10,Brown,Hazel,Male,25,Br


### Ahora intentemos con un Merge y comparemos tiempos y dificultad.

In [25]:
## merge
t.tic()
df_HEC = df_HEC.merge(df_Hair, left_on='Hair', right_on='Colores')
t.toc()

Elapsed time is 0.002243 seconds.


In [26]:
df_HEC

Unnamed: 0,Hair,Eye,Sex,Freq,Colores,Código
0,Black,Brown,Male,32,Black,Bk
1,Black,Blue,Male,11,Black,Bk
2,Black,Hazel,Male,10,Black,Bk
3,Black,Green,Male,3,Black,Bk
4,Black,Brown,Female,36,Black,Bk
5,Black,Blue,Female,9,Black,Bk
6,Black,Hazel,Female,5,Black,Bk
7,Black,Green,Female,2,Black,Bk
8,Brown,Brown,Male,53,Brown,Br
9,Brown,Blue,Male,50,Brown,Br


In [2]:
## Ejemplo practico

import pandas as pd

# Create sample data
customers_data = {'CustomerID': [1, 2, 3, 4],
                  'Name': ['Alice', 'Bob', 'Charlie', 'David']}
customers = pd.DataFrame(customers_data)

orders_data = {'OrderID': [101, 102, 103, 104, 105],
               'CustomerID': [1, 2, 3, 1, 4],
               'TotalAmount': [50.0, 75.0, 30.0, 100.0, 20.0],
               'ProductID': [201, 202, 203, 204, 202]}
orders = pd.DataFrame(orders_data)

products_data = {'ProductID': [201, 202, 203, 204],
                 'ProductName': ['Laptop', 'Phone', 'Headphones', 'Keyboard'],
                 'Price': [800.0, 600.0, 50.0, 30.0]}
products = pd.DataFrame(products_data)

# Merging and joining
# Merge orders and customers on CustomerID
# Explicar que hace :
merged_data = pd.merge(orders, customers, on='CustomerID', how='inner')

# Join merged_data with products on ProductID
# Explicar que hace :
final_data = merged_data.merge(products, left_on='ProductID', right_on='ProductID', how='left')

# Concatenation
# Create a new table with additional orders data
# Explicar que hace :
new_orders_data = {'OrderID': [106, 107],
                   'CustomerID': [2, 3],
                   'TotalAmount': [120.0, 40.0],
                   'ProductID': [203, 201]}
new_orders = pd.DataFrame(new_orders_data)

# Concatenate new_orders with existing orders
# Explicar que hace :
all_orders = pd.concat([orders, new_orders], ignore_index=True)

# Display the final results
print("Merged and Joined Data:")
print(merged_data)




Merged and Joined Data:
   OrderID  CustomerID  TotalAmount  ProductID     Name
0      101           1         50.0        201    Alice
1      104           1        100.0        204    Alice
2      102           2         75.0        202      Bob
3      103           3         30.0        203  Charlie
4      105           4         20.0        202    David
