# Unión e Integración de Datos

Imagina que tenemos un conjunto de datos (DataFrame) y queremos hacer ejemplos prácticos para aprender. Para hacer esto, necesitamos crear nuevos archivos a partir de nuestros datos originales, pero solo con una parte de la información.

**Ejemplos de Apilar**:

1. **variables_izq**: Será un archivo con la mitad izquierda de las columnas del conjunto de datos original, pero sin una identificación única para cada fila.

2. **variables_drc**: Este archivo contendrá la mitad derecha de las columnas del conjunto de datos original, pero también sin una identificación única.

3. **registros_sup**: Será un archivo con la mitad superior de las filas del conjunto de datos original. Al igual que los anteriores, no tendrá una identificación única.

4. **registros_inf**: Este archivo contendrá la mitad inferior de las filas del conjunto de datos original, sin identificación única.

**Ejemplos de Cruzar**:

5. **fichero1**: En este caso, será un archivo con la mitad izquierda de las columnas del conjunto de datos original, pero con una identificación única para cada fila.

6. **fichero2**: Contendrá la mitad derecha de las columnas del conjunto de datos original y también tendrá una identificación única para cada fila.

Estos nuevos archivos nos permitirán practicar diferentes operaciones, como apilar o combinar la información de acuerdo a lo que necesitemos aprender. Recuerda que se están creando solo para propósitos de ejemplificación y práctica, y no contienen datos reales.

In [1]:
import pandas as pd

df = pd.read_excel('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos.xlsx')
df

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...
295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


In [7]:
# Que deseamos apilar
variable_izq = df.iloc[:,:3] #Hasta Precio
variable_drc = df.iloc[:,3:] #Cantidad a id

registro_sup = df.iloc[:150,:] #Los primeros 150 registros
registro_inf = df.iloc[150:,:] #Del registro 151 en adelante

In [None]:
# Creamos los que vamos a cruzar
# Primero debemos crear un campo Clave
import numpy as np
df2 = df.copy()
df2.insert(0,'Clave', np.arange(0,len(df)))

#Ahora crearemos los ficheros
fichero1 = df2.copy().drop(df2.columns[8:], axis = 1)
fichero2 = df2.copy().drop(df2.columns[1:8],axis=1)

In [8]:
fichero1

Unnamed: 0,Clave,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...,...
295,295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


In [9]:
fichero2

Unnamed: 0,Clave
0,0
1,1
2,2
3,3
4,4
...,...
295,295
296,296
297,297
298,298


## Apilar Variables

Cuando hablamos de "apilar variables", nos referimos a combinar dos archivos que tienen los mismos registros (filas) pero diferentes columnas, y queremos juntar esas columnas en un solo conjunto de datos. Es como si tuviéramos dos piezas de un rompecabezas que encajan perfectamente.

Sin embargo, en este proceso, no tenemos un campo clave para emparejar los registros, por lo que es esencial que ambos archivos tengan exactamente los mismos registros en el mismo orden para que coincidan correctamente.

Para lograr esto en Pandas, utilizamos la función `concat()`, especificando el parámetro `axis` como 'columns', lo que significa que estamos apilando (uniendo) las variables o columnas de ambos archivos uno al lado del otro.

Los parámetros más importantes son:

1. **objs:** Aquí proporcionamos los archivos que queremos unir como una lista. Estos archivos deben tener los mismos registros en el mismo orden.

2. **axis:** Configuramos este parámetro en 'columns' para indicar que estamos apilando las columnas.

En resumen, apilar variables significa combinar dos archivos que tienen los mismos registros pero diferentes columnas en uno solo. Lo hacemos con `concat()` y aseguramos que los registros coincidan en el mismo orden en ambos archivos.

In [10]:
variable_izq

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg)
0,Mas y Mas,Almendras,4.54
1,Mercadona,Nueces,5.84
2,Alcampo,Cacahuetes,2.69
3,Mas y Mas,Pistachos,6.70
4,Lidl,Nueces,6.14
...,...,...,...
295,Caprabo,Nueces,9.75
296,Alcampo,Pistachos,3.82
297,Mas y Mas,Pistachos,5.22
298,Mas y Mas,Cacahuetes,8.07


In [11]:
variable_drc

Unnamed: 0,Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,1212,29/3/23,Cádiz,389932
1,591,5/12/23,Sevilla,389933
2,2831,26/7/23,Madrid,389934
3,516,7/10/23,Alicante,389935
4,1283,12/5/23,Barcelona,389936
...,...,...,...,...
295,2367,15/9/23,Sevilla,390227
296,1951,19/9/23,Madrid,390228
297,2811,4/5/23,Valencia,390229
298,473,18/1/23,Madrid,390230


In [12]:
pd.concat([variable_izq,variable_drc],axis='columns')

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...
295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


## Apilar Registros

In [13]:
registro_sup

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...
145,Carrefour,Cacahuetes,7.04,877,7/3/23,Sevilla,390077
146,Mercadona,Almendras,9.13,1132,22/10/23,Alicante,390078
147,Family Cash,Pistachos,10.99,277,6/3/23,Madrid,390079
148,Family Cash,Almendras,2.78,2150,1/9/23,Valencia,390080


In [14]:
registro_inf

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
150,Aldi,Pistachos,6.92,977,8/2/23,Barcelona,390082
151,Alcampo,Cacahuetes,9.86,601,10/11/23,Barcelona,390083
152,Family Cash,Almendras,2.57,1326,15/9/23,Madrid,390084
153,Alcampo,Pistachos,8.54,2607,20/8/23,Cádiz,390085
154,Aldi,Cacahuetes,10.48,1081,16/8/23,Barcelona,390086
...,...,...,...,...,...,...,...
295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


In [15]:
pd.concat([registro_sup,registro_inf],axis='index')

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...
295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


## Cruzar Ficheros

Cuando trabajas en entornos profesionales con datos que a menudo provienen de bases de datos, es común necesitar combinar dos tablas de datos basadas en un campo clave. Esto se hace con la función merge() en Pandas.

Puedes realizar diferentes tipos de combinaciones (cruces) según cuál de las dos tablas quieras que "mande" en la operación:

Left Join (Unión Izquierda): La tabla de la izquierda "manda". Esto significa que se incluirán todos los registros de la tabla de la izquierda, independientemente de si tienen una coincidencia en la tabla de la derecha.

Right Join (Unión Derecha): La tabla de la derecha "manda". Esto significa que se incluirán todos los registros de la tabla de la derecha, independientemente de si tienen una coincidencia en la tabla de la izquierda.

Inner Join (Unión Interna): En este caso, solamente se incluirán los registros que tienen una coincidencia en ambas tablas. Los registros que no tienen coincidencias se excluyen.

Full Join (Unión Completa): En este tipo de unión, se incluirán todos los registros tanto de la tabla de la izquierda como de la tabla de la derecha. Si hay coincidencias, se mostrarán, y si no las hay, se llenarán con valores nulos.

Los parámetros más importantes para la función merge() son:

left: La tabla de la izquierda que deseas combinar.
right: La tabla de la derecha que deseas combinar.
how: El tipo de unión que deseas realizar ('left', 'right', 'inner' o 'outer' según las descripciones anteriores).
on: El nombre del campo clave que se utilizará para unir las dos tablas si ambos tienen el mismo nombre.
left_on: El nombre del campo clave en la tabla de la izquierda.
right_on: El nombre del campo clave en la tabla de la derecha.
En resumen, merge() es útil cuando deseas combinar dos tablas de datos en función de un campo clave y tienes control sobre cuál de las dos tablas debe "mandar" en la operación de combinación. Los parámetros te permiten especificar cómo deseas realizar la combinación y qué campos clave utilizar.

In [17]:
# Cruzamos los ficheron con los mismos registros
pd.merge(left=fichero1,
         right=fichero2,
         how='inner',
         on='Clave')

Unnamed: 0,Clave,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...,...
295,295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


In [18]:
# Tambien podemos aplicar merge directamente sobre el fichero
fichero1.merge(right=fichero2,how='inner',on='Clave')

Unnamed: 0,Clave,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,3,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...,...
295,295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,297,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,298,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid,390230
