# 15: CONCATENAR TABLAS

##### A veces nos podemos encontrar con que tenemos distintas tablas que necesitamos juntar, ya sea a través de una columna común en todas las tablas, o añadiendo todas las filas debajo si los datos de ambos datasets tienen las mismas columnas

In [1]:
import pandas as pd
import numpy as np
import os

### Concatenar dataframes

La concatenación de dataframes se da cuando dos o más dataframes contienen las mismas columnas, és decir, la información que contienen es la misma, pero por razones determinadas, estos dataframes están separados. Por ejemplo, tenemos dos dataframes que contienen las mismas columnas, la diferencia entre estos dos datasets está en que uno tiene información sobre vinos blancos y otro sobre vinos rojos. De este modo, mediante la concatenación, podemos juntar ambos dataframes para crear uno que contenga ambos tipos de vinos.

In [14]:
# Cargamos el dataset de vino blanco

raiz = r"C:\Users\Usuario\Documents\05_Formación_Académica\Marc\Data_Science\machine_learning\Recursos_curso\datasets"
white = r"wine\winequality-white.csv"
red = r"wine\winequality-red.csv"
ruta_white = os.path.join(raiz, white) 
data_white = pd.read_csv(ruta_white, sep = ';') # ponemos el separador ';' porque estos dataframes vienen separados asi
ruta_red = os.path.join(raiz, red) 
data_red = pd.read_csv(ruta_red, sep = ';')

In [9]:
# Comprobamos las columnas del vino rojo

columnas_red = data_red.columns.values.tolist()

In [12]:
# Y las del vino blanco

columnas_white = data_white.columns.values.tolist()

In [13]:
# Comporbamos si son las mismas columnas

columnas_red == columnas_white

True

Como podemos ver, ambos dataframes tienen las mismas columnas, por lo que podemos concatenarlos

### Concatenar a través de las columnas (un dataframe encima del otro)

In [15]:
# Concatenamos ambos dataframes uno encima del otro

wine = pd.concat([data_red, data_white], # se ha de pasar los dataframes que queremos concatenar como lista, arriba va red, debajo white
                 axis = 0) # axis = 0 significa que vamos a juntar por columnas, es decir, un dataframe encima del otro

In [16]:
wine.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [29]:
print(f'Mientras que el dataset de vino rojo tiene {data_red.shape[0]} filas y la del vino blanco tiene {data_white.shape[0]} filas,' +
f'el nuevo dataframe concatenado tiene {wine.shape[0]} filas.')

Mientras que el dataset de vino rojo tiene 1599 filas y la del vino blanco tiene 4898 filas,el nuevo dataframe concatenado tiene 6497 filas.


### Concatenar a través de las filas (un datafram al lado del otro)

In [31]:
# Concatenar a través de las filas, es decir, un dataframe al lado del otro

new_wine = pd.concat([data_red, data_white], 
                     axis = 1) # esto va a unir los datasets uno al lado del otro

In [32]:
new_wine.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,...,citric acid.1,residual sugar.1,chlorides.1,free sulfur dioxide.1,total sulfur dioxide.1,density.1,pH.1,sulphates.1,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,...,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,...,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,...,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,...,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,...,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [33]:
print(f'La dimensión del dataframe si concatenamos ambos datasets uno encima de otro es: {wine.shape}')
print(f'La dimensión del dataframe si concatenamos ambos datasets uno al lado del otro es: {new_wine.shape}')

La dimensión del dataframe si concatenamos ambos datasets uno encima de otro es: (6497, 12)
La dimensión del dataframe si concatenamos ambos datasets uno al lado del otro es: (4898, 24)


### Concatenar múltiples dataframes

Tenemos un directorio que contiene 300 dataframes diferentes con las mismas columnas que queremos concatenar uno encima del otro. Lo primero que hay que hacer es cargar todos los ficheros que tenemos que concatenar.

In [56]:
# Comprobamos que ficheros tenemos en el directorio

raiz = r"C:\Users\Usuario\Documents\05_Formación_Académica\Marc\Data_Science\machine_learning\Recursos_curso\datasets"
directorio = r"distributed-data"
path = os.path.join(raiz, directorio) 

all_files = (os.listdir(path)) # esa línea devuelve una lista de todos los ficheros de un directorio
all_files[0:11]

['001.csv',
 '002.csv',
 '003.csv',
 '004.csv',
 '005.csv',
 '006.csv',
 '007.csv',
 '008.csv',
 '009.csv',
 '010.csv',
 '011.csv']

In [38]:
# Cargamos un dataframe sobre el que iremos concatenando

data = pd.read_csv(os.path.join(raiz, directorio, all_files[0]))

In [39]:
data.head()

Unnamed: 0,Date,sulfate,nitrate,ID
0,2003-01-01,,,1
1,2003-01-02,,,1
2,2003-01-03,,,1
3,2003-01-04,,,1
4,2003-01-05,,,1


In [57]:
# eliminamos el primer elemento ya que se ha utilizado para construir el dataframe

all_files.remove(all_files[0]) 

In [53]:
# Iniciamos un bucle para ir concatenando los dataframes

for i in all_files:
    transient_df = pd.read_csv(os.path.join(raiz, directorio, i))
    data = pd.concat([data, transient_df], axis = 0)

In [58]:
# Comprobamos las dimensiones del nuevo dataframe

data.shape

(772087, 4)

In [59]:
data.head()

Unnamed: 0,Date,sulfate,nitrate,ID
0,2003-01-01,,,1
1,2003-01-02,,,1
2,2003-01-03,,,1
3,2003-01-04,,,1
4,2003-01-05,,,1


In [60]:
data.tail()

Unnamed: 0,Date,sulfate,nitrate,ID
726,2004-12-27,,,332
727,2004-12-28,,,332
728,2004-12-29,,,332
729,2004-12-30,,,332
730,2004-12-31,,,332
