# Concatenación y fusión de datasets


Primero creemos los dataframes



In [1]:
import pandas as pd

## Concatenación sin campos clave


### Primer dataframe

In [2]:
%%writefile dataset/datasetCreado1.csv
name,location
Omar Y. Fletcher,6833 Mollis. Rd.
Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue"
Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd."
Ferris Q. Le,Ap #791-3809 Eu Street
Michael I. Gray,6715 Diam. Rd.
Alan T. Mullins,512-3640 Nisl Rd.
Morgan W. Zamora,416-6030 Vivamus Road
Lilah O. Morrison,3859 Mauris Ave
Chantale Z. Kelley,3433 Arcu. Rd.
Randall Q. Mcclure,Ap #584-7470 Nibh. Ave

Overwriting dataset/datasetCreado1.csv


### Segundo dataframe


In [3]:
%%writefile dataset/datasetCreado2.csv
name,location
Baker C. Hurst,249-6250 Velit. Rd.
Bevis W. Molina,"P.O. Box 935, 1521 At, St."
Martina B. Schroeder,689-7600 Mi St.
Kylie G. Bailey,1430 Diam. Road
Steel K. Glover,"757-681 Et, Av."
Lucas M. Suarez,699-9329 Magna Rd.
Anastasia Q. Mccray,"P.O. Box 780, 4487 Lobortis, St."
Germaine Q. Henson,589-4921 Duis Ave
Wilma U. Mcfadden,6917 Dictum Rd.
Merritt Q. Martinez,"P.O. Box 469, 7833 Euismod Av."


Overwriting dataset/datasetCreado2.csv


### Tercer dataframe


In [4]:
%%writefile dataset/datasetCreado3.csv
bonus
279
138
227
160
267
231
169
263
233
292
208
247
240
161
248
216
291
215
463
790

Overwriting dataset/datasetCreado3.csv


## Concatenemos el dataset 1 y 2


In [5]:
#creemos un dataframe con cada dataset 

df1 = pd.read_csv("dataset/datasetCreado1.csv")

df2 = pd.read_csv("dataset/datasetCreado2.csv")

#Concatenemos con valores por defecto

df1y2 = pd.concat(
    objs=[df1, df2],
    # axis= 0/index, 1/columns
    axis=0,
    # join={'inner', 'outer'}
    join="outer",
    # ignore_index=bool
    ignore_index=False,
    # sort=bool
    # Ordena el otro eje si el join es 'outer'.
    # Se ignora cuando es 'inner'
    sort=False
    )

df1y2


Unnamed: 0,name,location
0,Omar Y. Fletcher,6833 Mollis. Rd.
1,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue"
2,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd."
3,Ferris Q. Le,Ap #791-3809 Eu Street
4,Michael I. Gray,6715 Diam. Rd.
5,Alan T. Mullins,512-3640 Nisl Rd.
6,Morgan W. Zamora,416-6030 Vivamus Road
7,Lilah O. Morrison,3859 Mauris Ave
8,Chantale Z. Kelley,3433 Arcu. Rd.
9,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave


### Hagamos la concatenación ignorando el indice


In [6]:
#creemos un dataframe con cada dataset 

df1 = pd.read_csv("dataset/datasetCreado1.csv")

df2 = pd.read_csv("dataset/datasetCreado2.csv")

#Concatenemos con valores por defecto

df1y2 = pd.concat(
    objs=[df1, df2],
    axis=0,
    ignore_index=True,
    )

df1y2

Unnamed: 0,name,location
0,Omar Y. Fletcher,6833 Mollis. Rd.
1,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue"
2,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd."
3,Ferris Q. Le,Ap #791-3809 Eu Street
4,Michael I. Gray,6715 Diam. Rd.
5,Alan T. Mullins,512-3640 Nisl Rd.
6,Morgan W. Zamora,416-6030 Vivamus Road
7,Lilah O. Morrison,3859 Mauris Ave
8,Chantale Z. Kelley,3433 Arcu. Rd.
9,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave


## Concatemos el dataframe creado anteriormente con el dataset 3 de manera lateral 

### Lo agregaremos como una columna nueva con sus respectivos registros


In [7]:
df3 = pd.read_csv("dataset/datasetCreado3.csv")

len(df3)
len(df1y2)

df_full = pd.concat(
    objs=[df1y2, df3],
    axis = 1, #para que se concatene como columna, no como fila
)

df_full

Unnamed: 0,name,location,bonus
0,Omar Y. Fletcher,6833 Mollis. Rd.,279
1,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue",138
2,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd.",227
3,Ferris Q. Le,Ap #791-3809 Eu Street,160
4,Michael I. Gray,6715 Diam. Rd.,267
5,Alan T. Mullins,512-3640 Nisl Rd.,231
6,Morgan W. Zamora,416-6030 Vivamus Road,169
7,Lilah O. Morrison,3859 Mauris Ave,263
8,Chantale Z. Kelley,3433 Arcu. Rd.,233
9,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave,292


# Concatenación usando un campo clave


### Nuevamente creemos tres datasets 

### Dataset 1


In [8]:
%%writefile dataset/dataset1.csv
clientId,name,location
10,Omar Y. Fletcher,6833 Mollis. Rd.
11,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue"
12,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd."
13,Ferris Q. Le,Ap #791-3809 Eu Street
14,Michael I. Gray,6715 Diam. Rd.
15,Alan T. Mullins,512-3640 Nisl Rd.
16,Morgan W. Zamora,416-6030 Vivamus Road
17,Lilah O. Morrison,3859 Mauris Ave
18,Chantale Z. Kelley,3433 Arcu. Rd.
19,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave

Overwriting dataset/dataset1.csv


### Dataset 2


In [9]:
%%writefile dataset/dataset2.csv
clientId,name,location
20,Baker C. Hurst,249-6250 Velit. Rd.
21,Bevis W. Molina,"P.O. Box 935, 1521 At, St."
22,Martina B. Schroeder,689-7600 Mi St.
23,Kylie G. Bailey,1430 Diam. Road
24,Steel K. Glover,"757-681 Et, Av."
25,Lucas M. Suarez,699-9329 Magna Rd.
26,Anastasia Q. Mccray,"P.O. Box 780, 4487 Lobortis, St."
27,Germaine Q. Henson,589-4921 Duis Ave
28,Wilma U. Mcfadden,6917 Dictum Rd.
29,Merritt Q. Martinez,"P.O. Box 469, 7833 Euismod Av."

Overwriting dataset/dataset2.csv


### Dataset 3

In [10]:
%%writefile dataset/dataset3.csv
clientId,bonus
28,463
29,790
11,138
12,227
15,231
24,248
25,216
26,291
10,279
13,160
14,267
27,215
16,169
17,263
18,233
19,292
20,208
21,247
22,240
23,161

Overwriting dataset/dataset3.csv


## Carguemos y concatenemos los dos primeros datasets

In [12]:
df1 = pd.read_csv("dataset/dataset1.csv")

df2 = pd.read_csv("dataset/dataset2.csv")

df1y2 = pd.concat(
    [df1, df2],
    ignore_index=True
)

df1y2.set_index("clientId", inplace=True)#Le decimos que use la columna cLientId como indice

df1y2

Unnamed: 0_level_0,name,location
clientId,Unnamed: 1_level_1,Unnamed: 2_level_1
10,Omar Y. Fletcher,6833 Mollis. Rd.
11,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue"
12,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd."
13,Ferris Q. Le,Ap #791-3809 Eu Street
14,Michael I. Gray,6715 Diam. Rd.
15,Alan T. Mullins,512-3640 Nisl Rd.
16,Morgan W. Zamora,416-6030 Vivamus Road
17,Lilah O. Morrison,3859 Mauris Ave
18,Chantale Z. Kelley,3433 Arcu. Rd.
19,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave


## Carguemos el tercer dataset y configuremos su indice

In [13]:
df3 = pd.read_csv("dataset/dataset3.csv")

df3.set_index("clientId", inplace=True)

df3

Unnamed: 0_level_0,bonus
clientId,Unnamed: 1_level_1
28,463
29,790
11,138
12,227
15,231
24,248
25,216
26,291
10,279
13,160


## Hagamos la concatenación por columna con el dataframe previamente concatenado

In [14]:
df_full = pd.concat(
    [df1y2, df3],
    axis=1,
)

df_full

Unnamed: 0_level_0,name,location,bonus
clientId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10,Omar Y. Fletcher,6833 Mollis. Rd.,279
11,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue",138
12,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd.",227
13,Ferris Q. Le,Ap #791-3809 Eu Street,160
14,Michael I. Gray,6715 Diam. Rd.,267
15,Alan T. Mullins,512-3640 Nisl Rd.,231
16,Morgan W. Zamora,416-6030 Vivamus Road,169
17,Lilah O. Morrison,3859 Mauris Ave,263
18,Chantale Z. Kelley,3433 Arcu. Rd.,233
19,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave,292


## Convirtamos el clientId a una columna nuevamente

In [15]:
df_full = df_full.reset_index()
df_full

Unnamed: 0,clientId,name,location,bonus
0,10,Omar Y. Fletcher,6833 Mollis. Rd.,279
1,11,Buffy W. Vincent,"P.O. Box 345, 8390 Ante Avenue",138
2,12,Mira N. Franklin,"P.O. Box 445, 323 Cursus Rd.",227
3,13,Ferris Q. Le,Ap #791-3809 Eu Street,160
4,14,Michael I. Gray,6715 Diam. Rd.,267
5,15,Alan T. Mullins,512-3640 Nisl Rd.,231
6,16,Morgan W. Zamora,416-6030 Vivamus Road,169
7,17,Lilah O. Morrison,3859 Mauris Ave,263
8,18,Chantale Z. Kelley,3433 Arcu. Rd.,233
9,19,Randall Q. Mcclure,Ap #584-7470 Nibh. Ave,292
