# Combining rows of data

En determinadas ocasiones es posible que tengamos que concatenar determinados conjuntos de datos. La librería Pandas nos proporciona el método **concat** que nos permite concatenar varios conjuntos de datos por filas.

In [2]:
import pandas as pd

#Cargamos los datos
uber1 = pd.read_csv('uber_1.csv')
uber2 = pd.read_csv('uber_2.csv')
uber3 = pd.read_csv('uber_3.csv')

#Procedemos a concatenar los tres conjuntos de datos para obtener de esta forma un único dataframe
row_concat = pd.concat([uber1, uber2, uber3])

#Vemos el resultado de las 10 primeras observaciones
print(row_concat.head(n = 10))

          Date/Time         Lat         Lon    Base
0  4/1/2014 0:11:00  40769.0000    -73.9549  B02512
1  4/1/2014 0:17:00     40.7267    -74.0345  B02512
2  4/1/2014 0:21:00     40.7316    -73.9873  B02512
3  4/1/2014 0:28:00     40.7588    -73.9776  B02512
4  4/1/2014 0:33:00     40.7594    -73.9722  B02512
5  4/1/2014 0:33:00     40.7383    -74.0403  B02512
6  4/1/2014 0:39:00     40.7223    -73.9887  B02512
7  4/1/2014 0:45:00  40762.0000 -73979.0000  B02512
8  4/1/2014 0:55:00     40.7524    -73.9960  B02512
9  4/1/2014 1:01:00     40.7575    -73.9846  B02512


El método **concat()** dispone del parámetro **axis**, este valor por defecto toma el valor de 0 lo que indica que concatenará por filas, mientras que si toma el valor de 1 esta concatenación será por columnas.

# Finding files that match a pattern

Supongamos que queremos concatenar cientos o miles de dataframes, de forma que necesitamos realizar la lectura de cada uno de estos conjuntos de datos y luego concatenarlos. Realizar la lectura fichero por fichero, no parece ser una forma muy óptima. La función **glob** de Python, nos retorna una lista de todos los ficheros que coinciden con el patrón que le pasamos.

In [5]:
import glob
#Buscamos todos los ficheros csv
files = glob.glob('*.csv')

#Mostramos el resultado
print(files)

['uber_3.csv', 'uber_2.csv', 'dob_job_application_filings_subset.csv', 'duplicate.csv', 'gapminder.csv', 'uber_1.csv', 'tips.csv', 'tb.csv', 'ebola.csv', 'nyc_uber_2014.csv', 'airquality.csv']


In [9]:
#Buscamos los ficheros que tienen el valor _
files = glob.glob('*_?.csv')

#Mostramos el resultado
print(files)

['uber_3.csv', 'uber_2.csv', 'uber_1.csv']


Una vez tenemos todos los archivos que queremos leer en una lista podemos crearnos una lista de dataframes y tras esto pasarselo a la función concat.

In [11]:
#Obtenemos la lista de dataframes a concatenar
list_df_uber = [pd.read_csv(file) for file in files]

#Concatenamos los dataframes
df_uber_concat = pd.concat(list_df_uber)

#Mostramos el resultado
print(df_uber_concat.head(n = 10))

          Date/Time         Lat         Lon    Base
0  6/1/2014 0:01:00     40.7131    -74.0097  B02512
1  6/1/2014 0:04:00     40.3461 -74661.0000  B02512
2  6/1/2014 0:04:00     40.7555    -73.9833  B02512
3  6/1/2014 0:07:00  40688.0000    -74.1831  B02512
4  6/1/2014 0:08:00     40.7152    -73.9917  B02512
5  6/1/2014 0:08:00     40.7282 -73991.0000  B02512
6  6/1/2014 0:08:00     40.3042    -73.9794  B02512
7  6/1/2014 0:09:00  40727.0000    -73.9915  B02512
8  6/1/2014 0:10:00     40.7221    -73.9965  B02512
9  6/1/2014 0:11:00     40.7153    -74.0146  B02512


# 1-to-1 data merge

La unión(merge) de varios datasets, nos permite compactar información de forma que podamos realizar un análisis mas completo de los datos. A la hora de realizar un Merge entre varios dataframes podemos tener varios posibilidades:

* one-to-one merge: este caso es en el cual al cruzar ambos conjuntos de datos no tenemos duplicados.

* Many-to-one merge:

* Many-to-Many merge:

Para cruzar datos contamos con el método **merge()** de la librería Pandas. Este método recibe los dos conjuntos de datos que deseamos unir, y luego dispone del parámetro **on** en el cual indicamos por que columna deseamos realizar la unión. En caso de que las columnas por las que deseamos realizar la unión tenga un nombre distinto podemos hacer uso de los parámetros **left_on** y **right_on**, mediante los cuales indicamos las columnas por las que deseamos realizar la unión.

In [13]:
#Cargamos los datos
site = pd.read_csv('site.csv')
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [14]:
#Cargamos los datos
visited = pd.read_csv('visited.csv')
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    734   DR-3  1939-01-07
2    837  MSK-4  1932-01-14


In [15]:
#Hacemos un merge entre ambos datos por los campos name y site
df_merge = pd.merge(left = site, right = visited, left_on = 'name', right_on = 'site')

#Vemos el resultado 
print(df_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


# Many-to-1 data merge

En este tipo de merge una de las tablas dispone de valores repetidos del campo por el cual vamos a cruzar.

In [34]:
#Cargamos los datos
site = pd.read_csv('site.csv')
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [35]:
#Cargamos los datos
visited_2 = pd.read_csv('visited_2.csv')
print(visited_2)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [36]:
#Hacemos el merge
df_merge = pd.merge(left = site, right = visited_2, left_on = 'name', right_on = 'site')

#Mostramos el resultado 
print(df_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


# Many-to-many data merge

El último caso es aquel en el que ambas tablas disponen de valores repetidos en la columna por la cula se va producir el merge. En estos caso los valores apareceran por duplicado, es decir, para cada clave duplicada apareceran combinaciones de pares.

In [37]:
#Cargamos los datos
survey = pd.read_csv('survey.csv')
print(survey)

    taken  person  quant  reading
0      619    dyer   rad     9.82
1      619    dyer   sal     0.13
2      622    dyer   rad     7.80
3      622    dyer   sal     0.09
4      734      pb   rad     8.41
5      734    lake   sal     0.05
6      734      pb  temp   -21.50
7      735      pb   rad     7.22
8      735     NaN   sal     0.06
9      735     NaN  temp   -26.00
10     751      pb   rad     4.35
11     751      pb  temp   -18.50
12     751    lake   sal     0.10
13     752    lake   rad     2.19
14     752    lake   sal     0.09
15     752    lake  temp   -16.00
16     752     roe   sal    41.60
17     837    lake   rad     1.46
18     837    lake   sal     0.21
19     837     roe   sal    22.50
20     844     roe   rad    11.25


In [38]:
#Mostramos los datos con los que vamos a mergear
print(df_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [39]:
#Procedemos a mergear por el campo ident y taken
df_merge = pd.merge(left = df_merge, right = survey, left_on = 'ident', right_on = 'taken ')

#Vemos el tamaño de nuestro conjunto de datos mergeado
print(df_merge.shape)



(21, 10)


In [40]:
#Vemos el resultado
print(df_merge)

     name    lat    long  ident   site       dated  taken  person  quant  \
0    DR-1 -49.85 -128.57    619   DR-1  1927-02-08     619    dyer   rad   
1    DR-1 -49.85 -128.57    619   DR-1  1927-02-08     619    dyer   sal   
2    DR-1 -49.85 -128.57    622   DR-1  1927-02-10     622    dyer   rad   
3    DR-1 -49.85 -128.57    622   DR-1  1927-02-10     622    dyer   sal   
4    DR-1 -49.85 -128.57    844   DR-1  1932-03-22     844     roe   rad   
5    DR-3 -47.15 -126.72    734   DR-3  1939-01-07     734      pb   rad   
6    DR-3 -47.15 -126.72    734   DR-3  1939-01-07     734    lake   sal   
7    DR-3 -47.15 -126.72    734   DR-3  1939-01-07     734      pb  temp   
8    DR-3 -47.15 -126.72    735   DR-3  1930-01-12     735      pb   rad   
9    DR-3 -47.15 -126.72    735   DR-3  1930-01-12     735     NaN   sal   
10   DR-3 -47.15 -126.72    735   DR-3  1930-01-12     735     NaN  temp   
11   DR-3 -47.15 -126.72    751   DR-3  1930-02-26     751      pb   rad   
12   DR-3 -4