# Fusión de datos

La fusión de datos es el proceso en el que combinas más de un dataset en un único dataset.

Primero importaremos pandas, que es actualmente la librería más utilizada para el análisis de los datos.

In [1]:
import pandas as pd

## Data joining

Es un método para combinar los datasets que provienen de la misma fuente de datos y la fusión se basa en algún atributo que tengan en común.

En esta ocasión crearemos un par de datasets sencillitos para los ejemplos, así podremos entender mejor la idea de los joins.

En el dataset df1 tendremos los nombres de los profesores y las asignaturas que imparten. En este caso cada profesor impartirá una asignatura. 

Por otro lado, en el dataset df2 tendremos los nombres de los profesores junto con la edad que tienen.

In [2]:
df1 = pd.DataFrame({'teacher': ['Bob', 'Jake', 'Lisa', 'Sue', 'Charlie', 'Peter', 'Anna', 'Sophia'],
                    'subject': ['Maths', 'English', 'Science', 'Music', 'History', 'Art', 'Geography', 'Spanish']})
df1

Unnamed: 0,teacher,subject
0,Bob,Maths
1,Jake,English
2,Lisa,Science
3,Sue,Music
4,Charlie,History
5,Peter,Art
6,Anna,Geography
7,Sophia,Spanish


In [3]:
df2 = pd.DataFrame({'teacher': ['Jake', 'Adam', 'Lisa', 'Bob', 'Emma', 'Sue'],
                    'age': [45, 31, 27, 51, 40, 57]})
df2

Unnamed: 0,teacher,age
0,Jake,45
1,Adam,31
2,Lisa,27
3,Bob,51
4,Emma,40
5,Sue,57


A continuación se mostrarán los métodos más conocidos.

### Inner join

El resultado de esta combinación es una tabla que contiene los valores con los atributos comunes en las dos tablas. 

Como podemos ver, en la tabla resultante tenemos los profesores que se encontraban en ambos datasets.

In [4]:
pd.merge(df1, df2, on='teacher', how='inner')

Unnamed: 0,teacher,subject,age
0,Bob,Maths,51
1,Jake,English,45
2,Lisa,Science,27
3,Sue,Music,57


### Left join

La tabla resultante contiene las filas que tengan en común el valor del atributo seleccionado en ambas tablas y todos los valores de la tabla izquierda.

Se puede ver que la combinación nos devuelve todos los profesores del dataset de la izquierda (df1) junto con sus asignaturas y las edades de los profesores que se encontraban en ambos datasets.


In [5]:
pd.merge(df1, df2, on='teacher', how='left')

Unnamed: 0,teacher,subject,age
0,Bob,Maths,51.0
1,Jake,English,45.0
2,Lisa,Science,27.0
3,Sue,Music,57.0
4,Charlie,History,
5,Peter,Art,
6,Anna,Geography,
7,Sophia,Spanish,


### Right join

El resultado es una tabla que contiene las filas con los valores del atributo seleccionado comunes que tengan las dos tablas y todos los valores de la tabla de la derecha.

Podemos observar que obtenemos una tabla con todos los profesores de la tabla de la derecha (df2) con sus edades y las asignaturas de los profesores que se encontraban en ambas tablas.

In [6]:
pd.merge(df1, df2, on='teacher', how='right')

Unnamed: 0,teacher,subject,age
0,Jake,English,45
1,Adam,,31
2,Lisa,Science,27
3,Bob,Maths,51
4,Emma,,40
5,Sue,Music,57


### Full outer join

El resultado es una tabla que contiene todos los valores de las dos tablas.

Podemos ver que tenemos todos los profesores de ambos datasets y las columnas asignatura y edad tienen valores dependiendo de si el profesor estaba en los datasets respectivos.

In [7]:
pd.merge(df1, df2, on='teacher', how='outer')

Unnamed: 0,teacher,subject,age
0,Bob,Maths,51.0
1,Jake,English,45.0
2,Lisa,Science,27.0
3,Sue,Music,57.0
4,Charlie,History,
5,Peter,Art,
6,Anna,Geography,
7,Sophia,Spanish,
8,Adam,,31.0
9,Emma,,40.0


### Cartesian product

El resultado es un conjunto de todos los pares ordenados que puedan crearse a partir de las dos tablas. En este tipo de combinaciones las tablas no deben compartir ningún atributo en común.

Como ejemplo, crearemos un dataset de los estudiantes y podremos ver como a cada profesor se le asignan todos los estudiantes.

In [8]:
df_cross = pd.DataFrame({'student': ['Alice', 'Robert', 'Liam']})
df_cross

Unnamed: 0,student
0,Alice
1,Robert
2,Liam


In [9]:
pd.merge(df1, df_cross, how='cross')

Unnamed: 0,teacher,subject,student
0,Bob,Maths,Alice
1,Bob,Maths,Robert
2,Bob,Maths,Liam
3,Jake,English,Alice
4,Jake,English,Robert
5,Jake,English,Liam
6,Lisa,Science,Alice
7,Lisa,Science,Robert
8,Lisa,Science,Liam
9,Sue,Music,Alice


También existe la posibilidad de usar el metodo join() de pandas, pero se entiende mejor usando el método merge().

### Ejemplo más complejo

En este ejemplo leeremos ficheros csv con datos sobre las precipitaciones y temperaturas que ha hecho en diferentes fechas en diferentes estaciones meteorológicas. Después las uniremos para poder tener los datos combinados de los diferentes puntos.

Para ello, primero leemos los datos con la función read_csv() que nos ofrece pandas.

In [27]:
# from google.colab import drive
# from google.colab import files
# drive.mount('/c*ontent/drive')

In [28]:
# climate_precipitations = pd.read_csv('/content/drive/My Drive/TheEgg_Contenido/climate_precipitations_NOAA.csv', delimiter=';')
# climate_temperatures = pd.read_csv('/content/drive/My Drive/TheEgg_Contenido/climate_temperatures_NOAA.csv', delimiter=';')

In [12]:
climate_precipitations = pd.read_csv('climate_precipitations_NOAA.csv', delimiter=';')
climate_temperatures = pd.read_csv('climate_temperatures_NOAA.csv', delimiter=';')

Ahora analizamos ambos datasets para ver cuales son las columnas que podemos utilizar como base para hacer la combinación de los datos.

Estos son los datos que tendríamos en el dataset de precipitaciones:

In [13]:
climate_precipitations.head()

Unnamed: 0,STATION,STATION_NAME,DATE,DLY-PRCP-25PCTL,DLY-SNWD-25PCTL,DLY-SNOW-25PCTL,DLY-PRCP-50PCTL,DLY-SNWD-50PCTL,DLY-SNOW-50PCTL,DLY-PRCP-75PCTL,...,DLY-PRCP-PCTALL-GE100HI,DLY-SNWD-PCTALL-GE001WI,DLY-SNWD-PCTALL-GE010WI,DLY-SNWD-PCTALL-GE003WI,DLY-SNWD-PCTALL-GE005WI,DLY-SNOW-PCTALL-GE001TI,DLY-SNOW-PCTALL-GE010TI,DLY-SNOW-PCTALL-GE100TI,DLY-SNOW-PCTALL-GE030TI,DLY-SNOW-PCTALL-GE050TI
0,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100101,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
1,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100102,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
2,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100103,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
3,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100104,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,3,0,0,0,0,0,0,0,0,0
4,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100105,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,3,0,0,0,0,0,0,0,0,0


Como son muchas columnas no podremos mostrar todas con los datos, pero estas serían las columnas que tendríamos y el tipo de datos que tenemos en cada columna:

In [14]:
climate_precipitations.dtypes

STATION                     object
STATION_NAME                object
DATE                         int64
DLY-PRCP-25PCTL            float64
DLY-SNWD-25PCTL              int64
DLY-SNOW-25PCTL            float64
DLY-PRCP-50PCTL            float64
DLY-SNWD-50PCTL              int64
DLY-SNOW-50PCTL            float64
DLY-PRCP-75PCTL            float64
DLY-SNWD-75PCTL              int64
DLY-SNOW-75PCTL            float64
MTD-PRCP-NORMAL            float64
MTD-SNOW-NORMAL            float64
YTD-PRCP-NORMAL            float64
YTD-SNOW-NORMAL            float64
DLY-PRCP-PCTALL-GE001HI      int64
DLY-PRCP-PCTALL-GE010HI      int64
DLY-PRCP-PCTALL-GE050HI      int64
DLY-PRCP-PCTALL-GE100HI      int64
DLY-SNWD-PCTALL-GE001WI      int64
DLY-SNWD-PCTALL-GE010WI      int64
DLY-SNWD-PCTALL-GE003WI      int64
DLY-SNWD-PCTALL-GE005WI      int64
DLY-SNOW-PCTALL-GE001TI      int64
DLY-SNOW-PCTALL-GE010TI      int64
DLY-SNOW-PCTALL-GE100TI      int64
DLY-SNOW-PCTALL-GE030TI      int64
DLY-SNOW-PCTALL-GE05

El dataset de los datos de las temperaturas:

In [15]:
climate_temperatures.head()

Unnamed: 0,STATION,STATION_NAME,ELEVATION,LATITUDE,LONGITUDE,DATE,DLY-CLDD-BASE45,DLY-CLDD-BASE50,DLY-CLDD-BASE55,DLY-CLDD-BASE57,...,DLY-CLDD-NORMAL,DLY-CLDD-BASE70,DLY-CLDD-BASE72,DLY-HTDD-BASE40,DLY-HTDD-BASE45,DLY-HTDD-BASE50,DLY-HTDD-BASE55,DLY-HTDD-BASE57,DLY-HTDD-BASE60,DLY-HTDD-NORMAL
0,GHCND:USC00049099,TWENTYNINE PALMS CA US,602.0,3.412.806,-11.603.694,20100101,6,2,-7777,-7777,...,0,0,0,-7777,1,2,6,7,10,15
1,GHCND:USC00049099,TWENTYNINE PALMS CA US,602.0,3.412.806,-11.603.694,20100102,6,2,1,-7777,...,0,0,0,-7777,1,2,6,7,10,15
2,GHCND:USC00049099,TWENTYNINE PALMS CA US,602.0,3.412.806,-11.603.694,20100103,6,2,1,-7777,...,0,0,0,-7777,1,2,5,7,10,15
3,GHCND:USC00049099,TWENTYNINE PALMS CA US,602.0,3.412.806,-11.603.694,20100104,6,2,1,-7777,...,0,0,0,-7777,1,2,5,7,10,15
4,GHCND:USC00049099,TWENTYNINE PALMS CA US,602.0,3.412.806,-11.603.694,20100105,6,2,1,-7777,...,0,0,0,-7777,-7777,2,5,7,10,15


Las columnas y tipo de datos de cada una de ellas:

In [16]:
climate_temperatures.dtypes

STATION             object
STATION_NAME        object
ELEVATION          float64
LATITUDE            object
LONGITUDE           object
DATE                 int64
DLY-CLDD-BASE45      int64
DLY-CLDD-BASE50      int64
DLY-CLDD-BASE55      int64
DLY-CLDD-BASE57      int64
DLY-CLDD-BASE60      int64
DLY-CLDD-NORMAL      int64
DLY-CLDD-BASE70      int64
DLY-CLDD-BASE72      int64
DLY-HTDD-BASE40      int64
DLY-HTDD-BASE45      int64
DLY-HTDD-BASE50      int64
DLY-HTDD-BASE55      int64
DLY-HTDD-BASE57      int64
DLY-HTDD-BASE60      int64
DLY-HTDD-NORMAL      int64
dtype: object

Podemos ver que comparten las columnas STATION, STATION_NAME y DATE, y además son del mismo tipo de dato, por lo que haremos la unión de tipo inner basándonos en estas columnas. El resultado tendrá todas las columnas de ambos datasets con datos en los que coinciden los atributos escogidos para hacer la unión.

In [25]:
climate_results = pd.merge(climate_precipitations, climate_temperatures, on=['STATION', 'STATION_NAME', 'DATE'], how='inner')
climate_results

Unnamed: 0,STATION,STATION_NAME,DATE,DLY-PRCP-25PCTL,DLY-SNWD-25PCTL,DLY-SNOW-25PCTL,DLY-PRCP-50PCTL,DLY-SNWD-50PCTL,DLY-SNOW-50PCTL,DLY-PRCP-75PCTL,...,DLY-CLDD-NORMAL,DLY-CLDD-BASE70,DLY-CLDD-BASE72,DLY-HTDD-BASE40,DLY-HTDD-BASE45,DLY-HTDD-BASE50,DLY-HTDD-BASE55,DLY-HTDD-BASE57,DLY-HTDD-BASE60,DLY-HTDD-NORMAL
0,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100101,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,0,0,0,-7777,1,2,6,7,10,15
1,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100102,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,0,0,0,-7777,1,2,6,7,10,15
2,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100103,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,0,0,0,-7777,1,2,5,7,10,15
3,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100104,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,0,0,0,-7777,1,2,5,7,10,15
4,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100105,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,0,0,0,-7777,-7777,2,5,7,10,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
76172,GHCND:USC00046161,NEWHALL 5 NW CA US,20100910,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,12,8,6,0,0,0,0,0,0,-7777
76173,GHCND:USC00046161,NEWHALL 5 NW CA US,20100911,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,12,8,6,0,0,0,0,0,-7777,-7777
76174,GHCND:USC00046161,NEWHALL 5 NW CA US,20100912,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,12,7,6,0,0,0,0,0,-7777,-7777
76175,GHCND:USC00046161,NEWHALL 5 NW CA US,20100913,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,12,7,5,0,0,0,0,0,-7777,-7777


Estas serían todas las columnas que conseguiríamos:

In [26]:
climate_results.columns

Index(['STATION', 'STATION_NAME', 'DATE', 'DLY-PRCP-25PCTL', 'DLY-SNWD-25PCTL',
       'DLY-SNOW-25PCTL', 'DLY-PRCP-50PCTL', 'DLY-SNWD-50PCTL',
       'DLY-SNOW-50PCTL', 'DLY-PRCP-75PCTL', 'DLY-SNWD-75PCTL',
       'DLY-SNOW-75PCTL', 'MTD-PRCP-NORMAL', 'MTD-SNOW-NORMAL',
       'YTD-PRCP-NORMAL', 'YTD-SNOW-NORMAL', 'DLY-PRCP-PCTALL-GE001HI',
       'DLY-PRCP-PCTALL-GE010HI', 'DLY-PRCP-PCTALL-GE050HI',
       'DLY-PRCP-PCTALL-GE100HI', 'DLY-SNWD-PCTALL-GE001WI',
       'DLY-SNWD-PCTALL-GE010WI', 'DLY-SNWD-PCTALL-GE003WI',
       'DLY-SNWD-PCTALL-GE005WI', 'DLY-SNOW-PCTALL-GE001TI',
       'DLY-SNOW-PCTALL-GE010TI', 'DLY-SNOW-PCTALL-GE100TI',
       'DLY-SNOW-PCTALL-GE030TI', 'DLY-SNOW-PCTALL-GE050TI', 'ELEVATION',
       'LATITUDE', 'LONGITUDE', 'DLY-CLDD-BASE45', 'DLY-CLDD-BASE50',
       'DLY-CLDD-BASE55', 'DLY-CLDD-BASE57', 'DLY-CLDD-BASE60',
       'DLY-CLDD-NORMAL', 'DLY-CLDD-BASE70', 'DLY-CLDD-BASE72',
       'DLY-HTDD-BASE40', 'DLY-HTDD-BASE45', 'DLY-HTDD-BASE50',
       'DLY-HTD