<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h4 style="font-size:2em;color:#840700">  Pandas - Combinación de DataFrames     </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/concatenar.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativo en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Introducción

Algunos de los estudios de datos más interesantes provienen de la combinación de diferentes fuentes de datos.
Estas operaciones pueden involucrar desde la concatenación muy sencilla de dos conjuntos de datos diferentes, hasta uniones y fusiones de estilo de base de datos complejas que manejan superposición entre los conjuntos de datos.  Pandas incluye funciones y métodos que hacen que este tipo de operaciones de datos seas rápidas y sencillas.

En esta lección echaremos un vistazo a la concatenación con la función  ``pd.concat``.

# Librerías

Cargando las bibliotecas que necesitamos 


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# dataframe
data = {'pais': ['Belgica', 'Francia', 'Alemania', 'Paises Bajos', 'Reino Unido'],
        'poblacion': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Bruselas', 'Paris', 'Berlin', 'Amsterdam', 'Londres']}
paises = pd.DataFrame(data)
paises

Unnamed: 0,pais,poblacion,area,capital
0,Belgica,11.3,30510,Bruselas
1,Francia,64.3,671308,Paris
2,Alemania,81.3,357050,Berlin
3,Paises Bajos,16.9,41526,Amsterdam
4,Reino Unido,64.9,244820,Londres


# Concatenando DataFrames

La función ``pd.concat`` hace todo el trabajo de combinar datos de diferentes maneras. ``pd.concat`` toma una lista o diccionario de los objetos Series/DataFrame y los concatena en una cierta dirección (`axis`) con un manejo configurable de "qué hacer con los otros ejes".

## Combinando filas - ``pd.concat``

![](figuras/schema-concat0.svg)

Supongamos que tenemos algunos datos similares a los del *DataFrame paises*, pero para un conjunto de países diferentes:

In [3]:
data = {'pais': ['Nigeria', 'Ruanda', 'Egipto', 'Marruecos'],
        'poblacion': [182.2, 11.3, 94.3, 34.4],
        'area': [923768, 26338, 1010408, 710850],
        'capital': ['Abuya', 'Kigali', 'El Cairo', 'Rabat']}
paises_africa = pd.DataFrame(data)
paises_africa

Unnamed: 0,pais,poblacion,area,capital
0,Nigeria,182.2,923768,Abuya
1,Ruanda,11.3,26338,Kigali
2,Egipto,94.3,1010408,El Cairo
3,Marruecos,34.4,710850,Rabat


Ahora queremos combinar las filas de ambos conjuntos de datos:

In [4]:
# combinar las filas
df = pd.concat([paises, paises_africa], axis=0)
df

Unnamed: 0,pais,poblacion,area,capital
0,Belgica,11.3,30510,Bruselas
1,Francia,64.3,671308,Paris
2,Alemania,81.3,357050,Berlin
3,Paises Bajos,16.9,41526,Amsterdam
4,Reino Unido,64.9,244820,Londres
0,Nigeria,182.2,923768,Abuya
1,Ruanda,11.3,26338,Kigali
2,Egipto,94.3,1010408,El Cairo
3,Marruecos,34.4,710850,Rabat


Se puede observar que pudiera existir una confusión por los índices repetidos, también que cuando los *DataFrame*  no tienen el mismo conjunto de columnas, por defecto se introducen. Si no queremos que se conserve el índice:

In [5]:
# ignorando el indice
df = pd.concat([paises, paises_africa], axis=0, ignore_index=True)
df

Unnamed: 0,pais,poblacion,area,capital
0,Belgica,11.3,30510,Bruselas
1,Francia,64.3,671308,Paris
2,Alemania,81.3,357050,Berlin
3,Paises Bajos,16.9,41526,Amsterdam
4,Reino Unido,64.9,244820,Londres
5,Nigeria,182.2,923768,Abuya
6,Ruanda,11.3,26338,Kigali
7,Egipto,94.3,1010408,El Cairo
8,Marruecos,34.4,710850,Rabat


## Combinando columnas - ``pd.concat`` con `` axis = 1``

![](figuras/schema-concat1.svg)

Supongamos que tenemos otro DataFrame para los mismos países, pero con algunas estadísticas adicionales:

In [6]:
data = {'pais': ['Belgica', 'Francia', 'Paises Bajos'],
        'PIB': [496477, 2650823, 820726],
        'CO2': [8.0, 9.9, 5.7]}


In [7]:
# Crear el dataframe economia_paises
economia_paises = pd.DataFrame(data)
economia_paises

Unnamed: 0,pais,PIB,CO2
0,Belgica,496477,8.0
1,Francia,2650823,9.9
2,Paises Bajos,820726,5.7


In [8]:
# Concatenar 
pd.concat([paises, economia_paises], axis=1)

Unnamed: 0,pais,poblacion,area,capital,pais.1,PIB,CO2
0,Belgica,11.3,30510,Bruselas,Belgica,496477.0,8.0
1,Francia,64.3,671308,Paris,Francia,2650823.0,9.9
2,Alemania,81.3,357050,Berlin,Paises Bajos,820726.0,5.7
3,Paises Bajos,16.9,41526,Amsterdam,,,
4,Reino Unido,64.9,244820,Londres,,,


Como se observa la concatenación fue correcta pero los datos no coinciden con los países , `pd.concat` puede hace coincidir los diferentes objetos basados con el índice:

In [9]:
#Colocaremos la columna 'pais' como índice
paises = paises.set_index('pais')
paises

Unnamed: 0_level_0,poblacion,area,capital
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgica,11.3,30510,Bruselas
Francia,64.3,671308,Paris
Alemania,81.3,357050,Berlin
Paises Bajos,16.9,41526,Amsterdam
Reino Unido,64.9,244820,Londres


In [10]:
#Colocaremos la columna 'pais' como índice
economia_paises = economia_paises.set_index('pais')
economia_paises

Unnamed: 0_level_0,PIB,CO2
pais,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgica,496477,8.0
Francia,2650823,9.9
Paises Bajos,820726,5.7


In [11]:
# Concatenando
pd.concat([paises, economia_paises], axis=1)

Unnamed: 0_level_0,poblacion,area,capital,PIB,CO2
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belgica,11.3,30510,Bruselas,496477.0,8.0
Francia,64.3,671308,Paris,2650823.0,9.9
Alemania,81.3,357050,Berlin,,
Paises Bajos,16.9,41526,Amsterdam,820726.0,5.7
Reino Unido,64.9,244820,Londres,,


## Uniendo datos con `pd.merge`

Usando `pd.concat` arriba, combinamos conjuntos de datos que tenían las mismas columnas o los mismos valores de índice. Pero, otro caso típico es si desea agregar información del segundo *DataFrame* a un primero basado en una de las columnas. Eso se puede hacer con `pd.merge` (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html).

Veamos nuevamente los datos del Titanic, pero tomemos un pequeño subconjunto para hacer que el ejemplo sea más fácil de entender:


In [12]:
df = pd.read_csv("datos/titanic.csv")
df = df.loc[:9, ['Survived', 'Pclass', 'Sex', 'Age', 'Fare', 'Embarked']]
df

Unnamed: 0,Survived,Pclass,Sex,Age,Fare,Embarked
0,0,3,male,22.0,7.25,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.925,S
3,1,1,female,35.0,53.1,S
4,0,3,male,35.0,8.05,S
5,0,3,male,,8.4583,Q
6,0,1,male,54.0,51.8625,S
7,0,3,male,2.0,21.075,S
8,1,3,female,27.0,11.1333,S
9,1,2,female,14.0,30.0708,C


In [13]:
# mostrar las primeras filas de df

Supongamos que tenemos otro *DataFrame* con más información sobre las ubicaciones de embarque:

In [14]:
localidades = pd.DataFrame({'Embarked': ['S', 'C', 'Q', 'N'],
                          'City': ['Southampton', 'Cherbourg', 'Queenstown', 'New York City'],
                          'Country': ['Reino Unido', 'Francia', 'Irlanda', 'Estados Unidos']})

In [15]:
localidades

Unnamed: 0,Embarked,City,Country
0,S,Southampton,Reino Unido
1,C,Cherbourg,Francia
2,Q,Queenstown,Irlanda
3,N,New York City,Estados Unidos


Ahora queremos agregar esas columnas al DataFrame del Titanic, para lo cual podemos usar `pd.merge`, especificando la columna en la que queremos fusionar los dos conjuntos de datos:

In [16]:
# Utilizar 'Embarked'
pd.merge(df,localidades, on='Embarked')

Unnamed: 0,Survived,Pclass,Sex,Age,Fare,Embarked,City,Country
0,0,3,male,22.0,7.25,S,Southampton,Reino Unido
1,1,1,female,38.0,71.2833,C,Cherbourg,Francia
2,1,3,female,26.0,7.925,S,Southampton,Reino Unido
3,1,1,female,35.0,53.1,S,Southampton,Reino Unido
4,0,3,male,35.0,8.05,S,Southampton,Reino Unido
5,0,3,male,,8.4583,Q,Queenstown,Irlanda
6,0,1,male,54.0,51.8625,S,Southampton,Reino Unido
7,0,3,male,2.0,21.075,S,Southampton,Reino Unido
8,1,3,female,27.0,11.1333,S,Southampton,Reino Unido
9,1,2,female,14.0,30.0708,C,Cherbourg,Francia


## Ejercicios - parte A

<div class="alert alert-info">

<b>EJERCICIO 1</b>: 
    
Tomando los siguientes *DataFrames* encontrar la salida que se muestra en la imagen
    
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'], 
                    'C': ['C0', 'C1', 'C2', 'C3'], 
                    'D': ['D0', 'D1', 'D2', 'D3']}) 
  
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 
                    'B': ['B4', 'B5', 'B6', 'B7'], 
                    'C': ['C4', 'C5', 'C6', 'C7'], 
                    'D': ['D4', 'D5', 'D6', 'D7']}) 
  
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 
                    'B': ['B8', 'B9', 'B10', 'B11'], 
                    'C': ['C8', 'C9', 'C10', 'C11'], 
                    'D': ['D8', 'D9', 'D10', 'D11']}) 
    
    
**Salida**:    
    
<img align="left" width="150"  float= "none" align="middle" src="figuras/concat_1.png">
    
    
</div>


In [17]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'], 
                    'C': ['C0', 'C1', 'C2', 'C3'], 
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 
                    'B': ['B4', 'B5', 'B6', 'B7'], 
                    'C': ['C4', 'C5', 'C6', 'C7'], 
                    'D': ['D4', 'D5', 'D6', 'D7']}) 

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 
                    'B': ['B8', 'B9', 'B10', 'B11'], 
                    'C': ['C8', 'C9', 'C10', 'C11'], 
                    'D': ['D8', 'D9', 'D10', 'D11']}) 

In [18]:
pd.concat([df1,df2,df3], axis=0, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


<div class="alert alert-info">

<b>EJERCICIO 2</b>: 
    
Tomando los *DataFrames*  df1 y df4, encontrar la salida que se muestra en la imagen
    
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
    
**Salida**:    
    
<img align="left" width="250"  float= "none" align="middle" src="figuras/concat_1b.png">
    
    
</div>


In [19]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                    index=[2, 3, 6, 7])

In [20]:
pd.concat([df1,df4], axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


<div class="alert alert-info">

<b>EJERCICIO 3</b>: 
    
Tomando los siguientes *DataFrames* encontrar la salida que se muestra en la imagen
    
left = pd.DataFrame({'Key': ['K0', 'K1', 'K2', 'K3'], 
                    'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3']}) 
  
right = pd.DataFrame({'Key': ['K0', 'K1', 'K2', 'K3'], 
                      'C': ['C0', 'C1', 'C2', 'C3'], 
                      'D': ['D0', 'D1', 'D2', 'D3']}) 
    
**Salida**:    
    
<img align="left" width="150"  float= "none" align="middle" src="figuras/concat_2.png">
    
    
</div>


In [21]:
left = pd.DataFrame({'Key': ['K0', 'K1', 'K2', 'K3'], 
                    'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3']}) 

right = pd.DataFrame({'Key': ['K0', 'K1', 'K2', 'K3'], 
                    'C': ['C0', 'C1', 'C2', 'C3'], 
                    'D': ['D0', 'D1', 'D2', 'D3']}) 

In [22]:
left

Unnamed: 0,Key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [23]:
right

Unnamed: 0,Key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [24]:
pd.merge(left,right, on='Key')

Unnamed: 0,Key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
