# IEBS


## Introducción a pandas

### Jacinto Arias - arias.jacinto@gmail.com
---


[**Pandas**](http://pandas.pydata.org) es una librería para manipular datos estructurados.

Para ello permite definir una estructura tabular llamada __DataFrame__ que nos permite realizar operaciones sobre datos definiendo columnas, que generalmente representan variables y filas, que generalmente representan casos.

Para empezar, debemos asegurarnos de que pandas esta instalado e importarlo.

In [2]:
import numpy as np
import pandas as pd

## DataFrames

### Creación mediante listas

Existen _múltiples formas_ de crear un objeto `DataFrame` a partir de otros objetos como colecciones, diccionarios, etc. Éstas son útiles, por ejemplo,  a la hora de construir el `DataFrame` a partir de datos procedentes de fuentes heterogéneas. 

Lo más directo es organizar listas como si fuesen casos de una tabla.

In [3]:
ventas = [('Álvaro', 22.5, 'Queso'),
         ('Benito', 14.5, 'Vino'),
         ('Fernando', 50, 'Jamón'),
         ('Martín', 20.0, 'Aceite'),
         ('Hernán',np.NaN, np.NaN)]

columnas = ['Nombre', 'Precio', 'Producto']
indice = ['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

df_compras = pd.DataFrame.from_records(
    ventas, 
    columns=columnas, 
#     index=indice
)

df_compras

Unnamed: 0,Nombre,Precio,Producto
0,Álvaro,22.5,Queso
1,Benito,14.5,Vino
2,Fernando,50.0,Jamón
3,Martín,20.0,Aceite
4,Hernán,,


In [4]:
df_compras.loc[1]

Nombre      Benito
Precio        14.5
Producto      Vino
Name: 1, dtype: object

In [5]:
df_compras.loc[[1]]

Unnamed: 0,Nombre,Precio,Producto
1,Benito,14.5,Vino


In [6]:
df_compras.sample(2)

Unnamed: 0,Nombre,Precio,Producto
4,Hernán,,
3,Martín,20.0,Aceite


Podemos ver que jupyter y pandas interoperan muy cómodamente ya que nos permiten dibujar la tabla de manera gráfica en la libreta.

In [7]:
ventas = [
    {'nombre': 'Alvaro', 'precio': 10, 'producto': 'queso'},
    {'nombre': 'Benito', 'precio': 20, 'producto': 'vino'}
]

df_compras = pd.DataFrame.from_records(
    ventas, 
#     columns=columnas, 
#     index=indice
)

df_compras

Unnamed: 0,nombre,precio,producto
0,Alvaro,10,queso
1,Benito,20,vino


### Creación mediante ficheros

Lo más habitual es crear un dataframe a partir de un fichero de datos, ya que es la forma natural en la que nos encontraremos los datos en nuestras aplicaciones.

Pandas proporciona funciones muy flexibles que permiten leer objetos `DataFrame` desde diversas fuentes de datos, como archivos csv, excel, JSON, HDF5, HTML, fuentes SQL, o incluso el portapapeles del sistema ([documentación](http://pandas.pydata.org/pandas-docs/version/0.20/io.html)). 


Uno de los formatos más habituales son los ficheros separados por comas o __csv__.

En la carpeta `data/` podéis encontrar el fichero `titanic`, que representa un problema de machine learning clásico.

Vamos a intentar cargarlo con pandas.

Para ello utilizaremos la función `read_csv()`. El parámetro `index_col` permite especificar si alguna de las columnas ha de ser utilizada como índice del `DataFrame`.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
Si el resultado de mostrar los datos es muy grande prueba a reducir la celda con ctrl+o o pinchando en el lateral
</div>

In [8]:
df = pd.read_csv('Titanic.csv')

df

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.00,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.00,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.00,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.00,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,27.00,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.00,male,0,0
1310,"Zenni, Mr Philip",3rd,22.00,male,0,0
1311,"Lievens, Mr Rene",3rd,24.00,male,0,0


## Filas y columnas

Para trabajar con un dataframe solemos utilizar las columnas a modo de variables y las filas como casos que toman valores para cada variable.

Tenemos funciones para manipular los datos de distinta forma.

Lo primero exploremos las dimensiones del data frame.

Para ello podemos utilzar `shape`, `len` o `size`. Esta última es peligrosa porque puede malinterpretarse.

In [9]:
# Dimensiones de la tabla filas X columnas
df.shape

(1313, 6)

In [10]:
# Casos o filas en el dataframe
len(df)

1313

In [11]:
# Total de datos filas multiplicado por columas
df.size

7878

### Acceso a filas

Generalmente no suele ser necesario acceder a filas concretas del dataframe, ya que nuestro objetivo suele ser trabajar estadísticamente con los datos. Si desea hacerse, es posible utilizar la funcion `loc`, a la cual se le puede pasar el valor de un índice o una lista de valores.

__Importante__: La función loc usa corchetes y no paréntesis.

In [12]:
# Un unico elemento, en forma de objeto
df.loc[1]

Name        Allison, Miss Helen Loraine
PClass                              1st
Age                                   2
Sex                              female
Survived                              0
SexCode                               1
Name: 1, dtype: object

In [13]:
# Un unico elemento, la lista preserva la tabla
df.loc[[1]]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [14]:
# Un subconjunto de los datos
df.loc[[1,3,5,6,8,4]]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
5,"Anderson, Mr Harry",1st,47.0,male,1,0
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


### Muestreo

Cuando estamos evaluando operaciones en datos muy grandes, no queremos que se imprima la tabla entera por pantalla como en el caso anterior. Por ello podemos utilizar funciones de muestreo para poder obtener unicamente un subconjunto de los datos.

In [15]:
# Muestra n registros en orden
df.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [16]:
# Muestra n registros aleatoriamente
df.sample(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1282,"Vereruysse, Mr Victor",3rd,47.0,male,0,0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
1054,"Nosworthy, Richard C",3rd,,male,0,0
25,"Blackwell, Mr Stephen Weart",1st,45.0,male,0,0
819,"Goldsmith, Mr Frank John",3rd,33.0,male,0,0


### Acceso a columnas

Podemos obtener el nombre de las columnas, proyectar un subconjunto de ellas u obtener una única columna como un vector

In [17]:
# Obtener el nombre de las columnas
df.columns

Index(['Name', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode'], dtype='object')

In [18]:
df[['Name', 'Age']]

Unnamed: 0,Name,Age
0,"Allen, Miss Elisabeth Walton",29.00
1,"Allison, Miss Helen Loraine",2.00
2,"Allison, Mr Hudson Joshua Creighton",30.00
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",25.00
4,"Allison, Master Hudson Trevor",0.92
...,...,...
1308,"Zakarian, Mr Artun",27.00
1309,"Zakarian, Mr Maprieder",26.00
1310,"Zenni, Mr Philip",22.00
1311,"Lievens, Mr Rene",24.00


<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
El objeto de tipo index es un tipo interno de pandas que se utiliza para operaciones avanzadas.
</div>

Podemos obtener un subconjunto de columnas a modo de indexación mediante el nombre.

In [19]:
df[['Age', 'Sex']].head()

Unnamed: 0,Age,Sex
0,29.0,female
1,2.0,female
2,30.0,male
3,25.0,female
4,0.92,male


Por último podemos acceder a una columna individual como si fuese un vector de especial `numpy`, encapsulado en un tipo de pandas llamado `Series`.

In [20]:
df.Age

0       29.00
1        2.00
2       30.00
3       25.00
4        0.92
        ...  
1308    27.00
1309    26.00
1310    22.00
1311    24.00
1312    29.00
Name: Age, Length: 1313, dtype: float64

In [21]:
df['Age']

0       29.00
1        2.00
2       30.00
3       25.00
4        0.92
        ...  
1308    27.00
1309    26.00
1310    22.00
1311    24.00
1312    29.00
Name: Age, Length: 1313, dtype: float64

In [22]:
type(df['Age'])

pandas.core.series.Series

Las series permiten operaciones vectorizadas como en el caso de los vectores vistos anteriormente.

Su propósito es poder realizar operaciones entre columnas, para poder calcular nuevos valores o hacer comprobaciones.

## Modificación de un DataFrame

El acceso de para escritura es similar del acceso para lectura. Cuando se escriben varias posiciones, las dimensiones de los conjuntos de elementos a ambos lados de la asignación han de ser similares (salvo en el caso en que se asignen escalares).

No obstante, no suele ser habitual cambiar valores individuales de un dataframe, sino que generalmente se suelen realizar operacioens reproducibles que afecten a todos los datos o transformaciones estadísticas.

El caso más habitual es el de añadir una columna. Para eso basta con asignar una serie o un literal a un nuevo nombre de columna.

In [23]:
# Una columna literal
df['Nueva'] = 1

In [24]:
df.columns

Index(['Name', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode', 'Nueva'], dtype='object')

In [25]:
df.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,Nueva
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0,1


Se puede modificar una columna ya existente realizando una operación sobre la misma.

In [26]:
df['Nueva'] = df['Nueva'] * 2

In [27]:
df.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,Nueva
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1,2
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1,2
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0,2
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1,2
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0,2


También podemos combinar varias columnas

In [28]:
df['Nueva'] = df['Age'] + df['Nueva']

In [29]:
df.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,Nueva
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1,31.0
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1,4.0
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0,32.0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1,27.0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0,2.92


### Renombrado de columnas

Pueden renombrarse mediante el método `rename()`. Lo más habitual es tomar como argumento un diccionario con las correspondencias.

In [30]:
df = df.rename(columns = {'Nueva': 'Vieja'})
df.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,Vieja
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1,31.0
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1,4.0
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0,32.0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1,27.0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0,2.92


### Reordenación de columnas

Para reordenar columnas podemos utilizar el método de selección anterior, simplemente cambiando el orden.

In [31]:
df = df[['Name', 'Vieja', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode']]
df.sample(10)

Unnamed: 0,Name,Vieja,PClass,Age,Sex,Survived,SexCode
442,"Hiltunen, Miss Marta",20.0,2nd,18.0,female,0,1
93,"Earnshaw, Mrs Boulton (Olive Potter)",25.0,1st,23.0,female,1,1
1058,"Nasr, Mr Mustafa",,3rd,,male,0,0
211,"Rood, Mr Hugh R",,1st,,male,0,0
666,"Barbara, Miss Saude",20.0,3rd,18.0,female,0,1
784,"Dyker, Mr Adolf Fredrik",25.0,3rd,23.0,male,0,0
1025,"Moor, Mrs Beila",,3rd,,female,1,1
1073,"Nysten, Miss Anna",,3rd,,female,0,1
702,"Canavan, Mr Patrick",23.0,3rd,21.0,male,0,0
1233,"Strom, Mrs Wilhelm",,3rd,,female,0,1


### Eliminación

Para eliminar filas o columnas se utiliza el método `drop`. Este método utiliza un parámetro muy común en pandas llamado `axis` que nos indica filas cuando vale 0 y columnas cuando vale 1.

Para eliminar colimmnas hay que indicar el nombre de la columna y el eje correcto.

In [32]:
df = df.drop('Vieja', axis=1)

In [33]:
df.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


## Selección y ordenación de datos

Lo más habitual a la hora de trabajar con pandas es hacer operaciones de búsqueda y transformaciones sobre todos los datos del dataframe. Muy inspirado a como se trabaja con una tabla de una base de datos relacional o a la de una hoja de cálculo.

Lo más básico es reordenar y filtrar los datos, para lo que tenemos una serie de funciones muy potentes.

La mayoría de las veces basta con usar el propio indexado del dataframe utilizando valores booleanos conforme a condiciones.

Aprovechando que hemos visto que las columnas de un dataframe son vectores, podemos aplicar operaciones de comparación vectorizaas para tranformarlas en índices booleanos.

In [34]:
df.head().Age

0    29.00
1     2.00
2    30.00
3    25.00
4     0.92
Name: Age, dtype: float64

In [35]:
df.head().Age > 25

0     True
1    False
2     True
3    False
4    False
Name: Age, dtype: bool

Este vector lo podemos utilizar como índice para filtrar los datos. Si lo escribimos todo junto queda bastante expresivo.

In [36]:
df[df.Age > 25].sample(10)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
426,"Harbeck, Mr William H",2nd,44.0,male,0,0
503,"Meyer, Mr August",2nd,30.0,male,0,0
365,"Chapman, Mr John Henry",2nd,30.0,male,0,0
872,"Humblin, Mr Adolf Mathias Nicolai Olsen",3rd,42.0,male,0,0
540,"Renouf, Mr Peter Henry",2nd,34.0,male,0,0
588,"West, Mr Edwy Arthur",2nd,36.0,male,0,0
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
309,"Keeping, Mr Edwin",1st,32.0,male,0,0
641,"Asplund, Mrs Carl Oscar (Selma Augusta Johansson)",3rd,38.0,female,1,1
463,"Kantor, Mr Sinai",2nd,34.0,male,0,0


Podemos comprobar como tenemos menos filas tras el filtro

In [38]:
print(len(df))
print(len(df[df.Age > 25]))

1313
445


Otra operación habitual es la de reordenar los datos conforme a los valores de una o varias columnas. Para ello utilizamos `sort_values`, que puede ser ascendente o descendiente.

In [48]:
df.sort_values(['Age', 'PClass'], ascending=[False, True]).head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0
119,"Goldschmidt, Mr George B",1st,71.0,male,0,0
505,"Mitchell, Mr Henry Michael",2nd,71.0,male,0,0
72,"Crosby, Captain Edward Gifford",1st,70.0,male,0,0
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


### Agregación

Pandas permite agregar los datos de un dataframe para calcular estadísticos descriptivos.

Empezaremos por uan operación muy habitual como la media, que como vamos a comprobar solo actua sobre variavbles numéricas.

In [39]:
df.mean()

Age         30.397989
Survived     0.342727
SexCode      0.351866
dtype: float64

Es importante destacar que el resultado es una serie, es decir, un vector y no un dataframe. Tenemos un gran número de funciones disponibles que actuan distinto en función del tipo de la columna.

In [40]:
# Desviación estandar
df.std()

Age         14.259049
Survived     0.474802
SexCode      0.477734
dtype: float64

In [41]:
# Maximo, las string se ordenan alfabeticamente
df.max()

Name        del Carlo, Mrs Sebastiano (Argenia Genovese)
PClass                                               3rd
Age                                                   71
Sex                                                 male
Survived                                               1
SexCode                                                1
dtype: object

In [42]:
# Suma, las strings se concatenan, sin mucho uso
df.sum()

Name        Allen, Miss Elisabeth WaltonAllison, Miss Hele...
PClass      1st1st1st1st1st1st1st1st1st1st1st1st1st1st1st1...
Age                                                   22980.9
Sex         femalefemalemalefemalemalemalefemalemalefemale...
Survived                                                  450
SexCode                                                   462
dtype: object

### Descripción del data frame y los datos

La función `info` ofrece datos sobre el almacenamiento del dataframe y sus columnas.

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 6 columns):
Name        1313 non-null object
PClass      1313 non-null object
Age         756 non-null float64
Sex         1313 non-null object
Survived    1313 non-null int64
SexCode     1313 non-null int64
dtypes: float64(1), int64(2), object(3)
memory usage: 61.7+ KB


Podemos comprobar que los tipos numéricos corresponden con los de numpy. Los tipos object son tipos internos de python, en la mayoría de los casos hacen referencia a tipos `string`.

La función `describe()` devuelve diversa información con respecto a las columnas. Esta información varía según el tipo de datos. Además, se puede especificar sobre qué columnas se aplica la función con los parámetros `include` \ `exclude`.

La siguiente llamada incluye todas las columnas. Puede apreciarse que para las numéricas muestra unos datos, y para las no numéricas otros. 

In [45]:
# Por defecto solo muestra numéricas
df.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [46]:
# Los string tienen otros parámetros descriptivos
df.describe(include='object')

Unnamed: 0,Name,PClass,Sex
count,1313,1313,1313
unique,1310,4,2
top,"Connolly, Miss Kate",3rd,male
freq,2,711,851


### Múltiples agregaciones

Podemos invocar múltiples agregaciones mediante la función `agg`, pasando una lsita de funciones.

In [47]:
df.agg(['max', 'min'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
max,"del Carlo, Mrs Sebastiano (Argenia Genovese)",3rd,71.0,male,1,1
min,"Abbing, Mr Anthony",*,0.17,female,0,0


## Agrupamiento (groupby)

La función `groupby()` permite agrupar los datos del `DataFrame` según valores de su índice o columnas. Esto nos permite calcular agregaciones discriminando por grupos.

In [49]:
df.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001ED32CD8508>

El resultado de un dataframe agrupado es del tipo `DataFrameGroupBy`, un formato no legible pero que agrupara las agregaciones que invoquemos.

In [50]:
df.groupby('Sex').sum()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,8466.17,308,462
male,14514.71,142,0


Lo más importante es darnos cuenta de que el índice de la tabla ha cambiado, pasando a ser la variable `Sex`.

## Combinación de DataFrames

La funcionalidad relativa a combinación de `DataFrame` y `Series` es completa y compleja, ya que una de las funcionalidades más potentes de _Pandas_ es la de herramienta para la agregación de datos de distintas fuentes. La documentación oficial de la librería ilustra con ejemplos la mayoría de casos de uso ([documentación](https://pandas.pydata.org/pandas-docs/stable/merging.html)).

Para ilustrar los ejemplos de este tutorial, se utilizarán estos tres `DataFrame`. 

In [51]:
pos1_df = pd.DataFrame([{'Nombre': 'Diego Costa', 'Posición': 'Delantero', 'País':'Brasil'},
                        {'Nombre': 'Sergio Ramos', 'Posición': 'Defensa', 'País':'España'},
                        {'Nombre': 'Gerard Piqué', 'Posición': 'Defensa', 'País':'España'},
                        {'Nombre': 'Cristiano Ronaldo', 'Posición': 'Delantero', 'País':'Portugal'}])

pos2_df = pd.DataFrame([{'Nombre': 'Leo Messi', 'Posición': 'Delantero', 'País':'Argentina'},
                        {'Nombre': 'Luca Modric', 'Posición': 'Centrocampista', 'País':'Croacia'},
                        {'Nombre': 'Saúl Ñíguez', 'Posición': 'Centrocampista', 'País':'España'},
                        {'Nombre': 'Kareem Benzema', 'Posición': 'Delantero', 'País':'Francia'}])

eqp_df = pd.DataFrame([{'Nombre': 'Diego Costa',  'Equipo': 'Atlético de Madrid', 'País':'España'},
                       {'Nombre': 'Cristiano Ronaldo','Equipo': 'Juventus', 'País':'Italia'},
                       {'Nombre': 'Leo Messi','Equipo': 'FC Barcelona', 'País':'España'},
                       {'Nombre': 'Koke','Equipo': 'Atlético de Madrid', 'País':'España'}])

display(pos1_df)
print()
display(pos2_df)
print()
display(eqp_df)

Unnamed: 0,Nombre,Posición,País
0,Diego Costa,Delantero,Brasil
1,Sergio Ramos,Defensa,España
2,Gerard Piqué,Defensa,España
3,Cristiano Ronaldo,Delantero,Portugal





Unnamed: 0,Nombre,Posición,País
0,Leo Messi,Delantero,Argentina
1,Luca Modric,Centrocampista,Croacia
2,Saúl Ñíguez,Centrocampista,España
3,Kareem Benzema,Delantero,Francia





Unnamed: 0,Nombre,Equipo,País
0,Diego Costa,Atlético de Madrid,España
1,Cristiano Ronaldo,Juventus,Italia
2,Leo Messi,FC Barcelona,España
3,Koke,Atlético de Madrid,España


### Append

Es la función más sencilla. Permite añadir a un `DataFrame` las filas de otro u otros `Dataframe`. Como resultado, genera un nuevo `DataFrame`.

In [52]:
display(pos1_df.set_index("Nombre").append(pos2_df.set_index("Nombre")))

Unnamed: 0_level_0,Posición,País
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Diego Costa,Delantero,Brasil
Sergio Ramos,Defensa,España
Gerard Piqué,Defensa,España
Cristiano Ronaldo,Delantero,Portugal
Leo Messi,Delantero,Argentina
Luca Modric,Centrocampista,Croacia
Saúl Ñíguez,Centrocampista,España
Kareem Benzema,Delantero,Francia


`append()` toma un parámetro, denominado `ignore_index` que permite crear un nuevo índice (numérico) e ignorar el de los `DataFrames` originales. 

In [57]:
display(pos1_df.append(pos2_df, ignore_index=True))

Unnamed: 0,Nombre,Posición,País
0,Diego Costa,Delantero,Brasil
1,Sergio Ramos,Defensa,España
2,Gerard Piqué,Defensa,España
3,Cristiano Ronaldo,Delantero,Portugal
4,Leo Messi,Delantero,Argentina
5,Luca Modric,Centrocampista,Croacia
6,Saúl Ñíguez,Centrocampista,España
7,Kareem Benzema,Delantero,Francia


In [59]:
df_append = pos1_df.append(pos2_df).set_index(['Nombre'])
df_append

Unnamed: 0_level_0,Posición,País
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Diego Costa,Delantero,Brasil
Sergio Ramos,Defensa,España
Gerard Piqué,Defensa,España
Cristiano Ronaldo,Delantero,Portugal
Leo Messi,Delantero,Argentina
Luca Modric,Centrocampista,Croacia
Saúl Ñíguez,Centrocampista,España
Kareem Benzema,Delantero,Francia


### Merge

Esta función permite unir las columnas de ___dos___ `DataFrame`.Ppermite especificar el modo en que se lleva a cabo esa unión mediante funcionalidades propias de lenguajes de bases de datos relacionales como SQL. Éstas se caracterizan, a _grosso modo_, por establecer una relación entre los dos conjuntos de datos que es función de una columna (que puede o no ser el índice).

La función `merge()` acepta numerosos argumentos ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)) que rigen la unión. Algunos de los más importantes son:

* `left`, `right`. Son argumentos posicionales que se refieren a los dos `DataFrame` que son unidos. 
* `left_index`, `right_index`. Determinan si los índices respectivos se usan como claves de unión.
* `on`, `left_on`, `right_on`. Determinan qué columnas (si no se usan índices) son utilizadas como claves de unión. `on` se utiliza cuando las columnas aparecen en ambos `DataFrame`.
* `how`. Determina qué elementos se incluyen en la unión. Puede tomar los valores `left`, `right`, `outer`, e `inner` según se consideren, respectivamente, los índices del primer `DataFrame`, del segundo, la unión, o la intersección de ambos.  

Además, admite otros parámetros de utilidad a la hora de presentar el conjunto de datos resultante de la unión.

* `suffixes`. Es una lista de `Strings` (dos). Cuando existen columnas comunes en ambos `DataFrame`, y no son utilizadas como clave de unión, permite identificarlas en el `DataFrame` resultante. Para ello, añade cada `String` al nombre de la columna correspondiente según incluya los valores de uno u otro `DataFrame`.  
* `indicator`. Añade una columna, denominada `_merge` con información sobre el origen de cada fila (un `DataFrame` concreto o los dos.
* `validate`. Es un `String` que permite determinar si se cumple una determinada relación entre las claves de unión. Puede tomar los valores `1:1`, `1:m`, `m:1` y `m:m`.

En la siguiente celda se lleva a cabo la unión entre los dos `DataFrame` definidos anteriormente en función del nombre del jugador, y considerando la unión de todas las filas. Como la columna _País_ aparece en ambos `DataFrame`, se añade también un sufijo para determinar la correspondencia en el `DataFrame` resultante.

In [63]:
print('DataFrame izquierdo:')
display(pos1_df)

print('DataFrame derecho:')
display(eqp_df)

print('Unión:')
pd.merge(pos1_df,eqp_df, how='inner', on='Nombre', suffixes=['_jug','_equ'])  # Equivalente

DataFrame izquierdo:


Unnamed: 0,Nombre,Posición,País
0,Diego Costa,Delantero,Brasil
1,Sergio Ramos,Defensa,España
2,Gerard Piqué,Defensa,España
3,Cristiano Ronaldo,Delantero,Portugal


DataFrame derecho:


Unnamed: 0,Nombre,Equipo,País
0,Diego Costa,Atlético de Madrid,España
1,Cristiano Ronaldo,Juventus,Italia
2,Leo Messi,FC Barcelona,España
3,Koke,Atlético de Madrid,España


Unión:


Unnamed: 0,Nombre,Posición,País_jug,Equipo,País_equ
0,Diego Costa,Delantero,Brasil,Atlético de Madrid,España
1,Cristiano Ronaldo,Delantero,Portugal,Juventus,Italia
