#Introducción a la ciencia de datos con Python
Rafa Caballero

## Pandas - Combinando Varios DataFrames

Veamos en este Notebook cómo se combinan y agregan dataframes


### Índice
[Concatenación](#Concatenación)<br>
[Merge](#Merge)<br>



<a name="Concatenación"></a>
## Concatenación

Para concatenar de forma "tonta", es decir sin tener en cuenta ninguna condición sino simplemente "pegando" valores uno al lado de otros o unos debajo de otros podemos utilizar pd.concat


<img src = "https://miro.medium.com/max/1050/1*0wu6DunCzPC4o9FIyRTW4w.png">

Vamos a comprobarlo creando unos dataframe de prueba

In [None]:
import pandas as pd
def crea_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

df1 = crea_df('ABC', range(3))
df2 = crea_df("ABC", range(3,5))
print("df1")
print(df1)
print("df2")
print(df2)

In [None]:
df3 = pd.concat([df1,df2],axis=0)
df3

Otra forma, con append (solo vale para filas)

In [None]:
df1.append(df2)

Veamos ahora para concatenar por columnas

In [None]:
df1 = crea_df('ABC', range(3))
df2 = crea_df('EF', range(3))
print("df1")
print(df1)
print("df2")
print(df2)


In [None]:
df3 = pd.concat([df1,df2],axis=1)
df3

Ojo porque aquí todo cuadra bien: el número de filas en ambos casos es el mismo. Si no sucede así podemos tener resultados inesperados

In [None]:
pd.concat([df1,df2],axis=0)

In [None]:
df1.append(df2)

<a name="Merge"></a>
### Merge

En este caso se busca unir dos dataframes fijándonos en las coincidencias entre valores de dos columnas

In [None]:
from pandas import DataFrame
from pandas import Series
import pandas as pd
from random import sample
df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['a', 'b', 'b', 'd'],
                 'data2': range(4)})
print(df1)
print(df2)

In [None]:
pd.merge(df1,df2)

Si no se indica lo contrario, `merge` busca columnas comunes y hace un (inner) 'join'. Nótese que en este caso no se tienen en cuenta los índices
<br><br>

El método merge se puede llamar también dentro de un dataframe (es equivalente)

In [None]:
df1.merge(df2)

También se pueden unir por varias columnas, que podemos especificar directamente con los parámetros `left_on`y `right_on`

In [None]:
df1.merge(df2, left_on=['clave','data1'], right_on = ['clave','data2'])

Si la clave o claves por las que querenos unir se llaman ambas igual podemos usar simplemente `on`

In [None]:
pd.merge(df1,df2,on='clave')

Además de *inner* join, se pueden hacer con el parámetro `how` tomando valores *left*, *right*, *outer*, *inner*

<img src="https://www.golinuxcloud.com/wp-content/uploads/types_joins-1320x961.png" width=400>

En el caso de left, right y full/outer si la columna no encaja se rellenan con valores NaN

In [None]:
df1.merge( df2, on='clave', how='left')

**Ejercicio** En

https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/tweetsCompletadoOrdenRename.csv

Tenemos datos de tweets, incluyendo el identificador del usuario que que ha emitidos cada tweet,  `userid`.

En 

https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usersrentaf.csv

tenemos datos de usuarios: sú número de seguidores, la renta de la zona donde viven, etc. En este cas el identificador se llama simplemente `id`.

Queremos unir ambos ficheros, de forma que a cada tweet se le añadan los datos de su usuario. Si un tweet no tiene su usario en el segundo conjunto de datos debemos borrarlo. Igualmente si un usuario no tiene ningún tweet no se incluirá.





In [None]:
import pandas as pd
url_tweets = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/tweetsCompletadoOrdenRename.csv"
url_users = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usersrentaf.csv"
df_tweets = pd.read_csv(url_tweets)
df_users = pd.read_csv(url_users)



In [None]:
df_tweets.columns