
<table>
    <tr>
      <td>Introducción a
      </td>
      <td>
      <img src="https://media.licdn.com/dms/image/D5612AQF7GSp3l4pztQ/article-cover_image-shrink_720_1280/0/1686548640655?e=1715817600&v=beta&t=WQzv1EMkEEwZ0QZ0PF1anRKIHCl5BBH_YPZHdDQsWPM"  width=150/>
      </td>
     </tr>
</table>



### Combinando dataframes
Veamos en este Notebook cómo se combinan y agregan dataframes

### Índice
[Concatenar](#Concatenar)<br>
[Merge](#Merge)<br>



El siguiente código es para mostrar una dataframe al lado de otro, ejecutarlo pero no hace falta entenderlo

In [None]:
from IPython.display import display, HTML
from IPython.display import display_html
from IPython.display import Markdown

def display_side_by_side(*args,title=""):
    print(title)
    html_str = ''
    for df in args:
        html_str += '&nbsp;&nbsp;&nbsp;'+df.to_html()
    display_html(
        html_str.replace('table','table style="display:inline"'),
        raw=True)



<a name="Concatenar"></a>
### Concatenar

La forma más fácil, y a veces la más rápida y útil, de combinar dataframes, ya sea "pegándolo" debajo o al lado con `pd.concat`

<img src = "https://miro.medium.com/max/1050/1*0wu6DunCzPC4o9FIyRTW4w.png">

In [None]:
import IPython.display as display
import pandas as pd
from pandas import DataFrame
from random import sample


df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['e', 'e', 'e', 'e'],
                 'data': range(4),
                 'otro': sample(range(10, 30), 4)})

display_side_by_side(df1,df2)

In [None]:
df3 = pd.concat([df1,df2])
df3

Si nos incomoda que el índice no sea consecutivo:

In [None]:
df3 = df3.reset_index(drop=True)
df3

Sin embargo, hay veces que es útil usar el índice (si no tiene ya otro cometido) para "apuntar" el origen de cada fila

In [None]:
import IPython.display as display
import pandas as pd

df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['e', 'e', 'e', 'e'],
                 'data': range(4),
                 'otro': sample(range(10, 30), 4)})

df1.index = ["A"]*len(df1)
df2.index = ["B"]*len(df2)
df3 = pd.concat([df1,df2])
display_side_by_side(df1,df2,df3,title="pd.concat([df1,df2])")

**Ojo** porque `concat` no es tan *tonto* como parece; no se limita a pegar debajo sino que alinea por nombres de columna

In [None]:
import IPython.display as display
import pandas as pd

df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['e', 'e', 'e', 'e'],
                 'otro': sample(range(10, 30), 4),
                 'data': range(4) } )

df1.index = ["A"]*len(df1)
df2.index = ["B"]*len(df2)
df3 = pd.concat([df1,df2])
display_side_by_side(df1,df2,df3, title="pd.concat([df1,df2])")

Con el parámetro axis (que por defecto vale 0) podemos hacer que en lugar de por filas concatene por columnas. En este caso lo lógico es que ambos dataframes tengan el mismo número de filas



In [None]:
import numpy as np
filas = 5
df1 = DataFrame({'A': np.random.randint(1,10,filas) ,
                 'B': np.random.randint(1,10,filas),
                 'C': np.random.randint(1,10,filas)})

df2 = DataFrame({'D': np.random.randint(2000,3000,filas),
                 'E': np.random.randint(2000,3000,filas)})
df3 = pd.concat([df1,df2],axis=1)
display_side_by_side(df1,df2, df3, title="pd.concat([df1,df2],axis=1)")

Un aspecto muy importante: igual que al concatenar utiliza los nombres de columna aquí va a usar los números de fila

In [None]:
df2.index=[0,1,2,4,7]
df3 = pd.concat([df1,df2],axis=1)
display_side_by_side(df1,df2, df3,title="pd.concat([df1,df2],axis=1)")

Si el número de filas o columnas no encaja, `concat` añadirá valores vacío para completar

In [None]:
import numpy as np
filas = 5
df1 = DataFrame({'A': np.random.randint(1,10,filas) ,
                 'B': np.random.randint(1,10,filas),
                 'C': np.random.randint(1,10,filas)})

df2 = DataFrame({'D': np.random.randint(2000,3000,filas-1),
                 'E': np.random.randint(2000,3000,filas-1)})
df3 = pd.concat([df1,df2],axis=1)
display_side_by_side(df1,df2,df3 ,title="pd.concat([df1,df2],axis=1)")
df4 = pd.concat([df1,df2],axis=0)
display_side_by_side(df1,df2, df4,title="pd.concat([df1,df2],axis=0)")

**Ejercicio**  Vamos a obtener varios valores con yahoo finance

In [None]:
!pip install --upgrade yfinance

In [None]:
import yfinance as yf

# obtiene todas las cotizaciones posibles del símbolo que se le pasa como parámetro
def obten_símbolo(símbolo,sufijo):
  data = yf.Ticker(símbolo)
  df = data.history(period="max")[["Open",	"High","Low","Close"	]]
  df.columns = [ c+"_"+sufijo for c in df.columns]
  return df

can = obten_símbolo("CAD=X","CAD")
jpy = obten_símbolo("JPYUSD=X","JPY")
eur = obten_símbolo("EURUSD=X","EUR")



In [None]:
can

Escribir código con concat para concatenar los 3 dataframes por filas; dejar el resultado en un dataframe `df_currencies`

In [None]:
import pandas as pd
df_currencies = pd.concat([can,jpy,eur],axis=1)
df_currencies

In [None]:
df = yf.download("CAD=X JPYUSD=X EURUSD=X",period="max")
df

Esta segunda forma devuelve una "columna multiindex", que normalmente no utilizaremos

In [None]:
df["Close"]

In [None]:
df["Close"]["CAD=X"]

Preferiremos

In [None]:
df_currencies


Para quedarnos solo con las filas que tengan valores en todas las columnas

In [None]:
df_currencies.dropna()

In [None]:
df_currencies.dropna().to_csv("currencies.csv")

<a name="Merge"></a>
### Merge

En este caso se busca unir dos dataframes fijándonos en las coincidencias entre valores de dos columnas

In [None]:
from pandas import DataFrame
from pandas import Series
import pandas as pd
from random import sample
df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['a', 'b', 'b', 'd'],
                 'data2': range(4)})
display_side_by_side(df1,df2)

Por defecto la mezcla es por la columna que se llama igual


In [None]:

display_side_by_side(df1,df2, pd.merge(df1,df2),title="pd.merge(df1,df2)")


Si no se indica lo contrario, `merge` busca columnas comunes y hace un (inner) 'join'. Nótese que en este caso no se tienen en cuenta los índices
<br><br>

El método merge se puede llamar también dentro de un dataframe (es equivalente)

In [None]:
df1.merge(df2)

También se pueden unir por varias columnas, que podemos especificar directamente con los parámetros `left_on`y `right_on`

In [None]:

df3 = df1.merge(df2, left_on=['clave','data1'], right_on = ['clave','data2'])

display_side_by_side(df1,df2, df3)

Si la clave o claves por las que querenos unir se llaman ambas igual podemos usar simplemente `on`

In [None]:
df3 = pd.merge(df1,df2,on='clave')
display_side_by_side(df1,df2, df3)

Además de *inner* join, se pueden hacer con el parámetro `how` tomando valores *left*, *right*, *outer*, *inner*

<img src="https://www.golinuxcloud.com/wp-content/uploads/types_joins-1320x961.png">

En el caso de left, right y full/outer si la columna no encaja se rellenan con valores NaN

In [None]:
df3 = df1.merge( df2, on='clave', how='left')
display_side_by_side(df1,df2, df3)

**Ejercicio** En

https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/tweetsCompletadoOrdenRename.csv

Tenemos datos de tweets, incluyendo el identificador del usuario que que ha emitidos cada tweet,  `userid`.

En

https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usersrentaf.csv

tenemos datos de usuarios: sú número de seguidores, la renta de la zona donde viven, etc. En este caso el identificador se llama simplemente `id`.

Queremos unir ambos ficheros, de forma que a cada tweet se le añadan los datos de su usuario. Si un tweet no tiene su usario en el segundo conjunto de datos debemos borrarlo. Igualmente si un usuario no tiene ningún tweet no se incluirá.





In [None]:
import pandas as pd
url_tweets = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/tweetsCompletadoOrdenRename.csv"
url_users = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usersrentaf.csv"
df_tweets = pd.read_csv(url_tweets)
df_users = pd.read_csv(url_users)



In [None]:
df_tweets.columns