<a href="https://colab.research.google.com/github/RafaelCaballero/Julio24/blob/main/code/10pandascombinacionCompletado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Introducción a la ciencia de datos con Python
### Rafa Caballero

### Combinando dataframes
Veamos en este Notebook cómo se combinan y agregan dataframes

### Índice
[Concatenar](#Concatenar)<br>
[Merge](#Merge)<br>



El siguiente código es para mostrar una dataframe al lado de otro, ejecutarlo pero no hace falta entenderlo

In [None]:
from IPython.display import display, HTML
from IPython.display import display_html
from IPython.display import Markdown

def display_side_by_side(*args,title=""):
    print(title)
    html_str = ''
    for df in args:
        html_str += '&nbsp;&nbsp;&nbsp;'+df.to_html()
    display_html(
        html_str.replace('table','table style="display:inline"'),
        raw=True)



<a name="Concatenar"></a>
### Concatenar

La forma más fácil, y a veces la más rápida y útil, de combinar dataframes, ya sea "pegándolo" debajo o al lado con `pd.concat`

<img src = "https://miro.medium.com/max/1050/1*0wu6DunCzPC4o9FIyRTW4w.png">

In [None]:
import IPython.display as display
import pandas as pd
from pandas import DataFrame
from random import sample


df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['e', 'e', 'e', 'e'],
                 'data': range(4),
                 'otro': sample(range(10, 30), 4)})

display_side_by_side(df1,df2)




Unnamed: 0,clave,data,otro
0,b,0,17
1,b,1,27
2,a,2,15
3,c,3,28
4,a,4,24
5,a,5,22
6,b,6,12

Unnamed: 0,clave,data,otro
0,e,0,18
1,e,1,25
2,e,2,20
3,e,3,10


In [None]:
df1.index = ["Maestro"]*len(df1)
df2.index = ["Julio"]*len(df2)
df3 = pd.concat([df1,df2])
df3

Unnamed: 0,clave,data,otro
Maestro,b,0,17
Maestro,b,1,27
Maestro,a,2,15
Maestro,c,3,28
Maestro,a,4,24
Maestro,a,5,22
Maestro,b,6,12
Julio,e,0,18
Julio,e,1,25
Julio,e,2,20


In [None]:
df3.loc["Julio"]

Unnamed: 0,clave,data,otro
Julio,e,0,18
Julio,e,1,25
Julio,e,2,20
Julio,e,3,10


Si nos incomoda que el índice no sea consecutivo:

In [None]:
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,clave,data,otro
0,b,0,17
1,b,1,27
2,a,2,15
3,c,3,28
4,a,4,24
5,a,5,22
6,b,6,12
7,e,0,18
8,e,1,25
9,e,2,20


Sin embargo, hay veces que es útil usar el índice (si no tiene ya otro cometido) para "apuntar" el origen de cada fila

In [None]:
import IPython.display as display
import pandas as pd

df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['e', 'e', 'e', 'e'],
                 'data': range(4),
                 'otro': sample(range(10, 30), 4)})

df1.index = ["A"]*len(df1)
df2.index = ["B"]*len(df2)
display_side_by_side(df1,df2,pd.concat([df1,df2]),title="pd.concat([df1,df2])")

pd.concat([df1,df2])


Unnamed: 0,clave,data,otro
A,b,0,18
A,b,1,10
A,a,2,21
A,c,3,11
A,a,4,27
A,a,5,23
A,b,6,29

Unnamed: 0,clave,data,otro
B,e,0,23
B,e,1,28
B,e,2,19
B,e,3,27

Unnamed: 0,clave,data,otro
A,b,0,18
A,b,1,10
A,a,2,21
A,c,3,11
A,a,4,27
A,a,5,23
A,b,6,29
B,e,0,23
B,e,1,28
B,e,2,19


**Ojo** porque `concat` no es tan *tonto* como parece; no se limita a pegar debajo sino que alinea por nombres de columna

In [None]:
import IPython.display as display
import pandas as pd

df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['e', 'e', 'e', 'e'],
                 'otro': sample(range(10, 30), 4),
                 'data': range(4) } )

df1.index = ["A"]*len(df1)
df2.index = ["B"]*len(df2)
display_side_by_side(df1,df2,pd.concat([df1,df2]), title="pd.concat([df1,df2])")

pd.concat([df1,df2])


Unnamed: 0,clave,data,otro
A,b,0,23
A,b,1,26
A,a,2,14
A,c,3,18
A,a,4,19
A,a,5,29
A,b,6,24

Unnamed: 0,clave,otro,data
B,e,26,0
B,e,29,1
B,e,11,2
B,e,27,3

Unnamed: 0,clave,data,otro
A,b,0,23
A,b,1,26
A,a,2,14
A,c,3,18
A,a,4,19
A,a,5,29
A,b,6,24
B,e,0,26
B,e,1,29
B,e,2,11


Con el parámetro axis (que por defecto vale 0) podemos hacer que en lugar de por filas concatene por columnas. En este caso lo lógico es que ambos dataframes tengan el mismo número de filas



In [None]:
import numpy as np
filas = 5
df1 = DataFrame({'A': np.random.randint(1,10,filas) ,
                 'B': np.random.randint(1,10,filas),
                 'C': np.random.randint(1,10,filas)})

df2 = DataFrame({'D': np.random.randint(2000,3000,filas),
                 'E': np.random.randint(2000,3000,filas)})
display_side_by_side(df1,df2, pd.concat([df1,df2],axis=1),
                     title="pd.concat([df1,df2],axis=1)")

pd.concat([df1,df2],axis=1)


Unnamed: 0,A,B,C
0,6,4,6
1,4,1,3
2,9,2,4
3,8,5,8
4,8,2,9

Unnamed: 0,D,E
0,2907,2842
1,2493,2036
2,2627,2532
3,2160,2193
4,2946,2613

Unnamed: 0,A,B,C,D,E
0,6,4,6,2907,2842
1,4,1,3,2493,2036
2,9,2,4,2627,2532
3,8,5,8,2160,2193
4,8,2,9,2946,2613


Un aspecto muy importante: igual que al concatenar utiliza los nombres de columna aquí va a usar los números de fila

In [None]:
df2.index=[0,1,2,4,7]
display_side_by_side(df1,df2, pd.concat([df1,df2],axis=1),
                     title="pd.concat([df1,df2],axis=1)")

pd.concat([df1,df2],axis=1)


Unnamed: 0,A,B,C
0,6,4,6
1,4,1,3
2,9,2,4
3,8,5,8
4,8,2,9

Unnamed: 0,D,E
0,2907,2842
1,2493,2036
2,2627,2532
4,2160,2193
7,2946,2613

Unnamed: 0,A,B,C,D,E
0,6.0,4.0,6.0,2907.0,2842.0
1,4.0,1.0,3.0,2493.0,2036.0
2,9.0,2.0,4.0,2627.0,2532.0
3,8.0,5.0,8.0,,
4,8.0,2.0,9.0,2160.0,2193.0
7,,,,2946.0,2613.0


Si el número de filas o columnas no encaja, `concat` añadirá valores vacío para completar

In [None]:
import numpy as np
filas = 5
df1 = DataFrame({'A': np.random.randint(1,10,filas) ,
                 'B': np.random.randint(1,10,filas),
                 'C': np.random.randint(1,10,filas)})

df2 = DataFrame({'D': np.random.randint(2000,3000,filas-1),
                 'E': np.random.randint(2000,3000,filas-1)})
display_side_by_side(df1,df2, pd.concat([df1,df2],axis=1),title="pd.concat([df1,df2],axis=1)")

display_side_by_side(df1,df2, pd.concat([df1,df2],axis=0),title="pd.concat([df1,df2],axis=0)")

pd.concat([df1,df2],axis=1)


Unnamed: 0,A,B,C
0,8,7,6
1,1,2,3
2,3,8,7
3,1,7,6
4,4,4,6

Unnamed: 0,D,E
0,2325,2298
1,2789,2808
2,2944,2279
3,2158,2909

Unnamed: 0,A,B,C,D,E
0,8,7,6,2325.0,2298.0
1,1,2,3,2789.0,2808.0
2,3,8,7,2944.0,2279.0
3,1,7,6,2158.0,2909.0
4,4,4,6,,


pd.concat([df1,df2],axis=0)


Unnamed: 0,A,B,C
0,8,7,6
1,1,2,3
2,3,8,7
3,1,7,6
4,4,4,6

Unnamed: 0,D,E
0,2325,2298
1,2789,2808
2,2944,2279
3,2158,2909

Unnamed: 0,A,B,C,D,E
0,8.0,7.0,6.0,,
1,1.0,2.0,3.0,,
2,3.0,8.0,7.0,,
3,1.0,7.0,6.0,,
4,4.0,4.0,6.0,,
0,,,,2325.0,2298.0
1,,,,2789.0,2808.0
2,,,,2944.0,2279.0
3,,,,2158.0,2909.0


**Ejercicio**  El siguiente código descarga tres ficheros con datos diarios de metereología en Madrid y sus metadatos a una carpeta ./raw

In [None]:
import requests
from pathlib import Path
local = Path.cwd()
print(local)
carpeta_datos = Path(local,"raw")
print(carpeta_datos)

/content
/content/raw


In [None]:
carpeta_datos.mkdir(exist_ok=True)

In [None]:
micarpeta = Path("/content/micarpeta/peliculas/accion/muerteYDestruccion")
print(micarpeta)
micarpeta.mkdir(parents=True)

/content/micarpeta/peliculas/accion/muerteYDestruccion


In [None]:
import requests
from pathlib import Path
local = Path.cwd()
print(local)
pathraw = Path(local,"raw")

pathraw.mkdir(exist_ok=True)

datos = ["https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/DatosMeteorologicos/Ficheros/Interpretaci%C3%B3n_datos_meteorologicos.pdf",
         "https://datos.madrid.es/egob/catalogo/300351-0-meteorologicos-diarios.csv",
         "https://datos.madrid.es/egob/catalogo/300351-3-meteorologicos-diarios.csv",
          "https://datos.madrid.es/egob/catalogo/300351-9-meteorologicos-diarios.csv",
         "https://datos.madrid.es/egob/catalogo/300351-12-meteorologicos-diarios.csv"]
locales = []
for url in datos:
    nombre = Path(url).name
    camino = Path(pathraw,nombre)
    r = requests.get(url, allow_redirects=True) # el fichero queda en la variable r
    if r.status_code==200:
        with open(camino, 'wb') as f:
            f.write(r.content) # ahora lo grabamos localmente
        print("Grabado,",camino)
        locales.append(camino)
    else:
        print("Error descargando ",url)


/content
Grabado, /content/raw/Interpretaci%C3%B3n_datos_meteorologicos.pdf
Grabado, /content/raw/300351-0-meteorologicos-diarios.csv
Grabado, /content/raw/300351-3-meteorologicos-diarios.csv
Grabado, /content/raw/300351-9-meteorologicos-diarios.csv
Grabado, /content/raw/300351-12-meteorologicos-diarios.csv


In [None]:
locales

[PosixPath('/content/raw/Interpretaci%C3%B3n_datos_meteorologicos.pdf'),
 PosixPath('/content/raw/300351-0-meteorologicos-diarios.csv'),
 PosixPath('/content/raw/300351-3-meteorologicos-diarios.csv'),
 PosixPath('/content/raw/300351-9-meteorologicos-diarios.csv')]

In [None]:
locales

Añadir código para combinar los 3 ficheros en uno solo sabiendo que tienen las mismas columnas y que sus caminos están en la variable `locales`

In [None]:
# primero leemos todos los ficheros; dfs será una lista de dataframes
dfs = []
for p in locales:
    if p.suffix==".csv":
        df_temp = pd.read_csv(p,sep=";")
        dfs.append(df_temp)

In [None]:
df = pd.concat(dfs)
df

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,D01,V01,D02,...,D27,V27,D28,V28,D29,V29,D30,V30,D31,V31
0,28,79,102,81,28079102_81_98,2019,1,0.66,V,1.16,...,2.57,V,2.93,V,3.23,V,3.18,V,4.72,V
1,28,79,102,81,28079102_81_98,2019,2,4.32,V,2.98,...,1.36,V,0.97,V,0.00,N,0.00,N,0.00,N
2,28,79,102,81,28079102_81_98,2019,3,1.57,V,1.13,...,1.48,V,1.69,V,2.89,V,1.99,V,1.72,V
3,28,79,102,81,28079102_81_98,2019,4,1.32,V,1.21,...,1.00,V,1.82,V,1.97,V,1.84,V,0.00,N
4,28,79,102,81,28079102_81_98,2019,5,2.06,V,2.21,...,1.77,V,3.32,V,3.76,V,3.04,V,1.89,V
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1119,28,79,59,89,28079059_89_98,2023,8,0.00,V,0.00,...,0.00,V,0.00,V,0.00,V,0.00,V,0.00,V
1120,28,79,59,89,28079059_89_98,2023,9,0.00,V,6.85,...,0.00,V,0.00,V,0.00,V,0.00,V,0.00,N
1121,28,79,59,89,28079059_89_98,2023,10,0.00,V,0.00,...,0.00,V,0.00,V,1.80,V,3.00,V,0.00,V
1122,28,79,59,89,28079059_89_98,2023,11,0.05,V,6.05,...,0.00,V,0.00,V,0.00,V,13.60,V,0.00,N


In [None]:
df.MAGNITUD.unique()


<a name="Merge"></a>
### Merge

En este caso se busca unir dos dataframes fijándonos en las coincidencias entre valores de dos columnas

In [None]:
from pandas import DataFrame
from pandas import Series
import pandas as pd
from random import sample
df1 = DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7),
                 'otro': sample(range(10, 30), 7)})

df2 = DataFrame({'clave': ['a', 'b', 'b', 'd'],
                 'data2': range(4)})
display_side_by_side(df1,df2)




Unnamed: 0,clave,data1,otro
0,b,0,16
1,b,1,13
2,a,2,27
3,c,3,20
4,a,4,14
5,a,5,25
6,b,6,29

Unnamed: 0,clave,data2
0,a,0
1,b,1
2,b,2
3,d,3


Por defecto la mezcla es por la columna que se llama igual


In [None]:

display_side_by_side(df1,df2, pd.merge(df1,df2),title="pd.merge(df1,df2)")


Si no se indica lo contrario, `merge` busca columnas comunes y hace un (inner) 'join'. Nótese que en este caso no se tienen en cuenta los índices
<br><br>

El método merge se puede llamar también dentro de un dataframe (es equivalente)

In [None]:
df1.merge(df2)

También se pueden unir por varias columnas, que podemos especificar directamente con los parámetros `left_on`y `right_on`

In [None]:

df3 = df1.merge(df2, left_on=['clave','data1'], right_on = ['clave','data2'])

display_side_by_side(df1,df2, df3)

Si la clave o claves por las que querenos unir se llaman ambas igual podemos usar simplemente `on`

In [None]:
df3 = pd.merge(df1,df2,on='clave')
display_side_by_side(df1,df2, df3)

Además de *inner* join, se pueden hacer con el parámetro `how` tomando valores *left*, *right*, *outer*, *inner*

<img src="https://www.golinuxcloud.com/wp-content/uploads/types_joins-1320x961.png">

En el caso de left, right y full/outer si la columna no encaja se rellenan con valores NaN

In [None]:
df3 = df1.merge( df2, on='clave', how='left')
display_side_by_side(df1,df2, df3)




Unnamed: 0,clave,data1,otro
0,b,0,16
1,b,1,13
2,a,2,27
3,c,3,20
4,a,4,14
5,a,5,25
6,b,6,29

Unnamed: 0,clave,data2
0,a,0
1,b,1
2,b,2
3,d,3

Unnamed: 0,clave,data1,otro,data2
0,b,0,16,1.0
1,b,0,16,2.0
2,b,1,13,1.0
3,b,1,13,2.0
4,a,2,27,0.0
5,c,3,20,
6,a,4,14,0.0
7,a,5,25,0.0
8,b,6,29,1.0
9,b,6,29,2.0


**Ejercicio** En

https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/tweetsCompletadoOrdenRename.csv

Tenemos datos de tweets, incluyendo el identificador del usuario que que ha emitidos cada tweet,  `userid`.

En

https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usersrentaf.csv

tenemos datos de usuarios: sú número de seguidores, la renta de la zona donde viven, etc. En este caso el identificador se llama simplemente `id`.

Queremos unir ambos ficheros, de forma que a cada tweet se le añadan los datos de su usuario. Si un tweet no tiene su usario en el segundo conjunto de datos debemos borrarlo. Igualmente si un usuario no tiene ningún tweet no se incluirá.





In [None]:
import pandas as pd
url_tweets = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/tweetsCompletadoOrdenRename.csv"
url_users = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usersrentaf.csv"
df_tweets = pd.read_csv(url_tweets)
df_users = pd.read_csv(url_users)



In [None]:
df_tweets.columns

Index(['userid', '_id', 'screen_name', 'text', 'hora', 'foto/vídeo', 'foto',
       'video', ''¡'', ''!'', ''¿'', ''?'', 'menciones', 'hashtags', 'URLs',
       'emojis', 'sentimiento medio emojis', 'palabras',
       'proporción palabras correctas', 'longitud media palabras',
       'mayúsculas', 'números', 'palabras vacías', 'adjetivos', 'sustantivos',
       'verbos', 'tiempo pasado', 'tiempo presente', 'tiempo futuro',
       'tiempo imperfecto', 'tiempo condicional', 'modo imperativo',
       'modo indicativo', 'modo subjuntivo', 'primera persona',
       'segunda persona', 'tercera persona', 'singular', 'plural',
       'infinitivo', 'gerundio', 'participio', 'estoy en'],
      dtype='object')

In [None]:
df_users.columns

Index(['id', 'screen_name', 'name', 'followers', 'created_at', 'friends_count',
       'location', 'ntweets', 'verified', 'nTotal', 'tweets', 'localidad',
       'provincia', 'distrito', 'seccion', 'cambio1518', 'mediana',
       'rentapaismin', 'rentapaismax', 'rentacommin', 'rentacommax'],
      dtype='object')

In [None]:
df3 = df_tweets.merge( df_users, left_on='userid', right_on='id', how='inner')
df3

Unnamed: 0,userid,_id,screen_name_x,text,hora,foto/vídeo,foto,video,'¡','!',...,localidad,provincia,distrito,seccion,cambio1518,mediana,rentapaismin,rentapaismax,rentacommin,rentacommax
0,372826254,1491110664240533504,heryartes,Dios siempre da por donde más le duele a uno. ...,18,0,0,0,0,0,...,Soto del Real,Madrid,01,1,9,17850.0,71,76,46,50
1,372826254,1491116058916184065,heryartes,Acaba de publicar un video en Telemicro https:...,18,1,0,1,0,0,...,Soto del Real,Madrid,01,1,9,17850.0,71,76,46,50
2,372826254,1491121778416136202,heryartes,Acaba de publicar un video https://t.co/wAwqtD...,18,1,0,1,0,0,...,Soto del Real,Madrid,01,1,9,17850.0,71,76,46,50
3,372826254,1448291132463587337,heryartes,Yo tenia varios días sin escuchar una emisora ...,14,0,0,0,0,3,...,Soto del Real,Madrid,01,1,9,17850.0,71,76,46,50
4,372826254,1448294476733112321,heryartes,"Facebook lleno de puyas e indirectas, Twitter ...",14,0,0,0,1,1,...,Soto del Real,Madrid,01,1,9,17850.0,71,76,46,50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92879,1069569979,1488472824272474117,gerson_iglesias,Acaba de publicar una foto en Oca Vila de Alla...,11,1,1,0,0,0,...,Allariz,Ourense,01,1,11,14350.0,33,41,14,28
92880,840287644789723138,1488505529714581517,RococoDecora,Preciosidad para comedor https://t.co/vpPH5SLh5W,13,0,0,0,0,0,...,Teo,A Coruña,02,2,16,15050.0,41,48,28,44
92881,1974659378,1488541398982967296,sr_boca,Merienda https://t.co/ID9gthKcB5,15,0,0,0,0,0,...,Barcelona,Barcelona,Eixample,85,9,24850.0,94,95,92,93
92882,1553476147,1490968743136137217,MuchoFunkSpain,Acaba de publicar una foto en Mucho Funk https...,8,1,1,0,0,0,...,Torrejón de Ardoz,Madrid,03,8,15,16450.0,61,67,35,40


In [None]:
df_tweets.shape,df_users.shape,df3.shape

((92884, 43), (1287, 21), (92884, 64))

In [None]:
df3.columns

Index(['userid', '_id', 'screen_name_x', 'text', 'hora', 'foto/vídeo', 'foto',
       'video', ''¡'', ''!'', ''¿'', ''?'', 'menciones', 'hashtags', 'URLs',
       'emojis', 'sentimiento medio emojis', 'palabras',
       'proporción palabras correctas', 'longitud media palabras',
       'mayúsculas', 'números', 'palabras vacías', 'adjetivos', 'sustantivos',
       'verbos', 'tiempo pasado', 'tiempo presente', 'tiempo futuro',
       'tiempo imperfecto', 'tiempo condicional', 'modo imperativo',
       'modo indicativo', 'modo subjuntivo', 'primera persona',
       'segunda persona', 'tercera persona', 'singular', 'plural',
       'infinitivo', 'gerundio', 'participio', 'estoy en', 'id',
       'screen_name_y', 'name', 'followers', 'created_at', 'friends_count',
       'location', 'ntweets', 'verified', 'nTotal', 'tweets', 'localidad',
       'provincia', 'distrito', 'seccion', 'cambio1518', 'mediana',
       'rentapaismin', 'rentapaismax', 'rentacommin', 'rentacommax'],
      dtype='obje