In [1]:
import pandas as pd
import numpy as np

## `groupby`

In [6]:
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon','Parrot', 'Parrot'],
                    'Max Speed': [380., 370., 24., 26.],
                    'valor': [10, 254, 45, 48]
                    })

df

Unnamed: 0,Animal,Max Speed,valor
0,Falcon,380.0,10
1,Falcon,370.0,254
2,Parrot,24.0,45
3,Parrot,26.0,48


Se calcula el valor máximo de cada columna numérica dentro de cada grupo. Se selecciona el valor máximo de cada columna por separado.

Los maximos no necesariamente provienen de la misma fila. Es decir, el resultado final puede ser una combinación de diferentes filas dentro del mismo grupo.

In [19]:
a = df.groupby(["valor", "Max Speed"]).agg({"Animal": ["count", "first", "last", "nunique"]})
a

Unnamed: 0_level_0,Unnamed: 1_level_0,Animal,Animal,Animal,Animal
Unnamed: 0_level_1,Unnamed: 1_level_1,count,first,last,nunique
valor,Max Speed,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
10,380.0,1,Falcon,Falcon,1
45,24.0,1,Parrot,Parrot,1
48,26.0,1,Parrot,Parrot,1
254,370.0,1,Falcon,Falcon,1


In [25]:
a.loc[(10, 380.0), ("Animal", "count")]


1

In [26]:
a.reset_index(inplace=True)
a

Unnamed: 0_level_0,valor,Max Speed,Animal,Animal,Animal,Animal
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,first,last,nunique
0,10,380.0,1,Falcon,Falcon,1
1,45,24.0,1,Parrot,Parrot,1
2,48,26.0,1,Parrot,Parrot,1
3,254,370.0,1,Falcon,Falcon,1


In [29]:
a["Animal"]

Unnamed: 0,count,first,last,nunique
0,1,Falcon,Falcon,1
1,1,Parrot,Parrot,1
2,1,Parrot,Parrot,1
3,1,Falcon,Falcon,1


## `map`

## ``transform``

In [63]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8],
    'D': [9,10,11,12,13,14,15,16]
})

df

Unnamed: 0,A,B,C,D
0,foo,one,1,9
1,bar,one,2,10
2,foo,two,3,11
3,bar,three,4,12
4,foo,two,5,13
5,bar,two,6,14
6,foo,one,7,15
7,foo,three,8,16


In [64]:
# grouby a dos columnas
a = df.groupby(['A', 'B']).sum()
a

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,2,10
bar,three,4,12
bar,two,6,14
foo,one,8,24
foo,three,8,16
foo,two,8,24


### Ejemplo incorrecto

In [65]:
# Definir una función personalizada que toma un DataFrame (o Serie) y dos parámetros
def multiply_and_add(x, multiplier, adder):
    return (x * multiplier) + adder

**No tine sentido**, es indeferente que .groupby('A') este. Seria igual selecionar las columnas especificas y aplicar el transform directamente.

Se selcionan solo las columnas "C" y "D" dado que las operaciones de add (suma) no estan permitidad con cadenas. Si se cambia la suma por mutiplicacion se puede agregar la columna "B"

In [66]:
result = df.groupby('A')[["C", "D"]].transform(multiply_and_add, multiplier=2, adder=3)



In [67]:
result = df[["C", "D"]].transform(multiply_and_add, multiplier=2, adder=3)
print(result)

    C   D
0   5  21
1   7  23
2   9  25
3  11  27
4  13  29
5  15  31
6  17  33
7  19  35


### Ejemplo correcto

hace una especie de concat

In [68]:
result = df.groupby('A').transform('sum')
result

Unnamed: 0,B,C,D
0,onetwotwoonethree,24,64
1,onethreetwo,12,36
2,onetwotwoonethree,24,64
3,onethreetwo,12,36
4,onetwotwoonethree,24,64
5,onethreetwo,12,36
6,onetwotwoonethree,24,64
7,onetwotwoonethree,24,64


## pivot [link](https://www.w3resource.com/pandas/dataframe/dataframe-pivot.php)

**Returns:** DataFrame
Returns reshaped DataFrame.

**Raises:** ValueError- Cuando hay algún índice, combinaciones de columnas con múltiples valores, es decir, un único valor por cada combinación de pares index-columns. Por ejemplo no prodría haber dos paises Argentina con la misma letra A que tengan valores diferentes.

In [1]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({'pais': ['Argentina', 'Bolivia', 'Bolivia', 'Argentina', 'Argentina',
                           'Bolivia'],
                   'letra': ['A', 'B', 'C', 'C', 'B', 'A'],
                   'altura': [1, 2, 3, 4, 5, 6],
                   'name': ['h', 'i', 'j', 'k', 'l', 'm']})
df

Unnamed: 0,pais,letra,altura,name
0,Argentina,A,1,h
1,Bolivia,B,2,i
2,Bolivia,C,3,j
3,Argentina,C,4,k
4,Argentina,B,5,l
5,Bolivia,A,6,m


In [7]:
df.pivot(index='pais', columns='letra', values='altura')

letra,A,B,C
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,1,5,4
Bolivia,6,2,3


In [72]:
df.pivot(index='pais', columns='letra')

Unnamed: 0_level_0,altura,altura,altura,name,name,name
letra,A,B,C,A,B,C
pais,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Argentina,1,5,4,h,l,k
Bolivia,6,2,3,m,i,j


# merge

- Si una columna tinen multiples valores repetidos se conservan todos los valores.

In [74]:
# Importamos la biblioteca pandas
import pandas as pd

# Creamos dos DataFrames de ejemplo
data1 = pd.DataFrame({
    'ID': ['101', '102','103','104', '105', '104', '105' ],
    'x1': ['1', '2', '3', '4', '5', '8', '9'],
    'x2': ['a', 'b', 'c', 'd', 'e', 'f', 'g'],
    'x3': ['16', '15', '14', '13', '12', '11', '10']}
)

data1

Unnamed: 0,ID,x1,x2,x3
0,101,1,a,16
1,102,2,b,15
2,103,3,c,14
3,104,4,d,13
4,105,5,e,12
5,104,8,f,11
6,105,9,g,10


In [73]:
data2 = pd.DataFrame({
    'ID': ['104', '105','106','107', '104'],
    'y1': ['x', 'y', 'x', 'y', 'x'],
    'y2': ['8', '6', '4', '2', '8'],}
)
data2

Unnamed: 0,ID,y1,y2
0,104,x,8
1,105,y,6
2,106,x,4
3,107,y,2
4,104,x,8


In [76]:
data_inner = pd.merge(data1,                         # Inner join
                      data2,
                      on = "ID",
                      how = "inner")
data_inner

Unnamed: 0,ID,x1,x2,x3,y1,y2
0,104,4,d,13,x,8
1,104,4,d,13,x,8
2,105,5,e,12,y,6
3,104,8,f,11,x,8
4,104,8,f,11,x,8
5,105,9,g,10,y,6


In [48]:
data_outer = pd.merge(data1,                         # Outer join
                      data2,
                      on = "ID",
                      how = "outer")
print(data_outer)    

    ID   x1   x2   x3   y1   y2
0  101    1    a   16  NaN  NaN
1  102    2    b   15  NaN  NaN
2  103    3    c   14  NaN  NaN
3  104    4    d   13    x    8
4  104    8    f   11    x    8
5  105    5    e   12    y    6
6  105    9    g   10    y    6
7  106  NaN  NaN  NaN    x    4
8  107  NaN  NaN  NaN    y    2


In [88]:
data_left = pd.merge(data1,                          # Left join
                      data2,
                      on = "ID",
                      how = "left")
print(data_left)      

    ID x1 x2  x3   y1   y2
0  101  1  a  16  NaN  NaN
1  102  2  b  15  NaN  NaN
2  103  3  c  14  NaN  NaN
3  104  4  d  13    x    8
4  104  4  d  13    x    8
5  105  5  e  12    y    6
6  104  8  f  11    x    8
7  104  8  f  11    x    8
8  105  9  g  10    y    6


In [89]:
data_right = pd.merge(data1,                         # Right join
                      data2,
                      on = "ID",
                      how = "right")
print(data_right)  

    ID   x1   x2   x3 y1 y2
0  104    4    d   13  x  8
1  104    8    f   11  x  8
2  105    5    e   12  y  6
3  105    9    g   10  y  6
4  106  NaN  NaN  NaN  x  4
5  107  NaN  NaN  NaN  y  2
6  104    4    d   13  x  8
7  104    8    f   11  x  8


left_on y right_on son las columnas que se van a comparar para hacer el merge, es decir, si se quiere hacer un merge por la columna "A" de la tabla "A" y la columna "B" de la tabla "B" se debe hacer left_on="A" y right_on="B", estas columnas no necesariamente deben tener el mismo nombre, pero si deben tener el mismo tipo de dato y al menos un valor en común. Va retornar un dataframe con las columnas de ambas tablas.

In [55]:
# ejemplo left_on y right_on
pd.merge(data1, data2, left_on='ID', right_on='ID') 

Unnamed: 0,ID,x1,x2,x3,y1,y2
0,104,4,d,13,x,8
1,105,5,e,12,y,6
2,104,8,f,11,x,8
3,105,9,g,10,y,6


In [56]:
data_inner = pd.merge(data1,                         # Inner join
                      data2,
                      on = "ID",
                      how = "inner")
data_inner

Unnamed: 0,ID,x1,x2,x3,y1,y2
0,104,4,d,13,x,8
1,105,5,e,12,y,6
2,104,8,f,11,x,8
3,105,9,g,10,y,6


In [54]:
# ejemplo left_on y right_on
pd.merge(data2, data1, left_on='ID', right_on='ID') 

Unnamed: 0,ID,y1,y2,x1,x2,x3
0,104,x,8,4,d,13
1,104,x,8,8,f,11
2,105,y,6,5,e,12
3,105,y,6,9,g,10


In [57]:
# DataFrame de productos
df_productos = pd.DataFrame({
    'ID_Producto': ['P1', 'P2', 'P3', 'P4'],
    'Nombre': ['Manzana', 'Banana', 'Cereza', 'Durazno'],
    'Precio': [1.00, 0.50, 0.75, 1.25]
})

# DataFrame de ventas
df_ventas = pd.DataFrame({
    'ID_Producto': ['P1', 'P2', 'P2', 'P3', 'P4', 'P4', 'P4'],
    'Cantidad': [10, 5, 7, 15, 10, 10, 5]
})


In [59]:
df_combinado

Unnamed: 0,ID_Producto,Cantidad,Nombre,Precio,Ingreso
0,P1,10,Manzana,1.0,10.0
1,P2,5,Banana,0.5,2.5
2,P2,7,Banana,0.5,3.5
3,P3,15,Cereza,0.75,11.25
4,P4,10,Durazno,1.25,12.5
5,P4,10,Durazno,1.25,12.5
6,P4,5,Durazno,1.25,6.25


In [58]:
df_combinado = pd.merge(df_ventas, df_productos, on='ID_Producto')
df_combinado['Ingreso'] = df_combinado['Cantidad'] * df_combinado['Precio']


In [87]:
import pandas as pd

# Crear los dataframes
df_rates = pd.DataFrame({
    'dia': [1, 1, 2, 2, 3],
    'rates': [1, 5, 6, 7, 1]
})

df_sales = pd.DataFrame({
    'dia': [1, 1, 2, 3],
    'sales': ['a', 'b', 'c', 'd']
})

# Hacer el merge
merged_df = pd.merge(df_rates, df_sales, on='dia', how='        ')

print(merged_df)


   dia  rates sales
0    1      1     a
1    1      1     b
2    1      5     a
3    1      5     b
4    2      6     c
5    2      7     c
6    3      1     d
