<img src="logo.png">

# siuba.dply.vector

``siuba.dply.vector`` se trata de una familia de funciones auxiliares que complementan a los verbos de siuba que hemos estudiado. Se trata de funciones que se aplican a series, y por lo tanto a columnas de dataframes. En https://siuba.org/api/dply.vector puedes ver la documentación completa.

In [1]:
import numpy as np
import pandas as pd
from siuba import *
from siuba.dply.vector import *

Tomemos el siguiente dataframe **ventas.csv** de nuestro repositorio:

In [3]:
ventas = pd.read_csv("C:\\Users\\Usuario\\Documents\\scidata\\24_cdd_py\\practicas\\ventas\\ventas.csv",
                    encoding="utf8")
ventas

Unnamed: 0,region,producto,mes,ventas
0,norte,A,1,165.0
1,norte,B,1,165.0
2,norte,C,1,195.0
3,norte,A,2,
4,norte,B,2,240.0
...,...,...,...,...
67,sur,B,11,160.0
68,sur,C,11,170.0
69,sur,A,12,125.0
70,sur,B,12,235.0


In [4]:
pd.set_option('display.max_rows', None)
ventas #region: norte, sur; productos: A, B, C; meses: 1-12

Unnamed: 0,region,producto,mes,ventas
0,norte,A,1,165.0
1,norte,B,1,165.0
2,norte,C,1,195.0
3,norte,A,2,
4,norte,B,2,240.0
5,norte,C,2,175.0
6,norte,A,3,
7,norte,B,3,205.0
8,norte,C,3,240.0
9,norte,A,4,225.0


In [5]:
ventas.columns

Index(['region', 'producto', 'mes', 'ventas'], dtype='object')

In [21]:
#`between`: Seleccionar filas donde ventas están entre 200 y 230
### El between(a,b) significa valores >= a y <= b

# ventas >> filter(_.ventas >= 200, _.ventas <= 230) es el intervalo [200,230]

ventas >> filter(_.ventas.between(200,230))  ### es el intervalo [200,230]

# es diferente de hacer ventas >> filter(_.ventas > 200, _.ventas < 230) este es intervalo abierto (200,230)





Unnamed: 0,region,producto,mes,ventas
7,norte,B,3,205.0
9,norte,A,4,225.0
17,norte,C,6,210.0
28,norte,B,10,225.0
33,norte,A,12,225.0
34,norte,B,12,200.0
43,sur,B,3,230.0
47,sur,C,4,230.0
53,sur,C,6,220.0
56,sur,C,7,205.0


In [24]:
#`cumall`: Indicar si todas las ventas hasta la fila actual son mayores a 150

##### da True cuando se cumple la condición para el renglón actual Y TODOS LOS RENGLONES ANTERIORES

ventas >> mutate(salida = cumall(_.ventas==150))

Unnamed: 0,region,producto,mes,ventas,salida
0,norte,A,1,165.0,False
1,norte,B,1,165.0,False
2,norte,C,1,195.0,False
3,norte,A,2,,False
4,norte,B,2,240.0,False
5,norte,C,2,175.0,False
6,norte,A,3,,False
7,norte,B,3,205.0,False
8,norte,C,3,240.0,False
9,norte,A,4,225.0,False


In [27]:
#`cumany`: Indicar si alguna venta hasta la fila actual es mayor a 205
ventas >> mutate(salida = cumany(_.ventas>=205))

Unnamed: 0,region,producto,mes,ventas,salida
0,norte,A,1,165.0,True
1,norte,B,1,165.0,True
2,norte,C,1,195.0,True
3,norte,A,2,,True
4,norte,B,2,240.0,True
5,norte,C,2,175.0,True
6,norte,A,3,,True
7,norte,B,3,205.0,True
8,norte,C,3,240.0,True
9,norte,A,4,225.0,True


In [29]:
## Calcular las ventas acumuladas 
ventas >> mutate(ventas_acumuladas =  np.nancumsum(_.ventas))

Unnamed: 0,region,producto,mes,ventas,ventas_acumuladas
0,norte,A,1,165.0,165.0
1,norte,B,1,165.0,330.0
2,norte,C,1,195.0,525.0
3,norte,A,2,,525.0
4,norte,B,2,240.0,765.0
5,norte,C,2,175.0,940.0
6,norte,A,3,,940.0
7,norte,B,3,205.0,1145.0
8,norte,C,3,240.0,1385.0
9,norte,A,4,225.0,1610.0


In [51]:
## Calcular las ventas acumuladas por cada región mensualmente

(
ventas >> group_by(_.region,_.mes) >> 
    summarize(total_mes = _.ventas.sum()) >> 
    group_by(_.region) >> 
    mutate(total_acum = np.nancumsum(_.total_mes))
)

Unnamed: 0,region,mes,total_mes,total_acum
0,norte,1,525.0,525.0
1,norte,2,415.0,940.0
2,norte,3,445.0,1385.0
3,norte,4,545.0,1930.0
4,norte,5,675.0,2605.0
5,norte,6,495.0,3100.0
6,norte,7,485.0,3585.0
7,norte,8,425.0,4010.0
8,norte,9,590.0,4600.0
9,norte,10,225.0,4825.0


In [39]:
# `dense_rank`: Calcular el rango denso de ventas
ventas >> mutate(resultado = dense_rank(_.ventas)) 

Unnamed: 0,region,producto,mes,ventas,resultado
0,norte,A,1,165.0,10.0
1,norte,B,1,165.0,10.0
2,norte,C,1,195.0,15.0
3,norte,A,2,,
4,norte,B,2,240.0,24.0
5,norte,C,2,175.0,12.0
6,norte,A,3,,
7,norte,B,3,205.0,17.0
8,norte,C,3,240.0,24.0
9,norte,A,4,225.0,21.0


In [42]:
ventas >> mutate(resultado = dense_rank(-_.ventas)) >> arrange(_.ventas)

Unnamed: 0,region,producto,mes,ventas,resultado
19,norte,B,7,120.0,26.0
41,sur,C,2,120.0,26.0
21,norte,A,8,125.0,25.0
30,norte,A,11,125.0,25.0
55,sur,B,7,125.0,25.0
69,sur,A,12,125.0,25.0
10,norte,B,4,130.0,24.0
42,sur,A,3,130.0,24.0
60,sur,A,9,130.0,24.0
35,norte,C,12,135.0,23.0


In [44]:
ventas

Unnamed: 0,region,producto,mes,ventas
0,norte,A,1,165.0
1,norte,B,1,165.0
2,norte,C,1,195.0
3,norte,A,2,
4,norte,B,2,240.0
5,norte,C,2,175.0
6,norte,A,3,
7,norte,B,3,205.0
8,norte,C,3,240.0
9,norte,A,4,225.0


In [48]:
# `first`: Obtener el primer valor de ventas de cada región

ventas >> group_by(_.region) >> summarize(resultado = first(_.ventas))



Unnamed: 0,region,resultado
0,norte,165.0
1,sur,250.0


In [49]:
ventas >> filter(_.mes==1)

Unnamed: 0,region,producto,mes,ventas
0,norte,A,1,165.0
1,norte,B,1,165.0
2,norte,C,1,195.0
36,sur,A,1,250.0
37,sur,B,1,240.0
38,sur,C,1,240.0


In [52]:
# `last`: Obtener el último valor de ventas

ventas >> group_by(_.region) >> summarize(resultado = last(_.ventas))

Unnamed: 0,region,resultado
0,norte,135.0
1,sur,225.0


In [53]:
ventas

Unnamed: 0,region,producto,mes,ventas
0,norte,A,1,165.0
1,norte,B,1,165.0
2,norte,C,1,195.0
3,norte,A,2,
4,norte,B,2,240.0
5,norte,C,2,175.0
6,norte,A,3,
7,norte,B,3,205.0
8,norte,C,3,240.0
9,norte,A,4,225.0


In [68]:
# `lag`: Obtener la venta del período anterior
#ventas >> mutate(lag = lag(_.ventas), lag_ventas = _.ventas-_.lag)
(
ventas >> mutate(ventas_sinna = np.where(_.ventas.isna(),0,_.ventas),
                 lag = lag(_.ventas_sinna),
                 lag_sinna = np.where(_.lag.isna(),0,_.lag),
                 lag_ventas = _.ventas_sinna-_.lag_sinna) >>
          select(-_["ventas","lag"])
)


Unnamed: 0,region,producto,mes,ventas_sinna,lag_sinna,lag_ventas
0,norte,A,1,165.0,0.0,165.0
1,norte,B,1,165.0,165.0,0.0
2,norte,C,1,195.0,165.0,30.0
3,norte,A,2,0.0,195.0,-195.0
4,norte,B,2,240.0,0.0,240.0
5,norte,C,2,175.0,240.0,-65.0
6,norte,A,3,0.0,175.0,-175.0
7,norte,B,3,205.0,0.0,205.0
8,norte,C,3,240.0,205.0,35.0
9,norte,A,4,225.0,240.0,-15.0


In [71]:
(
ventas >> group_by(_.region,_.mes) >> summarize(ventas_tot = _.ventas.sum()) >>
    group_by(_.region) >> 
    mutate(diferencia_ventas_mensuales = _.ventas_tot - lag(_.ventas_tot))
)

Unnamed: 0,region,mes,ventas_tot,diferencia_ventas_mensuales
0,norte,1,525.0,
1,norte,2,415.0,-110.0
2,norte,3,445.0,30.0
3,norte,4,545.0,100.0
4,norte,5,675.0,130.0
5,norte,6,495.0,-180.0
6,norte,7,485.0,-10.0
7,norte,8,425.0,-60.0
8,norte,9,590.0,165.0
9,norte,10,225.0,-365.0


In [77]:
(
ventas >> group_by(_.region) >> filter(_.producto == "A") >> 
    mutate(ventas_sinna = np.where(_.ventas.isna(),0,_.ventas),
        diferencia_ventas_mens = _.ventas_sinna-lag(_.ventas_sinna))
)

Unnamed: 0,region,producto,mes,ventas,ventas_sinna,diferencia_ventas_mens
0,norte,A,1,165.0,165.0,
3,norte,A,2,,0.0,-165.0
6,norte,A,3,,0.0,0.0
9,norte,A,4,225.0,225.0,225.0
12,norte,A,5,195.0,195.0,-30.0
15,norte,A,6,145.0,145.0,-50.0
18,norte,A,7,190.0,190.0,45.0
21,norte,A,8,125.0,125.0,-65.0
24,norte,A,9,250.0,250.0,125.0
27,norte,A,10,,0.0,-250.0


In [None]:
(ventas >> 
    group_by(_.region,_.mes) >> 
    summarize(ventas_tot = _.ventas.sum()) >> 
    mutate(futuro = lag(_.ventas_tot),
           dif_futuro=_.ventas_tot-_.futuro)
)

In [None]:
# `lead`: Obtener la venta del período siguiente

ventas >> mutate(lead_venta = _.ventas - lead(_.ventas))

In [None]:
(ventas >> 
    group_by(_.region,_.mes) >> 
    summarize(ventas_tot = _.ventas.sum()) >> 
    mutate(futuro = lead(_.ventas_tot),
           dif=_.ventas_tot-_.futuro)
)

In [78]:
# `min_rank`: Calcular el rango mínimo de ventas
ventas >> mutate(min_rank_venta = min_rank(_.ventas))

Unnamed: 0,region,producto,mes,ventas,min_rank_venta
0,norte,A,1,165.0,24.0
1,norte,B,1,165.0,24.0
2,norte,C,1,195.0,38.0
3,norte,A,2,,
4,norte,B,2,240.0,59.0
5,norte,C,2,175.0,29.0
6,norte,A,3,,
7,norte,B,3,205.0,43.0
8,norte,C,3,240.0,59.0
9,norte,A,4,225.0,50.0


In [79]:
ventas.shape

(72, 4)

In [83]:
# `n`: Obtener el número total de filas
ventas >> group_by(_.region) >> summarize(total_filas = n(_))

Unnamed: 0,region,total_filas
0,norte,36
1,sur,36


In [86]:
# `n_distinct`: Obtener el número de valores distintos en `producto`
#ventas >> summarize(num_distinct_productos = n_distinct(_.producto))
ventas >> n_distinct(_.producto)



3

In [87]:
ventas

Unnamed: 0,region,producto,mes,ventas
0,norte,A,1,165.0
1,norte,B,1,165.0
2,norte,C,1,195.0
3,norte,A,2,
4,norte,B,2,240.0
5,norte,C,2,175.0
6,norte,A,3,
7,norte,B,3,205.0
8,norte,C,3,240.0
9,norte,A,4,225.0


In [88]:
# `na_if`: Reemplazar el valor 200 en `ventas` con NaN
ventas >> mutate(ventas_na_if = na_if(_.ventas, 205))

Unnamed: 0,region,producto,mes,ventas,ventas_na_if
0,norte,A,1,165.0,165.0
1,norte,B,1,165.0,165.0
2,norte,C,1,195.0,195.0
3,norte,A,2,,
4,norte,B,2,240.0,240.0
5,norte,C,2,175.0,175.0
6,norte,A,3,,
7,norte,B,3,205.0,
8,norte,C,3,240.0,240.0
9,norte,A,4,225.0,225.0


In [89]:
# `percent_rank`: Calcular el percentil de ventas
ventas  >> mutate(percent_rank_ventas = 100*percent_rank(_.ventas))

Unnamed: 0,region,producto,mes,ventas,percent_rank_ventas
0,norte,A,1,165.0,35.384615
1,norte,B,1,165.0,35.384615
2,norte,C,1,195.0,56.923077
3,norte,A,2,,
4,norte,B,2,240.0,89.230769
5,norte,C,2,175.0,43.076923
6,norte,A,3,,
7,norte,B,3,205.0,64.615385
8,norte,C,3,240.0,89.230769
9,norte,A,4,225.0,75.384615


In [None]:
np.percentile(,96.923077)

In [94]:
np.percentile(ventas >> filter(-_.ventas.isna()) >> select(_.ventas),43.0769)

174.99992500000002

In [95]:
# `row_number`: Asignar el número de fila a cada venta
ventas >> group_by(_.region) >> mutate(row_number_venta = row_number(_))

Unnamed: 0,region,producto,mes,ventas,row_number_venta
0,norte,A,1,165.0,1
1,norte,B,1,165.0,2
2,norte,C,1,195.0,3
3,norte,A,2,,4
4,norte,B,2,240.0,5
5,norte,C,2,175.0,6
6,norte,A,3,,7
7,norte,B,3,205.0,8
8,norte,C,3,240.0,9
9,norte,A,4,225.0,10


In [103]:
## Porcentaje de las ventas mensuales respecto del año

(
ventas >> group_by(_.region,_.mes) >> 
    summarize(ventas_mensuales = _.ventas.sum()) >> 
    group_by(_.region) >>
    mutate(perc_ventas = _.ventas_mensuales/_.ventas_mensuales.sum())
    )

Unnamed: 0,region,mes,ventas_mensuales,perc_ventas
0,norte,1,525.0,0.089744
1,norte,2,415.0,0.07094
2,norte,3,445.0,0.076068
3,norte,4,545.0,0.093162
4,norte,5,675.0,0.115385
5,norte,6,495.0,0.084615
6,norte,7,485.0,0.082906
7,norte,8,425.0,0.07265
8,norte,9,590.0,0.100855
9,norte,10,225.0,0.038462


In [None]:
ventas >> 