<a href="https://colab.research.google.com/github/Brandon-Bernal-Alarcon/Notas--R/blob/main/Manipulacion_Dplyr/Funciones_Dplyr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Funciones simples de dplyr con datos**

In [35]:
# Librerías a usar
library(dplyr)
library(tibble)

# Data frame de ejemplo

set.seed(123)
datos <- tibble(
  id = 1:100,
  edad = sample(18:65, 100, replace = TRUE),
  sexo = sample(c("Hombre", "Mujer"), 100, replace = TRUE),
  ciudad = sample(c("CDMX", "Guadalajara", "Monterrey", "Puebla"), 100, replace = TRUE),
  ingreso_mensual = round(rnorm(100, mean = 15000, sd = 4000), 0),
  nivel_educativo = sample(c("Secundaria", "Preparatoria", "Universidad", "Posgrado"), 100, replace = TRUE)
)

In [2]:
head(datos)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
1,48,Hombre,Monterrey,20490,Universidad
2,32,Mujer,CDMX,12743,Posgrado
3,31,Hombre,Guadalajara,18881,Posgrado
4,20,Mujer,Guadalajara,14925,Preparatoria
5,59,Mujer,CDMX,16449,Secundaria
6,60,Mujer,Puebla,23045,Secundaria


**glimpse()**

Muestra una vista rápida del contenido y estructura del data frame.

In [3]:
glimpse(datos)

Rows: 100
Columns: 6
$ id              [3m[90m<int>[39m[23m 1[90m, [39m2[90m, [39m3[90m, [39m4[90m, [39m5[90m, [39m6[90m, [39m7[90m, [39m8[90m, [39m9[90m, [39m10[90m, [39m11[90m, [39m12[90m, [39m13[90m, [39m14[90m, [39m15[90m, [39m16[90m,[39m…
$ edad            [3m[90m<int>[39m[23m 48[90m, [39m32[90m, [39m31[90m, [39m20[90m, [39m59[90m, [39m60[90m, [39m54[90m, [39m31[90m, [39m42[90m, [39m43[90m, [39m44[90m, [39m22[90m, [39m44[90m, [39m45…
$ sexo            [3m[90m<chr>[39m[23m "Hombre"[90m, [39m"Mujer"[90m, [39m"Hombre"[90m, [39m"Mujer"[90m, [39m"Mujer"[90m, [39m"Mujer"…
$ ciudad          [3m[90m<chr>[39m[23m "Monterrey"[90m, [39m"CDMX"[90m, [39m"Guadalajara"[90m, [39m"Guadalajara"[90m, [39m"CD…
$ ingreso_mensual [3m[90m<dbl>[39m[23m 20490[90m, [39m12743[90m, [39m18881[90m, [39m14925[90m, [39m16449[90m, [39m23045[90m, [39m10288[90m, [39m11979…
$ nivel_educativo [3m[90m<chr>[

**select()**

Selecciona columnas específicas.


In [5]:
d <- datos %>%
  select(id, edad, ciudad)
head(d)

id,edad,ciudad
<int>,<int>,<chr>
1,48,Monterrey
2,32,CDMX
3,31,Guadalajara
4,20,Guadalajara
5,59,CDMX
6,60,Puebla


**arrange()**

Ordena filas según una o más variables.

In [7]:
#De menor a mayor:

d <- datos %>%
  arrange(edad)
head(d)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
4,20,Mujer,Guadalajara,14925,Preparatoria
97,20,Mujer,Monterrey,13616,Universidad
74,21,Mujer,CDMX,14442,Posgrado
12,22,Mujer,CDMX,22379,Universidad
47,22,Hombre,Guadalajara,16479,Posgrado
76,22,Mujer,CDMX,17154,Universidad


In [8]:
#De mayor a menor:

d <- datos %>%
  arrange(desc(edad))
head(d)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
71,65,Mujer,CDMX,18517,Posgrado
86,65,Mujer,Puebla,18183,Preparatoria
59,64,Hombre,Puebla,17197,Preparatoria
81,63,Mujer,Monterrey,18887,Preparatoria
90,63,Mujer,Monterrey,15040,Preparatoria
33,62,Mujer,Guadalajara,18166,Preparatoria


**filter()**

Filtra filas que cumplan condiciones.

In [9]:
d <- datos %>%
  filter(ciudad == "CDMX", ingreso_mensual > 18000)
head(d)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
12,22,Mujer,CDMX,22379,Universidad
14,45,Mujer,CDMX,23784,Preparatoria
26,34,Hombre,CDMX,22604,Posgrado
42,49,Mujer,CDMX,18842,Preparatoria
51,35,Mujer,CDMX,19367,Secundaria
64,23,Hombre,CDMX,19908,Universidad


**mutate()**

Crea o modifica columnas.

In [10]:
d <- datos %>%
  mutate(ingreso_anual = ingreso_mensual * 12)
head(d)

#Si no quieres conservar las columnas originales:
c <- datos %>%
  mutate(ingreso_anual = ingreso_mensual * 12, .keep = "none")
head(c)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo,ingreso_anual
<int>,<int>,<chr>,<chr>,<dbl>,<chr>,<dbl>
1,48,Hombre,Monterrey,20490,Universidad,245880
2,32,Mujer,CDMX,12743,Posgrado,152916
3,31,Hombre,Guadalajara,18881,Posgrado,226572
4,20,Mujer,Guadalajara,14925,Preparatoria,179100
5,59,Mujer,CDMX,16449,Secundaria,197388
6,60,Mujer,Puebla,23045,Secundaria,276540


ingreso_anual
<dbl>
245880
152916
226572
179100
197388
276540


**count()**

Cuenta ocurrencias de una variable.


In [11]:
d <- datos %>%
  count(ciudad, sort = TRUE)
head(d)

ciudad,n
<chr>,<int>
CDMX,38
Guadalajara,26
Monterrey,18
Puebla,18


In [12]:
#Con ponderación:

datos %>%
  count(ciudad, wt = ingreso_mensual, sort = TRUE)

ciudad,n
<chr>,<dbl>
CDMX,557045
Guadalajara,407217
Monterrey,266823
Puebla,258240


**summarize() y group_by()**

Agrupa y resume estadísticas.


In [15]:
datos %>%
  group_by(ciudad) %>%
    summarize(
    ingreso_promedio = mean(ingreso_mensual),
    edad_maxima = max(edad)
    )

ciudad,ingreso_promedio,edad_maxima
<chr>,<dbl>,<int>
CDMX,14659.08,65
Guadalajara,15662.19,62
Monterrey,14823.5,63
Puebla,14346.67,65


**slice() y variantes**

Selecciona filas específicas:

In [16]:
#Primeras filas:

datos %>%
  slice_head(n = 5)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
1,48,Hombre,Monterrey,20490,Universidad
2,32,Mujer,CDMX,12743,Posgrado
3,31,Hombre,Guadalajara,18881,Posgrado
4,20,Mujer,Guadalajara,14925,Preparatoria
5,59,Mujer,CDMX,16449,Secundaria


In [17]:
# Últimas filas:

datos %>%
  slice_tail(n = 5)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
96,24,Mujer,Puebla,18587,Posgrado
97,20,Mujer,Monterrey,13616,Universidad
98,40,Hombre,CDMX,7872,Secundaria
99,32,Hombre,Guadalajara,16860,Secundaria
100,38,Mujer,CDMX,7196,Universidad


In [18]:
#Filas al azar:

datos %>%
  slice_sample(n = 3)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
15,26,Hombre,Puebla,14181,Posgrado
83,40,Hombre,CDMX,17116,Secundaria
49,29,Mujer,Monterrey,16288,Posgrado


In [19]:
#Filas con máximo ingreso: (tambien se puede con min)

datos %>%
  slice_max(order_by = ingreso_mensual, n = 2)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
53,44,Hombre,Guadalajara,25833,Posgrado
84,52,Hombre,Guadalajara,24818,Preparatoria


**select con : (rango)**

Seleccionar columnas contiguas:

In [21]:
d <- datos %>%
  select(id:ciudad)
head(d)

id,edad,sexo,ciudad
<int>,<int>,<chr>,<chr>
1,48,Hombre,Monterrey
2,32,Mujer,CDMX
3,31,Hombre,Guadalajara
4,20,Mujer,Guadalajara
5,59,Mujer,CDMX
6,60,Mujer,Puebla


**select con contains()**

Selecciona columnas que contienen cierta palabra:

In [24]:
d <- datos %>%
  select(contains("ingreso"))
head(d)

ingreso_mensual
<dbl>
20490
12743
18881
14925
16449
23045


Tambien se puede usar

ends_with() - Termina con

contains () -   contiene

star_whit() -  empieza con

last_col ()  -  última columna
         
matches() - Empata   


**Eliminar columnas**

Usar - para excluir columnas:

In [25]:
d <- datos %>%
  select(-nivel_educativo)
head(d)

id,edad,sexo,ciudad,ingreso_mensual
<int>,<int>,<chr>,<chr>,<dbl>
1,48,Hombre,Monterrey,20490
2,32,Mujer,CDMX,12743
3,31,Hombre,Guadalajara,18881
4,20,Mujer,Guadalajara,14925
5,59,Mujer,CDMX,16449
6,60,Mujer,Puebla,23045


**rename()**

Renombra columnas:

In [27]:
d <- datos %>%
  rename(educacion = nivel_educativo)
head(d)

id,edad,sexo,ciudad,ingreso_mensual,educacion
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
1,48,Hombre,Monterrey,20490,Universidad
2,32,Mujer,CDMX,12743,Posgrado
3,31,Hombre,Guadalajara,18881,Posgrado
4,20,Mujer,Guadalajara,14925,Preparatoria
5,59,Mujer,CDMX,16449,Secundaria
6,60,Mujer,Puebla,23045,Secundaria


In [28]:
# También lo puedes usar con count():

datos %>%
  count(sexo) %>%
  rename(total = n)

sexo,total
<chr>,<int>
Hombre,43
Mujer,57


**relocate()**

Reubica columnas sin eliminarlas:

In [30]:
d <- datos %>%
  relocate(ciudad, .before = sexo)
head(d)

id,edad,ciudad,sexo,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
1,48,Monterrey,Hombre,20490,Universidad
2,32,CDMX,Mujer,12743,Posgrado
3,31,Guadalajara,Hombre,18881,Posgrado
4,20,Guadalajara,Mujer,14925,Preparatoria
5,59,CDMX,Mujer,16449,Secundaria
6,60,Puebla,Mujer,23045,Secundaria


**filter con %in%**

Filtrar varios valores:

In [31]:
d <- datos %>%
  filter(ciudad %in% c("CDMX", "Guadalajara"))
head(d)

id,edad,sexo,ciudad,ingreso_mensual,nivel_educativo
<int>,<int>,<chr>,<chr>,<dbl>,<chr>
2,32,Mujer,CDMX,12743,Posgrado
3,31,Hombre,Guadalajara,18881,Posgrado
4,20,Mujer,Guadalajara,14925,Preparatoria
5,59,Mujer,CDMX,16449,Secundaria
9,42,Mujer,Guadalajara,13675,Preparatoria
11,44,Hombre,CDMX,16257,Secundaria


**levels() y droplevels()**

levels() se usa para ver los niveles de factores:

In [32]:
levels(factor(datos$sexo))

Para eliminar niveles no presentes después de filtrar:

In [33]:
datos_mujeres <- datos %>%
  filter(sexo == "Mujer") %>%
    droplevels()

    levels(datos_mujeres$sexo)

NULL

**table()**

Crea tablas de contingencia entre dos variables categóricas:

In [34]:
table(datos$sexo, datos$ciudad)

        
         CDMX Guadalajara Monterrey Puebla
  Hombre   17          13         8      5
  Mujer    21          13        10     13