# Parte 1: Introducción a R (continuación)

**Profesor:** Rodrigo Morales <br>
**E-mail:** rumorale1@gmail.com


## 5. Listas y Dataframes

### 5.1 Listas

Hasta aquí contamos con dos tipos de objetos para almacenar datos; vectores y matrices. Sin embargo, en ambos casos se tiene la limitante de que no es posible combinar distintos tipos de datos en diferentes entradas. Un objeto que permite una mayor flexibilidad son las listas. En R, una lista es básicamente un arreglo unidimensional, donde en cada entrada es posible almacenar distintos **objetos** (los cuales a su vez pueden almacenar distintos tipos de datos (u otros objetos).
En resumen,

   * ¿Qué son?<br>
    Arreglos unidimensionales que guardan distintos tipos de datos u objetos.<br>

   * ¿Cómo se declaran?<br>
    Se pueden declarar mediante el comando list() o combinando listas existentes. <br>
    
   * ¿Cómo se accede a sus elementos?<br>
    Usando [ ] (retorna lista), o bien usando [ [ ] ] (retorna el objeto).
    En cada caso se puede indicar la posición o nombre del objeto que se quiere rescatar.<br>
    Otra manera es mediante el símbolo $ seguido del nombre del objeto.



Creación de una lista

In [10]:
# 5. Listas y dataframes ------------
# 5.1 Listas  ------------
# Cómo declarar una lista (comando list() )
#num,letra, pl, mat, lista


lista <- list(vector_numerico = 1:5, 
              letras =letters[1:10], 
              matriz = matrix(data = 1:9, 3,3), 
              fechas = as.Date(c('2025-01-01', '2025-10-01')))

lista

0,1,2
1,4,7
2,5,8
3,6,9


guardar los objetos en slots con nombres

In [13]:
lista[['estaturas']] <- rnorm(n = 10, mean=1.6, sd = 0.2)

lista

0,1,2
1,4,7
2,5,8
3,6,9


Podemos combinar listas

In [16]:
lista_numerica <- list(x = 50:60, y = 70:100)
#lista_numerica


append(lista, lista_numerica)

0,1,2
1,4,7
2,5,8
3,6,9


In [None]:
# Generar una funcion que guarde resultados de un modelo de regresión lineal

# y = a*x +b
# input -> datos (y = estatura, x = peso)
# output: a -> numero, b -> numero, estaturas ajustadas -> vector, datos -> matriz, 




Accesos a elementos de una lista: Posición y Nombre

In [21]:
# nombre
lista[["vector_numerico"]]

lista$vector_numerico

lista$estaturas

# posicicion

lista[[1]]

Diferencia entre [.] y [[.]]

In [26]:
# de la lista l3[[5]], quiero el vector que está en el slot llamado "b" (segundo elemento)
class(lista["vector_numerico"])
str(lista["vector_numerico"])

class(lista[["vector_numerico"]])
str(lista[["vector_numerico"]])

List of 1
 $ vector_numerico: int [1:5] 1 2 3 4 5


 int [1:5] 1 2 3 4 5


Operados $

In [27]:
lista_numerica$x

Nombres de los elementos de la lista

In [29]:
names(lista) 



Largo de la lista

In [31]:
# También podemos crear nuevos "slots"
## Indicando nombre en [[]] y luego asignando
length(lista)

lista

0,1,2
1,4,7
2,5,8
3,6,9


In [36]:
m <- matrix(1:9, 3, 3)

length(m)

dim(m)

nrow(m)

ncol(m)



Crear nuevos Slot y modificarlos

In [40]:
lista[['vector_numerico']] = LETTERS[1:10]

lista

0,1,2
1,4,7
2,5,8
3,6,9


### 5.2 Dataframes

Un dataframe es un caso particular de una lista, donde los objetos de cada entrada corresponden a vectores de datos del mismo largo. En este caso cada vector corresponde a una columna del data.frame, mientras que la cantidad de filas corresponde al largo común de los vectores de cada entrada. El objeto resultante es una *tabla*, de ahora en adelante *data.frame*, cuyas columnas poseen distintos tipos de datos entre sí.

 * ¿Cómo se declara un dataframe?<br>
     Mediante la función data.frame(), indicando los vectores que conformarán las columnas.

 * ¿Cómo se accede a los datos de un data.frame?<br>
    Al ser una lista, se puede acceder de la misma manera. Sin embargo también es posible acceder del modo en que se accede a los elementos de una matriz.

In [46]:
# 5.2 Dataframes ----------
# Ejemplo sencillo de definición de un data.frame
# recordar que 1:3 es lo mismo que c(1,2,3)

class(iris)
typeof(iris)

#iris
#cars


In [None]:
df <- data.frame(numero = 1:10, 
                 letras = letters[1:10])


names(df)

Acceso a columnas de un data frame

In [53]:
df['numero']

df$numero


numero
<int>
1
2
3
4
5
6
7
8
9
10


Acceso como matriz

In [58]:
##  Ganamos acceso como matriz
# segundafila de df
df[6, 'letras']

#df[  , ]

# segunda columna y segunda fila

df[6, 2]


df[ df$numero >= 8,]

Unnamed: 0_level_0,numero,letras
Unnamed: 0_level_1,<int>,<chr>
8,8,h
9,9,i
10,10,j


Creación de nuevas columnas

In [66]:
#Podemos crear nuevas columnas , del mismmo modo que creamos "slots" en una lista
df$numero_letra <- paste(df$letras, df$numero, sep = "")


df['numero_letra_numero' ]<- paste(df$numero, df$letras, df$numero, sep = "")

df['numerox2'] <- df['numero'] *2

df

numero,letras,numero_letra,numero_letra_numero,numerox2
<int>,<chr>,<chr>,<chr>,<dbl>
1,a,a1,1a1,2
2,b,b2,2b2,4
3,c,c3,3c3,6
4,d,d4,4d4,8
5,e,e5,5e5,10
6,f,f6,6f6,12
7,g,g7,7g7,14
8,h,h8,8h8,16
9,i,i9,9i9,18
10,j,j10,10j10,20


Selección de mas de una columna

In [71]:
# podemos seleccionar más de una columna a la vez. Ej: seleccionar col1y col3

df[  ,  c(1, 5) ]

# Referenciando el nombre de las columnas


df[  df$numero >= 9 ,  c("letras", "numero_letra_numero") ]

numero,numerox2
<int>,<dbl>
1,2
2,4
3,6
4,8
5,10
6,12
7,14
8,16
9,18
10,20


Unnamed: 0_level_0,letras,numero_letra_numero
Unnamed: 0_level_1,<chr>,<chr>
9,i,9i9
10,j,10j10


In [None]:
# Referenciando las posiciones de las columnas


In [46]:
# Se mantiene la lógica de acceso a los slots de una lista.


### Cuadro comparativo: Matriz vs Lista vs Data Frame en R

| Característica | **Matriz (`matrix`)** | **Lista (`list`)** | **Data Frame (`data.frame`)** |
|----------------|------------------------|---------------------|-------------------------------|
| **Estructura básica** | Arreglo bidimensional (filas y columnas) | Colección ordenada de objetos | Tabla (colección de vectores del mismo largo) |
| **Dimensiones** | 2 dimensiones (filas x columnas) | 1 dimensión (cada elemento puede ser cualquier cosa) | 2 dimensiones (filas x columnas) |
| **Tipos de datos** | **Un solo tipo de dato** (todos numéricos, todos caracteres, etc.) | **Varios tipos de datos**, incluso estructuras | **Distintos tipos de datos por columna** |
| **Indexación** | `m[filas, columnas]` | `l[[índice]]` o `l$nombre` | `df[filas, columnas]` o `df$columna` |
| **Homogeneidad** | Homogénea (todos los elementos del mismo tipo) | Heterogénea (cada elemento puede ser distinto) | Heterogénea (cada columna puede ser de distinto tipo) |
| **Creación** | `matrix(1:6, nrow=2, ncol=3)` | `list(nombre="Ana", edad=25, notas=c(5,6,7))` | `data.frame(nombre=c("Ana","Luis"), edad=c(25,30))` |
| **Uso típico** | Operaciones matemáticas o algebra lineal | Agrupar objetos de distinta naturaleza | Representar y manipular datos tabulares (similar a Excel) |
| **Conversión posible** | Se puede convertir en `data.frame` si cumple estructura | Se puede convertir a `data.frame` si los elementos son vectores de igual largo | Se puede convertir a lista (`as.list(df)`) |
| **Ejemplo visual** | <code>1 2 3<br>4 5 6</code> | <code>$nombre → "Ana"<br>$edad → 25</code> | <code>nombre edad<br>Ana 25<br>Luis 30</code> |

---

#### 💡 En resumen:
- 🟦 **Matriz:** ideal para **cálculos numéricos**.  
- 🟨 **Lista:** ideal para **guardar objetos complejos**.  
- 🟩 **Data frame:** ideal para **análisis de datos** (es la base del *data science* en R).

In [80]:
# 
unique(iris$Species)


mean(iris$Petal.Length[ iris$Species == "setosa"])
mean(iris$Petal.Length[ iris$Species == "versicolor"])
mean(iris$Petal.Length[ iris$Species == "virginica"])

mean(iris$Petal.Width[ iris$Species == "setosa"])
mean(iris$Petal.Width[ iris$Species == "versicolor"])
mean(iris$Petal.Width[ iris$Species == "virginica"])

print("hay NA's")
sum(is.na(iris$Petal.Length))


summary(iris)




[1] "hay NA's"


  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                