# 2.2.3. Factors

Los datos a menudo caen en un número limitado de categorías. Por ejemplo, el color del cabello humano puede clasificarse como negro, castaño, rubio, rojo, gris o blanco, y quizás algunas opciones más para personas que se tiñen el cabello. En R, los datos categóricos se almacenan en **factores** (*factors*). Los factores son muy importantes en el análisis de datos, así que comienza ahora a aprender cómo crearlos, sub-conjuntarlos y compararlos.

## ¿Qué es un factor y por qué lo usarías?

El término factor se refiere a un tipo de dato estadístico utilizado para almacenar variables categóricas. La diferencia entre una variable categórica y una variable continua es que una variable categórica puede pertenecer a un **número limitado de categorías**. Una variable continua, por otro lado, puede corresponder a un número infinito de valores.

Es importante que R sepa si está trabajando con una variable continua o una categórica, ya que los modelos estadísticos que desarrollarás en el futuro tratan ambos tipos de manera diferente.

Un buen ejemplo de una variable categórica es el sexo. En muchas circunstancias, puedes limitar las categorías de sexo a "Male" o "Female". (A veces podrías necesitar diferentes categorías. Por ejemplo, podrías considerar variaciones cromosómicas, animales hermafroditas, o diferentes normas culturales, pero siempre tendrás un número finito de categorías).

**Instrucciones**

- Asigna a la variable `theory` el valor `"factors"`.

In [None]:
# Assign to the variable theory what this chapter is about!


## ¿Qué es un factor y por qué lo usarías? (2)

Para crear factores en R, utilizas la función `factor()`. Lo primero que debes hacer es crear un vector que contenga todas las observaciones que pertenecen a un número limitado de categorías. Por ejemplo, `sex_vector` contiene el sexo de 5 individuos diferentes:

```r
sex_vector <- c("Male", "Female", "Female", "Male", "Male")
```

Es claro que hay dos categorías, o en términos de R, niveles del factor, en juego aquí: “Male” y “Female”.

La función `factor()` codificará el vector como un factor:

```r
factor_sex_vector <- factor(sex_vector)
```

**Instrucciones**

- Convierte el vector de caracteres sex_vector a un factor usando factor() y asigna el resultado a factor_sex_vector.
- Imprime factor_sex_vector y verifica que R muestra los niveles del factor debajo de los valores actuales.



In [None]:
# Sex vector
sex_vector <- c("Male", "Female", "Female", "Male", "Male")

# Convert sex_vector to a factor
factor_sex_vector <-

# Print out factor_sex_vector

## ¿Qué es un factor y por qué lo usarías? (3)

Existen dos tipos de variables categóricas: una **variable categórica nominal** y una **variable categórica ordinal**.

Una variable nominal es una variable categórica sin un orden implícito. Esto significa que es imposible decir que "una vale más que la otra". Por ejemplo, piensa en la variable categórica `animals_vector` con las categorías `"Elephant"`, `"Giraffe"`, `"Donkey"` y `"Horse"`. Aquí, es imposible decir que una está por encima o por debajo de otra. (Aunque algunos podrían no estar de acuerdo ;-) ).

En cambio, las variables ordinales sí tienen un orden natural. Considera, por ejemplo, la variable categórica `temperature_vector` con las categorías: `"Low"`, `"Medium"` y `"High"`. Aquí es evidente que `"Medium"` está por encima de `"Low"`, y `"High"` está por encima de `"Medium"`.

**Instrucciones**

Envía la respuesta para comprobar cómo R construye e imprime variables nominales y ordinales. No te preocupes si aún no entiendes todo el código, ya lo veremos más adelante.

In [1]:
# Animals
animals_vector <- c("Elephant", "Giraffe", "Donkey", "Horse")
factor_animals_vector <- factor(animals_vector)
factor_animals_vector

# Temperature
temperature_vector <- c("High", "Low", "High","Low", "Medium")
factor_temperature_vector <- factor(temperature_vector, order = TRUE, levels = c("Low", "Medium", "High"))
factor_temperature_vector

## Niveles de un factor

Cuando obtienes un conjunto de datos, a menudo notarás que contiene factores con niveles específicos. Sin embargo, algunas veces querrás cambiar los nombres de estos niveles por claridad u otras razones. R te permite hacer esto con la función `levels()`:

```r
levels(factor_vector) <- c(“nombre1”, “nombre2”,…)
```

Una buena ilustración es la información en bruto que te proporciona una encuesta. Una pregunta común en cualquier cuestionario es el sexo del encuestado. Aquí, por simplicidad, solo se registraron dos categorías, `"M"` y `"F"`. (Usualmente necesitas más categorías para datos de encuestas; de cualquier manera, utilizas un factor para almacenar estos datos categóricos).

```r
survey_vector <- c(“M”, “F”, “F”, “M”, “M”)
```

Registrar el sexo con las abreviaturas `"M"` y `"F"` puede ser conveniente si estás recolectando datos con papel y lápiz, pero puede generar confusión al analizar los datos. En ese momento, a menudo querrás cambiar los niveles del factor a `"Male"` y `"Female"` en lugar de `"M"` y `"F"` para mayor claridad.

**¡Atención!** El orden en el que asignas los niveles es importante. Si escribes `levels(factor_survey_vector)`, verás que devuelve `[1] "F" "M"`. Si no especificas los niveles del factor al crearlo, `R` los asignará automáticamente en orden alfabético. Para mapear correctamente `"F"` a `"Female"` y `"M"` a `"Male"`, los niveles deben establecerse como `c("Female", "Male")`, en ese orden.

**Instrucciones**

- Observa el código que construye un vector factor a partir de `survey_vector`. Deberás usar `factor_survey_vector` en la siguiente instrucción.
- Cambia los niveles del factor `factor_survey_vector` a `c("Female", "Male")`. Presta atención al orden de los elementos del vector.

In [None]:
# Code to build factor_survey_vector
survey_vector <- c("M", "F", "F", "M", "M")
factor_survey_vector <- factor(survey_vector)

# Specify the levels of factor_survey_vector
levels(factor_survey_vector) <-

factor_survey_vector

## Resumiendo un factor

Después de terminar este curso, una de tus funciones favoritas en R será `summary()`. Esta te dará una visión rápida del contenido de una variable:

```r
summary(my_var)
```

Volviendo a nuestra encuesta, te gustaría saber cuántas respuestas `"Male"` tienes en tu estudio y cuántas respuestas `"Female"`. La función `summary()` te da la respuesta a esta pregunta.

**Instrucciones  **

- Pide un `summary()` del `survey_vector` y del `factor_survey_vector`. Interpreta los resultados de ambos vectores. ¿Son ambos igualmente útiles en este caso?

In [None]:
# Build factor_survey_vector with clean levels
survey_vector <- c("M", "F", "F", "M", "M")
factor_survey_vector <- factor(survey_vector)
levels(factor_survey_vector) <- c("Female", "Male")
factor_survey_vector

# Generate summary for survey_vector


# Generate summary for factor_survey_vector

## La batalla de los sexos

Podrías preguntarte qué sucede cuando intentas comparar elementos de un factor. En `factor_survey_vector` tienes un factor con dos niveles: `"Male"` y `"Female"`. Pero, ¿cómo los valora R en relación uno con otro?

**Instrucciones  **

- Lee el código en el editor y envía la respuesta para probar si `male` es mayor que (`>`) `female`.

In [None]:
# Build factor_survey_vector with clean levels
survey_vector <- c("M", "F", "F", "M", "M")
factor_survey_vector <- factor(survey_vector)
levels(factor_survey_vector) <- c("Female", "Male")

# Male
male <- factor_survey_vector[1]

# Female
female <- factor_survey_vector[2]

# Battle of the sexes: Male 'larger' than female?
male > female

## Factores ordenados

Dado que `"Male"` y `"Female"` son niveles de factor no ordenados (o nominales), R devuelve un mensaje de advertencia, indicándote que el operador de mayor que no tiene sentido. Como ya vimos, R asigna un valor igual a los niveles para este tipo de factores.

¡Pero esto no siempre es así! A veces también trabajarás con factores que sí tienen un orden natural entre sus categorías. Si este es el caso, debemos asegurarnos de comunicar esta información a R...

Supongamos que lideras un equipo de investigación de cinco analistas de datos y quieres evaluar su desempeño. Para hacerlo, registras su velocidad, evaluando a cada analista como `"slow"`, `"medium"` o `"fast"`, y guardas los resultados en `speed_vector`.

**Instrucciones**

Como primer paso, asigna a `speed_vector` un vector con 5 entradas, una para cada analista. Cada entrada debe ser `"slow"`, `"medium"` o `"fast"`. Usa la siguiente lista:

- El analista 1 es medium,
- El analista 2 es slow,
- El analista 3 es slow,
- El analista 4 es medium,
- El analista 5 es fast.

No es necesario especificar que son factores todavía.

In [None]:
# Create speed_vector
speed_vector <- 

## Factores ordenados (2)

`speed_vector` debe convertirse en un factor ordinal ya que sus categorías tienen un orden natural. Por defecto, la función `factor()` transforma `speed_vector` en un factor no ordenado. Para crear un factor ordenado, debes agregar dos argumentos adicionales: `ordered` y `levels`.

factor(some_vector,
ordered = TRUE,
levels = c(“lev1”, “lev2”, …))

Al establecer el argumento `ordered` como `TRUE` en la función `factor()`, indicas que el factor es ordenado. Con el argumento `levels` defines los valores del factor en el orden correcto.

**Instrucciones**

A partir de `speed_vector`, crea un vector factor ordenado: `factor_speed_vector`. Establece `ordered` como `TRUE`, y configura `levels` como `c("slow", "medium", "fast")`.

In [None]:
# Create speed_vector
speed_vector <- c("medium", "slow", "slow", "medium", "fast")

# Convert speed_vector to ordered factor vector
factor_speed_vector <-

# Print factor_speed_vector
factor_speed_vector
summary(factor_speed_vector)

## Comparando factores ordenados

Teniendo un mal día en el trabajo, el 'analista de datos número dos' entra en tu oficina y comienza a quejarse de que el 'analista de datos número cinco' está retrasando todo el proyecto. Como sabes que el 'analista número dos' tiene fama de ser un sabelotodo, primero decides comprobar si su afirmación es cierta.

El hecho de que `factor_speed_vector` ahora sea un factor ordenado nos permite comparar diferentes elementos (en este caso, los analistas de datos). Puedes hacerlo fácilmente usando los operadores que ya conoces.

**Instrucciones  **

- Usa `[2]` para seleccionar del `factor_speed_vector` el valor del factor para el segundo analista de datos. Guarda el resultado como `da2`.
- Usa `[5]` para seleccionar del `factor_speed_vector` el valor del factor para el quinto analista de datos. Guarda el resultado como `da5`.
- Verifica si `da2` es mayor que `da5`; simplemente imprime el resultado. Recuerda que puedes usar el operador `>` para comprobar si un elemento es mayor que otro.

In [None]:
# Create factor_speed_vector
speed_vector <- c("medium", "slow", "slow", "medium", "fast")
factor_speed_vector <- factor(speed_vector, ordered = TRUE, levels = c("slow", "medium", "fast"))

# Factor value for second data analyst
da2 <-

# Factor value for fifth data analyst
da5 <-

# Is data analyst 2 faster than data analyst 5?