<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Curso de bases para AI - Universidad de Antioquia**


El presente curso hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

\

El curso será dictado en 16 sesiones o clases de 4 horas los días sábado en las instalaciones de la universidad. Para un total de dededicación temporal de 64 horas. El curso cuenta con los siguientes módulos:

1. Bases matemáticas y de programación. (10H)
2. Bases de Python. (19H)
3. Bases de R. (13H)
4. Procesamiento de datos. (22H)

#**Tibbles**

A lo largo de esta parte del curso, trabajamos con "tibbles" en lugar los `data-frames` tradicional de R. Los tibbles son data-frames, pero modifican algunos comportamientos antiguos para hacer la vida un poco más fácil. R es un lenguaje antiguo, y algunas cosas que fueron útiles hace 10 o 20 años ahora se interponen en su camino. Es difícil cambiar la base R sin romper el código existente, por lo que la mayoría de las innovaciones se producen en paquetes. Aquí describiremos el paquete tibble, que proporciona marcos de datos obstinados que hacen que trabajar en el tidyverse sea un poco más fácil. En la mayoría de los lugares, se usa el término tibble y el marco de datos indistintamente; cuando quiera llamar especialmente la atención sobre el marco de datos incorporado de R.


In [1]:
library('tidyverse')

── [1mAttaching packages[22m ─────────────────────────────────────── tidyverse 1.3.0 ──

[32m✔[39m [34mggplot2[39m 3.3.2     [32m✔[39m [34mpurrr  [39m 0.3.4
[32m✔[39m [34mtibble [39m 3.0.1     [32m✔[39m [34mdplyr  [39m 1.0.0
[32m✔[39m [34mtidyr  [39m 1.1.0     [32m✔[39m [34mstringr[39m 1.4.0
[32m✔[39m [34mreadr  [39m 1.3.1     [32m✔[39m [34mforcats[39m 0.5.0

── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



Todas las funciones que usará en esta sesión producen tibbles, ya que los tibbles son una de las características unificadoras del tidyverse. 

Empecemos por acceder al dataframe de `iris`, que trae por defecto `R`.

In [3]:
head(iris)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa


La mayoría de los otros paquetes R usan marcos de datos regulares, por lo que es posible que desee forzar un marco de datos a un tibble. Puedes hacerlo con `as_tibble()`.

In [None]:
head(as_tibble(iris))

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


Puede crear un nuevo tibble a partir de vectores individuales con `tibble()`. `tibble()` reciclará automáticamente las entradas de longitud 1 y le permite referirse a las variables que acaba de crear, como se muestra a continuación.

In [4]:
tibble(
  x = 1:5, 
  y = 1, 
  z = x ^ 2 + y
)

x,y,z
<int>,<dbl>,<dbl>
1,1,2
2,1,5
3,1,10
4,1,17
5,1,26


Si ya está familiarizado con `data.frame()`, tenga en cuenta que `tibble()` hace mucho menos, por ejemplo:

- No cambia el tipo de las entradas (por ejemplo, no convierte cadenas en factores!).
- No cambia los nombres de las variables
- No crea nombres de fila.

Es posible que un tibble tenga nombres de columna que no sean nombres de variable R válidos, es decir, nombres no sintácticos. Por ejemplo, pueden no comenzar con una letra, o pueden contener caracteres inusuales como un espacio. Para referirse a estas variables, debe rodearlas con comillas invertidas, `:

In [5]:
tb <- tibble(
  `:)` = "smile", 
  ` ` = "space",
  `2000` = "number"
)
tb

:),Unnamed: 1_level_0,2000
<chr>,<chr>,<chr>
smile,space,number


También necesitará las comillas invertidas cuando trabaje con estas variables en otros paquetes, como ggplot2, dplyr y tidyr.

Otra forma de crear un tibble es con `tribble()`, abreviatura de tibble transpuesto. `tribble()` está personalizado para la entrada de datos en el código: los encabezados de las columnas están definidos por fórmulas (es decir, comienzan con ~) y las entradas están separadas por comas. Esto permite diseñar pequeñas cantidades de datos en forma fácil de leer.

In [6]:
tribble(
  ~x, ~y, ~z,
  #--|--|----
  "a", 2, 3.6,
  "b", 1, 8.5
)

x,y,z
<chr>,<dbl>,<dbl>
a,2,3.6
b,1,8.5


##**Tibbles vs data.frames**

Hay dos diferencias principales en el uso de un tibble frente a un data.frame clásico: impresión y subconjunto.

###**Impresión**
Tibbles tiene un método de impresión refinado que muestra solo las primeras 10 filas y todas las columnas que caben en la pantalla. Esto hace que sea mucho más fácil trabajar con grandes datos. Además de su nombre, cada columna informa su tipo, una buena característica prestada de `str()`:

In [11]:
tibble(
  a = lubridate::now() + runif(1e3) * 86400,
  b = lubridate::today() + runif(1e3) * 30,
  c = 1:1e3,
  d = runif(1e3),
  e = sample(letters, 1e3, replace = TRUE)
)

a,b,c,d,e
<dttm>,<date>,<int>,<dbl>,<chr>
2020-07-05 03:38:12,2020-07-11,1,0.84722017,f
2020-07-05 08:42:14,2020-07-16,2,0.84085258,p
2020-07-04 17:21:11,2020-07-19,3,0.60346359,w
2020-07-04 17:00:01,2020-07-29,4,0.91265989,z
2020-07-04 18:02:03,2020-07-15,5,0.08135727,a
2020-07-04 19:44:48,2020-07-05,6,0.25170595,l
2020-07-05 02:50:50,2020-07-09,7,0.02369652,o
2020-07-04 23:54:30,2020-07-24,8,0.56527660,d
2020-07-05 03:40:03,2020-07-30,9,0.19363668,m
2020-07-05 12:34:49,2020-07-06,10,0.04598638,c


Los Tibbles están diseñados para que no abrumes accidentalmente tu consola cuando imprimes grandes marcos de datos. La forma típica de visualizar los datos es mediante la función `head()`, la cual despliega todas las columnas de datos (y por defecto 10 filas):

In [12]:
install.packages("nycflights13")
library(nycflights13)
head(flights)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00


Mediante `print()` se puede optimizar esta visualización para controlar el número de filas (n) y el ancho de la pantalla, a través de la instrucción siguiente:

In [15]:
nycflights13::flights %>% 
  print(n = 10, width = Inf)

[90m# A tibble: 336,776 x 19[39m
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   [3m[90m<int>[39m[23m [3m[90m<int>[39m[23m [3m[90m<int>[39m[23m    [3m[90m<int>[39m[23m          [3m[90m<int>[39m[23m     [3m[90m<dbl>[39m[23m    [3m[90m<int>[39m[23m          [3m[90m<int>[39m[23m
[90m 1[39m  [4m2[24m013     1     1      517            515         2      830            819
[90m 2[39m  [4m2[24m013     1     1      533            529         4      850            830
[90m 3[39m  [4m2[24m013     1     1      542            540         2      923            850
[90m 4[39m  [4m2[24m013     1     1      544            545        -[31m1[39m     [4m1[24m004           [4m1[24m022
[90m 5[39m  [4m2[24m013     1     1      554            600        -[31m6[39m      812            837
[90m 6[39m  [4m2[24m013     1     1      554            558        -[31m4[39m      740            728
[90m 7[39m  [4m2

También puede controlar el comportamiento de impresión predeterminado configurando opciones:
- `options(tibble.print_max = n, tibble.print_min = m)`: si hay más de n filas, imprima solo m filas. Use las `options(tibble.print_min = Inf)` para mostrar siempre todas las filas.

- Use las `options(tibble.width = Inf)` para imprimir siempre todas las columnas, independientemente del ancho de la pantalla.

Puede ver una lista completa de opciones mirando la ayuda del paquete con `package?tibble`.

###**Subsetting**

Hasta ahora, todas las herramientas que ha aprendido han funcionado con marcos de datos completos. Si desea extraer una sola variable, necesita algunas herramientas nuevas, `$` y `[[` : 

- `[[` puede extraer por nombre o cargo; 
- `$` solo extrae por nombre pero es un poco menos tipeado.

In [17]:
df <- tibble(
  x = runif(5),
  y = rnorm(5)
)
df

x,y
<dbl>,<dbl>
0.76114939,0.1297166
0.11254976,0.4909166
0.01727794,1.7998116
0.7590728,0.5646757
0.83441427,-0.2100751


In [18]:
df$x

In [None]:
df[["x"]]

#**Importación de datos**
En esta sesión, aprenderá a leer archivos rectangulares de texto plano en R. Aquí, solo nos centraremos en la importación de datos, pero muchos de los principios se traducirán en otras formas de datos. Terminaremos con algunos consejos sobre paquetes que son útiles para otros tipos de datos.

La mayoría de las funciones del lector están relacionadas con convertir archivos planos en marcos de datos:

- `read_csv()` lee archivos delimitados por comas, `read_csv2()` lee archivos separados por punto y coma (común en países donde, se usa como el lugar decimal), `read_tsv()` lee archivos delimitados por tabulaciones, y `read_delim()` lee archivos con cualquier delimitador.


- `read_fwf()` lee archivos de ancho fijo. Puede especificar campos por su ancho con `fwf_widths()` o su posición con `fwf_positions()`. `read_table()` lee una variación común de archivos de ancho fijo donde las columnas están separadas por espacios en blanco.

- `read_log()` lee los archivos de registro de estilo Apache. (Pero también consulte webreadr, que se basa en `read_log()` y proporciona muchas más herramientas útiles).

Todas estas funciones tienen una sintaxis similar: una vez que hayas dominado una, puedes usar las otras con facilidad. Para el resto de este capítulo nos centraremos en `read_csv()`. Los archivos csv no solo son una de las formas más comunes de almacenamiento de datos, sino que una vez que comprenda `read_csv()`, puede aplicar fácilmente su conocimiento a todas las demás funciones en readr.

El primer argumento para `read_csv()` es el más importante: es la ruta al archivo a leer.

In [19]:
heights <- read_csv("https://raw.githubusercontent.com/hadley/r4ds/master/data/heights.csv")

Parsed with column specification:
cols(
  earn = [32mcol_double()[39m,
  height = [32mcol_double()[39m,
  sex = [31mcol_character()[39m,
  ed = [32mcol_double()[39m,
  age = [32mcol_double()[39m,
  race = [31mcol_character()[39m
)



Cuando ejecuta `read_csv()` imprime una especificación de columna que proporciona el nombre y el tipo de cada columna. Esa es una parte importante de la función `read`, a la que volveremos para analizar un archivo.

También puede proporcionar un archivo csv desd eun directorio si se trabaja desde un equipo de escritorio dándole la ruta al directorio. Esto es útil para experimentar con el lector y para crear ejemplos reproducibles para compartir con otros:

In [20]:
read_csv("a,b,c
1,2,3
4,5,6")

a,b,c
<dbl>,<dbl>,<dbl>
1,2,3
4,5,6


En ambos casos, `read_csv()` usa la primera línea de datos para los nombres de columna, lo cual es una convención muy común. Hay dos casos en los que es posible que desee modificar este comportamiento:

1. A veces hay algunas líneas de metadatos en la parte superior del archivo. Puede usar `skip = n` para omitir las primeras `n` líneas; o use `comment = "#"` para descartar todas las líneas que comienzan con (por ejemplo) `#`.

In [21]:
read_csv("The first line of metadata
  The second line of metadata
  x,y,z
  1,2,3", skip = 2)

x,y,z
<dbl>,<dbl>,<dbl>
1,2,3


In [22]:
read_csv("# A comment I want to skip
  x,y,z
  1,2,3", comment = "#")

x,y,z
<dbl>,<dbl>,<dbl>
1,2,3


2. Es posible que los datos no tengan nombres de columna. Puede usar `col_names = FALSE` para indicar a `read_csv()` que no trate la primera fila como encabezados y, en su lugar, los rotule secuencialmente de $X1$ a $XN$:

In [23]:
read_csv("1,2,3\n4,5,6", col_names = FALSE)

X1,X2,X3
<dbl>,<dbl>,<dbl>
1,2,3
4,5,6


(`"\n"` es un atajo conveniente para agregar una nueva línea. Aprenderá más sobre ella y otros tipos de escape de cadena en los conceptos básicos de la cadena).

Alternativamente, puede pasar `col_names` un vector de caracteres que se utilizará como los nombres de columna:

In [24]:
read_csv("1,2,3\n4,5,6", col_names = c("x", "y", "z"))

x,y,z
<dbl>,<dbl>,<dbl>
1,2,3
4,5,6


Otra opción que comúnmente necesita ajustes es `na`: esto especifica el valor (o valores) que se utilizan para representar los valores faltantes en su archivo:

In [25]:
read_csv("a,b,c\n1,2,.", na = ".")

a,b,c
<dbl>,<dbl>,<lgl>
1,2,


Esto es todo lo que necesita saber para leer ~ 75% de los archivos CSV que encontrará en la práctica. También puede adaptar fácilmente lo que aprendió a leer archivos separados por tabulaciones con `read_tsv()` y archivos de ancho fijo con `read_fwf()`. Para leer en archivos más desafiantes, necesitará aprender más sobre cómo el lector analiza cada columna, convirtiéndolas en vectores R.

##**Parseo de vectores**

A este punto debemos hablar sobre las funciones de `parse_*()`. Estas funciones toman un vector de caracteres y devuelven un vector más especializado como un lógico, entero o fecha:

In [26]:
str(parse_logical(c("TRUE", "FALSE", "NA")))

 logi [1:3] TRUE FALSE NA


In [27]:
str(parse_integer(c("1", "2", "3")))

 int [1:3] 1 2 3


In [28]:
str(parse_date(c("2010-01-01", "1979-10-14")))

 Date[1:2], format: "2010-01-01" "1979-10-14"


Estas funciones son útiles por derecho propio, pero también son un componente importante para el lector. 

Al igual que todas las funciones en el tidyverse, las funciones `parse_*()` son uniformes: el primer argumento es un vector de caracteres para analizar, y el argumento na especifica qué cadenas deben tratarse como faltantes:

In [29]:
parse_integer(c("1", "231", ".", "456"), na = ".")

Si el parseo falla, recibirá una advertencia:

In [30]:
x <- parse_integer(c("123", "345", "abc", "123.45"))

“2 parsing failures.
row col               expected actual
  3  -- an integer                abc
  4  -- no trailing characters    .45
”


Si hay muchas fallas de análisis, deberá usar `problems()` para obtener el conjunto completo. Esto devuelve un tibble, que luego puede manipular con dplyr.

In [None]:
problems(x)

row,col,expected,actual
<int>,<int>,<chr>,<chr>
3,,an integer,abc
4,,no trailing characters,.45


El uso de analizadores es principalmente una cuestión de entender qué hay disponible y cómo manejan los diferentes tipos de información. Hay ocho analizadores particularmente importantes:

1. `parse_logical()` y `parse_integer()` analizar lógico y enteros respectivamente. Básicamente, no hay nada que pueda salir mal con estos analizadores, por lo que no los describiré más aquí.

2. `parse_double()`es un analizador numérico estricto y `parse_number()` es un analizador numérico flexible. Estos son más complicados de lo que cabría esperar porque diferentes partes del mundo escriben números de diferentes maneras.

3. `parse_character()` parece tan simple que no debería ser necesario. Pero una complicación lo hace bastante importante: las codificaciones de caracteres.

4. `parse_factor()` crear factores, la estructura de datos que R usa para representar variables categóricas con valores fijos y conocidos.

5. `parse_datetime()`, `parse_date()`, y `parse_time()` nos permite analizar varias especificaciones de fecha y hora. Estos son los más complicados porque hay muchas formas diferentes de escribir fechas.

###**Números**
Parece que debería ser sencillo analizar un número, pero existen tres problemas que hacen que sea complicado:

1. La gente escribe números de manera diferente en diferentes partes del mundo. Por ejemplo, algunos países usan punto (.) entre las partes enteras y fraccionarias de un número real, mientras que otras usan la coma (,).

2. Los números a menudo están rodeados por otros caracteres que proporcionan algún contexto, como "\$ 1000" o "10\%".

3. Los números a menudo contienen caracteres de "agrupación" para que sean más fáciles de leer, como "1,000,000", y estos caracteres de agrupación varían en todo el mundo.

Para abordar el primer problema, el lector tiene la noción de una "configuración regional", un objeto que especifica las opciones de análisis que difieren de un lugar a otro. Al analizar números, la opción más importante es el carácter que usa para la marca decimal. Puede anular el valor predeterminado de (.) creando una nueva configuración regional y estableciendo el argumento decimal_mark:

In [31]:
parse_double("1.23")

In [32]:
parse_double("1,23", locale = locale(decimal_mark = ","))

La configuración regional predeterminada del lector está centrada en los EE. UU., porque generalmente R está centrada en los EE. UU. (es decir, la documentación de la base R está escrita en inglés americano). Un enfoque alternativo sería tratar de adivinar los valores predeterminados de su sistema operativo. Esto es difícil de hacer bien y, lo que es más importante, hace que su código sea frágil: incluso si funciona en su computadora, puede fallar cuando lo envía por correo electrónico a un colega en otro país.

`parse_number()` aborda el segundo problema: ignora los caracteres no numéricos antes y después del número. Esto es particularmente útil para monedas y porcentajes, pero también funciona para extraer números incrustados en el texto.

In [33]:
parse_number("$100")

In [34]:
parse_number("20%")

In [35]:
parse_number("It cost $123.45")

El problema final se aborda mediante la combinación de `parse_number()` y la locación como `parse_number()` ignorará el “grouping mark”:

In [36]:
parse_number("$123,456,789")

In [37]:
parse_number("123.456.789", locale = locale(grouping_mark = "."))

In [38]:
parse_number("123'456'789", locale = locale(grouping_mark = "'"))

###**Strings**

Parece que `parse_character()` debería ser realmente simple: podría devolver su entrada. Lamentablemente, la vida no es tan simple, ya que hay varias formas de representar la misma cadena. Para comprender lo que está sucediendo, necesitamos profundizar en los detalles de cómo las computadoras representan cadenas. En R, podemos llegar a la representación subyacente de una cadena usando `charToRaw()`:

In [39]:
charToRaw("Hadley")

[1] 48 61 64 6c 65 79

Cada número hexadecimal representa un byte de información: 48 es `H`, 61 es `a`, y así sucesivamente. La asignación del número hexadecimal al carácter se denomina codificación y, en este caso, la codificación se denomina ASCII. ASCII hace un gran trabajo al representar caracteres en inglés, porque es el Código Estándar Americano para el Intercambio de Información.

Las cosas se vuelven más complicadas para otros idiomas además del inglés. En los primeros días de la informática, había muchos estándares competitivos para codificar caracteres que no estaban en inglés, y para interpretar correctamente una cadena necesitabas conocer los valores y la codificación. Por ejemplo, dos codificaciones comunes son Latin1 (también conocido como ISO-8859-1, usado para idiomas de Europa occidental) y Latin2 (también conocido como ISO-8859-2, usado para idiomas de Europa del Este). En Latin1, el byte `b1` es "±", pero en Latin2, es "ą". Afortunadamente, hoy hay un estándar que es compatible en casi todas partes: UTF-8. UTF-8 puede codificar casi todos los caracteres utilizados por los humanos hoy en día, así como muchos símbolos adicionales (¡como emoji!).

`readr` usa UTF-8 en todas partes: asume que sus datos están codificados en UTF-8 cuando los lee, y siempre los usa cuando escribe. Este es un buen valor predeterminado, pero fallará para los datos producidos por sistemas más antiguos que no entienden UTF-8. Si esto le sucede, sus cadenas se verán raras cuando las imprima. A veces solo uno o dos caracteres pueden estar en mal estado; otras veces obtendrás galimatías completas. Por ejemplo:

In [40]:
x1 <- "El Ni\xf1o was particularly bad this year"
x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd"

x1
x2

In [41]:
parse_character(x1, locale = locale(encoding = "Latin1"))

In [42]:
parse_character(x2, locale = locale(encoding = "Shift-JIS"))

¿Cómo encuentras la codificación correcta? Si tiene suerte, se incluirá en algún lugar de la documentación de datos. Desafortunadamente, ese rara vez es el caso, por lo que readr proporciona `guess_encoding()` para ayudarlo a resolverlo. No es infalible y funciona mejor cuando tienes mucho texto (a diferencia de aquí), pero es un lugar razonable para comenzar. Espere probar algunas codificaciones diferentes antes de encontrar la correcta.

In [43]:
guess_encoding(charToRaw(x1))

encoding,confidence
<chr>,<dbl>
ISO-8859-1,0.46
ISO-8859-9,0.23


In [44]:
guess_encoding(charToRaw(x2))

encoding,confidence
<chr>,<dbl>
KOI8-R,0.42


El primer argumento para `guess_encoding()` puede ser una ruta a un archivo o, como en este caso, un vector sin formato (útil si las cadenas ya están en R).

Las codificaciones son un tema rico y complejo, y solo he visto superficialmente el tema aquí. Si desea obtener más información, le recomiendo leer la explicación detallada en [kunstube](http://kunststube.net/encoding/).

## **Factors**

En el lenguaje `R` se utilizan los *factors* para representar las variables que son categóricas, sobre las cuales sabemos que tendrán un conjunto finito y discreto de posible valores. Por ejemplo, un campo de una base de datos como `estado_marital` solo puede contener valores de *soltero/a, casado/a, separado/a, divorciado/a* o *viudo/a*. Para crear una variable que contenga una lista de valores y su categoría usamos la función `factor()`. Veamos un pequeño ejemplo al respecto:





In [45]:
x <- factor(c("soltero","casado","casado","soltero"))
x
cat("Longitud de x:", length(x),"\n")
cat("Clase de x:",class(x),"\n")
cat("Niveles de x:", levels(x))

Longitud de x: 4 
Clase de x: factor 
Niveles de x: casado soltero

Como podemos observar, tenemos el factor `x` que tiene 4 elementos, en donde hemos verificado los niveles del este factor mediante la función `levels()`. 

Podemos definir más `levels` incluso si no van a ser usados:

In [46]:
x <- factor(c("soltero","casado","casado","soltero"), levels = c("soltero","casado","divorciado"))
x

Los factores se encuentran relacionados con los vectores; de hecho, los factores son guardados como vectores enteros. Veamos esto de su estructura:

In [47]:
x <- factor(c("soltero","casado","casado","soltero"))
str(x)

 Factor w/ 2 levels "casado","soltero": 2 1 1 2


Vemos entonces que los niveles están guardados como caracteres y los elementos individuales como índices. 

Por otra parte, las columnas no numéricas de un dataframe de `R` son almacenadas como factores. Por defecto, la función `data.frame()` convierte la lista de caractares en una columna en un factores; es por eso que si queremos evitar este comportamiento, debemos pasarle el argumento `stringAsFactor = FALSE`. Veamos un pequeño ejemplo:

In [48]:
x <- data.frame("SN" = 1:5, "Edad" = c(18,15,33,44,35), 
"Nombre" = c("John","Dora","Clara","Lucia","Andres"), 
"Sexo" = c("M","F","F","F","M"))
x

SN,Edad,Nombre,Sexo
<int>,<dbl>,<fct>,<fct>
1,18,John,M
2,15,Dora,F
3,33,Clara,F
4,44,Lucia,F
5,35,Andres,M


Veamos la estructura de estre dataframe

In [49]:
str(x)

'data.frame':	5 obs. of  4 variables:
 $ SN    : int  1 2 3 4 5
 $ Edad  : num  18 15 33 44 35
 $ Nombre: Factor w/ 5 levels "Andres","Clara",..: 4 3 2 5 1
 $ Sexo  : Factor w/ 2 levels "F","M": 2 1 1 1 2


Vemos entonces como a cada columna con una variable categórica le asigna un tipo `Factor`. Por el contrario si le pasamos el argumento `stringAsFactor = FALSE`, evitaremos la creación de factores:

In [52]:
x <- data.frame("SN" = 1:5, "Edad" = c(18,15,33,44,35), 
"Nombre" = c("John","Dora","Clara","Lucia","Andres"), 
"Sexo" = c("M","F","F","F","M"), stringAsFactor = F)
str(x)

'data.frame':	5 obs. of  5 variables:
 $ SN            : int  1 2 3 4 5
 $ Edad          : num  18 15 33 44 35
 $ Nombre        : Factor w/ 5 levels "Andres","Clara",..: 4 3 2 5 1
 $ Sexo          : Factor w/ 2 levels "F","M": 2 1 1 1 2
 $ stringAsFactor: logi  FALSE FALSE FALSE FALSE FALSE


Otra función parecida es la función `parse_factor()`, a la cual le podemos pasar un vector de `levels` (o niveles-etiquetas) para generar una advertencia cada vez que se le presenta un valor inesperado. Veamos lo anterior mediante un ejemplo:

In [53]:
capitales <- c('Berlin', 'Bogota', 'Santiago', 'Quito')

In [54]:
parse_factor(c("Berlin","Bogota","Manizales","Quito"), levels=capitales)

“1 parsing failure.
row col           expected    actual
  3  -- value in level set Manizales
”


Si pasamos un valor `NULL` al argumento `levels` se generarán categorias de acuerdo al vector x. Veamos un ejemplo:

In [55]:
xL <- parse_factor(c("Perro","Vaca","Vaca","Pato","Caballo","Perro"), levels = NULL)
xL

No obstante, si se tienen varias entradas problemáticas, resulta más óptimo dejarlas como vectores de caracteres y luego usar herramientas para realizar operaciones con `strings` y `factors`, como veremos a continuación.

**Ejercicio:**

Compruebe si los siguientes caracteres se encuentra dentro de la variable por defecto `letters`:

- `a`
- `c`
- `k`
- `*`
- `#`
-`l`

Sugerencia: Cree un vector atómico con los anteriores caracteres.

In [None]:
#@title **Solución**
parse_factor(c("a","c","k","*","#","l"),letters)

“2 parsing failures.
row col           expected actual
  4  -- value in level set      *
  5  -- value in level set      #
”


##**Dates, Dates-time y horas**:

Se puede elegrir entre tres *parsers* dependiendo de lo que se busque:

- Date, que corresponde al númeo de diás desde la fecha $1970/01/01$.
- Date-time, que corresponde al número de segundos desde la media noche de la fecha $1970/01/01$.
- Tiempo, que corresponde al número de segundos desde la media noche de la fecha $1970/01/01$. 

Veamos una aplicación de cada uno de ellos.

**Nota:** `R` no cuenta con mucha variedad de funciones/clases predefinidas para los datos de temporales, por tal motivo usaremos el paquete `hms`.


- `parse_time()`, que espera un `date-time` con el estándar ISO8601, el cual está organizado del número más grande al más pequeño: año>mes>dia>hora>minuto>segundo.

In [56]:
 parse_datetime("2010-10-01T2010")

[1] "2010-10-01 20:10:00 UTC"

In [57]:
parse_datetime("20101010")

[1] "2010-10-10 UTC"

- `parse_date()` que espera el año, seguido del mes y el día, separados por `-` o `\`.

In [58]:
parse_date("2010-10-01")

- `parse_time()`, que espera se pase las horas, minutos y segundos, separados por `:`; se le puede especificar, opcionalmente, `am/pm`.

In [59]:
library(hms)

In [60]:
parse_time("01:10 am")

01:10:00

In [61]:
parse_time("20:10:01")

20:10:01

Si alguna fecha no satisface los estándares puede usar alguno de los siguientes identificativos:

Tipo | indentificador | Significado
--|--|--
Año |`%Y`| 4 dígitos
 |`%y`| 2 dígitos
Mes | `%m` | 2 dígitos
|`%b`| Nombre abreviado
|`%B`| Nombre completo
Día |`%d`| 2 dígitos
|%e| espacio inicial opcional
Hora |`%H`| 0-23 horas
 |`%I`| 0-12 (debe usarse con `%p`)
|`%p`| indicador AM/PM
|`%M`| minutos
|`%S`| Segundos (Entero)
|`%OS`| Segundos (Real)
|`%z`| Zona horaria
No-dígitos |`%.`| omite un caracter que no sea un dígito 
|`%*`| omite cualquier número de no dígitos

Veamos algunos ejemplos.


In [62]:
parse_date("01/02/15", "%m/%d/%y")

In [63]:
parse_date("01/02/15", "%d/%m/%y")

In [64]:
parse_date("01/02/15", "%y/%m/%d")

In [65]:
parse_date("01/jan/15", "%y/%b/%d")

Si está usando `%b` o `%B` con nombres de meses que no estén en inglés, debe hacer `locale=locale()`. Para ver la lista de lenguajes predefinidos, que hacen parte del argumento de `locale()`, ejecute `date_names_langs()`. 

In [66]:
date_names_langs()

In [67]:
parse_date("1 Enero 2015", "%d %B %Y", locale = locale("es"))


**Ejercicio:** para la siguiente lista de datos realice la conversión a una fecha, aplicando los identificativos adecuados de la tabla de esta sesión:

- 3 junio 2020.
- 20/12/85.
- 20 mar 2020.

In [None]:
#@title **Solución**
parse_date("3 junio 2020", "%d %B %Y", locale = locale("es"))
parse_date("20/12/85", "%d/%m/%y")
parse_date("20 mar 2020", "%d %b %Y")

# Analizando un archivo

EL siguiente paso en la lectura de datos es saber cómo el lector analiza el archivo a leer. Hay dos cosas nuevas que aprenderá en esta sección:

1. Cómo el lector adivina automáticamente el tipo de cada columna.
2. Cómo anular la especificación predeterminada.

Las funciones de lectura `read` generalmente cargan las primeras 1000 y desde allí hacen pruebas para determinar cual es el tipo de cada columna. Podemos emular su comportamiento con las funciones:

In [None]:
guess_parser("2010-10-01")
guess_parser("15:01")
guess_parser(c("TRUE", "FALSE"))
guess_parser(c("1", "5", "9"))
guess_parser(c("12,352,561"))
str(parse_guess("2010-10-10"))

 Date[1:1], format: "2010-10-10"


Básicamente al leer una columna se establece un conjunto de reglas que determina si es una fecha, si es un número etc, cualquier columnas cuya prueba no entre dentro de esta categoria será asignada como un str y ya corresponderá al usuario hacer la trasnformación según las características de la columna. 

## Inferencia limitada

Esta forma de inferir el tipo de columna tiene varios problemas, pero lo podemos resumir en que las primeras 1000 líneas pueden contener información engañosa, valores faltantes, enteros en columnas de double y así. Por lo tanto tenemos un csv que nos ayudará a aprender como tratar con estos problemas.

Sí leemos sólo las primeras 1000 columnas veremos que no hay ningún problema, pero una vez tengamos que cargar todas las filas los problemas aparecen:

In [68]:
challenge <- read_csv(readr_example("challenge.csv"),n_max=1000)
head(challenge)

Parsed with column specification:
cols(
  x = [32mcol_double()[39m,
  y = [33mcol_logical()[39m
)



x,y
<dbl>,<lgl>
404,
4172,
3004,
787,
37,
2332,


In [None]:
challenge <- read_csv(readr_example("challenge.csv"))

Parsed with column specification:
cols(
  x = [32mcol_double()[39m,
  y = [33mcol_logical()[39m
)

“1000 parsing failures.
 row col           expected     actual                                                  file
1001   y 1/0/T/F/TRUE/FALSE 2015-01-16 '/usr/lib/R/site-library/readr/extdata/challenge.csv'
1002   y 1/0/T/F/TRUE/FALSE 2018-05-18 '/usr/lib/R/site-library/readr/extdata/challenge.csv'
1003   y 1/0/T/F/TRUE/FALSE 2015-09-05 '/usr/lib/R/site-library/readr/extdata/challenge.csv'
1004   y 1/0/T/F/TRUE/FALSE 2012-11-28 '/usr/lib/R/site-library/readr/extdata/challenge.csv'
1005   y 1/0/T/F/TRUE/FALSE 2020-01-13 '/usr/lib/R/site-library/readr/extdata/challenge.csv'
.... ... .................. .......... .....................................................
See problems(...) for more details.
”


In [69]:
problems(challenge)

row,col,expected,actual
<int>,<int>,<chr>,<chr>


## Estrategias para una correcta lectura:

```r
read_csv ( file , col_names  =  TRUE , col_types  =  NULL ,
   locale  =  default_locale (), na  =  c ( "" , "NA" ), quoted_na  =  TRUE ,
   quote  =  "\" " , comment  =  " " , trim_ws  =  TRUE , skip  =  0 ,
   n_max  =  Inf , guess_max  =  min (1000 , n_max ),
   progress  =  show_progress (), skip_empty_rows  =  TRUE )
```

La función `read_csv` nos permite hacer varias cosas según lo que necesitemos. 

### Asignar un tipo por columna

En el caso que notemos que hay una mal intepretación en los tipos de datos y necesitamos asignar el tipo nosotros mismos luego de una revisión detallada, para eso tenemos:

In [71]:
challenge <- read_csv(
  readr_example("challenge.csv"), 
  col_types = cols(
    x = col_double(),
    y = col_date()
  )
)

challenge

x,y
<dbl>,<date>
404,
4172,
3004,
787,
37,
2332,
2489,
1449,
3665,
3863,


### Asumir str por default

En el caso de Python/Pandas es común la estrategia de asumir que todas las columnas son tipo objeto (string) y dejar al usuario revisar cuales serían las transformaciones adecuadas a manera de no dañar la lectura el conjunto de datos. Esta estrategia se puede usar junto con la función `type_converse` en el caso de no haber problemas luego de una revisión.

In [72]:
challenge2 <- read_csv(readr_example("challenge.csv"), 
  col_types = cols(.default = col_character())
)

head(challenge2,10)

x,y
<chr>,<chr>
404,
4172,
3004,
787,
37,
2332,
2489,
1449,
3665,
3863,


In [73]:
df <- tribble(
  ~x,  ~y,
  "1", "1.21",
  "2", "2.32",
  "3", "4.56"
)
df

type_convert(df)

x,y
<chr>,<chr>
1,1.21
2,2.32
3,4.56


Parsed with column specification:
cols(
  x = [32mcol_double()[39m,
  y = [32mcol_double()[39m
)



x,y
<dbl>,<dbl>
1,1.21
2,2.32
3,4.56


### Aumentar el conjunto de filas para inferir

Por supuesto también podríamos tener mala suerte y necesitar más de 1000 filas para inferir bien el tipo de dato correcto pero puede ser una estrategia un tanto particular. 

In [74]:
challenge2 <- read_csv(readr_example("challenge.csv"), guess_max = 1001)

Parsed with column specification:
cols(
  x = [32mcol_double()[39m,
  y = [34mcol_date(format = "")[39m
)



### Casos combinando tipos 

Un caso particular es el de los faltantes o NA, puede darse que el conjunto de datos no tenga exactamente un NA, sino una palabra o algo que dañe la transformación para ellos podemos filtrar, cambiar y luego transformar los datos según lo que necesitemos:

In [75]:
df <- tribble(
  ~x,  ~y,
  1, "----",
  2, "2015-01-16",
  3, "2016-01-17"
)
df

x,y
<dbl>,<chr>
1,----
2,2015-01-16
3,2016-01-17


In [77]:
df %>% 
  filter(!str_detect(y, '2015|2016'))

x,y
<dbl>,<chr>
1,----


In [78]:
df <- df %>% 
  mutate(y = replace(y, !str_detect(y, '2015|2016'), NA)) 
df

x,y
<dbl>,<chr>
1,
2,2015-01-16
3,2016-01-17


In [79]:
df <- df %>%
        mutate(y = as.Date(y, "%Y-%m-%d"))
df

x,y
<dbl>,<date>
1,
2,2015-01-16
3,2016-01-17


## Escribir un archivo 

La función `write_csv()` codifica cadenas en UTF-8. Guardar fechas y horas en formato ISO8601 para que puedan analizarse fácilmente en otro lugar.

Si desea exportar un archivo csv a Excel, se puede usar `write_excel_csv()`,esto escribe un carácter especial (una "marca de orden de bytes") al comienzo del archivo que le indica a Excel que está utilizando la codificación UTF-8.

Los argumentos más importantes son el marco de datos para guardar y el path(la ubicación para guardarlo). También puede especificar cómo se escriben los valores faltantes nay si desea hacerlo appenden un archivo existente.

```r
write_csv(challenge, "challenge.csv")
```

Sin embargo si deseamos que el csv conserve el tipo de datos podemos usar la funciones:

```r
write_rds(challenge, "challenge.rds")
read_rds("challenge.rds")
```

También hay opciones de esritura y lectura más rápidos:
```r
library(feather)
write_feather(challenge, "challenge.feather")
read_feather("challenge.feather")
```


In [None]:
write_rds(challenge, "challenge.rds")
read_rds("challenge.rds")

x,y
<dbl>,<date>
404,
4172,
3004,
787,
37,
2332,
2489,
1449,
3665,
3863,


#Ejercicio de lectura

Usemos nuestro datos de Covid19 los cuales se leen por default como `chr` y hagamos un proceso de asignación correcta de tipos para las fechas. En este caso procese caulquier cosa por fuera del formato fecha como **NA**, organice las fechas en un tibble aparte, busque las opciones usando un `for` y usando `mutate_at`. 

In [None]:
install.packages("RSocrata")
library(RSocrata)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
dominio <- "www.datos.gov.co"
#Este token (o llave, clave) será removido en los siguientes días, sin embargo
#usted puede obtener uno fácilmente o de plano no usarlo y poner None
#para más información https://dev.socrata.com/docs/app-tokens.html
token <- "99wufepiZdd52go4LdzeENbG4"
dataset_id <- "gt2j-8ykr"
source_data <- paste("http://",dominio,"/resource/",dataset_id,".csv",sep="")
data <- read.socrata(source_data, app_token = token)
data_dev <- as_tibble(data)
data_dev <- select(data_dev,-('fecha_reporte_web':'codigo_pais'))

In [None]:
cols <- c('ID', 'FECHA_NOTIFICADO','DIVIPOLA',
        'CIUDAD', 'DEPARTAMENTO', 'LUGAR_PROCESO', 'EDAD',
        'SEXO', 'TIPO_FUENTE', 'ESTADO', 'PROCEDENCIA', 'FECHA_SINTOMAS',
        'FECHA_DECESO', 'FECHA_DIAGNOSTICO', 'FECHA_RECUPERADO')
cols_rename = colnames(data_dev)
names(cols_rename) = cols
data_dev <- data_dev %>% rename(all_of(cols_rename))

In [None]:
head(data_dev)

ID,FECHA_NOTIFICADO,DIVIPOLA,CIUDAD,DEPARTAMENTO,LUGAR_PROCESO,EDAD,SEXO,TIPO_FUENTE,ESTADO,PROCEDENCIA,FECHA_SINTOMAS,FECHA_DECESO,FECHA_DIAGNOSTICO,FECHA_RECUPERADO
<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,2020-03-02T00:00:00.000,11001,Bogotá D.C.,Bogotá D.C.,Recuperado,19,F,Importado,Leve,ITALIA,2020-02-27T00:00:00.000,,2020-03-06T00:00:00.000,2020-03-13T00:00:00.000
2,2020-03-06T00:00:00.000,76111,Guadalajara de Buga,Valle del Cauca,Recuperado,34,M,Importado,Leve,ESPAÑA,2020-03-04T00:00:00.000,,2020-03-09T00:00:00.000,2020-03-19T00:00:00.000
3,2020-03-07T00:00:00.000,5001,Medellín,Antioquia,Recuperado,50,F,Importado,Leve,ESPAÑA,2020-02-29T00:00:00.000,,2020-03-09T00:00:00.000,2020-03-15T00:00:00.000
4,2020-03-09T00:00:00.000,5001,Medellín,Antioquia,Recuperado,55,M,Relacionado,Leve,,2020-03-06T00:00:00.000,,2020-03-11T00:00:00.000,2020-03-26T00:00:00.000
5,2020-03-09T00:00:00.000,5001,Medellín,Antioquia,Recuperado,25,M,Relacionado,Leve,,2020-03-08T00:00:00.000,,2020-03-11T00:00:00.000,2020-03-23T00:00:00.000
6,2020-03-10T00:00:00.000,5360,Itagüí,Antioquia,Recuperado,27,F,Relacionado,Leve,,2020-03-06T00:00:00.000,,2020-03-11T00:00:00.000,2020-03-26T00:00:00.000


In [None]:
#@title Vea la solución **aquí**
if (F){
  datecols <- data_dev %>% 
              select(starts_with("FECHA")) 
  #Con esta instrucción se podría identificar a mano las col problema
  #try(info <- type_convert(datecols))
  #Opción con for
  for (col in colnames(datecols)){
    datecols <- datecols %>% 
      mutate(
        !!as.character(col) := replace(!!as.symbol(col), !str_detect(!!as.symbol(col), '2020'), NA)) %>%
      mutate(
        !!as.character(col) := as.Date(!!as.symbol(col), "%Y-%m-%d"))
  }
  #Opción con mutate_at
  datecols %>% 
    mutate_at(colnames(datecols), ~case_when(grepl("2020", .) ~ . )) %>%
    mutate_at(colnames(datecols), as.Date)
}