<img src="logo.png">

# Lectura y escritura de archivos csv.

Un archivo csv (valores separados por coma) es un archivo de texto que almacena los datos en forma de columnas, separadas por coma y las filas se distinguen por saltos de línea. Son más rápidos de procesar y pueden ser leídos por una gran cantidad de programas.


Es importante conocer en R cómo dirigirnos a un lugar de trabajo. Para ello, se usa la instrucción

``
setwd("directorio_donde_trabajaremos")
``

**Es importante notar el tipo de diagonal con el que se indica la ruta. Este depende del sistema operativo que utilices**.

Con la instrucción ``getwd()`` verificamos que efectivamente estemos en el directorio deseado, y con ``dir()`` podemos ver qué archivos se encuentran en ese directorio.

En R, para leer un archivo csv se hace con la siguiente instrucción:

``
read.csv("ruta_del_archivo/nombre_del_archivo.csv")
``

o bien ``read.csv("nombre_del_archivo.csv")`` si ya te encuetras en el directorio donde está tu archivo.

Esta tiene varios parámetros importantes:

``head=TRUE`` indica que las columnas tienen nombre.

``sep=","`` indica que los separadores entre columnas son comas.

``dec="."`` indica que el separador de decimales es un punto.

``row.names=1`` indica que la columna 1 del csv contiene los nombres de las filas.




Una vez leído el csv, algunos comandos importantes para hacer tener una primera impresión de lo que tenemos son los siguientes:

``head(nombre)`` nos da los primeros renglones del csv

``dim(nombre)``nos dice las dimensiones del csv. El primer resultado es el número de filas y el segundo es el número de columnas.

``str(nombre)`` nos dice el tipo de datos que es cada columna.

``names(nombre)`` nos da el nombre de las columnas del csv.


Para guardar un csv en nuestra máquina hacemos lo siguiente:

``write.csv(nombre_en_R,"ruta_donde_queremos_guardar/nombre_que_queremos.csv")``

# Manejo de filas y columnas

Una vez que tenemos un csv como objeto de R, podemos accesar a sus elementos de diversas maneras.

``nombre[,y]``: si ``y`` es un *vector*, entonces nos devuelve la subtabla de ``nombre`` con las columnas que indica ``y``, junto con todas las filas.

Por ejemplo, si ``y=(1,3)`` entonces ``tabla[,y]`` solo contiene las columnas 1 y 3. Y si ``y=("col1","col3")`` entonces ``tabla[,y]`` solo contiene las columnas **cuyos nombres exactos** son ``col1`` y ``col3``.

``nombre[x,]`` funciona igual que el anterior, pero ``x`` es el vector de filas que queremos y nos devuelve todas las columnas.

De esta manera, ``tabla[x,y]`` nos devuelve las filas ``x`` junto con sus columnas ``y``.

Otra forma importante de mandar a llamar las columnas de una tabla, una por una, es con el símbolo ``$``. Por ejemplo, ``tabla$col1`` es la columna de nombre ``col1`` dentro de ``tabla``. Aquí es importante conocer la diferencia entre ``tabla$col1`` y ``tabla[,1]``. Aunque ambas tienen exactamente la misma información, la primera es un vector y la segunda es una tabla de una sola columna. 

Finalmente, en R la notación ``c(num1:num2)`` significa el listado de números num1, num1+1, num1+2,...,num2. De esta manera, ``x=c(num1:num2)`` indexaría la tabla con los elementos desde num1 hasta num2.

# Filtros

Ya que sabemos extraer subtablas, aprenderemos a filtrar información. Para ello, es conveniente recordar los operadores lógicos de R:

``&`` conjunción: **y**. Es verdadero cuando ambas proposiciones lo son.

``|`` disynción: **|**. Es verdadero cuando alguna proposición lo es.

``!`` negación. Niega el valor de verdad.

**Ejemplo**

``tabla[,col1>num1]`` es la tabla, con todas sus filas, pero donde los valores de la columna de nombre `col1` son mayores al número ``num1``. El símbolo ``>`` puede cambiarse por ``>=,<,<=,==,!=`` para buscar *mayor o igual, menor, menor o igual, exactamente igual* o *diferente*, respectivamente. Esta sintaxis también se puede usar en las filas.

``tabla[,col1>num1 & col2<=num2]`` es la tabla, con todas sus filas, pero donde los valores de la columna de nombre ``col1`` son mayores que ``num1`` y las de ``col2`` son menores o iguales que ``num2``.

Incluso para variables nominales podemos utilizar el comando ``%in%``. Por ejemplo, ``tabla[,col1 %in% x]`` será la tabla con todas sus filas pero únicamente donde los valores de la columna ``col1`` sean elementos del vector ``x``.


# Categorización

Podemos dividir información numérica en categorías para poder formar grupos en la información.

Para ello, usamos la función ``cut`` cuya sintaxis es

``cut(columna,breaks,labels)`` donde

``columa`` es la columna con la que vamos a categorizar. Usualmente en formato `$`.

``breaks`` número de intervalos en que quieres dividir la información. Si se trata de intevalos en específico, entonces es un vector con los valores que delimitan los intervalos.

``labels`` vector de etiquetas con que se categorizará la información.

**Ejemplo**

Supongamos que queremos dividir en tres intervalos dependiendo de los valores de la columna ``col1`` de ``tabla``. Digamos que la categorización es *alto, medio y bajo*. Entonces

``tabla$nva_col <- cut(tabla$col1,breaks=3,labels=c("alto","medio","bajo"))`` hace lo requerido.

# Valores faltantes

El manejo de valores faltantes es importante cuando se realiza preprocesamiento de tablas. A veces, conviene eliminar registros que tienen poca información. 

En este sentido, la sintaxis ``tabla[-x,]`` es la tabla original sin las filas indicadas por el vector ``x``.

Una manera de visualizar gráficamente los valores faltantes es con la función ``md.pattern`` de la paquetería ``mice``:

``library(mice)``
``md.pattern(tabla)``

Esta nos indica cuántos regristros tienen valores faltantes y en qué columnas.

Para captar los faltantes de una columna, hacemos ``is.na(tabla$col)``. Nos devolverá TRUE cuando haya valor faltante y FALSE en caso contrario.

Si además queremos saber qué filas NO tienen valores faltantes, hacemos ``complete.cases(tabla)``. Más aún, ``na.omit(tabla)`` es la tabla quitando todas las filas que tengan al menos un valor faltante. Es decir, el resultado es la tabla sin los faltantes.

De esta manera, siguiendo la lógica de los filtrados, en caso de querer eliminar todas las filas que tienen valor faltante en una columna fija, digamos *col*, hacemos ``tabla[!is.na(tabla$col),]``

## Tratamiento de NA (introducción)

Es importante saber cómo tratar con valores faltantes. Sin embargo, es importante aclara que **únicamente mostraremos las maneras mas simples de hacerlo, pero estas no siempre son las mas adecuadas**. El tratamiento de valores faltantes corresponde al Análisis Robusto de datos.

Una primer manera de tratar los valores faltantes es con medias o modas.

``tabla$col_medias <- ifelse(is.na(tabla$col),mean(tabla$col,na.rm=TRUE),tabla$col)``

Es decir, la columna *col_medias* se llena de la siguiente manera: cada vez que encuentra un NA en la columna ``col``, escribirá el promedio de los valores de ``col`` que sí están presentes. En caso contrario, deja el valor que ya encontraba.

Cuando se trata de datos categóricos, se utiliza ``mfv()`` de la librería ``modeest`` en lugar de ``mean()``.

Otro método de reemplazo es el **Método de los k-vecinos**. Con este método, se imputa los valores de los atributos que faltan en base al vecino K más cercano. Los vecinos se determinan en base a la medida de la distancia. Una vez que se determinan los K vecinos, los valores faltantes son imputados tomando la media/mediana o moda de los valores conocidos del atributo.

Para esto, requerimos la librería ``DMwR`` y con la instrucción ``knnImputation(tabla)`` se aplicará este método.