# Trabajo práctico N° 3 

## Manejo de archivos y descripción de datos

El objetivo de este TP es el de conocer las herramientas para la manipulación de datos, en particular a través de la lectura de archivos con bases de datos y la descripción de los mismos.

Esta libreta se organiza de la siguiente manera:

1. Lectura de archivos de datos
2. Descripción de datos
3. Escritura de archivos de datos

## 1. Lectura de archivos de datos

A menudo nos encontramos con la necesidad de utilizar datos provenientes de archivos con distintos formatos (csv, xls, etc.). 

Para utilizar estos datos es necesario 'cargarlos' en variables que nos permitan su manipulación. 

Existen distintas alternativas para leer los datos desde los archivos y almacenar estos datos en variables. 

A continuación vemos cómo realizar esta lectura de archivos con datos a partir de la función `read.table()`



In [6]:
?read.table

La función `read.table` lee un archivo y crea un data frame con los datos contenidos en éste. Veamos su uso con un archivo de ejemplo ubicado en la carpeta *data*.

In [11]:
read.table('../data/data.csv', sep=',', header = TRUE)

clase,repeticion,variable1,variable2,variable3
A,1,74.92,24.1,1.59
A,2,67.07,15.97,1.66
B,1,69.18,36.57,5.6
B,2,50.23,26.85,6.2
C,1,42.0,14.71,4.2
C,2,71.25,26.45,5.1
D,1,45.0,56.1,4.7
D,2,48.44,55.16,3.4
E,1,62.86,22.55,2.9
E,2,75.31,16.01,3.6


La función `read.table()` define un conjunto de parámetros utilizados como argumentos, los cuales debemos indicar. 

Observe que en el daso de ejemplo con el archivo *data.csv*,  se indican los parámetros `sep = ','` y `header = TRUE` además del primer parámetro indicando la ubicación del archivo `'../data/data.csv'`.

## 2. Descripción de los datos

Una de las primeras actividades luego de la lectura de los datos, es el análisis de los datos. 

Comencemos almacenando los datos leídos en una variable para su posterior manipulación.

In [13]:
data <- read.table('../data/data.csv', sep=',', header = TRUE)

Para comenzar con la descripción de los datos, R dispone de la función `summary()` la cual imprime una descripción genera de la variable indicada como parámetro.

En nuestro ejemplo, la aplicación de summary sobre los datos nos devolverá una breve descripción del contenido del data frame por cada una de sus variables.

In [31]:
summary(data)

     clase      repeticion    variable1         variable2       variable3    
 A      : 2   Min.   :1.0   Min.   :  16.67   Min.   :14.71   Min.   :1.230  
 B      : 2   1st Qu.:1.0   1st Qu.:  29.69   1st Qu.:24.84   1st Qu.:2.317  
 C      : 2   Median :1.5   Median :  44.20   Median :35.91   Median :3.150  
 D      : 2   Mean   :1.5   Mean   : 238.81   Mean   :37.19   Mean   :3.212  
 E      : 2   3rd Qu.:2.0   3rd Qu.:  66.88   3rd Qu.:45.51   3rd Qu.:3.975  
 F      : 2   Max.   :2.0   Max.   :7765.00   Max.   :56.10   Max.   :6.200  
 (Other):28                                                                  

Como podemos observar, la variable *clase* es categórica, mientras que las restantes son numérica entera en el caso de *repetición* y numérica flotante para *variable1*, *variable2*, y *variable3*. 

Veamos ahora qué otro proceso podemos aplicar a nuestros datos. 

Recordemos la definición de nuestra función `normalizar`.

In [77]:
normalizar <- function(datos)
    {    
    #1. Obtener un conjunto de datos
    #Definido en el parámetro 'datos'

    #2. Procesar los datos obtenidos
    datos_procesados <- datos / max(datos)

    #3. Mostrar resultados del procesamiento
    return(datos_procesados)
}

Supongamos que deseamos aplicar esta función `normalizar` a las variables numéricas del conjunto de datos en el data frame *data*.

Para ello, R presenta una función `apply`. Veamos su definición.

In [78]:
?tapply

Utilizaremos los parámetros *X*, *INDEX*, y *FUN* de la siguiente manera.

In [80]:
tapply(X = data$variable1, INDEX = data$clase, FUN = normalizar)

Como podemos observar, el resultado de aplicar `tapply` a `variable1` agrupado por `clase` nos devuelve los valores normalizados de la variable por cada clase.  

## Tu turno!

Modifica los parámetros de la función `tapply` de modo que el resultado sea la suma de los datos en la `variable3`, agrupados por `clase`.

**Nota**: Recuerde que la función suma está definida como `sum`

In [None]:
#Modicar los parámetros de la función tapply de acuerdo a la consigna

tapply(X = , INDEX = , FUN = ) # COMPLETAR los parámetros de la función

## 3. Escritura de archivos de datos

Al igual que para la lectura de archivos, R define varias alternativas para la escritura de archivos de datos. 

Veamos a continuacion la función `write.csv`

In [92]:
?write.csv

En este caso, haremos uso de los parámetros *x* y *file* para indicar los datos a guardar y el nombre del archivo correspondiente.

In [93]:
data_var1_sum = tapply(data$variable1, INDEX = data$clase, FUN = sum)

write.csv(x = data_var1_sum, file = '../data/data_var1_sum.csv')

Ahora podemos confirmar la existencia del archivo *data_var1_sum.csv* en la carpeta *data*

In [97]:
list.files('../data')