# Bases de Datos con R

Referencias:

1 .[A primer on SQL de Rahul Batra](https://leanpub.com/aprimeronsql/read).

2 .[Databases](https://cran.r-project.org/web/packages/dplyr/vignettes/databases.html).

3 .[Data Manipulation with R](http://www.springer.com/us/book/9780387747309), Phil Spector, Springer 2008.

## Notas de SQL

## Definiciones


 **Conjunto de datos univariados**

- Un *caso (case)* es uno los varios ítems posibles de interés de un conjunto de datos. Un ejemplo son los individuos de una población.

- Una *variable* es una medida o característica de un *caso*. Por ejemplo las notas del último examen de los estudiantes de una clase de matemáticas.


Un conjunto de datos univariados es un conjunto de mediciones para alguna variable desde una colección de casos. Podemos usar subíndices para representar estos datos:

$$x_1, x_2, \dots, x_n $$


Stanley Smith Stevens propuso una influyente descripción de varios de tipos de datos:

 - *Nominal- Categórica*  Estos datos son cualitativos o descriptivos pero no numéricos. Un ejemplo puede ser el nombre de una persona o la ciudad donde nacistes.
 
 - *Ordinal*  Son datos con algún orden, de manera que podemos  ordenar los datos de mayor a menor. Un ejemplo es la posición  de un corredor en una carrera.
 
 - *Intervalo*  Los datos de intervalo son datos ordinales, donde la diferencia entre dos valores tiene alguna interpretación. Si sabemos corredor  A  termina al mediodía, y el corredor B a 13:00 , entonces sabemos que al  corredor B  le tomó más tiempo. Puesto que no hemos especificado cuando empezaron, no sabemos qué porcentaje ellos han recorrido.
 
- *Proporción*  Tiene todas las propiedades de los datos de intervalo y tiene una definición para el valor 0. Si no registramos el momento de terminar , pero el tiempo desde que comenzó la competencia,  0 tiene un significado y podemos tener una proporción del tiempo total para el corredor A y B y compararlos.

Pese a que esta taxonomía es útil, podemos caracterizar los datos de manera que coincida  con la forma en que trabajamos en el computador y la ciencia de datos:

- *Datos Factor* Cuando nos fijamos en muchas variables, algunas pueden registrar  categorías utilizadas para agrupar los datos. En R se utilizan los  factores para  almacenar estas variables. 

- *Datos de caracteres*  Algunos datos categóricos son factores, pero otros son sólo identificadores, y no se utilizan para agrupar. Un ejemplo podría ser la dirección IP de un usuario. Esto es básicamente un código único que identifica un ordenador, como una dirección. La distinción entre los datos  de factores y de caracteres puede ser pensado como la distinción entre la *categorización* de un caso o la *caracterización* de un caso. 

In [13]:
sex_char <- c("m", "m", "m")
sex_factor <- factor(sex_char, levels = c("m", "f"))
table(sex_char)
table(sex_factor)

sex_char
m 
3 

sex_factor
m f 
3 0 

- *Datos discretos*  Los datos discretos proviene de mediciones en las que esencialmente los únicos valores posibles distintos y separados son aquellos que se pueden contar. Por ejemplo, el número de visitas que hace  una persona hace a nuestro sitio web son siempre datos enteros, al igual que otros datos de conteo.
- *Datos continuos*  Los datos continuos  es lo que se obtiene  a partir de valores continuos. La grabación del tiempo en milisegundos de una visita a un sitio web podrían  ser tales datos. 

En lugar de hacer distinciones para los datos numéricos entre ordinal, intervalo o de proporción , es más importante para la teoría estadística,  la búsqueda de un modelo de los datos para saber si estos  son discretos o continuos.

*Datos de fecha y hora*  Los datos de tiempo pueden ser considerados continuos o discretos y  para los computadores  a menudo hay caminos distintos para manejar los datos de fecha y hora. Cuestiones que complican las cosas son temas tan familiares como días bisiestos y zonas horarias, pero hay aún más sutilezas. Por ejemplo, la escala. 

La gente en finanzas quieren datos de milisegundos, los astrónomos necesitan medidas precisas para duraciones debajo de los  segundos. R tiene varias formas de trabajar con estos datos, que va más allá de simplemente almacenar los valores como números simples.

In [14]:
x <- as.Date("1970-01-01")
x

[1] "1970-01-01"

In [15]:
# Representacion interna  del objeto Data usando la funcion unclass

unclass(x)

In [16]:
unclass(as.Date("1970-01-02"))

In [17]:
# Manejando tiempos en R

x <- Sys.time()
x

[1] "2016-09-06 13:47:20 PET"

In [18]:
class(x) # Objeto POSIXct

- Datos jerárquicos  La idea tradicional de un conjunto de datos siendo medido por  diferentes casos es ampliamente establecido. Tales datos encajan  en una hoja de cálculo  y en tablas de bases de datos. Sin embargo, esta estructura no se ajusta bien para cada conjunto de datos. Por ejemplo, los datos sobre redes.