# Datasets#

Los dataframes son objetos donde guardamos datos tabulados. Conceptualmente un dataset es una tabla que contiene una serie de observaciones en filas. Cada fila es un **vector**. Las columnas se llaman **variables**. R contiene varios datasets de ejemplo que podemos listar mediante la función **data()**. A diferencia de las matrices, los dataframes pueden contener objetos de distinto tipo.

In [1]:
data() #salida en terminal

**head** y **tails** nos muestran los primeros y últimos registros en un dataset

In [10]:
head(CO2)

Plant,Type,Treatment,conc,uptake
Qn1,Quebec,nonchilled,95,16.0
Qn1,Quebec,nonchilled,175,30.4
Qn1,Quebec,nonchilled,250,34.8
Qn1,Quebec,nonchilled,350,37.2
Qn1,Quebec,nonchilled,500,35.3
Qn1,Quebec,nonchilled,675,39.2


Podemos cargar librerías externas con **library**. Una librería pueden ser un conjunto de funciones relacionadas o un conjunto de datasets. **dslabs** es una librería utilizada en el curso. Esta librería tiene un dataset llamado **murders** con datos sobre homicidios en los Estados Unidos. El comando **str** (abreviatura de **structure**) nos muestra el número de observaciones y las variables de este dataset.

In [3]:
library(dslabs)

In [4]:
head(murders)

state,abb,region,population,total
Alabama,AL,South,4779736,135
Alaska,AK,West,710231,19
Arizona,AZ,West,6392017,232
Arkansas,AR,South,2915918,93
California,CA,West,37253956,1257
Colorado,CO,West,5029196,65


In [6]:
str(murders)

'data.frame':	51 obs. of  5 variables:
 $ state     : chr  "Alabama" "Alaska" "Arizona" "Arkansas" ...
 $ abb       : chr  "AL" "AK" "AZ" "AR" ...
 $ region    : Factor w/ 4 levels "Northeast","South",..: 2 4 4 2 4 4 1 2 2 2 ...
 $ population: num  4779736 710231 6392017 2915918 37253956 ...
 $ total     : num  135 19 232 93 1257 ...


También podemos acceder a los nombres de las variables con la palabra clave **names**

In [7]:
names(murders)

Accedemos a las variables usando el símbolo **$** que en R se llama **accessor**.

In [8]:
murders$state

El objeto devuelto usando un accessor es un **vector**

In [3]:
pop <- murders$population
length(pop)

In [9]:
class (murders$state)

In [10]:
class (murders$region)

Los **factores** son útiles para almacenar categorías. Usando la función **levels** podemos saber el número de estas categorías. No confundir con la longitud del vector correspondiente.

In [8]:
length (murders$region)
levels(murders$region)

Si lo que queremos es crear un vector usamos, la palabra clave **c** de **create**

In [1]:
# fuente: wikipedia
paises <- c("Portugal", "España", "Francia", "Alemania", "Italia", "Reino Unido")
superficie <-c (92090, 505370, 547104, 357022, 301340, 243610 ) #en km2
sup_fortestal <- c(31882, 18418, 16989, 11419, 9297, 3144) #en miles de hectareas; datos de 2015

# Creando datasets #

Podemos crear datasets de distintas formas. Por ejemplo desde un archivo csv con **read.csv()**, a partir de una talbe con **read.table()** o bien usando la función **data.frame**

In [12]:
provincias <- read.csv('data/estadisticas_2007_provincias.csv')

In [13]:
head(provincias)

Provincia,Poblacion,Turismos,PIB
Albacete,392110,171789,6521852
Alicante,1825264,901546,34321944
Almería,646633,304071,13871424
Álava,305459,141555,10337599
Asturias,1074862,483289,22905655
Ávila,168638,79798,3330749


In [14]:
str(provincias)

'data.frame':	52 obs. of  4 variables:
 $ Provincia: Factor w/ 52 levels "A Coruña","Álava",..: 3 4 5 2 6 7 8 26 9 10 ...
 $ Poblacion: int  392110 1825264 646633 305459 1074862 168638 678459 1030650 5332513 1141457 ...
 $ Turismos : int  171789 901546 304071 141555 483289 79798 319349 645216 2396656 488454 ...
 $ PIB      : int  6521852 34321944 13871424 10337599 22905655 3330749 10702067 26130320 146368312 33027203 ...


In [1]:
# Progresión de la plusmarca mundial de los 100 m lisos masculino
# Fuente: wikipedia
tiempos <- data.frame (name=c("Usain Bolt", "Usain Bolt", "Asafa Powel", "Asafa Powel", "Maurice Greene", "Donovan Bailey"), 
                       time=c(9.58, 9.69, 9.74, 9.77, 9.79, 9.84), 
                       year=c(2009, 2008, 2007, 2005, 1999, 1996))
tiempos

name,time,year
Usain Bolt,9.58,2009
Usain Bolt,9.69,2008
Asafa Powel,9.74,2007
Asafa Powel,9.77,2005
Maurice Greene,9.79,1999
Donovan Bailey,9.84,1996


**CUIDADO** por defecto los vectores de cadena de texto son convertidos a tipo "factor"

In [9]:
class (tiempos$name)

In [12]:
tiempos <- data.frame (name=c("Usain Bolt", "Usain Bolt", "Asafa Powel", "Asafa Powel", "Maurice Greene", "Donovan Bailey"), 
                       time=c(9.58, 9.69, 9.74, 9.77, 9.79, 9.84), 
                       year=c(2009, 2008, 2007, 2005, 1999, 1996),
                       stringsAsFactors = FALSE)
class (tiempos$name)

In [4]:
nrow(tiempos) # número de registros en el data frame

otra forma de crear un data frame:

In [1]:
temp <- c(35, 88, 42, 84, 81, 30)
city <- c("Beijing", "Lagos", "Paris", "Rio de Janeiro", "San Juan", "Toronto")
city_temps <- data.frame(name = city, temperature = temp)
city_temps

name,temperature
Beijing,35
Lagos,88
Paris,42
Rio de Janeiro,84
San Juan,81
Toronto,30


también podemos leer un dataset a partir de un fichero csv

In [17]:
pasajeros <- read.csv(file='data/pasajeros_aeropuertos_2016.csv')
head(pasajeros)

Aeropuertos,Total
ADOLFO SUÁREZ MADRID-BARAJAS,50420583
BARCELONA-EL PRAT,44154693
PALMA DE MALLORCA,26253882
MALAGA-COSTA DEL SOL,16672776
ALICANTE-ELCHE,12344945
GRAN CANARIA,12093645


## MAS INFORMACION ##

Algunas fuentes de datos para practicar con R

- [Banco Mundial](https://datos.bancomundial.org/) - Datos de libre acceso del banco mundial
- [INE](http://www.ine.es/dyngs/INEbase/listaoperaciones.htm) - Instituto Nacional de Estadistica