# Intro a R
## DataFrames

In [14]:
library(dslabs)
# cargo en murders el dataframe homonimo
data("murders")

# tipo 
class(murders)

In [7]:
# columnas
names(murders)

In [26]:
# veamos su estructura
str(murders)

'data.frame':	51 obs. of  5 variables:
 $ state     : chr  "Alabama" "Alaska" "Arizona" "Arkansas" ...
 $ abb       : chr  "AL" "AK" "AZ" "AR" ...
 $ region    : Factor w/ 4 levels "Northeast","South",..: 2 4 4 2 4 4 1 2 2 2 ...
 $ population: num  4779736 710231 6392017 2915918 37253956 ...
 $ total     : num  135 19 232 93 1257 ...


In [8]:
# cabecera
head(murders)

state,abb,region,population,total
Alabama,AL,South,4779736,135
Alaska,AK,West,710231,19
Arizona,AZ,West,6392017,232
Arkansas,AR,South,2915918,93
California,CA,West,37253956,1257
Colorado,CO,West,5029196,65


In [11]:
# Viendo columnas usando el $ denominado "accesor"
murders$region

In [29]:
# otra forma que extraer generando un nuevo dataframe es con corchetes simples
#murders["region"]

In [18]:
# con doble corchetes no genera nuevo objeto sino que es la misma tabla
murders[["region"]]

In [28]:
# Ojo, hay tipo de datos llamado Factores, para datos en categorías
class(murders[["region"]])
class(murders[["population"]])
class(murders[["abb"]])

In [23]:
# puedo saber esos Factores cuales son
levels(murders[["region"]]) # es lo mismo que levels(murders$region)

In [25]:
# Y los cuento
length(levels(murders[["region"]]))

## DataFrames a pata

In [34]:
# Store temperatures in an object 
temp <- c(35, 88, 42, 84, 81, 30)

# Store city names in an object 
city <- c("Beijing", "Lagos", "Paris", "Rio de Janeiro", "San Juan", "Toronto")

# Create data frame with city names and temperature 
city_temps <- data.frame(name = city, temperature = temp)

## Vectores
- Son homogéneos
- permiten usar clave=valor 
- inician desde índice 1

In [46]:
nums <- c(34, 356.3, 12.1, 12)

In [47]:
ciudades <- c("Santa Fe", "Tostado", "Sastre")
codigos <- c(342,3491,3406)

In [54]:
# las claves con espacios se encierran entre comillas, sino no hace falta
tel_codes <- c("santa fe" = 342, "tostado"=3491, "sastre" = 3406)

In [55]:
# podemos asignarles claves a un vector numérico
names(codigos) <- ciudades

In [53]:
codigos

In [56]:
# Podemos acceder por el nombre de su clave
codigos["Santa Fe"]

### Secuencias

In [72]:
# seq(ini,fin,paso)
x <- seq(1,10,0.2)

In [73]:
x

In [68]:
## Solamente para secuencias de paso entero ini:fin
x2 <- 10:1

In [69]:
x2

In [12]:
# secuencia desde ini hasta fin, de una determinada cantidad de elementos
a <- seq(0, 1, length.out = 5)


### Slices

In [75]:
codigos[1:3]

In [76]:
codigos[c(1,3)]

### Coerción 
Ojo con R, que a diferencia de otros lenguajes intenta hacer la mejor alternativa para eviar un error, por ejemplo, convertir datos para no dar un error. Por ejemplo:

In [1]:
v <- c(1,2,3,"Cinco")

convirtió todos los valores ingresados como valores numéricos a caracteres:

In [2]:
v

Podemos también forzar esta coerción, convirtiendolo manualmente con el uso de por ejemplo **as.character()** o **as.numeric()**:

In [6]:
p <- 1:5
q <- as.character(p)
r <- as.numeric(q)
q
r

### Not Available data
Si queremos convertir algo imposible, entonces aparece el tipo de dato Not Available,  NA.

In [9]:
y <- c('1', '2')
as.numeric(c)

ERROR: Error in as.numeric(c): cannot coerce type 'builtin' to vector of type 'double'


In [41]:
# Cargamos otro dataset con varios NAs
data(na_example)
# veo la estructura
str(na_example)
# devuelve indices con TRUE o FALSE según halle NAs
ind <- is.na(na_example)
# puedo sumarlos para saber cuantos NAs hay
sum(ind)

 int [1:1000] 2 1 3 2 1 3 1 4 3 2 ...


In [42]:
# no se puede calcular el promedio con valores NA
mean(na_example)

# Compute the average, for entries of na_example that are not NA 
mean(na_example[!ind])

## Ordenamiento

### sort

In [16]:
sort(murders$total)

### order y rank

**order** devuelve un vector con los índices de los valores ordenados. Es útil para ordenar una tabla por alguna columna en especial.

**rank** devuelve la posición que tiene cada elemento del vector original en el ordenado, qué posición de *ranking* ocupa. Por ejemplo, el ``rank`` de un vector que tiene ``c(10, 100, 1)`` devolvería ``c(2,3,1)``

In [18]:
x <- c(12, 10, 11)
indices <- order(x)
indices

In [22]:
x[indices]

Por ejemplo que queremos **ordenar el dataframe por el total de homicidios** y luego mostrar cada columna según este mismo orden:

In [24]:
indices <- order(murders$total)
murders$total[indices]

In [25]:
# ahora vemos los estados
murders$state[indices]

In [37]:
# ejemplo de rank
x <- c(10, 100, 1)
rank(x)

Por ejemplo, quiero armar un dataframe que tenga 2 columnas, los nombres de los estados y el ranking de población:

In [36]:
# Define a variable states to be the state names 
states <- murders$state

# Define a variable ranks to determine the population size ranks 
ranks <- rank(murders$population)

# Armo el dataframe
my_df <- data.frame(state_name = states, rank_population = ranks)  
head(my_df)

state_name,rank_population
Alabama,29
Alaska,5
Arizona,36
Arkansas,20
California,51
Colorado,30


Si quisiera mostrar los estados y el ranking de cada estado según su población

In [None]:
# Define a variable states to be the state names from the murders data frame
states <- murders$state

# Define a variable ranks to determine the population size ranks 
ranks <- rank(murders$population)

# Define a variable ind to store the indexes needed to order the population values
ind <- order(murders$population)

# Create a data frame my_df with the state name and its rank and ordered from least populous to most 
my_df = data.frame(state_name = states[ind], population_rank = ranks[ind])

### Máximos o mínimos
``max() / min()`` devuelve el valor máximo/mínimo de un vector o columna, por ej

In [26]:
max(murders$total)

Para saber en qué índice está ese máximo/mínimo, ``which.max()/wich.min()``

In [28]:
i_max <- which.max(murders$total)
i_max
murders$state[i_max]

In [44]:
# Estado de mayor población en una sola línea
murders$state[which.max(murders$population)]

## Aritmética de vectores

In [48]:
# Tasa de asesinatos cada 100 mil habitantes
murder_rate <- murders$total/murders$population * 100000
murder_rate

In [50]:
# Listado de tasa de asesinatos por estado en formato ascendente
murders$state[order(murder_rate)]

In [51]:
# Listado de tasa de asesinatos por estado en formato DESCENDENTE
murders$state[order(murder_rate, decreasing=TRUE)]

**Ejemplo de la igualdad de euler: ** $\pi^2/6 = 1 + 1/2^2 + 1/3^2 +...$

In [56]:
x <- 1:1000
pi_aprox <- sqrt(6*sum(1/(x^2)))
pi_aprox