# [Manual de R](https://fhernanb.github.io/Manual-de-R/)

# Estadística
La misión de la **Estadistica Descriptiva** es ordenar, describir y sintetizar la información recogida.<br>
La **población** es un conjunto de elementos, con alguna caracteristica común, que es el objeto de nuestro estudio. Esta puede ser finita o infinita.<br>
Una **muestra** es un subconjunto de la población. El número de elemento de una muestra se llama **tamaño** de la muestra.<br>
El objeto de nuestra medida puede ser: Cuntitativo o Cualitativo.<br>
Se entiende por **variable estadística** al símbolo que representa al dato o caracter objeto de nuestro estudio de los elementos de la muestra y que puede tomar un conjunto de valores. Estos pueden ser discretos, continuos, unidimensionales(temperatura o presión atmoférica), bidimensionales(longitud y peso de una barra conductora) o n-dimensionales(velocidad, carga eléctrica y masa de un ión es tridimensionales).
## Tabla de frecuencia

### Variable cuantitativa discreta

In [2]:
num_hijos <- c(2,1,1,3,1,2,5,1,2,3,4,2,3,2,1,4,2,3,2,1)
N <- length(num_hijos) #tamaño de la muestra
print(paste("Números de hijos:",N))

[1] "Números de hijos: 20"


In [3]:
#Frecuencia absoluta
tabla <- table(num_hijos)
tabla

num_hijos
1 2 3 4 5 
6 7 4 2 1 

In [4]:
#Frecuencia acumulada
FreqAc <- cumsum(table(num_hijos))
FreqAc

In [5]:
#Frecuencia relativa
FreqRel <- table(num_hijos) / N
FreqRel

num_hijos
   1    2    3    4    5 
0.30 0.35 0.20 0.10 0.05 

In [6]:
#Frecuencia relativa en tanto %
FreqRelPor100 <- (table(num_hijos)/N)*100
FreqRelPor100

num_hijos
 1  2  3  4  5 
30 35 20 10  5 

In [7]:
#Frecuencia relativa acumulada en tanto porciento
FreqRelAcPor100 <- (cumsum(table(num_hijos))/N)*100
FreqRelAcPor100

In [8]:
transform(tabla,
         FreqAc=FreqAc)

Unnamed: 0_level_0,num_hijos,Freq,FreqAc
Unnamed: 0_level_1,<fct>,<int>,<int>
1,1,6,6
2,2,7,13
3,3,4,17
4,4,2,19
5,5,1,20


In [9]:
df_num_hijos <- as.data.frame(table(num_hijos))
df_num_hijos

num_hijos,Freq
<fct>,<int>
1,6
2,7
3,4
4,2
5,1


In [10]:
transform(df_num_hijos,
          FreqAc=cumsum(df_num_hijos$Freq),
          FreqRe=prop.table(df_num_hijos$Freq),
          FreqReAc=cumsum(prop.table(df_num_hijos$Freq)))

num_hijos,Freq,FreqAc,FreqRe,FreqReAc
<fct>,<int>,<int>,<dbl>,<dbl>
1,6,6,0.3,0.3
2,7,13,0.35,0.65
3,4,17,0.2,0.85
4,2,19,0.1,0.95
5,1,20,0.05,1.0


## Ejemplo de tabla de frecuencia

El paquete ***dplyr*** contiene una colección de funciones para realizar operaciones de manipulación de datos comunes como: filtrar por fila, seleccionar columnas específicas, reordenar filas, añadir nuevas filas y agregar datos.<br>
***readxl*** es un paquete diseñado para hacer una sola tarea: importar hojas de Excel a R

In [13]:
library(readxl)
library(dplyr)

"package 'readxl' was built under R version 4.1.2"
"package 'dplyr' was built under R version 4.1.1"

Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union




In [14]:
df_eje2122 <- read_excel("C:/Users/ordonez/Documents/SAP/SAP GUI/PedidosEjercicios/pedidosConCodigoEjercicio21-22.XLSX")
#Cambio los nomrbres de columnas
colnames(df_eje2122)<- c('Centro','Almacen','FechaDoc','Cl','Doc','Prov','Pos','UM','Material','CantPed',
                         'CantBase','PorEntr','Gpo','Contrato','Cesta','Ref','Borrado','TipoImp','Incom')

In [15]:
df_1126 <- as.data.frame(table(as.data.frame(table(select(filter(df_eje2122,Almacen=='1126'),Material)))$Freq))

In [16]:
transform(df_1126,
         FrecAbsAcum=cumsum(df_1126$Freq),
         FrecRel=round(prop.table(df_1126$Freq),3),
         FrecRelAcum=round(cumsum(prop.table(df_1126$Freq)),3))

Var1,Freq,FrecAbsAcum,FrecRel,FrecRelAcum
<fct>,<int>,<int>,<dbl>,<dbl>
1,1669,1669,0.379,0.379
2,1265,2934,0.288,0.667
3,800,3734,0.182,0.849
4,437,4171,0.099,0.948
5,150,4321,0.034,0.982
6,46,4367,0.01,0.993
7,18,4385,0.004,0.997
8,8,4393,0.002,0.999
9,2,4395,0.0,0.999
10,1,4396,0.0,1.0


**Recorrido o Rango**: La diferencia entre el valor mayor y menor que toma la variable.<br>
**Frecuencia absoluta $n_i$**: Definida como el número de veces que aparece el valor en cuestión de la variable estadística en el conjunto de las observaciones realizadas.<br>
**Frecuencia relativa $f_i$**: Cociente entre la frecuencia absoluta y el número de observaciones realizadas N.<br>
**Frecuencia absoluta acumulada $N_i$**: Suma de las frecuencias absolutas de los valores inferiores o igual a $x_i$.<br>
**Frecuencia ralativa acumulada $F_i$**: Cociente entre la frecuencia absoluta acumulada y el número de observaciones.<br>

## Agrupamiento en intervalos de clase (usando fdth)

In [None]:
#install.packages("fdth")

***fdth*** Frequency Distribution Tables, Histograms and Polygons

In [17]:
library(fdth)

"package 'fdth' was built under R version 4.1.3"

Attaching package: 'fdth'


The following objects are masked from 'package:stats':

    sd, var




In [18]:
ejemploI6 <- c(8.63,10.16,8.50,8.31,10.80,7.50,8.12,
               8.42,9.20,8.16,8.36,9.77,7.52,7.96,
               7.83,8.62,7.54,8.28,9.32,7.96,7.47)

In [19]:
recorrido <- max(ejemploI6) - min(ejemploI6)
print(paste("máximo: ",max(ejemploI6)))
print(paste("mínimo: ",min(ejemploI6)))
print(paste("recorrido:",recorrido))

[1] "máximo:  10.8"
[1] "mínimo:  7.47"
[1] "recorrido: 3.33"


In [21]:
N = length(ejemploI6)
k = round(N**(0.5),0) #k es el número de intervalos
print(paste("Tamaño de la muestra: ",N))
print(paste("número de intervalos ",k))

[1] "Tamaño de la muestra:  21"
[1] "número de intervalos  5"


In [22]:
dist <- fdt(ejemploI6,start=7.40,end=10.9,h=5)
dist

Class limits,f,rf,rf(%),cf,cf(%)
<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>
"[7.467,7.946)",5,0.23809524,23.809524,5,23.80952
"[7.946,8.421)",8,0.38095238,38.095238,13,61.90476
"[8.421,8.897)",3,0.14285714,14.285714,16,76.19048
"[8.897,9.373)",2,0.0952381,9.52381,18,85.71429
"[9.373,9.849)",1,0.04761905,4.761905,19,90.47619
"[9.849,10.32)",1,0.04761905,4.761905,20,95.2381
"[10.32,10.8)",1,0.04761905,4.761905,21,100.0


# Frecuencias de compras en almacenes (Ejercicio 20/21)

In [None]:
library(readxl)
library(dplyr)

In [23]:
df_eje2122 <- read_excel("C:/Users/ordonez/Documents/SAP/SAP GUI/PedidosEjercicios/pedidosConCodigoEjercicio21-22.XLSX")
#Cambio los nomrbres de columnas
colnames(df_eje2122)<- c('Centro','Almacen','FechaDoc','Cl','Doc','Prov','Pos','UM','Material','CantPed',
                         'CantBase','PorEntr','Gpo','Contrato','Cesta','Ref','Borrado','TipoImp','Incom')

In [24]:
table(as.data.frame(table(select(filter(df_eje2122,Almacen=='1126'),Material)))$Freq)


   1    2    3    4    5    6    7    8    9   10   18 
1669 1265  800  437  150   46   18    8    2    1    2 

In [25]:
table(as.data.frame(table(select(filter(df_eje2122,Almacen=='1124'),Material)))$Freq)


   1    2    3    4    5    6    7    8    9   11   12   29 
1454 1079  622  294  113   49   27    9    2    1    1    1 

In [26]:
table(as.data.frame(table(select(filter(df_eje2122,Almacen=='1128'),Material)))$Freq)


  1   2   3   4   5   6   7 
869 452 200  67  33   8   2 

In [27]:
table(as.data.frame(table(select(filter(df_eje2122,Almacen=='1129'),Material)))$Freq)


 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 19 21 23 33 34 
42 21 20 19 16  8  9  4  7  4  6  3  1  1  2  2  2  1  2  1  1 

### Variable cualitativa

In [28]:
color_ojos <- c('azul','verde','marrón','gris','verde','marrón','marrón','azul','verde','marrón','gris','azul','marrón','verde')
N1 <- length(color_ojos)

In [29]:
tabla_color <- table(color_ojos)
tabla_color

color_ojos
  azul   gris marrón  verde 
     3      2      5      4 

In [30]:
FreqAc <- cumsum(table(color_ojos))
FreqAc

In [31]:
transform(tabla_color,
         FreqAc=FreqAc)

Unnamed: 0_level_0,color_ojos,Freq,FreqAc
Unnamed: 0_level_1,<fct>,<int>,<int>
azul,azul,3,3
gris,gris,2,5
marrón,marrón,5,10
verde,verde,4,14


In [32]:
as.data.frame(table(color_ojos))$Freq

# Importar archivos de Excel

In [None]:
library(readxl)
library(dplyr)#Para el uso de filter y select

In [33]:
ej20_21 <- read_excel("C:/Users/ordonez/Documents/SAP/SAP GUI/PedidosEjercicios/pedidosConCodigoEjercicio20-21.XLSX")
colnames(ej20_21)<- c('Centro','Almacen','FechaDoc','Cl','Doc','Prov','Pos','UM','Material','CantPed',
                         'CantBase','PorEntr','Gpo','Contrato','Cesta','Ref','Borrado','TipoImp','Incom')

"Expecting logical in R8346 / R8346C18: got 'K'"
"Expecting logical in S16862 / R16862C19: got 'X'"
"Expecting logical in S24962 / R24962C19: got 'X'"
"Expecting logical in S28932 / R28932C19: got 'X'"
"Expecting logical in R30271 / R30271C18: got 'K'"


In [34]:
ej21_22 <- read_excel("C:/Users/ordonez/Documents/SAP/SAP GUI/PedidosEjercicios/pedidosConCodigoEjercicio21-22.XLSX")
colnames(ej21_22)<- c('Centro','Almacen','FechaDoc','Cl','Doc','Prov','Pos','UM','Material','CantPed',
                         'CantBase','PorEntr','Gpo','Contrato','Cesta','Ref','Borrado','TipoImp','Incom')

## filter()

In [35]:
head(filter(ej21_22,Almacen=='1124'),4)

Centro,Almacen,FechaDoc,Cl,Doc,Prov,Pos,UM,Material,CantPed,CantBase,PorEntr,Gpo,Contrato,Cesta,Ref,Borrado,TipoImp,Incom
<chr>,<chr>,<dttm>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<lgl>,<chr>
1007,1124,2021-06-01,ZOP,4800137401,804038 ANDRES N. BERTOTTO S.A.I,1,C/U,1037352,2,1,0,D19,,3000721193.0,,,,
1007,1124,2021-06-01,ZOP,4800137401,804038 ANDRES N. BERTOTTO S.A.I,2,C/U,1037353,6,1,0,D19,,3000721193.0,,,,
1007,1124,2021-06-01,ZOP,4800137401,804038 ANDRES N. BERTOTTO S.A.I,3,C/U,1037354,1,1,0,D19,,3000721193.0,,,,
1007,1124,2021-06-02,ZOP,4500172380,801546 WHEELPAM S.A.,10,C/U,1012499,2,1,0,D18,,,DDONAIRE,,,


In [36]:
head(filter(ej21_22,Almacen=='1124',UM=='C/U'),5)

Centro,Almacen,FechaDoc,Cl,Doc,Prov,Pos,UM,Material,CantPed,CantBase,PorEntr,Gpo,Contrato,Cesta,Ref,Borrado,TipoImp,Incom
<chr>,<chr>,<dttm>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<lgl>,<chr>
1007,1124,2021-06-01,ZOP,4800137401,804038 ANDRES N. BERTOTTO S.A.I,1,C/U,1037352,2,1,0,D19,,3000721193.0,,,,
1007,1124,2021-06-01,ZOP,4800137401,804038 ANDRES N. BERTOTTO S.A.I,2,C/U,1037353,6,1,0,D19,,3000721193.0,,,,
1007,1124,2021-06-01,ZOP,4800137401,804038 ANDRES N. BERTOTTO S.A.I,3,C/U,1037354,1,1,0,D19,,3000721193.0,,,,
1007,1124,2021-06-02,ZOP,4500172380,801546 WHEELPAM S.A.,10,C/U,1012499,2,1,0,D18,,,DDONAIRE,,,
1007,1124,2021-06-02,ZOP,4800137375,802853 KSB CIA.SUDAM. DE BOMBAS,1,C/U,1031042,4,1,0,D49,,3000720422.0,HUANCODA,,,


In [37]:
help(filter)

## select()

In [38]:
head(select(ej20_21,Material),3)

Material
<chr>
1056412
1050053
1030923


In [40]:
tail(select(ej20_21,c(Centro,Almacen,Material)),5)

Centro,Almacen,Material
<chr>,<chr>,<chr>
1002,1128,1014104
1001,1126,1051268
1001,1126,1051269
1001,1126,1034608
1002,1129,1000067


# dplyr

In [None]:
library(dplyr)

In [None]:
nombre <- c('Emanuel','Maximiliano','Claudia','Sara','Sebastian')
edad <- c(24,23,45,68,37)
sexo <- c('masculino','masculino','femenino','femenino','masculino')

In [None]:
dataf <- data.frame(nombre,edad,sexo)
dataf

In [None]:
filter(dataf,sexo=='femenino')

In [None]:
select(dataf,nombre,edad)

In [None]:
t_sexo <- table(dataf$sexo)
t_sexo

## tabla a data frame

In [None]:
df_sexo <- as.data.frame(t_sexo)
df_sexo

In [None]:
str(t_sexo)

## str()

In [None]:
nombre <- c('Emanuel','Maximiliano','Claudia','Sara','Sebastian')
edad <- c(24,23,45,68,37)
sexo <- c('masculino','masculino','femenino','femenino','masculino')
dataf <- data.frame(nombre,edad,sexo)

In [None]:
str(dataf)

In [None]:
str(nombre)

In [None]:
tabla <- table(dataf$sexo)

In [None]:
str(tabla)

## rnorm

In [None]:
x <- rnorm(n=200, mean=170, sd=5)
hist(x)

## Histograma

In [None]:
hist(iris$Sepal.Width)

In [None]:
str(iris)

In [None]:
45*4

In [None]:
fechas <- c('14/3/2022','7/6/2022','9/6/2022','9/6/2022','9/6/2022','9/6/2022','9/6/2022','9/6/2022','9/6/2022','9/6/2022',
            '9/6/2022','9/6/2022','9/6/2022','10/6/2022','13/6/2022','16/6/2022','16/6/2022','16/6/2022','16/6/2022',
            '16/6/2022','16/6/2022','16/6/2022','16/6/2022','16/6/2022','16/6/2022','16/6/2022','16/6/2022','16/6/2022')

In [None]:
table(fechas)/length(fecha)*100

In [None]:
table(fechas)/length(fechas)*100

# Tabla de frecuencias (distintas distribuciones)

## Distribución uniforme entre cero y no
Esta distribución se usa cuando todos los elementos de la población tienen identica probabilidad
de aparecer en nuetra muestra. También se llama rectangular.

In [None]:
#sumulemos 1000 uniformes entre cero y uno
x <- runif(1000)

In [None]:
hist(x)

In [None]:
#Generamos el números de clases con la regla sturges:
k <- nclass.Sturges(x)
k

In [None]:
#Separamos los valores de x en k intervalos de clases
intervalos <- cut(x,breaks=k)

In [None]:
# Calculamos las frecuencias absolutas(cuantos elementos caen en cada clase)
FA <- table(intervalos)
FA

In [None]:
barplot(FA)

In [None]:
#Para obtener las frecuencias relativas(tenemos la probabilidad de caer en cada clase)
FR <- FA <- table(intervalos)/length(x)
FR

In [None]:
class(FR)

In [None]:
barplot(FR)

## Distribución normal estandar
Esta distribución se usa cuando la mayoría de los elementos de la población se acercan a la media y el comportamiento es
simétrico. Es la base del teorema del límite central y de muchas propiedades estadísticas.

In [None]:
#Sumulemos 1000 normales con media cero y ds uno:
y <- rnorm(1000)

In [None]:
hist(y)

In [None]:
k2 <- nclass.Sturges(y)
k2

In [None]:
intervalos2 <- cut(y, breaks=k2)

In [None]:
FA2 <- table(intervalos2)
FA2

In [None]:
barplot(FA2)

In [None]:
FR2 <- table(intervalos2)/length(y)
FR2

In [None]:
barplot(FR2)

## Distribución Exponencial
Esta distribución se usa cuando la x represnta tiempo entre ocurrencia de eventos. Por ejemplo tiempo entre la llegada
de dos autos a un estacionamiento.

In [None]:
z <- rexp(1000,rate=1)

In [None]:
hist(z)

In [None]:
k3 <- nclass.Sturges(z)
k3

In [None]:
intervalos3 <- cut(z,breaks=k3)

In [None]:
FA3 <- table(intervalos3)
FA3

In [None]:
barplot(FA3)

In [None]:
FR3 <- table(intervalos3)/length(z)
FR3

In [None]:
barplot(FR3)

## Distribución de Poisson
Estra distribución se usa cuando la h representa el número de ocurrencia por unidad de tiempo.
Por ejemplo, el número de llegadas de autos a un estacionamiento.

In [None]:
h <- rpois(1000,lambda=10) #10 es el promedio de ocurrencia por unidad de tiempo

In [None]:
hist(h)

In [None]:
k4 <- nclass.Sturges(h)
k4

In [None]:
intervalos4 <- cut(h,breaks=k4)

In [None]:
FA4 <- table(intervalos4)
FA4

In [None]:
barplot(FA4)

In [None]:
FR4 <- table(intervalos4)/length(h)
FR4

In [None]:
barplot(FR4)

# Representación gráfica para datos sin agrupar
Se usan:
* Diagrama de barra
* Polígono de frecuencia

# ggplot2

In [None]:
#packageDescription("ggplot2")

## boxplot
* visualizar una variable numérica de diferentes grupos o categorías
* facilita la vida cuando comparamos varios grupos

In [None]:
datos <- c(23,24,24,25,29,31,31,33,34,24,36,36,37,39,39,40,41,45,40,20)
length(datos)

In [None]:
datos <- sort(datos)

In [None]:
datos

In [None]:
str(datos)

### Cálculo de los cuartiles<br>
**1<sup>er</sup> Cuartil**: Primer valor al 25% de los datos, N=20, N/4=5, el 1er Cuartil es igual a la media aritmética entre este valor y el siguiente, (24+25)/2=24.5<br>
**2<sup>do</sup> Cuartil**:Mediana de los datos N/2=10, la mediana es la media aritmética de dicho valor y el siguiente, (33+34)/2=33.5<br>
**3<sup>er</sup> Cuartil**: Valor que sobre pasa al 75% de los datos 3N/4=15, la mediana es la media aritmética de dicho valor y el siguiente,(39+39)/2=39<br>
**Longitud de brazos(bigotes)**<br>
RIC = 3er cuartil - 1er cuartil<br>
Límite superior = 3er cuartil + 1.5 RIC<br>
Límite inferior = 1er cuartil - 1.5 RIC<br>
**Valores Raros(outliers)**<br>
Cualquier valor que sea más grande que 1.5 veces la distancia de la caja + cuartil 3 es un valor muy muy grande<br>

In [None]:
library(datasets)

In [None]:
data(iris)

In [None]:
summary(iris)

In [None]:
head(iris,5)

In [None]:
str(iris)

In [None]:
boxplot(Sepal.Width ~ Species,data=iris,
       main="Sepal.With",
       ylab="Longitud del sepalo en cm",
       col=c("darkorchid4","chartreuse2","darkgoldenrod2"))

In [None]:
boxplot(Sepal.Width ~ Species,data=iris,lwd=2, main="Sepal.with",ylab="Longitud de sepalo en cm")
stripchart(Sepal.Width ~ Species, vertical=TRUE,data=iris,method="jitter",add=TRUE,pch=20,cex=1.5,col='#3AC263')

In [None]:
library(ggplot2)

In [None]:
box <- ggplot(iris,aes(x=Species,
                      y=Sepal.Width,
                      fill=Species))
box + geom_boxplot() + scale_fill_manual(values=c('#460F7C','#85D135','#F9E15C'))

In [None]:
library(tidyverse)

In [None]:
data("diamonds")

In [None]:
head(diamonds,5)

In [None]:
str(diamonds)

In [None]:
ggplot(diamonds,aes(x=carat,y=price))+geom_point(aes(color=cut))+theme_classic()

In [None]:
#usando alpha
ggplot(diamonds,aes(x=carat,y=price))+geom_point(aes(color=cut),alpha=0.1)+theme_classic()

In [None]:
data("mtcars")

In [None]:
str(mtcars)

In [None]:
ggplot(mtcars,aes(x=mpg,y=wt))+geom_point() #+theme_classic(),theme_bw()

## Argumentos para geoms
* color: color de líneas o puntos
* alpha: transparencia de 0 a 1
* size: tamaño de puntos
* shape: tipo de punto
* fill: color dentro un área(barras, intervalos)

In [None]:
ggplot(mtcars,aes(x=mpg,y=wt))+geom_point()+theme_classic()

In [None]:
str(ChickWeight)

In [None]:
ggplot(ChickWeight,aes(x=Time,y=weight))+geom_point(aes(color=Diet))

In [None]:
ggplot(ChickWeight,aes(x=Time,y=weight))+geom_point(aes(color=Diet,size=weight))

In [None]:
ggplot(ChickWeight,aes(x=Time,y=weight))+geom_point(aes(color=Diet,shape=Diet))

In [None]:
str(iris)

In [None]:
ggplot(iris,aes(x=Species,y=Sepal.Length))+geom_boxplot(aes(color=Species))

In [None]:
ggplot(iris,aes(x=Species,y=Sepal.Length))+geom_boxplot(aes(fill=Species))

In [None]:
ggplot(iris,aes(x=Species,y=Sepal.Length))+geom_jitter(aes(color=Species))

In [None]:
ggplot(iris,aes(x=Species,y=Sepal.Length))+geom_violin()

In [None]:
ggplot(iris,aes(x=Species,y=Sepal.Length))+geom_violin()+coord_flip()

## combinando gráficos

In [None]:
ggplot(iris,aes(x=Species,y=Sepal.Width))+geom_violin()+geom_jitter(aes(color=Species))

# Datasets

## Dataset mtcars

In [None]:
attach(mtcars)

In [None]:
View(mtcars)

## dataset diamonds

In [None]:
data("diamonds")

In [None]:
head(diamonds,20)

## dataset iris

In [None]:
data("iris")

In [None]:
head(iris,15)

In [None]:
data("ChickWeight")

In [None]:
str(ChickWeight)

In [None]:
head(ChickWeight,15)

# sample()

In [None]:
help(sample)

In [None]:
x <- 1:20

In [None]:
x

In [None]:
sample(x,5) #a random permutation

In [None]:
sample(x, replace=TRUE)