# Gestión de paquetes

En R hay multitud de paquetes que pueden ampliar su funcionalidad con nuevas funciones.
Existe un repositorio oficial en [CRAN](https://cran.r-project.org/web/packages/index.html)

R permite gestionar los paquetes mediante los comandos:
* install.packages(pkgs, respos): Instala nuevos paquetes.
* installed.packages(): Muestra los paquetes instalados.
* remove.packages(pkgs) : Borra los paquetes indicados.
* library(pkg) : Carga en memoria el paquete indicado.

# Gráficos

Ya hemos visto como realizar gráficos con *plot*. Existe una librería más completa llamada ggplot2.

In [None]:
# instalación
#install.packages(c('ggplot2'), repos='https://cran.rstudio.com/')

In [None]:
library("ggplot2")
options(repr.plot.height=6,repr.plot.width=8 , repr.plot.res = 200)

#### Ejemplo de gráficas

In [None]:
#ggplot crea un objeto para representar gráficos
#geom_line crea una linea sobre el objeto ggplot
#geom_point muestra los puntos sobre el objeto ggplot
#El objeto aes, indica que columnas vamos a usar para las coordenadas X e Y

ggplot(data=mydf, aes(x=dfx, y=dfy))+geom_line(color="blue")+geom_point(color="red")

In [None]:
mydf2[sort(sample(1:nrow(mydf2), 5)),]

In [None]:
summary(mydf2)

In [None]:
g <- ggplot(data=mydf2,aes(x=dfx,y=dfy,color=type))

In [None]:
summary(g)

In [None]:
g<-g+geom_line()+geom_point()

In [None]:
summary(g)

In [None]:
g

R tiene varios datasets incorporados. En este caso vamos a usar el dataset de iris.

Este conjunto de datos de iris da medidas en centímetros de las variables longitud y anchura del sépalo, y de los pétalos, para 50 flores de cada una de las 3 especies de iris. Las especies son _Iris setosa_, _versicolor_ y _virginica_.
![](https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg/220px-Kosaciec_szczecinkowaty_Iris_setosa.jpg)

In [None]:
summary(iris)

In [None]:
iris[sample(1:nrow(iris),5),]

In [None]:
ggplot(data=iris,aes(x=Species, y=Sepal.Length,color=Species))+geom_boxplot()+
 scale_color_discrete(name="Longitud")


In [None]:
ggplot(data=iris,aes(x=Sepal.Width, y =Sepal.Length, color=Species, shape=Species))+
  geom_jitter(size=3)+
  scale_color_discrete("Especies")+
  theme_bw()+ xlab("Anchura del sépalo")+ylab("Longitud del sépalo")+
  ggtitle("Comparación del ancho y longitud del sépalo")

### Ejemplo con los seguros de coche

Partimos del dataset de automóviles y seguros que podemos descargar de:

https://archive.ics.uci.edu/ml/datasets/Automobile

Al igual que usamos en el capítulo 1.

In [None]:
autos<-read.csv("./data//imports-85.data", col.names = c("risk", "normalized_losses", 
                                                         "make", "fuel_type", "aspiration",
           "num_doors", "body_style", "drive_wheels", "engine_location",
           "wheel_base", "length", "width", "height", "curb_weight",
           "engine_type", "num_cylinders", "engine_size", "fuel_system",
           "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
           "city_mpg", "highway_mpg", "price"))

In [None]:
ggplot(data=autos, aes(x=length, y=width))+
 geom_point(aes(size=height),alpha=0.4)+
 scale_size_continuous(name="Altura")+
 xlab("Longitud del coche")+
 ylab("Ancho del coche")

Recomendada la visualización de Hans Rosling:
https://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen

In [None]:
ggplot(data=autos, aes(x=body_style, y=length, color=body_style))+geom_boxplot()

In [None]:
unique(autos$body_style)

## Ejemplo con las estrellas

*Se denomina [secuencia principal](https://es.wikipedia.org/wiki/Secuencia_principal) a la región del diagrama de Hertzsprung-Russell en la que se encuentran la mayor parte de las estrellas. Es una banda continua y distintiva de estrellas que aparece en las parcelas de color estelar versus brillo. Las estrellas en esta banda son conocidas como estrellas de secuencia principal o estrellas enanas. Por esta razón, estas estrellas son llamadas de secuencia principal. La secuencia principal termina entre las estrellas más frías de esta banda o curva que son las enanas rojas, de masa baja y comienza entre las bandas de las estrellas que se ubican hacia las altas temperaturas que son las supermasivas gigantes azules. El diagrama H-R es un diagrama estadístico que muestra la temperatura efectiva de las estrellas en función de su luminosidad. Otras regiones del diagrama están ocupadas por estrellas gigantes de corta vida y evolución rápida o por enanas blancas muy estables.*


## COVID-19


Vamos a descargarnos los datos del repositorio de la universidad Johns Hopkins donde se almacena la cantidad de casos acumulados de COVID

In [None]:
covid_url<-'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'

df<-read.csv(url(covid_url))
head(df)

In [None]:
df$Lat<-NULL
df$Long<-NULL
head(df)

In [None]:
library(reshape2)
df_cov<-melt(df,id.vars=c("Province.State","Country.Region"))
tail(df_cov)
dim(df_cov)

In [None]:
df_cov$fecha<-as.POSIXct(df_cov$variable, format='X%m.%d.%y')
head(df_cov)

In [None]:
df_country<-df_cov[df_cov$Country.Region=="Spain" | df_cov$Country.Region=="Italy",]
tail(df_country)