Los datos consisten en la cantidad de derechohabientes por estado en la república mexicana durante el año 2015. Fueron obtenidos de [aquí ](https://www.inegi.org.mx/app/tabulados/interactivos/?px=Derechohabiencia_02&bd=Derechohabiencia).

Al archivo se le eliminan columnas y filas de datos que se escapan del interés de esta tarea.

En primer lugar, se leen los datos.

In [124]:
require(gdata)
df = read.xls("datos.xlsx", sheet = 1)

Se muestra un ejemplo de los datos obtenidos.

In [125]:
s = sample(nrow(df), 3)

df[s, ]

Unnamed: 0_level_0,lugar,cantidad,imss,issste,pemex,popular,privada,otras
Unnamed: 0_level_1,<chr>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
12,Guanajuato,4974580,1761307,270398,41450,2911875,91681,29948
24,QR,1213713,604135,98339,9201,494100,38057,9832
15,Jalisco,6336224,3311198,217706,34347,2583787,236651,100277


Se pueden extraer las columnas con

In [126]:
names(df)

y la cantidad de filas y columnas con

In [127]:
filas = nrow(df)
cols = ncol(df)

De estos datos, la primera muestra los totales de toda república mexicana.

In [128]:
df[1,]

Unnamed: 0_level_0,lugar,cantidad,imss,issste,pemex,popular,privada,otras
Unnamed: 0_level_1,<chr>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
1,Estados Unidos Mexicanos,98224540,38488615,7568987,1129739,49018903,3210771,1522022


Interesa, primeramente, revisar si la suma por institución corresponde a la cantidad mostrada para el total del país. Para ello, primero se extraenlos datos de los estados.

In [129]:
indices_estados = seq(2,filas, 1)
estados = df[indices_estados,]
estados[1,]

Unnamed: 0_level_0,lugar,cantidad,imss,issste,pemex,popular,privada,otras
Unnamed: 0_level_1,<chr>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
2,Ags,1140619,635381,89700,1889,425190,31167,3112


Se puede calcular la diferencia entre la suma de los registrados por cada estado respecto a los reportados para el país.

In [130]:
instituciones = c('cantidad', 'imss','issste','pemex','popular','privada','otras')
dif = c("diferencia")
for (i in instituciones){
    t = df[1,i] - sum(estados[,i])
    dif = append(dif, t)
}
dif

Así se ve que la diferencia es de 0, por lo que se puede prescindir de la información de la república para analizar sólo los datos de los estados. Primero se verán los diagramas de cajas y bigotes por institución.

In [131]:
# http://www.sthda.com/english/wiki/creating-and-saving-graphs-r-base-graphs
png("imgs/inst.png")
boxplot(estados[,3:8], xlab="Instituciones", ylab="Afiliados")
dev.off()

Esto mismo podría representarse en escala logarítmica para apreciar un poco mejor los diagramas:

In [132]:
png("imgs/inst_log.png")
boxplot(log(estados[, 3:8]), xlab="Instituciones", ylab="Log. de afiliados")
dev.off()

In [136]:
# https://blog.revolutionanalytics.com/2015/09/resizing-plots-in-the-r-kernel-for-jupyter-notebooks.html
library(repr)
options(repr.plot.width=12, repr.plot.height=8)

# https://stackoverflow.com/a/14872915/3113008
png("imgs/estados.png", width = 1200, height = 640, pointsize = 22)
boxplot(t(estados[, 3:8]), names=estados[,1], las = 2)
dev.off()