-
Notifications
You must be signed in to change notification settings - Fork 0
/
search_index.json
1 lines (1 loc) · 45.4 KB
/
search_index.json
1
[["index.html", "Introduccion a los Metodos de Análisis Multivariados 1 Estadístico T2 Hoteling 1.1 Estadístico T2 Hoteling para muestras independientes 1.2 Estadístico T2 Hoteling para muestras relacionadas", " Introduccion a los Metodos de Análisis Multivariados Jose Angel Urquijo Parra 1 Estadístico T2 Hoteling 1.1 Estadístico T2 Hoteling para muestras independientes consumo <- data.frame(x1 = c(72, 66.5, 54, 67, 44, 41, 34.5, 34.5, 24), x2 = c(50, 48, 57, 60, 57, 52, 50,46, 54), x3 = c(8, 15, 14, 15, 14, 18, 4, 8.5, 3), x4 = c(0.5, 1.0, 1.0, 0.9, 0.3, 19, 0.5, 1.0, 1.2)) produccion <- data.frame(y1 = c(57, 100, 100, 96.5, 79, 78.5, 48, 155, 84, 105), y2 = c(57, 54, 32, 65, 51, 53, 50, 44, 64, 35), y3 = c(12.5, 17, 16.5, 20.5, 18, 18, 21, 20.5, 13, 17), y4 = c(0.9, 0.5, 0.7, 0.9, 0.9,1.2, 1.6, 1.4, 0.8, 1.8)) consumo = as.matrix(consumo) produccion = as.matrix(produccion) n1=9 n2=10 s1=cov(consumo) s2=cov(produccion) spl=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2) y1=apply(consumo,2,mean) y2=apply(produccion,2,mean) t2=((n1*n2)/(n1+n2))*(y1-y2)%*%solve(spl)%*%(y1-y2) p=4 cal=((n1+n2-p-1)/(p*(n1+n2-2))*t2);cal [,1] [1,] 4.561045 valorp= (pf(cal,p,n1+n2-p-1, lower.tail=F));valorp [,1] [1,] 0.01443042 1.2 Estadístico T2 Hoteling para muestras relacionadas esmalte1 <- data.frame(x1 = c(73, 43, 47, 53, 58, 47, 52, 38, 61, 56, 56, 34, 55, 65, 75), x2 = c(31, 19, 22, 26, 36, 30, 29, 36, 34, 33, 19, 19, 26, 15, 18)) esmalte2 <- data.frame(y1 = c(51, 41, 43, 41, 47, 32, 24, 43, 53, 52, 57, 44, 57, 40, 68), y2 = c(35, 14, 19, 29, 34, 26, 19, 37, 24, 27, 14, 19, 30, 7, 13)) esmalte1 = as.matrix(esmalte1) esmalte2 = as.matrix(esmalte2) dif=esmalte1-esmalte2 dbarra=apply(dif,2,mean) sd=cov(dif) n=14 t2=(n*dbarra%*%solve(sd)%*%dbarra);t2 [,1] [1,] 10.09764 v=n-1 p=4 cal=((v-p+1)/(v*p))*t2 valorp = (pf(cal,p,v-p+1, lower.tail=F));valorp [,1] [1,] 0.1799308 No rechace Ho. Existe evidencia estadistica de que no hay diferencias en el grosor de los arboles en las cuatro posiciones medidas, con una significancia del 0.05. "],["inferencia-a-partir-de-la-matriz-de-covarianza.html", " 2 Inferencia a partir de la matriz de covarianza 2.1 Contraste de igualdad de matrices de covarianzas en dos poblaciones normales multivariantes 2.2 Contraste de igualdad de matrices de covarianzas para varias poblaciones", " 2 Inferencia a partir de la matriz de covarianza sigma.test<-function(Sigma_0,S,n, alpha = 0.05){ # numero de filas la matriz Sigma p<-nrow(S) gl<-(1/2)*p*(p+1) # grados de libertad # producto entre S y la inversa de Sigma_0 psigma_0<-S%*%solve(Sigma_0) #determinante de sigma_0 D_sigma_0<-det(Sigma_0) #determinante de S D_S<-det(S) # estadistica lambda E_lambda<-(n-1)*(log(D_sigma_0)-log(D_S)+ sum(diag(psigma_0))-p) # estadistica lambda E_lambda1<-(1-(1/(6*(n-1)))*(2*p+1-2/(p+1) ))* E_lambda p_val<-qchisq(1-alpha,gl) # pvalor list(E_lambda1=E_lambda1, P_valor=p_val) } Sigma_0<-matrix(c(4,3,2,3,6,5,2,5,10),nrow=3 ) S<-matrix(c(3.42,2.60,1.89,2.60,8,6.51,1.89,6.51,9.62),nrow=3) sigma.test(Sigma_0,S,n=20, alpha = 0.1) $E_lambda1 [1] 3.430008 $P_valor [1] 10.64464 # Traza de la S por la inversa de sigma_0 traza <- sum(diag((S%*%solve(Sigma_0))));traza [1] 3.221628 2.1 Contraste de igualdad de matrices de covarianzas en dos poblaciones normales multivariantes # Datos de la muestra zona1 <- matrix(c(2, 4, 4, 9, 5, 3, 3, 11, 7, 4, 5, 3, 9, 5, 6, 4, 2, 6, 7, 3), ncol = 4, byrow = TRUE) zona2 <- matrix(c(351, 276, 318, 511, 421, 321, 212, 515, 415, 220, 301, 518, 319, 415, 296, 276, 395, 218, 276, 279), ncol = 4, byrow = TRUE) # Numero de observaciones en cada muestra n1 <- nrow(zona1) n2 <- nrow(zona2) # Calcular las matrices de covarianzas muestrales para cada poblacion S1 <- cov(zona1) S2 <- cov(zona2) # Calcular la matriz de covarianza conjunta S <- (n1 * S1 + n2 * S2) / (n1 + n2) # Calcular el estadistico de contraste p <- ncol(zona1) n <- n1 + n2 log_eta <- -2*(-n/2 * log(det(S)) + n1/2 * log(det(S1)) + n2/2 * log(det(S2))) # Grados de libertad para la distribucion chi-cuadrado df <- p * (p - 1) / 2 # Valor critico para un nivel de significancia de 0.05 chi2_crit <- qchisq(0.95, df) # Comparar el estadistico de contraste con el valor crítico if (log_eta > chi2_crit) { cat("Rechazamos la hipotesis nula H0") } else { cat("No rechazamos la hipotesis nula H0") } Rechazamos la hipotesis nula H0 # Mostrar el valor del estadistico de contraste y el valor critico cat("Estadistico de contraste:", log_eta, "\\n") Estadistico de contraste: 134.3843 cat("Valor critico (chi-cuadrado):", chi2_crit, "\\n") Valor critico (chi-cuadrado): 12.59159 2.2 Contraste de igualdad de matrices de covarianzas para varias poblaciones contraste de igualdad de matrices de covarianzas Datos y matrices de covarianzas: Se tienen tres grupos de personas: oficinistas, operadores de máquinas y conductores. Cada grupo tiene un tamaño de muestra \\(n_1 = 26\\), \\(n_2 = 23\\) y \\(n_3 = 25\\) respectivamente. Las matrices de covarianza estimadas para cada grupo son: \\(S_1 = \\begin{pmatrix} 12.65 & -16.45 \\\\ -16.45 & 73.04 \\end{pmatrix}\\) \\(S_2 = \\begin{pmatrix} 11.44 & -27.77 \\\\ -27.77 & 100.64 \\end{pmatrix}\\) \\(S_3 = \\begin{pmatrix} 14.46 & -31.26 \\\\ -31.26 & 101.03 \\end{pmatrix}\\) La matriz de covarianza conjunta estimada es \\(S_p = \\begin{pmatrix} 12.89 & -24.96 \\\\ -24.96 & 91.05 \\end{pmatrix}\\). Cálculo de rho : Utilizando la fórmula: \\[ \\rho = 1 - \\frac{1}{N} \\left( \\frac{1}{v_1} + \\frac{1}{v_2} + \\frac{1}{v_3} - \\frac{1}{v} \\right) \\] donde \\(v_1 = n_1 - 1\\), \\(v_2 = n_2 - 1\\), \\(v_3 = n_3 - 1\\) y \\(v = N - q\\), siendo \\(N = n_1 + n_2 + n_3\\) el tamaño total de la muestra y \\(q = 3\\) el número de grupos. Sustituyendo los valores: \\[ \\rho = 1 - \\frac{1}{74} \\left( \\frac{1}{25} + \\frac{1}{22} + \\frac{1}{24} - \\frac{1}{71} \\right) \\] Calculamos \\(\\rho\\) y obtenemos \\(\\rho = 0.9592\\). Cálculo de -2 ln(lambda_1^N): Utilizando la fórmula: \\[ -2 \\ln(\\lambda_1^N) = v \\ln(\\det(S_p)) - \\sum_{i=1}^q v_i \\ln(\\det(S_i)) \\] donde \\(\\lambda_1^N\\) es la razón de máxima verosimilitud generalizada, \\(v\\) es el número de grados de libertad, \\(v_i\\) son los grados de libertad para el grupo \\(i\\), \\(q\\) es el número de grupos y \\(S_p\\) y \\(S_i\\) son las matrices de covarianza conjunta y para el grupo \\(i\\) respectivamente. Sustituyendo los valores: \\[ -2 \\ln(\\lambda_1^N) = 71 \\ln(550.21) - 25 \\ln(653.35) - 22 \\ln(380.15) - 24 \\ln(483.71) \\] Calculamos \\(-2 \\ln(\\lambda_1^N)\\) y obtenemos \\(-2 \\ln(\\lambda_1^N) = 6.93\\). # Definir los datos y matrices de covarianza n1 <- 26 n2 <- 23 n3 <- 25 S1 <- matrix(c(12.65, -16.45, -16.45, 73.04), nrow = 2) S2 <- matrix(c(11.44, -27.77, -27.77, 100.64), nrow = 2) S3 <- matrix(c(14.46, -31.26, -31.26, 101.03), nrow = 2) Sp <- matrix(c(12.89, -24.96, -24.96, 91.05), nrow = 2) # Calcular rho N <- n1 + n2 + n3 v1 <- n1 - 1 v2 <- n2 - 1 v3 <- n3 - 1 v <- N - 3 rho <- 1 - (1 / N) * (1/v1 + 1/v2 + 1/v3 - 1/v) # Calculamos -2 * ln(lambda1^N) ln_lambda1N <- v * log(det(Sp)) - v1 * log(det(S1)) - v2 * log(det(S2)) - v3 * log(det(S3)) # Mostramos los resultados print("Valor de rho:") [1] "Valor de rho:" print(rho) [1] 0.9984725 print("-2 * ln(lambda1^N):") [1] "-2 * ln(lambda1^N):" print(ln_lambda1N) [1] 6.985055 # Grados de libertad para la distribucion chi-cuadrado df <- p * (p - 1) / 2 # Valor critico para un nivel de significancia de 0.05 chi2_crit <- qchisq(0.95, df) "],["distribution-of-tortoises-and-freshwater-turtles-of-the-colombian-caribbean.html", " 3 Distribution of Tortoises and Freshwater Turtles of the Colombian Caribbean 3.1 Análisis exploratorio. Distribution of Tortoises and Freshwater Turtles", " 3 Distribution of Tortoises and Freshwater Turtles of the Colombian Caribbean 3.1 Análisis exploratorio. Distribution of Tortoises and Freshwater Turtles # Cargamos los datos tortugas <- data.frame( length_Hem = c(98, 103, 103, 105, 109, 123, 123, 133, 133, 133, 134, 136, 138, 138, 141, 147, 149, 153, 155, 155, 158, 159, 162, 177), length_Mach = c(93, 94, 96, 101, 102, 103, 110, 106, 107, 112, 113, 114, 116, 117, 117, 119, 120, 120, 121, 125, 127, 130, 131, 135), width_Hem = c(81, 84, 86, 86, 88, 92, 95, 99, 102, 102, 100, 102, 98, 99, 105, 108, 107, 107, 115, 120, 115, 118, 124, 132), width_Mach = c(74, 78, 80, 84, 85, 81, 83, 83, 88, 89, 88, 86, 90, 90, 91, 93, 89, 93, 95, 93, 96, 95, 95, 106), height_Hem = c(38, 38, 42, 42, 44, 50, 46, 51, 51, 51, 48, 49, 51, 51, 53, 57, 55, 56, 63, 68, 62, 63, 61, 67), height_Mach = c(37, 35, 35, 39, 38, 37, 39, 39, 38, 40, 40, 40, 43, 41, 41, 41, 40, 44, 44, 45, 45, 45, 46, 47) ) # Resumen de los datos descr(tortugas) Descriptive Statistics tortugas N: 24 height_Hem height_Mach length_Hem length_Mach width_Hem width_Mach ----------------- ------------ ------------- ------------ ------------- ----------- ------------ Mean 52.38 40.79 136.04 113.71 102.71 88.54 Std.Dev 8.54 3.41 21.25 11.75 13.26 6.95 Min 38.00 35.00 98.00 93.00 81.00 74.00 Q1 47.00 38.50 123.00 104.50 93.50 83.50 Median 51.00 40.00 137.00 115.00 102.00 89.00 Q3 59.00 44.00 154.00 120.50 111.50 93.00 Max 68.00 47.00 177.00 135.00 132.00 106.00 MAD 8.15 3.71 22.24 12.60 12.60 6.67 IQR 10.50 5.25 30.50 15.00 15.50 9.25 CV 0.16 0.08 0.16 0.10 0.13 0.08 Skewness 0.13 0.13 -0.22 -0.10 0.29 0.13 SE.Skewness 0.47 0.47 0.47 0.47 0.47 0.47 Kurtosis -0.95 -1.09 -0.92 -1.00 -0.71 0.05 N.Valid 24.00 24.00 24.00 24.00 24.00 24.00 Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00 Al considerar los diversos resultados, podemos hacer comparativas entre las tres medidas presentadas: Largo: podemos apreciar que al tomar la medida del largo de las tortugas, las hembras son la que en promedio presentan mayor distancia, sin embargo, tambien son las que mayor rango tienen, y presentan una desviación de 21.25, 9.5 unidades mayor que la desviación de los machos, donde se aprecia que el rango de los machos no es tan grande como el de las hembras. Alto: Se observa que al igual que en el caso anterior, las hembras poseen en promedio mayores distancias registradas que los hombres, algo que también se evidencia en la deviación estándar y también presentan un mayor rango que en el caso de los hombres. Ancho: Las apreciaciones anteriores, obtienen un comportamiento similar en este caso, pues son las mujeres las que en promedio mayor distancia poseen, mayor desviación y rango tienen en comparación con los machos observados. Estas observaciones preliminarmente sugieren que las tortugas hembras se caracterizan por ser más grandes que los machos. Por otro lado al observar la asimetría se puede apreciar que de las 3 variables (observándolo de manera general) la medida de la longitud es negativa, siendo cercana a cero, indicando una leve concentración de los ladtos al lado derecho de la mediana, sin embargo esta cercania al cero, también da indicios de una aproximación a una simetría por parte de la variable. De manera similar ocurre con las otras dos variables tanto para machos como hembras, solo que los datos tienden a concentrarse levemente al lado izquierdo de la mediana, pero con valores lo suficientemente cercanos a cero para considerar que también se aproximan a tener simetría en su distribución. Ahora bien, sobre la curtosis de los datos se apreciar que esta es negativa en su mayoría, un hecho que solo difiere en la variable de anchura en el macho; sin embargo, se puede apreciar que sus valores son bastantes próximos a cero, lo que sugiere desde un punto preliminar que las variables se aproximan a una distribución normal. # Calcular matriz de correlación correlation_matrix <- cor(tortugas) corrplot(correlation_matrix, method = "circle", type = "upper", tl.col = "black", tl.srt = 45, diag = FALSE, addCoef.col = "black", number.cex = 0.7, tl.cex = 0.8, cl.cex = 0.8, mar = c(0,0,2,0), main = "Matriz de Correlación") 3.1.1 Dispersograma de los datos. Realice un dispersograma de los datos. En el dispersograma use puntos de acuerdo con el color de la especie por sexo. ¿Considera que el color en realidad diferencia las especies? Justifique su respuesta. attach(tortugas) s3d_hembra <- scatterplot3d(x = length_Hem, y = width_Hem, z = height_Hem, color = "blue", pch = 19, type = "p", main = "Tortugas", xlab = "Longitud", ylab = "Ancho", zlab = "Altura") s3d_hembra$points3d(x = length_Mach, y = width_Mach, z = height_Mach, col = "red", pch = 19) legend("topright", legend = c("Hembra", "Macho"), col = c("blue", "red"), pch = 19) title(main = "Tortugas") detach(tortugas) 3.1.2 Boxplot adecuado. Comente los resultados. # Convertir el marco de datos a un formato largo (tidy data) tortugas_long <- pivot_longer(tortugas, cols = everything(), names_to = "variable", values_to = "valor") ggplot(tortugas_long, aes(x = variable, y = valor, fill = variable)) + geom_boxplot() + facet_wrap(~ variable, scales = "free") + xlab("Variable") + ylab("Valor") + ggtitle("Boxplot de Variables de Tortugas") + theme(plot.title = element_text(hjust = 0.5)) 3.1.3 Distancia de Mahalanobis entre los centroides de los dos sexos. SxH <- cov(tortugas[,c(1,3,5)]) SxM <- cov(tortugas[,c(2,4,6)]) mahalanobisH <- mahalanobis(tortugas[,c(1,3,5)], colMeans(tortugas[,c(1,3,5)]), SxH) mahalanobisM <- mahalanobis(tortugas[,c(2,4,6)], colMeans(tortugas[,c(2,4,6)]), SxM) par(mfrow = c(1,2)) qqPlot(mahalanobisH, distribution ="chisq", df = 3 , main ="QQ Plot Hembras", ylab ="", las =0) [1] 20 24 title(ylab =" Distancias de Mahalanobis ") qqPlot(mahalanobisM, distribution ="chisq", df = 3 , main ="QQ Plot Machos", ylab ="", las =0) [1] 24 1 title(ylab =" Distancias de Mahalanobis ") par(mfrow = c(1,1)) 3.1.4 Test de Kolmogorov-Smirnov y Shapiro-Wilk. En este apartado, tengase en cuenta el siguiente juego de hipótesis para contrastar la normalidad marginal del conjunto de datos para la prueba de Kolmogorov-Smirnov (KS) y Shapiro-Wilk (SW). H\\(_0\\): los datos provienen de una distribución normal H\\(_1\\): los datos no provienen de una distribución normal # funcion para pruebas de normalidad para cada columna individual results_KS <- lapply(tortugas, function(x) { ks.test(x, "pnorm", mean = mean(x), sd = sd(x)) }) results_SW <- lapply(tortugas, shapiro.test) # Combinar los resultados en un marco de datos results_df <- data.frame( Variable = names(tortugas), KS_p_value = sapply(results_KS, function(x) x$p.value), SW_p_value = sapply(results_SW, function(x) x$p.value) ) rownames(results_df) <- NULL results_df %>% kable() Variable KS_p_value SW_p_value length_Hem 0.6409653 0.3458763 length_Mach 0.9987789 0.7910622 width_Hem 0.9553171 0.7440934 width_Mach 0.9705143 0.8353357 height_Hem 0.6751271 0.4921829 height_Mach 0.7157577 0.3509175 Con la información de la tabla anterior, se observa que los p valores tiene valores altos para cada prueba, que con un \\(\\alpha = 0.05\\), se obtiene que los p-valores > \\(\\alpha\\) por lo tanto no se rechaza H\\(_0\\) y se concluye que los datos marginalmente provienen de una distribución normal. Cabe mencionar que para ambos tipos de test esto se ratifica. 3.1.5 Gráfico QQplot multinormalidad de los datos. La figura que se muestra a continuación pretende analizar la normalidad marginal del conjunto de datos tortugas. La idea principal es que los puntos se encuentren sobre la linea de referencia (color rojo) para que su comportamiento se considere normal. Por lo tanto, se encuentra que la normalidad parece cumplirse para cada uno de las variables, lo cual concuerda con los test de normalidad realizados en el inciso anterio # Función para crear QQ plot create_qqplot <- function(data, col_name) { ggplot(data, aes(sample = .data[[col_name]])) + geom_qq() + geom_qq_line(color = "red") + labs(title = paste("QQ plot", col_name)) + theme(plot.title = element_text(hjust = 0.5)) } # Crear QQ plot para cada columna qqplots <- lapply(names(tortugas), function(col) { create_qqplot(tortugas, col) }) # Mostrar los QQ plots en la misma ventana grid.arrange(grobs = qqplots, ncol = 2) 3.1.6 Test de Shapiro-Wilk multivariado y Mardia A continuación realizaremos test de multinormalidad para cada grupo de tortugas (machos y hembras) usando los test de shapiro-wilk multivariado y el test de Mardia analizando el test de Anderson -Darling. Para el contraste de la shapiro-wilk téngase en cuenta el juego de hipótesis expuesto para la shapiro-wilk univariada # Resultados de la prueba de Shapiro ShapiroH <- mshapiro.test(t(tortugas[,c(1,3,5)])); ShapiroH Shapiro-Wilk normality test data: Z W = 0.88576, p-value = 0.01087 ShapiroM <- mshapiro.test(t(tortugas[,c(2,4,6)])); ShapiroM Shapiro-Wilk normality test data: Z W = 0.94247, p-value = 0.1851 Teniendo en cuenta los p-valores para cada uno de los grupos y un \\(\\alpha = 0.05\\), se concluye que hay evidencia significativa para rechzar la multinormalidad en los datos del grupo de las hembras dado que el p-valor < \\(\\alpha\\). Contrario a lo que sucede con las tortugas machos, cuyo p-valor > \\(\\alpha\\) lo que indica que hay evidencia significativa para aceptar la multinormalidad para este grupo. # Resultados de la prueba de Mardia mardiaH <- mvn(data = tortugas[,c(1,3,5)], mvnTest = "mardia"); mardiaH[c(1,2)] $multivariateNormality Test Statistic p value Result 1 Mardia Skewness 19.2915141939567 0.0367124740909937 NO 2 Mardia Kurtosis 0.356039059194154 0.721811314232731 YES 3 MVN <NA> <NA> NO $univariateNormality Test Variable Statistic p value Normality 1 Anderson-Darling length_Hem 0.4283 0.2863 YES 2 Anderson-Darling width_Hem 0.2367 0.7609 YES 3 Anderson-Darling height_Hem 0.3218 0.5099 YES mardiaM <- mvn(data = tortugas[,c(2,4,6)], mvnTest = "mardia"); mardiaM[c(1,2)] $multivariateNormality Test Statistic p value Result 1 Mardia Skewness 5.14510497861245 0.881276336058678 YES 2 Mardia Kurtosis -0.291653421791725 0.770551625535058 YES 3 MVN <NA> <NA> YES $univariateNormality Test Variable Statistic p value Normality 1 Anderson-Darling length_Mach 0.1771 0.9105 YES 2 Anderson-Darling width_Mach 0.2374 0.7584 YES 3 Anderson-Darling height_Mach 0.4284 0.2862 YES Teniendo en cuenta el test de Mardia para cada grupo se observa lo siguiente: Mardia Skewness: La estadística de asimetría de Mardia es 19.29 para las hembras y 5.14 para los machos, y el valor p asociado es 0.03 y 0.88, respecticamente. Lo que indica que hay evidencia suficiente para rechazar la hipótesis nula de asimetría multivariada para la hembras, mientras que para los machos no hay evidencia suficiente para rechazar. Mardia Kurtosis: La estadística de curtosis de Mardia es de 0.35 para las hembras y -0.29 para los machos. Los valores p asociado a cada grupo es 0.72 y 0.77 respectivamente, lo que sugiere que no hay suficiente evidencia para rechazar la hipótesis nula de curtosis multivariada para ambos grupos. En el test de Anderson-Darling muestra que existe evidencia significativa para no rechazar la normalidad marginal para las variables de cada grupo, dado que los p-valores > \\(\\alpha\\). 3.1.7 Diferencias estadísticas fuertes entre dichos géneros. Para esto realizaremosdos tipos de hipótesis: test de comparacion de matrizde varianzas y covarianzas y test de comparación de medias. Esto comparando los grupos machos y hembras. Para esto, realizaremos en primera instancia el test contrastar matriz de varianzas y covarianzas, con el siguiente juego de hipótesis: H\\(_0\\) : \\(\\mathbf{\\Sigma}_1 - \\mathbf{\\Sigma}_2 = \\mathbf{0}\\). H\\(_1\\) : \\(\\mathbf{\\Sigma}_1 - \\mathbf{\\Sigma}_2 \\neq \\mathbf{0}\\). Así, el proceso de juzgamiento esta dado a continuación: testPobs <- function(..., alpha){ pobs <- list(...) ns <- sapply(pobs, nrow) p <- ncol(pobs[[1]]) q <- length(pobs) df <- (1/2)*p*(p+1)*(q-1) nui <- (ns-1) nu <- sum(nui) rho <- rho <- 1 - (((2*p^2+3*p-1)/(6*(p+1)*(q-1)))*(sum(1/nui) - 1/nu)) S <- list() for (i in 1:length(pobs)){ S[[i]] <- cov(pobs[[i]]) } x <- 0 for (i in 1:length(S)){ x1 <- nui[i]*S[[i]] x <- x + x1 } sp <- x/nu logS <- sapply(S, function(s) determinant(s, log=TRUE)$mod[1]) logSP <- determinant(sp, log = TRUE)$mod[1] logM <- rho*(sum(nui*logSP) - sum(nui*logS)) tab <- qchisq(alpha, df = df, lower.tail = FALSE) p_value <- pchisq(logM, df, lower.tail = FALSE) tabla <- data.frame('Valor Tab' = tab, 'Est. Prueba' = logM, 'p-value' = p_value) row.names(tabla) <- c('Test Varianzas') print(tabla) } testPobs(as.matrix(tortugas[, c(1, 3, 5)]), as.matrix(tortugas[, c(2, 4, 6)]), alpha = 0.05) Valor.Tab Est..Prueba p.value Test Varianzas 12.59159 28.26133 8.388967e-05 Teniendo en cuenta la información de la tabla anterior y definido un \\(\\alpha = 0.05\\) se obtiene que el p-valor < \\(\\alpha\\) por lo tanto se rechaza H\\(_0\\) y no se rechaza H\\(_1\\) lo que nos lleva a que existen diferencias significativas en la matriz de varianzas y covarianzas de las tortugas hembras y machos. Considerando que existen diferencias significativas entre las matrices de varianzas y covarianzas de las tortugas hembras y machos y que el numero de tortugas observadas es igual para cada grupo, se propone comparar las medias de cada grupo usando el test de muestras paredas, con el siguiente juego de hipótesis: Ho: \\(\\mathbf{\\mu}_1 = \\mathbf{\\mu}_2\\) H1: \\(\\mathbf{\\mu}_1 \\neq \\mathbf{\\mu}_2\\) PareadasTest <- function(Pob1, Pob2){ n <- nrow(Pob1) p <- ncol(Pob1) distan <- (Pob1 - Pob2) distanMean <- matrix(colMeans(distan)) Sd <- cov(distan) T2 <- n*t(distanMean)%*%solve(Sd)%*%distanMean T20 <- (T2/(n-1))*((n-p)/p) P_value <- pf(T20, p, n-1, lower.tail = FALSE) Quan <- qf(0.05, p, n-1, lower.tail = FALSE) print(data.frame(T20 = T20, Cuantil = Quan, P_valor = P_value)) } PareadasTest(tortugas[, c(1, 3, 5)], tortugas[, c(2, 4, 6)]) T20 Cuantil P_valor 1 35.43449 3.027998 8.59217e-09 Teniendo en cuenta la información de la tabla anterior y definido un \\(\\alpha = 0.05\\) se obtiene que el p-valor < \\(\\alpha\\) por lo tanto se rechaza H\\(_0\\) y no se rechaza H\\(_1\\) lo que nos lleva a que existen diferencias significativas en las medias de las tortugas hembras y machos. "],["mediciones-morfométricas-de-104-zarigueyas-capturadas.html", " 4 Mediciones Morfométricas de 104 zarigueyas capturadas 4.1 Visualización de los componentes 4.2 Modelo Final", " 4 Mediciones Morfométricas de 104 zarigueyas capturadas El marco de datos possum de la librería DAAG, contiene mediciones morfométricas en cada una de 104 zarigueyas capturadas en siete sitios desde el sur hasta el centro de las islas Victoria en Canadá. Realice un ACP para crear un índice de varían las caracterısticas morfológicas de las zarigueyas. Mediciones de Possum El marco de datos “possum” consiste en nueve medidas morfométricas en cada uno de los 104 possums de cola de cepillo de montaña, atrapados en siete sitios australianos desde el sur de Victoria hasta el centro de Queensland. El marco de datos “fossum” es el subconjunto de “possum” que tiene medidas para las 43 hembras. # Carga el conjunto de datos possum data(possum) # Omision de datos faltantes possum <- na.omit(possum) # Marco de datos tratados ps <- data.frame(site = possum$site, Pop = possum$Pop, sex = possum$sex, age = possum$age, hdlngth = possum$hdlngth, skullw = possum$skullw, totlngth = possum$totlngth, taill = possum$taill, footlgth = possum$footlgth, earconch = possum$earconch, eye = possum$eye, chest = possum$chest, belly = possum$belly) head(ps) %>% kable() site Pop sex age hdlngth skullw totlngth taill footlgth earconch eye chest belly 1 Vic m 8 94.1 60.4 89.0 36.0 74.5 54.5 15.2 28.0 36 1 Vic f 6 92.5 57.6 91.5 36.5 72.5 51.2 16.0 28.5 33 1 Vic f 6 94.0 60.0 95.5 39.0 75.4 51.9 15.5 30.0 34 1 Vic f 6 93.2 57.1 92.0 38.0 76.1 52.2 15.2 28.0 34 1 Vic f 2 91.5 56.3 85.5 36.0 71.0 53.2 15.1 28.5 33 1 Vic f 1 93.1 54.8 90.5 35.5 73.2 53.6 14.2 30.0 32 dim(ps) [1] 101 13 El marco de datos contiene las siguientes columnas: case: número de observación site: uno de los siete lugares donde se atraparon los possums. Los sitios fueron, en orden, Cambarville, Bellbird, Whian Whian, Byrangery, Conondale, Allyn River y Bulburin. Pop: un factor que clasifica los sitios como “Vic” (Victoria), “other” (Nueva Gales del Sur) o “Queensland”. sex: un factor con niveles “f” (hembra) y “m” (macho). age: edad hdlngth: longitud de la cabeza skullw: ancho del cráneo totlngth: longitud total taill: longitud de la cola footlgth: longitud del pie earconch: longitud del concho del oído eye: distancia desde el canto medial hasta el canto lateral del ojo derecho chest: circunferencia del pecho (cm) belly: circunferencia del vientre (cm) 4.1 Visualización de los componentes A continuación proyectaremos un modelo prelimiar para determinar cuales son los componentes principales que mejor explican nuestras variables. # análisis de componentes principales acp <- princomp(ps[4:13], cor = T);acp Call: princomp(x = ps[4:13], cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 2.0279097 1.3982973 0.9887222 0.8968449 0.8537841 0.7364381 0.5566443 0.5165434 Comp.9 Comp.10 0.4030841 0.3741786 10 variables and 101 observations. # Gráfico de eigenvalue por cada componente principal fviz_eig(acp, addlabels = TRUE, choice="eigenvalue", main="Grafico de Sedimentacion", barfill = "#B7E6A7") + geom_hline(yintercept=1, linetype="dashed", color = "red", lwd = 1) summary(acp) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 2.0279097 1.3982973 0.98872219 0.89684486 0.85378406 Proportion of Variance 0.4112418 0.1955235 0.09775716 0.08043307 0.07289472 Cumulative Proportion 0.4112418 0.6067653 0.70452245 0.78495552 0.85785025 Comp.6 Comp.7 Comp.8 Comp.9 Comp.10 Standard deviation 0.73643813 0.55664434 0.51654344 0.40308406 0.37417860 Proportion of Variance 0.05423411 0.03098529 0.02668171 0.01624768 0.01400096 Cumulative Proportion 0.91208436 0.94306965 0.96975136 0.98599904 1.00000000 Para la selección de las componentes se aplicaran tres criterios: Según “el método gráfico del codo”, se sugiere que se seleccionen dos componentes o dimenciones. Por el criterio de las varianzas mayor que 1, basados en las varianzas presentadas se observar las componentes 1 y 2, superan el valor de 1. De modo que por este criterio se selecionan dos componentes. De acuerdo con el crierio del porcentaje de varianza acumulada se puede apreciar que la componentes en la que se acumula más del \\(60 \\%\\), es hasta la componente 2, por lo tanto se recomienda tomar la componente 1 y la la componente 2 según este criterio. 4.2 Modelo Final Para este modelo usaremos dos componentes principales en el cual se consideran la variable site como cuantitativa suplementaria y las variables Población y sexo como cualitativas suplementarias. acp1 <- PCA(ps, ncp = 2, quanti.sup = 1, quali.sup = 2:3, graph = FALSE) # correlación entre la nueva componente y las variables dimdesc(acp1,axes=c(1,2)) $Dim.1 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value hdlngth 0.8567398 3.162480e-30 totlngth 0.8182462 1.532082e-25 chest 0.8101646 1.068921e-24 skullw 0.7620708 2.139445e-20 belly 0.7352997 2.034044e-18 footlgth 0.5876282 1.047095e-10 age 0.4761244 4.842491e-07 eye 0.3814777 8.284820e-05 taill 0.3803196 8.742685e-05 earconch 0.2625526 7.990224e-03 site -0.3784077 9.550428e-05 Link between the variable and the categorical variable (1-way anova) ============================================= R2 p.value Pop 0.04302374 0.03740578 Link between variable and the categories of the categorical variables ================================================================ Estimate p.value Pop=Vic 0.4253494 0.03740578 Pop=other -0.4253494 0.03740578 $Dim.2 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value earconch 0.8947256 1.966910e-36 footlgth 0.7088977 1.091406e-16 eye -0.3843982 7.227369e-05 taill -0.6569693 8.610681e-14 site -0.7561763 6.132276e-20 Link between the variable and the categorical variable (1-way anova) ============================================= R2 p.value Pop 0.8221389 6.662414e-39 Link between variable and the categories of the categorical variables ================================================================ Estimate p.value Pop=Vic 1.28208 6.662414e-39 Pop=other -1.28208 6.662414e-39 fviz_pca_ind(acp1, col.ind = "cos2", # Color by the quality of representation gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE # Avoid text overlapping ) # Gráfico de las observaciones y las variables en el espacio de los componentes principales plt <- fviz_pca_var(acp1, col.var = "cos2", col.circle = "black", lwd = 2, labelssize = 2, repeler = F) plt <- plt + ggtitle("Analisis de componentes principales");plt De acuerdo con el gráfico de las correlaciones de las componentes respecto a las variables, se puede apreciar que todo las variables se correlaciona positivamente con exepión de la variable site que esta esta correlacionada negativamente con la componente uno. Para la dimención 2 las variables que más correlacionadas son earconch, site, footlgth. 4.2.1 Variables que más contribuyen al modelo acp1$var$contrib Dim.1 Dim.2 age 5.512438 0.5439869 hdlngth 17.848456 0.2608360 skullw 14.121908 0.9919512 totlngth 16.280616 0.3913602 taill 3.517226 22.0745108 footlgth 8.396687 25.7020701 earconch 1.676237 40.9430990 eye 3.538679 7.5572463 chest 15.960604 0.9598026 belly 13.147150 0.5751369 Podemos corroborar que las variables que más contribuyen a su respectiva dimención corresponden a aquellas que presentaron mayores correlaciones. Entonces procedemos a determinar que representa cada dimención o componente. Para la Dimensión 1 (Dim.1), las variables “hdlngth” (longitud de la cabeza), “totlngth” (longitud total) ,“chest” (tamaño del pecho), “skullw” (ancho del cráneo) y “belly” (tamaño del vientre) tienen las mayores contribuciones. Podemos interpretar esta dimensión como la relacionada con las medidas oseas generales del cuerpo de la zarigüeya, como su tamaño y longitudes. Para la Dimensión 2 (Dim.2), las variables “taill” (longitud de la cola), “earconch” (longitud de la oreja), “earconch” (longitud del concho del oído), tienen las mayores contribuciones. Podemos interpretar esta dimensión como relacionada con medidas de los sentidos de la zarigüeya, lo que podría estar relacionado con aspectos como la comunicación o la detección de sonidos y olores en su entorno. Podemos concluir de acuerdo a los componentes determinados la existencia de dos indicadores que describen las caracteristicas morfométricas de las zarigüeya, para esto se logró identificar que uno de los indicadores representa las medidas oseas y para el indicador dos corresponde a las medidas de los sentidos. En este sentido podemos determinar que las caracteristica morfométricas están siendo más influenciadas por las medidas oseas que por las medidas de los sentidos. "],["información-financiera-de-810-sujetos.html", " 5 Información Financiera de 810 sujetos", " 5 Información Financiera de 810 sujetos En la librería ade4 se encuentra la base de datos banque que contiene información de 810 sujetos de una entidad financiera. Realice un ACM y comente sus resultados. Tabla de Factores Descripción: Variables consideradas en el estudio csp: “Categorías Socio-Profesionales” un factor con niveles duree: “Relaciones temporales con el cliente” un factor con niveles oppo: “¿Detuvo un cheque?” un factor con niveles age: “Edad del cliente” un factor con niveles sexe: “Género del cliente” un factor con niveles interdit: “No se permite el talonario de cheques” un factor con niveles cableue: “¿Posee una tarjeta bancaria?” un factor con niveles assurvi: “¿Contrato de seguro de vida?” un factor con niveles soldevu: “Saldo de las cuentas corrientes” un factor con niveles eparlog: “Monto de la cuenta de asociación de ahorro y préstamo” un factor con niveles eparliv: “Monto de la cuenta de ahorro” un factor con niveles credhab: “Propietario de préstamo hipotecario” un factor con niveles credcon: “Monto del crédito al consumo” un factor con niveles versesp: “Depósitos de cheques” un factor con niveles retresp: “Retiros de efectivo” un factor con niveles remiche: “Monto de cheques endosados” un factor con niveles # Instalar librería library(ade4) library(FactoMineR) # Base de datos banque data(banque) # Análisis de Correspondencia Múltiple (ACM) modelo <- MCA(banque[1:16], ncp = 2, quali.sup= 5, graph = FALSE) summary(modelo) Call: MCA(X = banque[1:16], ncp = 2, quali.sup = 5, graph = FALSE) Eigenvalues Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Variance 0.179 0.140 0.122 0.102 0.091 0.085 0.084 % of var. 7.050 5.514 4.823 4.036 3.610 3.367 3.315 Cumulative % of var. 7.050 12.564 17.387 21.423 25.033 28.400 31.716 Dim.8 Dim.9 Dim.10 Dim.11 Dim.12 Dim.13 Dim.14 Variance 0.083 0.081 0.079 0.078 0.074 0.072 0.070 % of var. 3.257 3.183 3.118 3.089 2.927 2.848 2.773 Cumulative % of var. 34.973 38.156 41.274 44.362 47.289 50.137 52.910 Dim.15 Dim.16 Dim.17 Dim.18 Dim.19 Dim.20 Dim.21 Variance 0.070 0.068 0.067 0.064 0.063 0.062 0.061 % of var. 2.765 2.673 2.626 2.510 2.480 2.456 2.409 Cumulative % of var. 55.676 58.348 60.974 63.484 65.964 68.420 70.830 Dim.22 Dim.23 Dim.24 Dim.25 Dim.26 Dim.27 Dim.28 Variance 0.058 0.056 0.055 0.053 0.052 0.051 0.049 % of var. 2.300 2.223 2.171 2.089 2.051 2.002 1.922 Cumulative % of var. 73.130 75.353 77.523 79.613 81.664 83.666 85.588 Dim.29 Dim.30 Dim.31 Dim.32 Dim.33 Dim.34 Dim.35 Variance 0.047 0.044 0.042 0.042 0.038 0.037 0.035 % of var. 1.837 1.737 1.673 1.663 1.508 1.478 1.374 Cumulative % of var. 87.425 89.162 90.835 92.497 94.005 95.483 96.858 Dim.36 Dim.37 Dim.38 Variance 0.034 0.028 0.018 % of var. 1.338 1.101 0.703 Cumulative % of var. 98.196 99.297 100.000 Individuals (the 10 first) Dim.1 ctr cos2 Dim.2 ctr cos2 1 | -0.312 0.067 0.088 | -0.322 0.092 0.094 | 2 | -0.486 0.163 0.155 | -0.089 0.007 0.005 | 3 | -0.226 0.035 0.043 | -0.313 0.086 0.082 | 4 | -0.358 0.088 0.041 | 0.074 0.005 0.002 | 5 | 0.011 0.000 0.000 | -0.855 0.646 0.333 | 6 | -0.188 0.024 0.029 | -0.240 0.051 0.047 | 7 | -0.313 0.068 0.075 | -0.366 0.118 0.102 | 8 | 0.259 0.046 0.029 | -0.530 0.248 0.123 | 9 | -0.531 0.195 0.243 | -0.092 0.007 0.007 | 10 | -0.097 0.006 0.004 | 0.037 0.001 0.001 | Categories (the 10 first) Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test agric | 0.570 0.434 0.012 3.123 | 0.102 0.018 0.000 0.559 | artis | 0.171 0.065 0.002 1.219 | -0.411 0.478 0.011 -2.936 | cadsu | 0.312 0.463 0.014 3.389 | 0.019 0.002 0.000 0.210 | inter | 0.522 1.279 0.039 5.632 | 0.214 0.274 0.007 2.306 | emplo | 0.070 0.035 0.001 0.959 | 0.189 0.317 0.008 2.571 | ouvri | -0.102 0.087 0.003 -1.564 | -0.014 0.002 0.000 -0.216 | retra | 0.185 0.082 0.002 1.378 | -1.894 10.995 0.246 -14.112 | inact | -0.239 0.223 0.007 -2.324 | -0.278 0.386 0.009 -2.703 | etudi | -1.604 6.758 0.195 -12.553 | 1.564 8.221 0.185 12.243 | dm2 | -0.883 3.267 0.099 -8.932 | 0.035 0.007 0.000 0.357 | Categorical variables (eta2) Dim.1 Dim.2 csp | 0.253 0.434 | duree | 0.370 0.070 | oppo | 0.058 0.025 | age | 0.358 0.448 | interdit | 0.079 0.030 | cableue | 0.111 0.336 | assurvi | 0.188 0.005 | soldevu | 0.374 0.129 | eparlog | 0.201 0.027 | eparliv | 0.203 0.122 | Supplementary categories Dim.1 cos2 v.test Dim.2 cos2 v.test hom | 0.094 0.019 3.960 | -0.032 0.002 -1.345 | fem | -0.207 0.019 -3.960 | 0.070 0.002 1.345 | Supplementary categorical variables (eta2) Dim.1 Dim.2 sexe | 0.019 0.002 | sexe <- banque$sexe fviz_mca_ind(modelo, label = "none", habillage = sexe, pallette = c("#CCCCFF", "#F08080"), addEllipses = TRUE, ggtheme = theme_grey()) De acuerdo a las observaciones de los datos obtenidos 17 dimensiones contribuyen de manera significativa al estudio, por otro lado las variables que mejor describen este comportamiento son ai25 , assurvi_oui, eparlog_for donde estas se describen como las variables que mayor contribuyen en dicha dimensión. Por otro lado se puede observar que para el caso de los hombres a partir de la variable suplementaria del sexo los datos se encuentran lo mayormente posible en dirección al centride de los datos; con esto podemos concluir que en 2 dimensiones del estudio se encuentra el mayor numero de componentes. "],["golpes-militares-y-política-en-áfrica-subsahariana.html", " 6 Golpes militares y política en África subsahariana 6.1 Bibliografía", " 6 Golpes militares y política en África subsahariana Descripción Los datos son un subconjunto de un estudio más amplio sobre los factores que afectan la estabilidad del régimen en África subsahariana. data(africa) data <- na.omit(africa) datos <- scale(data) head(round(datos, 2)) %>% kable() miltcoup oligarchy pollib parties pctvote popn size numelec numregim Benin 1.94 0.30 -1.08 1.43 0.76 -0.34 -0.67 0.35 0.26 Burkina 2.51 1.29 0.61 3.81 -0.81 -0.14 -0.38 -0.47 0.26 Burundi 0.24 1.29 0.61 -0.60 0.13 -0.31 -0.82 -1.02 0.26 Cameroon -0.90 -0.87 0.61 1.43 -0.10 0.00 -0.02 1.99 0.26 Capeverde -0.33 -0.87 0.61 -1.02 -0.09 -0.55 -0.86 -1.29 -1.81 CAR 0.80 1.46 0.61 -0.26 -0.89 -0.42 0.25 -0.20 1.29 Marco de datos con 47 observaciones en las siguientes 9 variables. golpemilitar: número de golpes militares exitosos desde la independencia hasta 1989 oligarquía: número de años que el país fue gobernado por una oligarquía militar desde la independencia hasta 1989 pollib: Liberalización política: 0 = sin derechos civiles para la expresión política, 1 = derechos civiles limitados para la expresión pero derecho a formar partidos políticos, 2 = derechos civiles completos partidos: Número de partidos políticos legales en 1993 pctvoto: Porcentaje de votantes en la última elección población: Población en millones en 1989 tamaño: Área en 1000 kilómetros cuadrados numelec: Número total de elecciones legislativas y presidenciales numregim: Número de tipos de régimen 6.0.1 Clúster análisis. # Calcular 30 estimadores para determinar el numero de cluster NbClust(datos, distance = "euclid", min.nc = 2, max.nc = 10, method = "kmeans", index = "alllong") *** : The Hubert index is a graphical method of determining the number of clusters. In the plot of Hubert index, we seek a significant knee that corresponds to a significant increase of the value of the measure i.e the significant peak in Hubert index second differences plot. *** : The D index is a graphical method of determining the number of clusters. In the plot of D index, we seek a significant knee (the significant peak in Dindex second differences plot) that corresponds to a significant increase of the value of the measure. ******************************************************************* * Among all indices: * 5 proposed 2 as the best number of clusters * 1 proposed 3 as the best number of clusters * 6 proposed 4 as the best number of clusters * 2 proposed 6 as the best number of clusters * 6 proposed 7 as the best number of clusters * 7 proposed 10 as the best number of clusters ***** Conclusion ***** * According to the majority rule, the best number of clusters is 10 ******************************************************************* $All.index KL CH Hartigan CCC Scott Marriot TrCovW TraceW 2 1.0226 8.2248 5.7154 -1.3037 71.9668 2.540429e+12 1063.8532 253.6422 3 0.5780 7.4361 6.8262 -1.7463 115.7929 1.691930e+12 863.0881 217.1408 4 1.2550 8.0080 5.5831 -1.0071 185.7638 4.306753e+11 559.5900 179.9230 5 1.5933 8.1856 3.8556 -0.5416 239.1717 1.526409e+11 469.8836 153.1946 6 0.6039 7.8717 5.7674 -0.7010 292.2891 5.026203e+10 366.0237 136.2487 7 3.3928 8.4893 2.2755 0.4621 333.6207 2.170300e+10 237.9755 114.2791 8 0.4539 7.8908 4.0575 -0.1979 366.5925 1.134334e+10 205.0763 105.9646 9 2.0791 8.1117 2.2629 0.3450 410.5029 4.239574e+09 159.5510 92.5528 10 0.2942 7.7674 7.1791 -0.0517 445.1726 1.997977e+09 151.2263 85.3957 Friedman Rubin Cindex DB Silhouette Duda Pseudot2 Beale Ratkowsky 2 6.0889 1.2419 0.4099 1.9955 0.1699 1.4682 -7.9724 -1.7953 0.2452 3 9.0998 1.4507 0.3594 1.7759 0.1530 1.3867 -2.7884 -1.5070 0.3086 4 16.4747 1.7507 0.4105 1.5835 0.1805 1.2613 -3.1072 -1.1057 0.3193 5 22.4730 2.0562 0.3775 1.4290 0.2024 1.0911 -0.6680 -0.4298 0.3165 6 33.7285 2.3119 0.4201 1.2147 0.2153 1.4264 -3.2884 -1.3464 0.3040 7 38.4737 2.7564 0.3112 1.1217 0.2194 3.4117 -4.2414 -2.8299 0.3001 8 42.5675 2.9727 0.3517 1.1129 0.2199 2.2648 -3.3508 -2.5152 0.2857 9 46.2862 3.4035 0.3165 1.0814 0.2370 1.1661 -0.1424 -0.4277 0.2792 10 53.4885 3.6887 0.3070 1.0095 0.2498 3.0079 -2.6702 -3.0064 0.2692 Ball Ptbiserial Gap Frey McClain Gamma Gplus Tau Dunn 2 126.8211 0.2743 -0.8843 -0.0096 0.8750 0.3500 51.1524 55.0937 0.2280 3 72.3803 0.3803 -1.3323 -0.0477 1.4954 0.4998 35.1000 70.1317 0.2080 4 44.9807 0.4430 -1.9810 0.3730 1.7756 0.6012 25.4651 76.7778 0.2698 5 30.6389 0.4378 -2.1769 -5.8435 2.4525 0.6542 18.3381 69.3952 0.2698 6 22.7081 0.3971 -2.1604 0.0036 2.9778 0.6134 18.4143 58.4429 0.1615 7 16.3256 0.4563 -2.3881 -4.0686 3.4733 0.8071 7.5762 63.4127 0.1480 8 13.2456 0.4116 -2.3862 0.1527 4.2674 0.7589 8.2381 51.8667 0.1633 9 10.2836 0.4068 -2.8517 0.0340 5.0998 0.8113 5.3508 45.9984 0.1633 10 8.5396 0.4106 -2.9933 -0.0328 5.1869 0.8260 4.7937 45.5063 0.1633 Hubert SDindex Dindex SDbw 2 0.0047 1.6276 2.4903 0.9050 3 0.0070 1.5116 2.3079 0.8849 4 0.0109 1.6912 2.1316 0.9405 5 0.0110 1.5701 1.9448 0.8106 6 0.0101 1.1862 1.8052 0.4839 7 0.0123 1.3068 1.6935 0.6706 8 0.0118 1.3174 1.6089 0.4584 9 0.0123 1.3107 1.4920 0.4264 10 0.0125 1.2932 1.4016 0.3565 $All.CriticalValues CritValue_Duda CritValue_PseudoT2 Fvalue_Beale CritValue_Gap 2 0.5803 18.0838 1 0.4736 3 0.4954 10.1857 1 0.6844 4 0.4742 16.6306 1 0.2408 5 0.4205 11.0243 1 0.0307 6 0.2857 27.4964 1 0.2905 7 0.2098 22.6009 1 0.0614 8 0.2857 14.9980 1 0.5405 9 0.0985 9.1544 1 0.2379 10 0.2857 9.9987 1 -0.1167 $Best.nc KL CH Hartigan CCC Scott Marriot TrCovW Number_clusters 7.0000 7.0000 10.0000 7.0000 4.0000 4 4.000 Value_Index 3.3928 8.4893 4.9162 0.4621 69.9709 983220443771 303.498 TraceW Friedman Rubin Cindex DB Silhouette Duda Number_clusters 7.0000 6.0000 7.0000 10.000 10.0000 10.0000 2.0000 Value_Index 13.6551 11.2555 -0.2282 0.307 1.0095 0.2498 1.4682 PseudoT2 Beale Ratkowsky Ball PtBiserial Gap Frey Number_clusters 2.0000 2.0000 4.0000 3.0000 7.0000 2.0000 1 Value_Index -7.9724 -1.7953 0.3193 54.4408 0.4563 -0.8843 NA McClain Gamma Gplus Tau Dunn Hubert SDindex Dindex Number_clusters 2.000 10.000 10.0000 4.0000 4.0000 0 6.0000 0 Value_Index 0.875 0.826 4.7937 76.7778 0.2698 0 1.1862 0 SDbw Number_clusters 10.0000 Value_Index 0.3565 $Best.partition Benin Burkina Burundi Cameroon Capeverde CAR Chad Comoros 2 2 10 1 5 10 7 6 Congo CotedIvoi Djibouti Eqguinea Ethiopia Gabon Ghana Guinea 10 1 5 10 7 6 2 6 GuineaBis Kenya Lesotho Liberia Madagasca Malawi Mali Namibia 5 3 9 8 8 5 7 5 Niger Nigeria Rwanda Seychelle Sierraleo Somalia S.Africa Sudan 7 4 8 6 6 7 3 8 Swaziland Tanzania Togo Zambia 5 3 10 3 #cluster por el metodo kmeans kmeans_model <- kmeans(datos, centers = 2, nstart = 25);kmeans_model # Número de grupos a encontrar K-means clustering with 2 clusters of sizes 19, 17 Cluster means: miltcoup oligarchy pollib parties pctvote popn size 1 0.5349621 0.7155842 -0.3673784 0.1938236 -0.02778553 0.1533209 0.2205704 2 -0.5978988 -0.7997706 0.4105993 -0.2166264 0.03105442 -0.1713587 -0.2465199 numelec numregim 1 0.003992902 0.6937212 2 -0.004462655 -0.7753354 Clustering vector: Benin Burkina Burundi Cameroon Capeverde CAR Chad Comoros 1 1 1 2 2 1 1 2 Congo CotedIvoi Djibouti Eqguinea Ethiopia Gabon Ghana Guinea 1 2 2 1 1 2 1 2 GuineaBis Kenya Lesotho Liberia Madagasca Malawi Mali Namibia 2 2 1 1 1 2 1 2 Niger Nigeria Rwanda Seychelle Sierraleo Somalia S.Africa Sudan 1 1 1 2 2 1 2 1 Swaziland Tanzania Togo Zambia 2 2 1 2 Within cluster sum of squares by cluster: [1] 167.92248 85.71969 (between_SS / total_SS = 19.5 %) Available components: [1] "cluster" "centers" "totss" "withinss" "tot.withinss" [6] "betweenss" "size" "iter" "ifault" # visualización de clusters fviz_cluster(kmeans_model, data = datos, ellipse.type = "euclid", repel = TRUE, star.plot = TRUE) # Interpretación de resultados De acuerdo al cálculo del número optimo de cluster que mejor describen el comportamiento de los datos basado en el criterio de 30 estimadores y de acuerdo a nuestras consideraciones el número de cluster seleccionados fueron 2 para el análisis de los datos. 6.1 Bibliografía Lindenmayer, D. B., Viggers, K. L., Cunningham, R. B., and Donnelly, C. F. 1995. Morphological variation among columns of the mountain brushtail possum, Trichosurus caninus Ogilby (Phalangeridae: Marsupiala). Australian Journal of Zoology 43: 449-458. "],["404.html", "Page not found", " Page not found The page you requested cannot be found (perhaps it was moved or renamed). You may want to try searching to find the page's new location, or use the table of contents to find the page you are looking for. "]]