In [None]:
# Paso 1: Cargar el dataset desde el mismo directorio
# Usamos read.table para leer los datos desde un archivo de texto.
# El argumento header=TRUE indica que la primera fila contiene los nombres de las columnas.
# stringsAsFactors=TRUE convierte las columnas de texto en factores.
# sep="" usa el separador por defecto (espacio o tabulación).
# na.strings="NA" identifica los valores faltantes.
# dec="." indica el punto como separador decimal.
# strip.white=TRUE elimina espacios en blanco extra.
# row.names="NOMBRE" usa la columna 'NOMBRE' como identificador de fila.
Dataset <- read.table("autos.txt",
                      header=TRUE,
                      stringsAsFactors=TRUE,
                      sep="",
                      na.strings="NA",
                      dec=".",
                      strip.white=TRUE,
                      row.names="NOMBRE")

# Visualiza las primeras filas para verificar

head(Dataset)

Unnamed: 0_level_0,CYL,POT,LAR,ANCHO,PESO,VEL,LUJO,PRECIO
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<fct>,<int>
ALFASUD-TI-1350,1350,79,393,161,870,165,B,30570
AUDI-100-L,1588,85,468,177,1110,160,MB,39990
SIMCA-1307-GLS,1294,68,424,168,1050,152,P,29600
CITROEN-GS-CLUB,1222,59,412,161,930,151,P,28250
FIAT-132-1600GLS,1585,98,439,164,1105,165,B,34900
LANCIA-BETA-1300,1297,82,429,169,1080,160,MB,35480


In [6]:
# Paso 2: Calcular la matriz de correlación entre variables numéricas
# Usamos la función cor() para obtener la correlación entre las variables seleccionadas.
# El argumento use="complete" indica que solo se usan filas sin valores faltantes.

# Seleccionamos las variables numéricas relevantes
variables_numericas <- c("ANCHO", "CYL", "LAR", "PESO", "POT", "PRECIO", "VEL")

# Calculamos la matriz de correlación
corr <- cor(Dataset[, variables_numericas], use="complete")

# Mostramos la matriz de correlación
corr

Unnamed: 0,ANCHO,CYL,LAR,PESO,POT,PRECIO,VEL
ANCHO,1.0,0.6297572,0.8492664,0.7168739,0.520832,0.5466494,0.4729453
CYL,0.6297572,1.0,0.7014619,0.788952,0.7966277,0.6385812,0.664934
LAR,0.8492664,0.7014619,1.0,0.8680903,0.6413624,0.6437569,0.4759285
PESO,0.7168739,0.788952,0.8680903,1.0,0.765293,0.7532948,0.4775956
POT,0.520832,0.7966277,0.6413624,0.765293,1.0,0.7987004,0.8443795
PRECIO,0.5466494,0.6385812,0.6437569,0.7532948,0.7987004,1.0,0.5817597
VEL,0.4729453,0.664934,0.4759285,0.4775956,0.8443795,0.5817597,1.0


In [10]:
# Paso 3: Evaluar la adecuación de los datos para análisis factorial
# Usamos el test de esfericidad de Bartlett y la medida KMO para verificar si es apropiado realizar análisis factorial.

# Cargamos la librería EFAtools (instálala si no la tienes: install.packages("EFAtools"))
# install.packages("EFAtools")
library(EFAtools)

# Test de esfericidad de Bartlett
BARTLETT(corr, N = nrow(Dataset))

# Medida de adecuación muestral KMO
KMO(corr)


[32m[1m✔[22m[39m The [1mBartlett's test of sphericity[22m was [32m[1msignificant[22m[39m at an alpha level of .05.
[1m [22m These data are probably suitable for factor analysis.

[1m  [22m𝜒²(21) = 109.96, [3mp[23m < .001


[34m──[39m [34mKaiser-Meyer-Olkin criterion (KMO)[39m [34m──────────────────────────────────────────[39m

[32m[1m✔[22m[39m The overall KMO value for your data is [32m[1mmiddling[22m[39m.
[1m [22m These data are probably suitable for factor analysis.

[1m [22m [34mOverall:[39m [1m0.79[22m

[1m [22m [34mFor each variable:[39m
 ANCHO    CYL    LAR   PESO    POT PRECIO    VEL 
 0.792  0.929  0.827  0.762  0.717  0.900  0.651 

In [11]:
# Paso 4: Seleccionar variables para el análisis de componentes principales (PCA)
# Elegimos las variables numéricas y la variable cualitativa 'LUJO' para el análisis.
# PCA permite reducir la dimensionalidad y explorar la estructura de los datos.

Dataset.PCA <- Dataset[, c("CYL", "POT", "LAR", "ANCHO", "PESO", "VEL", "PRECIO", "LUJO")]

# Visualizamos las primeras filas para verificar la selección
head(Dataset.PCA)

Unnamed: 0_level_0,CYL,POT,LAR,ANCHO,PESO,VEL,PRECIO,LUJO
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<fct>
ALFASUD-TI-1350,1350,79,393,161,870,165,30570,B
AUDI-100-L,1588,85,468,177,1110,160,39990,MB
SIMCA-1307-GLS,1294,68,424,168,1050,152,29600,P
CITROEN-GS-CLUB,1222,59,412,161,930,151,28250,P
FIAT-132-1600GLS,1585,98,439,164,1105,165,34900,B
LANCIA-BETA-1300,1297,82,429,169,1080,160,35480,MB


In [16]:
# Paso 5: Realizar el análisis de componentes principales (PCA)
# Usamos la función PCA para reducir la dimensionalidad y explorar la estructura de los datos.
# El argumento scale.unit=TRUE estandariza las variables numéricas.
# ncp=5 indica el número de componentes principales a calcular.
# quali.sup=c(8:8) indica que la columna 8 ('LUJO') es cualitativa y se trata como variable suplementaria.
# graph=FALSE evita la generación automática de gráficos.

# Instala el paquete FactoMineR si no lo tienes: install.packages("FactoMineR")
library(FactoMineR)

res <- PCA(Dataset.PCA, scale.unit=TRUE, ncp=5, quali.sup=c(8:8), graph=FALSE)

# Visualiza un resumen de los resultados
summary(res)


Call:
PCA(X = Dataset.PCA, scale.unit = TRUE, ncp = 5, quali.sup = c(8:8),  
     graph = FALSE) 


Eigenvalues
                       Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
Variance               5.070   0.867   0.454   0.323   0.163   0.082   0.041
% of var.             72.428  12.389   6.490   4.613   2.327   1.164   0.589
Cumulative % of var.  72.428  84.817  91.307  95.920  98.247  99.411 100.000

Individuals (the 10 first)
                     Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2  
ALFASUD-TI-1350  |  2.922 | -2.186  5.237  0.560 |  1.806 20.901  0.382 |
AUDI-100-L       |  2.740 |  1.771  3.437  0.418 | -1.507 14.540  0.302 |
SIMCA-1307-GLS   |  1.634 | -1.310  1.880  0.643 | -0.699  3.127  0.183 |
CITROEN-GS-CLUB  |  2.763 | -2.734  8.193  0.979 |  0.140  0.126  0.003 |
FIAT-132-1600GLS |  1.087 |  0.451  0.223  0.172 |  0.692  3.070  0.405 |
LANCIA-BETA-1300 |  1.085 | -0.206  0.046  0.036 | -0.146  0.137  0.018 |
PEUGEOT-504      |  1.264 |  0.51

In [18]:
# Paso 6: Visualizar los resultados del análisis de componentes principales (PCA)
# Usamos funciones de FactoMineR para graficar los individuos y las variables en los componentes principales.

# Gráfico de individuos (autos) en los dos primeros componentes principales
plot.PCA(res, axes=c(1, 2), choix="ind", habillage="none", col.ind="black", 
         col.ind.sup="blue", col.quali="magenta", label=c("ind", "ind.sup", "quali"), new.plot=TRUE)

# Gráfico de variables en los dos primeros componentes principales
plot.PCA(res, axes=c(1, 2), choix="var", new.plot=TRUE, col.var="black", 
         col.quanti.sup="blue", label=c("var", "quanti.sup"), lim.cos2.var=0)