In [1]:
# Importar las bibliotecas necesarias
import numpy as np
import pandas as pd

# Leer los datos del archivo "PaintedTurtles.txt" desde una URL y almacenarlos en un DataFrame
url = "https://web.stanford.edu/class/bios221/data/PaintedTurtles.txt"
datos = pd.read_csv(url, delimiter="\t")

# Aplicar el logaritmo natural a las tres variables: largo, ancho y alto de los caparazones
ln_len = datos['length '].apply(np.log)
ln_wid = datos['width '].apply(np.log)
ln_hei = datos['height'].apply(np.log)

# Crear un DataFrame con los datos transformados por el logaritmo
datos_ln = pd.concat([datos['sex '], ln_len, ln_wid, ln_hei], axis=1)

# Mostrar los datos transformados por el logaritmo
datos_ln

# Dividir los datos por sexo: machos y hembras
datos_f = datos_ln.loc[datos_ln['sex '] == 'f ']  # datos hembras (female)
datos_m = datos_ln.loc[datos_ln['sex '] == 'm ']  # datos machos (male)

# Seleccionar solo las columnas de las medidas para ambos grupos
datos_f1 = pd.DataFrame(datos_f[['length ', 'width ', 'height']])
datos_m1 = pd.DataFrame(datos_m[['length ', 'width ', 'height']])

# Convertir los datos a matrices NumPy para su procesamiento
datos_f = datos_f1.to_numpy()
datos_m = datos_m1.to_numpy()

# Calcular la media de cada variable para los machos y las hembras
media_f = datos_f - np.mean(datos_f, axis=0)
media_m = datos_m - np.mean(datos_m, axis=0)

# Calcular las matrices de covarianza para machos y hembras
sig_f = np.cov(media_f, rowvar=False)
sig_m = np.cov(media_m, rowvar=False)

# Calcular los eigenvalores y eigenvectores de las matrices de covarianza
eigenval_f, eigenvec_f = np.linalg.eigh(sig_f)
eigenval_m, eigenvec_m = np.linalg.eigh(sig_m)

# Ordenar los eigenvalores en orden descendente (con la cámara de Weyl)
eigenval_f_weyl = eigenval_f[::-1]
eigenval_m_weyl = eigenval_m[::-1]

# Ordenar los eigenvectores en el mismo orden que los eigenvalores
eigenvec_f_weyl = eigenvec_f[:, np.argsort(eigenval_f)[::-1]]
eigenvec_m_weyl = eigenvec_m[:, np.argsort(eigenval_m)[::-1]]

# Seleccionar solo los dos primeros componentes principales
n_componentes = 2
eigenvector_f2 = eigenvec_f_weyl[:, 0:n_componentes]
eigenvector_m2 = eigenvec_m_weyl[:, 0:n_componentes]

# Realizar la proyección de los datos originales sobre los dos primeros ejes principales
datos_f_red = np.dot(eigenvector_f2.transpose(), media_f.transpose()).transpose()
datos_m_red = np.dot(eigenvector_m2.transpose(), media_m.transpose()).transpose()

# Crear DataFrames para los datos reducidos para hembras y machos
f_red = pd.DataFrame(datos_f_red, columns=['PC1', 'PC2'])  # Hembras (female)
m_red = pd.DataFrame(datos_m_red, columns=['PC1', 'PC2'])  # Machos (male)

# Mostrar los DataFrames con los datos reducidos
print(f_red)  # Hembras (female)
print(m_red)  # Machos (male)

# Calcular el volumen de los caparazones sumando los logaritmos de las medidas para hembras y machos
volumen_f = pd.DataFrame(datos_f1.sum(numeric_only=True, axis=1), columns=['Volumen Hembras'])
volumen_m = pd.DataFrame(datos_m1.sum(numeric_only=True, axis=1), columns=['Volumen Machos'])

# Mostrar los volúmenes de los caparazones para hembras y machos
print(volumen_f)  # Volumen de caparazones de hembras
print(volumen_m)  # Volumen de caparazones de machos


         PC1       PC2
0   0.491814  0.001752
1   0.443245 -0.036014
2   0.370284  0.033017
3   0.388332 -0.014156
4   0.295304  0.034322
5   0.119952  0.061507
6   0.155715 -0.017488
7   0.023633  0.011044
8   0.009182 -0.001364
9   0.009182 -0.001364
10  0.051403 -0.044282
11  0.019913 -0.043019
12  0.010109  0.001775
13  0.000669 -0.005755
14 -0.064861 -0.009709
15 -0.149190  0.016908
16 -0.131123 -0.013503
17 -0.158693 -0.011372
18 -0.274136  0.045496
19 -0.252467 -0.000089
20 -0.276222  0.024171
21 -0.302457  0.023196
22 -0.318250 -0.031330
23 -0.461335 -0.023745
         PC1       PC2
0   0.268473  0.061069
1   0.263345 -0.015724
2   0.236046 -0.034121
3   0.119923  0.014125
4   0.120728 -0.014957
5   0.152593 -0.008908
6   0.106039  0.016571
7   0.093027  0.013533
8   0.106371 -0.001245
9   0.006575 -0.016744
10  0.006268 -0.011450
11  0.011980  0.000801
12 -0.060887  0.028047
13 -0.041863 -0.010877
14 -0.047501 -0.017440
15 -0.070171 -0.033057
16 -0.040554 -0.027747
17 -0.11278