# Examen 1 - Análisis Multivariado

- Martínez Ostoa Néstor Iván
- LCD - IIMAS - UNAM
- 21 de octubre del 2021

---

## 1. Análisis de Componentes Principales

- Haga un análisis de componentes principales de los datos ```cars.dat```
- Interprete y obtenga conclusiones relevantes usando las primeras dos componentes principales
- ¿Es necesario utilizar la tercera componente principal?
- ¿Por qué sí? o ¿Por qué no?

In [126]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go

In [127]:
df = pd.read_csv("cars.dat")
df = df.iloc[:, 1:]
df.head()

Unnamed: 0,economy,service,value,price,design,sporty,safety,easy
0,3.9,2.8,2.2,4.2,3.0,3.1,2.4,2.8
1,4.8,1.6,1.9,5.0,2.0,2.5,1.6,2.8
2,3.0,3.8,3.8,2.7,4.0,4.4,4.0,2.6
3,5.3,2.9,2.2,5.9,1.7,1.1,3.3,4.3
4,2.1,3.9,4.0,2.6,4.5,4.4,4.4,2.2


### Normalización de los datos

In [128]:
df = df.transform(lambda x : (x - np.mean(x))/np.std(x))
df.head()

Unnamed: 0,economy,service,value,price,design,sporty,safety,easy
0,0.720445,-0.329521,-0.894228,0.796865,-0.240696,-0.363858,-0.808125,0.023633
1,1.785673,-1.845318,-1.175971,1.485236,-1.444175,-0.961625,-1.537022,0.023633
2,-0.344784,0.933643,0.608402,-0.493832,0.962784,0.931303,0.649669,-0.33874
3,2.377467,-0.203205,-0.894228,2.259654,-1.805219,-2.356414,0.011884,2.741433
4,-1.410013,1.05996,0.79623,-0.579878,1.564523,0.931303,1.014118,-1.063487


### Matriz de covarianzas

In [129]:
# Restamos los valores de la media a cada columna del dataset
cov_df = df . transform ( lambda x : x - np . mean ( x ) )
cov_matrix = []

for a in cov_df.columns:
    row = []
    for b in cov_df.columns:
        X = cov_df[a] 
        Y = cov_df[b] 
        n = cov_df.shape[0]
        matrix_element = np.sum(X * Y)/(n-1)
        row.append(np.round(matrix_element,6))
    cov_matrix.append(row)
cov_matrix = np.array(cov_matrix)
print(cov_matrix)

[[ 1.045455 -0.349834 -0.468348  0.792749 -0.646818 -0.497773 -0.296686
   0.608979]
 [-0.349834  1.045455  0.969899 -0.770394  0.792573  0.718965  0.980263
   0.310872]
 [-0.468348  0.969899  1.045455 -0.896575  0.866175  0.837904  0.958185
   0.188387]
 [ 0.792749 -0.770394 -0.896575  1.045455 -0.92776  -0.894703 -0.746492
   0.2822  ]
 [-0.646818  0.792573  0.866175 -0.92776   1.045455  0.92323   0.744634
  -0.226975]
 [-0.497773  0.718965  0.837904 -0.894703  0.92323   1.045455  0.687794
  -0.262599]
 [-0.296686  0.980263  0.958185 -0.746492  0.744634  0.687794  1.045455
   0.363639]
 [ 0.608979  0.310872  0.188387  0.2822   -0.226975 -0.262599  0.363639
   1.045455]]


### Eigenvalores y eigenvectores

In [130]:
eig_values, eig_vectors = np.linalg.eig(cov_matrix)
print(eig_values)
print("--------------------")
print(eig_vectors)

[5.63376163 1.92908491 0.44233237 0.03735353 0.02844322 0.06210238
 0.11076227 0.1197997 ]
--------------------
[[-0.26785709  0.4693066   0.68081588  0.45994245 -0.00860446  0.06444603
  -0.16944565  0.0027246 ]
 [ 0.38241258  0.28523417 -0.12174551  0.05965372 -0.21693455 -0.68095017
  -0.38475922  0.30859061]
 [ 0.41009999  0.18124911 -0.04561768  0.20738561  0.79018062 -0.13456312
   0.13716084 -0.30425524]
 [-0.4087736   0.17035655  0.09865104 -0.58159171  0.49601555 -0.12055362
  -0.12852594  0.42286915]
 [ 0.40251186 -0.11245184  0.22160045  0.1403319   0.03801208  0.23012424
   0.42079258  0.72461749]
 [ 0.38197191 -0.10932071  0.6284232  -0.54580201 -0.15354196 -0.13536706
   0.08805916 -0.31571681]
 [ 0.3713485   0.32453221 -0.12925216 -0.20657993 -0.01222951  0.65430597
  -0.51848211  0.01755518]
 [-0.03028681  0.71176021 -0.22164424 -0.2082511  -0.23933014  0.01074514
   0.5781626  -0.09120885]]


### Ordenamiento de eigenvalores y eigenvectores

In [131]:
ev = [(value, idx) for idx, value in enumerate(eig_values)]
ev = sorted(ev)[::-1] # Ordenamiento

evectors = np.array([(eig_vectors[:,idx], idx) for value, idx in ev], dtype='object')

print(f"Eigenvalores:\n\n{ev}\n\nEigenvectores:\n\n{evectors}")

Eigenvalores:

[(5.633761626392989, 0), (1.929084907353968, 1), (0.4423323665962353, 2), (0.11979969924391676, 7), (0.11076227263359732, 6), (0.06210238041939531, 5), (0.03735352705371403, 3), (0.028443220306191012, 4)]

Eigenvectores:

[[array([-0.26785709,  0.38241258,  0.41009999, -0.4087736 ,  0.40251186,
        0.38197191,  0.3713485 , -0.03028681])
  0]
 [array([ 0.4693066 ,  0.28523417,  0.18124911,  0.17035655, -0.11245184,
       -0.10932071,  0.32453221,  0.71176021])
  1]
 [array([ 0.68081588, -0.12174551, -0.04561768,  0.09865104,  0.22160045,
        0.6284232 , -0.12925216, -0.22164424])
  2]
 [array([ 0.0027246 ,  0.30859061, -0.30425524,  0.42286915,  0.72461749,
       -0.31571681,  0.01755518, -0.09120885])
  7]
 [array([-0.16944565, -0.38475922,  0.13716084, -0.12852594,  0.42079258,
        0.08805916, -0.51848211,  0.5781626 ])
  6]
 [array([ 0.06444603, -0.68095017, -0.13456312, -0.12055362,  0.23012424,
       -0.13536706,  0.65430597,  0.01074514])
  5]
 [array

### Análisis del porcentaje de varianza explicada por cada componente principal

In [132]:
percentage_per_eigenvalue = []
cumsum_percentage = []
total_variance = np.sum(eig_values)
for i in range(eig_values.shape[0]):
    percentage = eig_values[i] / total_variance
    percentage_per_eigenvalue.append(percentage)
    cumsum_percentage.append(np.sum(percentage_per_eigenvalue))
percentage_per_eigenvalue = np.array(percentage_per_eigenvalue)
fig = go.Figure(
    data=[
        go.Bar(
            x=list(range(len(percentage_per_eigenvalue))), y=percentage_per_eigenvalue, 
            text=np.round(percentage_per_eigenvalue*100,4), textposition='auto'
        )
    ]
)
fig.update_layout(
    title= dict(
        text='FIG A: Porcentaje de variabilidad explicado por cada eigenvalor',
        xref='container', x=0.5),
    xaxis=dict(
        title='Eigenvalor'
    ), 
    yaxis=dict(
        title='% de variabilidad'
    ),
    showlegend=False,
    barmode='stack'
)
fig.show()

In [133]:
percentage_per_eigenvalue = []
cumsum_percentage = []
total_variance = np.sum(eig_values)
for i in range(eig_values.shape[0]):
    percentage = eig_values[i] / total_variance
    percentage_per_eigenvalue.append(percentage)
    cumsum_percentage.append(np.sum(percentage_per_eigenvalue))
    
percentage_per_eigenvalue = np.array(percentage_per_eigenvalue)


fig = go.Figure(
    data=[
        go.Scatter(
            x=[1,2,3,4,5,6,7,8], y=percentage_per_eigenvalue
        )
    ]
)
fig.update_layout(
    title= dict(
        text='FIG B: Porcentaje de variabilidad explicado por cada eigenvalor',
        xref='container', x=0.5),
    xaxis=dict(
        title='Eigenvalor'
    ), 
    yaxis=dict(
        title='% de variabilidad'
    ),
    showlegend=False,
    barmode='stack'
)
fig.show()

### Porcentaje de varianza explicado por las primeras dos componentes principales

In [134]:
pct_2pc = (np.sum(eig_values[:2]) / np.sum(eig_values))*100
pct_3pc = (np.sum(eig_values[:3]) / np.sum(eig_values))*100

print(f"El porcentaje de varianza explicada por las primeras dos componentes principales es de: \n{pct_2pc}%")

print(f"\nEl porcentaje de varianza explicada por las primeras tres componentes principales es de: \n{pct_3pc}%")

El porcentaje de varianza explicada por las primeras dos componentes principales es de: 
90.425299675105%

El porcentaje de varianza explicada por las primeras tres componentes principales es de: 
95.71405393277551%


### Análisis de componentes principales

- Proyectamos los datos con las nuevas componentes principales y veamos el gráfico de dispersión

In [44]:
eg1 = eig_vectors[:, 0].reshape(8,1)
eg2 = eig_vectors[:, 1].reshape(8,1)
eg3 = eig_vectors[:, 2].reshape(8,1)
 
W_2pc = np.concatenate((eg1, eg2), axis=1) # Matriz considerando solo 2 comp pcpales
W_3pc = np.concatenate((eg1, eg2, eg3), axis=1) # Y esta con 3 comp pcpales

# Proyección de los datos
Y_2pc = df.iloc[:, :]@W_2pc # Datos proyectados con 2 comp pcaples
Y_3pc = df.iloc[:, :]@W_3pc # Datos proyectados con 3 comp pcpales

Y_2pc.head()

Unnamed: 0,0,1
0,-1.548128,0.039194
1,-3.793467,0.13709
2,1.895537,-0.109698
3,-3.710261,3.696373
4,2.740868,-1.01944


In [45]:
Y_3pc.head()

Unnamed: 0,0,1,2
0,-1.548128,0.039194,0.467231
1,-3.793467,0.13709,0.909627
2,1.895537,-0.109698,0.364842
3,-3.710261,3.696373,-0.582955
4,2.740868,-1.01944,-0.145942


### Gráfico de dispersión con datos proyectados

In [58]:
fig = go.Figure()
fig.add_trace(go.Scatter(
    x = Y_2pc[0],
    mode='markers'
))
fig.add_trace(go.Scatter(
    x = Y_2pc[1],
    mode='markers'
))
fig.update_layout(title_text="<b> 2 componentes principales")
fig.show()

In [63]:
fig = go.Figure()
fig.add_trace(go.Scatter3d(
    x = Y_3pc[0],y = Y_3pc[1], z = Y_3pc[2],
    mode='markers'
))
fig.update_layout(title_text="<b> 3 componentes principales")
fig.show()

### Conclusiones

- Sabiendo que el porcentaje de varianza explicado por las primeras dos componentes es del $90.42\%$ y que el porcentaje de varianza explicado por las primeras tres componentes es del $95\%$, podemos concluir que es necesario utilizar la tercera componente principal
- Adicionalmente, si nos fijamos en la **FIG B**, podemos observar que presenta un *codo* justo cuando se utiliza la tercera componente principal, por lo que esto también es indicativo de que utilizar la tercera componente principal es de relevancia
- Podemos, ademas, notar que el utilizar tres componentes principales reduce nuestro espacio de variables original ($6$) a la mitad, por lo que estamos explicando con la mitad de las variables el $95\%$ de la varianza total
- Notemos que si vemos el gráfico de dispersión para dos dimensiones, podemos notar que tan solo dos componentes principales no son capaces de realizar una buena separación de los datos, por lo que este es otro indicio de que incrementar en $1$ la cantidad de componentes principales nos puede ayudar a dividir de mejor manera los datos

## 2. Prueba de hipótesis $\psi$

- Para el análisis de componentes principales de la pregunta 1, prueba la hipótesis: $H_0: \psi = 0.85$ vs. $H_1: \text{No}\; H_0$
- donde $\psi$ es la proporción de varizanza muestral explicada por las **dos primeras componentes principales**

---

Del análisis anterior podemos notar lo sigiuente:

- $\hat{\psi}_2 = 0.9042$
- $n-1=22$

Utilizaremos un $\alpha=0.05$


Para realizar la prueba de hipótesis consideraremos lo siguiente con un nivel de significancia del $95\%$

- Si $\psi=0.85$ se encuentra dentro del intervalo $(\hat{\psi}_2-\sqrt{w/22}\times Z_{1-\alpha/2}, \hat{\psi}_2+\sqrt{w/22}\times Z_{1-\alpha/2})$, aceptamos $H_0$
- De lo contrario, se $H_0$ se rechaza



- $Z_{1-\alpha/2} = 1.96$

In [150]:
# cálculo de w

psi_2 = 0.9042
Z = 1.96
n = 23

l1 = eig_values[0]
l2 = eig_values[1]
l3 = eig_values[2]
l4 = eig_values[3]
l5 = eig_values[4]
l6 = eig_values[5]
l7 = eig_values[6]
l8 = eig_values[7]

traza_de_sigmacuadrada = np.dot(eig_values, eig_values)
traza_sigma = np.sum(eig_values)
beta = (l1*l1 + l2*l2) / traza_sigmacuadrada

w = (2*traza_de_sigmacuadrada / (traza_sigma*traza_sigma))*(psi_2*psi_2 - (2*(psi_2*beta)) + beta)

print(w)

0.014642645112636781


In [151]:
low_intervalo = psi_2 - np.sqrt(w/(n-1)) * Z
high_intervalo = psi_2 + np.sqrt(w/(n-1)) * Z

print(f"Intervalo: ({low_intervalo}, {high_intervalo})")

Intervalo: (0.8536344774913032, 0.9547655225086968)


### Conclusiones

Sabiendo que el intervalo es: $(0.8536, 0.9547)$, podemos concluir que debemos aceptar $H_0$

## 3. Análisis de datos de gastos

- Usando los datos correspondientes a gastos de ```food.dat``` para hacer una comparación de: Trabajadores Manuales, Empleados y Jefes
- En general y sin importar el número de niños, ¿quién gasta más?
- ¿Quién tiene un rango más amplio en sus gastos?

In [72]:
df = pd.read_csv('food.dat')
df.head()

Unnamed: 0,family,bread,vegetables,fruits,meat,poultry,milk,wine
0,MA2,332,428,354,1437,526,247,427
1,EM2,293,559,388,1527,567,239,258
2,CA2,372,767,562,1948,927,235,433
3,MA3,406,563,341,1507,544,324,407
4,EM3,386,608,396,1501,558,319,363


In [83]:
trabajadores_df = df[df['family'].isin(['MA2', 'MA3', 'MA4', 'MA5'])]
empleados_df = df[df['family'].isin(['EM2', 'EM3', 'EM4', 'EM5'])]
jefes_df = df[df['family'].isin(['CA2', 'CA3', 'CA4', 'CA5'])]

trabajadores_df = trabajadores_df.iloc[:, 1:]
empleados_df = empleados_df.iloc[:, 1:]
jefes_df = jefes_df.iloc[:, 1:]

trabajadores_df

Unnamed: 0,bread,vegetables,fruits,meat,poultry,milk,wine
0,332,428,354,1437,526,247,427
3,406,563,341,1507,544,324,407
6,534,660,367,1620,638,414,407
9,655,776,423,1848,759,495,486


In [84]:
empleados_df

Unnamed: 0,bread,vegetables,fruits,meat,poultry,milk,wine
1,293,559,388,1527,567,239,258
4,386,608,396,1501,558,319,363
7,460,699,484,1856,762,400,416
10,584,995,548,2056,893,518,319


In [85]:
jefes_df

Unnamed: 0,bread,vegetables,fruits,meat,poultry,milk,wine
2,372,767,562,1948,927,235,433
5,438,843,689,2345,1148,243,341
8,385,789,621,2366,1149,304,282
11,515,1097,887,2630,1167,561,284


Finalmente, a cada conjunto de datos sacamos la suma para agruparlos

In [91]:
def group_by(df):
    bread_sum = df['bread'].sum()
    vegetables_sum = df['vegetables'].sum()
    fruits_sum = df['fruits'].sum()
    meat_sum = df['meat'].sum()
    poultry_sum = df['poultry'].sum()
    milk_sum = df['milk'].sum()
    wine_sum = df['wine'].sum()
    
    t_df = pd.DataFrame({
        'bread': [bread_sum], 'vegetables': [vegetables_sum], 'fruits':[fruits_sum],
        'meat':[meat_sum], 'poultry': [poultry_sum], 'milk': [milk_sum], 'wine': [wine_sum]
    })
    return t_df

In [96]:
tdf = group_by(trabajadores_df)
tdf

Unnamed: 0,bread,vegetables,fruits,meat,poultry,milk,wine
0,1927,2427,1485,6412,2467,1480,1727


In [97]:
edf = group_by(empleados_df)
edf

Unnamed: 0,bread,vegetables,fruits,meat,poultry,milk,wine
0,1723,2861,1816,6940,2780,1476,1356


In [98]:
jdf = group_by(jefes_df)
jdf

Unnamed: 0,bread,vegetables,fruits,meat,poultry,milk,wine
0,1710,3496,2759,9289,4391,1343,1340


### Diagramas de caja

In [121]:
def get_mean(df):
    return round(np.mean(df.iloc[:,:].values[0]),2)

In [123]:
fig = go.Figure()
fig.add_trace(go.Box(
    y=tdf.iloc[:,:].values[0],
    name='Trabajadores'
))
fig.add_trace(go.Box(
    y=edf.iloc[:,:].values[0],
    name="Empleados"
))
fig.add_trace(go.Box(
    y=jdf.iloc[:,:].values[0],
    name="Jefes"
))

fig.update_layout(
    title_text=f"Gasto trabajadores: {get_mean(tdf)}<br>Gasto empleados: {get_mean(edf)}<br>Gasto jefes: {get_mean(jdf)}"
)

fig.show()

### Conclusiones

- **En general y sin importar el número de niños, ¿quién gasta más?**
    - Basándonos en el promedio de los trabajadores, empleados y jefes, podemos observar que los jefes son los que gastan más. Con un promedio de $3475.43$ unidades de dinero en el periodo de tiempo analizado, los jefes son los que gastan más dinero

- **¿Quién tiene un rango más amplio en sus gastos?**
    - De igual forma, los jefes son los que tienen un rango más amplio en sus gastos pues tienen un valor mínimo de compra de $1340$ hasta un valor máximo de $4391$ y un valor aberrante en $9289$.
    - La justificación de que los jefes sean los que tienen un rango más amplio de gastos tiene sentido pues suponiendo que los jefes ganan más dinero que los empleados y que los trabajadores, los tres grupos sociales tienen que tener una canasta básica de gastos (lo mínimo indipensable para sobrevivir), sin embargo, a los jefes les sobra dinero una vez que compraron la canasta básica para hacer compras más caras.
    - De igual forma, tiene sentido que los trabajadores sean los que tengan un rango menor de amplitud en gastos pues no tienen dinero suficiente más que para la canast básica. 
    - A pesar de estas anotaciones, podemos observar que los tres grupos socieconómicos tienen valores aberrantes y corresponden a los gastos en carne