## Obtención de los datos a partir de la Matriz insumo producto

Consideremos la tabla de insumo-producto de la siguiente forma:

![1.png](attachment:1.png)

Se implementara el algoritmo de cluster para
- **Proporción de valor agregado interno** contenido en las exportaciones totales de cada industria
- **Proporción de la producción total** de cada industria que se destina al comercio internacional.
### Proporción de valor agregado interno

Para obtener la proporción de valor agregado interno contenido en las exportaciones totales de cada industria, consideremos que:

$$
\text{Proporción de Valor Agregado Interno}
= \frac{\text{Valor Agregado Interno de las Exportaciones}}{\text{Exportaciones Totales}}
$$

Para obtener el Valor Agregado Interno de las Exportaciones o $VAX$, se tiene:

$$
VAX = \hat{v}\,L\,\hat{e}
$$

donde $ \hat{e} $ es el vector de exportaciones expresado en forma diagonal, $ \hat{v} $ es el vector de valor agregado (también diagonalizado) y $L$ es la inversa de Leontief, definida como

$$
L = (I - A)^{-1}.
$$

Los coeficientes técnicos $a_{ij}$ representan la cantidad de insumo $i$ requerida para producir una unidad de producto del sector $j$. Se calculan como:

$$
a_{ij} = \frac{Z_{ij}}{x_j},
$$

o, en términos matriciales:

$$
A = Z \cdot \mathrm{diag}(X)^{-1},
$$

donde $\mathrm{diag}(X)$ es una matriz diagonal construida a partir del vector de producción total de la tabla insumo-producto, con los valores $x_j$ en la diagonal principal.

Por otro lado, el vector de exportaciones $e$ se define como:

$$e = y_{\text{interna}} - X$$

donde $y_{\text{interna}}$ es la demanda final interna y $X$ es la producción total. Dentro de la demanda final interna se consideran las siguientes categorías:

- Gasto de consumo final de los hogares  
- Instituciones sin fines de lucro al servicio de los hogares  
- Consumo final del gobierno general  
- Formación bruta de capital fijo  
- Variaciones de existencias y objetos de valor  
- Compras directas en el exterior de residentes  

Sin embargo, **solo** se incluirán en la demanda final interna las primeras cinco categorías, excluyendo las compras directas en el exterior de residentes.

Finalmente, tras diagonalizar los vectores $v$ y $e$, se obtiene:

$$
VAX =
\begin{pmatrix}
v_1 & 0 & 0 & 0 \\
0 & v_2 & 0 & 0 \\
0 & 0 & v_3 & 0 \\
0 & 0 & 0 & v_4
\end{pmatrix}
\begin{pmatrix}
L_{11} & L_{12} & L_{13} & L_{14} \\
L_{21} & L_{22} & L_{23} & L_{24} \\
L_{31} & L_{32} & L_{33} & L_{34} \\
L_{41} & L_{42} & L_{43} & L_{44}
\end{pmatrix}
\begin{pmatrix}
e_1 & 0 & 0 & 0 \\
0 & e_2 & 0 & 0 \\
0 & 0 & e_3 & 0 \\
0 & 0 & 0 & e_4
\end{pmatrix}.
$$

Para obtener el Valor Agregado Interno ($VAI$) de cada industria, se toman los términos de la diagonal principal que contabilizan el $VAI$ contenido en las exportaciones de cada industria $i$ del país $r$:

$$
VAI_{r_i} = v_{r_i}\,L_{r_i r_i}\,e_{r_i}.
$$

Dado que el objetivo es encontrar la **Proporción de Valor Agregado Interno**, basta con calcular:

$$
PVI =
\begin{pmatrix}
v_1 & 0 & 0 & 0 \\
0 & v_2 & 0 & 0 \\
0 & 0 & v_3 & 0 \\
0 & 0 & 0 & v_4
\end{pmatrix}
\begin{pmatrix}
L_{11} & L_{12} & L_{13} & L_{14} \\
L_{21} & L_{22} & L_{23} & L_{24} \\
L_{31} & L_{32} & L_{33} & L_{34} \\
L_{41} & L_{42} & L_{43} & L_{44}
\end{pmatrix}.
$$

De esta manera, la Proporción de Valor Agregado Interno de la $i$-ésima industria del $r$-ésimo país se expresa como:

$$
\text{Proporción de Valor Agregado Interno}_{r_i} = PVI_{r_i r_i}.
$$


Recordemos que la matriz  
$$
VAX = \hat{v}\,L\,\hat{e}
$$  
mide el valor agregado interno (de cada sector/industria) contenido en las exportaciones (de cada sector/industria). Cada entrada $VAX_{r i}$ (fila $r$, columna $i$) representa el valor agregado del sector $r$ que está contenido en las exportaciones del sector $i$.

- **La columna $i$ de $VAX$** recoge, entonces, **toda** la contribución de valor agregado de cada sector $r$ (filas) **a la producción exportada por la industria $i$ (columna)**.

Por tanto, si uno quiere saber **cuál es el valor agregado interno total** (de todos los sectores) **contenido en las exportaciones de la industria $i$**, basta con **sumar la columna $i$** de $VAX$:

$$
\text{VAI en exportaciones de la industria } i 
= 
\sum_{r} VAX_{r,i}
= 
\sum_{r} \bigl(\hat{v}\,L\,\hat{e}\bigr)_{r,i}.
$$

Notemos que $\hat{v}$ y $\hat{e}$ son matrices diagonales con los vectores $v$ y $e$ en la diagonal.  Por convención de multiplicación:

$$
VAX_{r,i}
= \bigl(\hat{v}\,L\,\hat{e}\bigr)_{r,i}
= v_r\,L_{r,i}\,e_i
\quad\Longrightarrow\quad
\sum_{r} VAX_{r,i}
= 
\sum_{r} v_r\,L_{r,i}\,e_i 
= e_i \sum_{r} v_r\,L_{r,i}.
$$

Así, el valor agregado interno **total** de las exportaciones de la in dustria $i$ es
$$
e_i \;\sum_{r} v_r\,L_{r,i}.
$$


Para obtener la **proporción** o fracción de VAI de la industria $i$ en relación con sus exportaciones totales, se divide el VAI (calculado en el punto anterior) entre las exportaciones totales $e_i$ de la industria $i$:

$$
\text{Proporción de VAI en las exportaciones de la industria } i
= \frac{
e_i \,\sum_{r} v_r\,L_{r,i}
}{
e_i
}
= \sum_{r} v_r\,L_{r,i}.
$$

Observe que el factor $e_i$ se cancela.  **El resultado** es simplemente la **suma de la columna $i$** en la matriz 
$$PVI = \hat{v}\,L,$$  
(que tiene entradas $PVI_{r,i} = v_r\,L_{r,i}$). 


1. **$\sum_{r} v_r\,L_{r,i}$** es la *proporción de valor agregado interno* que lleva la industria $i$ en cada unidad monetaria que exporta.  
2. Para pasar a valores monetarios (si uno quisiera el monto en lugar de la proporción) basta multiplicar esa suma por $e_i$, que son las exportaciones totales de $i$.

$$
\boxed{
\text{Proporción de VAI de la industria } i 
= 
\sum_{r} \bigl(\hat{v}\,L\bigr)_{r,i}
= 
\sum_{r} v_r\,L_{r,i}.
}
$$

equivalente a tomar la **columna $i$** de $\hat{v}L$ y sumar todas sus filas. De este modo, se obtiene la fracción del valor exportado por la industria $i$ que realmente **corresponde a valor agregado interno** (de todos los sectores) en la economía.







-----

Para **calcular la proporción de Valor Agregado Interno (VAI)** contenido en las exportaciones totales de cada industria, partimos de la relación general:

$$
\text{Proporción de Valor Agregado Interno}
= \frac{\text{Valor Agregado Interno de las Exportaciones (VAX)}}{\text{Exportaciones Totales}}.
$$

Donde el **Valor Agregado Interno de las Exportaciones (VAX)** se define mediante:
   $$
   VAX = \hat{v}\,L\,\hat{e},
   $$
   con:
   - $\hat{v}$ es la versión diagonalizada del **vector de valor agregado** ($v$) 
   - $\hat{e}$ es la versión diagonalizada del **vector de  exportaciones** ($e$), el cual se define en terminos generales como:
$$e = y_{\text{interna}} - X$$
   donde $X$ es la producción total y $y_{\text{interna}}$ es la **demanda final interna**, la cual se define consiiderando que la **demanda final**  tiene las siguientes categorías:

    1. Gasto de consumo final de los hogares  
    2. Instituciones sin fines de lucro al servicio de los hogares  
    3. Consumo final del gobierno general  
    4. Formación bruta de capital fijo  
    5. Variaciones de existencias y objetos de valor  
    6. Compras directas en el exterior de residentes
    
  Donde $y_{\text{interna}}$ es la suma de todas las categorias de la demanda final, excluyendo las compras directas en el exterior de residentes
     
   - $L = (I - A)^{-1}$ es la **inversa de Leontief**, calculada a partir de la matriz de coeficientes técnicos
     $$
     A = Z \cdot \mathrm{diag}(X)^{-1}.
     $$
   - $A$ contiene los coeficientes $a_{ij}$, que indican la cantidad del insumo $i$ requerida para producir una unidad del producto del sector $j$.  Donde $y_{\text{interna}}$ es la demanda final interna


Una vez obtenido $VAX$, la **Proporción de VAI** en las exportaciones de la industria $i$ resulta de dividir el valor agregado interno total de esa industria por sus exportaciones totales $e_i$. Matemáticamente,
   $$
   \text{PVI}_i 
   = \frac{\sum_{r} VAX_{r,i}}{e_i}
   = \sum_{r} v_r\,L_{r,i},
   $$
 
lo cual se expresa de forma compacta como
     $$
     \boxed{
     \text{Proporción de VAI de la industria } i 
     = 
     \sum_{r} \bigl(\hat{v}\,L\bigr)_{r,i}
     = 
     \sum_{r} v_r\,L_{r,i}.
     }
     $$

Así se obtiene la **porción de valor agregado interno** (de todos los sectores) incluida en las exportaciones de cada industria.

Finalmente, para determinar la **proporción de la producción total de cada industria que se destina al comercio internacional**, se calcula:

$$
\text{Proporción de comercio internacional} = \frac{\text{Exportaciones}}{\text{Producción total}}.
$$

Es decir, se necesitas **dividir las exportaciones de cada industria** entre su **producción total**.  Entonces la proporción de la industria $i$ destinada al comercio internacional es:

\[
\frac{e_i}{x_i}.
\]

Donde:

- \(e_i\) = Exportaciones de la industria \(i\)  
- \(x_i\) = Producción total de la industria \(i\)

## **1. Importación de Librerías**
El código importa varias librerías esenciales para análisis de datos y clustering:
- `pandas` y `numpy`: Para manipulación de datos.
- `seaborn` y `matplotlib.pyplot`: Para visualización.
- `sklearn.preprocessing.MinMaxScaler`: Para normalización de datos.
- `scipy.cluster.hierarchy`: Para clustering jerárquico.
- `sklearn.cluster`: Para diferentes algoritmos de clustering (Jerárquico, DBSCAN, KMeans, etc.).
- `sklearn.metrics`: Para evaluar la calidad del clustering.


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt  
from sklearn.preprocessing import MinMaxScaler  
import scipy.cluster.hierarchy as shc
from sklearn.cluster import AgglomerativeClustering
from sklearn.cluster import DBSCAN
from sklearn.cluster import KMeans, AffinityPropagation
from sklearn.metrics import silhouette_score, davies_bouldin_score
from sklearn.neighbors import NearestNeighbors

## **2. Carga y Normalización de Datos**
- Se lee el archivo CSV en un DataFrame de `pandas`.
- Se normalizan los datos usando **MinMaxScaler**, transformando todas las variables al rango **[0,1]** para evitar que una variable tenga mayor peso por su escala.
- Se crean nuevas columnas con los valores escalados, renombradas como `"VA"` (Valor Agregado) y `"EXP"` (Exportaciones).

In [None]:
# Cargar datos
file = ''  # Especificar la ruta del archivo CSV
df = pd.read_csv(file)

# Normalización Min-Max de los datos
escalador = MinMaxScaler().fit(df.values)
df = pd.DataFrame(escalador.transform(df.values), columns=["VA", "EXP"])


## **Implementación de algoritmos de Cluster**
Para elegir el numero de clusters, primero se usara un metodo jerarquico para determinar el numero de clusters, luego se implementaran 3 algoritmos para hacer la clasificacion
1. Agrupamiento jerarquico (Ward)
2. Agrupamiento basado en centroides ($k-means$)
3. Agrupamiento basado en densidad (dbescan)

### **1. Agrupamiento jerarquico (Ward)**

Se construye un **dendrograma** utilizando el método de Ward, que minimiza la varianza dentro de cada cluster y se grafica añadiendo una línea horizontal (`axhline(y=1)`) para establecer un umbral de corte.


In [None]:
plt.figure(figsize=(10,7)) # Se crea el plot
dend = shc.dendrogram(shc.linkage(df, method="ward"))
plt.axhline(y=1, color="r", linestyle="--")
plt.show()

#### Aplicación del Clustering Jerárquico
Se aplica **Clustering Jerárquico Aglomerativo** con 4 clusters, con distancia **euclidiana** y el método de agrupamiento **Ward**.

In [None]:
cluster = AgglomerativeClustering(n_clusters=4, metric="euclidean", linkage="ward")
clustering = cluster.fit_predict(df)

#### **Evaluación de Clustering Jerárquico**
silueta_cj = silhouette_score(df, cluster.labels_)
davies_bouldin_CJ = davies_bouldin_score(df, cluster.labels_)
- **Silhouette Score**: Evalúa qué tan bien están separados los clusters (valores más altos indican mejor separación).
- **Davies-Bouldin Score**: Mide la compacidad y separación de los clusters (valores más bajos son mejores).

In [None]:
silueta_cj = silhouette_score(df, cluster.labels_)
davies_bouldin_CJ = davies_bouldin_score(df, cluster.labels_)

#### Visualización de los Clusters jerarquico
Se grafica la distribución de los clusters obtenidos con **Clustering Jerárquico**: 
- Se crea un gráfico de dispersión con los clusters obtenidos.
- Se colorean los puntos según el cluster asignado.
- Se añade el **Silhouette Score** y el **Davies-Bouldin Score** al título.

In [None]:
fig = plt.figure(figsize=(10, 5), dpi=100)
ax = fig.add_subplot(1, 2, 1)
ax.scatter(df[cluster.labels_ >= 0]['VA'], df[cluster.labels_ >= 0]['EXP'], 
           c=cluster.labels_[cluster.labels_ >= 0], s=100, 
           linewidth=0.5, edgecolors="black")
ax.set_title("Clustering jerárquico\n\nSilueta = %.2f | Davies-Bouldin = %.2f" %
             (silueta_cj, davies_bouldin_CJ), fontsize=15)
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.show()

#### Determinación del Número Óptimo de Clusters
Se Se itera desde `k=1` hasta `k=8` para probar diferentes números de clusters, calculan las métricas **Silhouette Score** y **Davies-Bouldin Score** para cada \( k \) y se generan gráficos mostrando la segmentación para cada `k`.

In [None]:
fig = plt.figure(figsize=(18, 10))

for k in range(1, 9):
    clustersJ = AgglomerativeClustering(n_clusters=k+1, metric='euclidean', linkage='ward')
    cluster_labels = clustersJ.fit_predict(df)
    
    silhouette = silhouette_score(df, cluster_labels)
    davies_bouldin = davies_bouldin_score(df, cluster_labels)
    
    ax = fig.add_subplot(2, 4, k)
    ax.scatter(df[clustersJ.labels_>=0]["VA"], df[clustersJ.labels_>=0]["EXP"], 
               c=clustersJ.labels_[clustersJ.labels_>=0], s=200, 
               linewidth=0.5, edgecolors="black", alpha=0.85)
    ax.set_title("Gráfica %d\n\nSilueta = %.2f \n Davies-Bouldin = %.2f" % 
                 (k, silhouette, davies_bouldin), fontsize=20)
    ax.axis("off")

Se ajusta la distribución de gráficos para mejorar la visualización.

In [None]:
plt.subplots_adjust(hspace=0.5)
plt.show()

### **2. Agrupamiento basado en centroides ($k-means$)**

Se tomara el numero de clusters $k = 4$, de manera que se aplica K-Means con **4 clusters** y se agregan la etiqueta del cluster (`kmeans.labels_`) a una nueva columna en `df`.

In [None]:
# Aplicación de K-Means con 4 clusters
kmeans = KMeans(n_clusters=4, n_init=10, random_state=42).fit(df_scaled)
df_scaled["clusters"] = kmeans.labels_

#### Evaluación del Clustering
Se calculan dos métricas de evaluación de clustering:
- **Silhouette Score**: Mide la separación entre clusters (**más alto es mejor**).
- **Davies-Bouldin Score**: Mide la dispersión dentro de los clusters (**más bajo es mejor**).

In [None]:
# Cálculo de métricas de evaluación
silhouette_km = silhouette_score(df_scaled, kmeans.labels_)
davies_bouldin_km = davies_bouldin_score(df_scaled, kmeans.labels_)

#### Visualización del clustering K-Means
Se genera un gráfico que permitan visualizar la agrupación.
- Se genera un **gráfico de dispersión** mostrando los clusters con diferentes colores.
- Se incluyen métricas de evaluación en el título.
- Se eliminan los bordes superior y derecho del gráfico.

In [None]:
plt.figure(figsize=(6,5), dpi=100)

plt.scatter(df["VA"], df["EXP"],
            c=kmeans.labels_, 
            marker="o", s=160, alpha=0.8,
            linewidth=0.5, edgecolors="black")

plt.title("Clustering Kmeans\n\nSilueta = %.2f | Davies-Bouldin = %.2f" %
             (silueta_km, davies_bouldin_km), fontsize=15)
plt.xlabel("Valor Agregado Interno", fontsize=10)
plt.ylabel("Exportaciones", fontsize=10)

plt.gca().spines['top'].set_color('none')
plt.gca().spines['right'].set_color('none')

plt.show()

#### Determinación del Número Óptimo de Clusters
Se prueba $K-means$ con diferentes valores de $k$ (de 2 a 9) y se grafica, donde el punto de inflexión indica el número óptimo de clusters. Se almacena la **inercia** (suma de distancias al centro del cluster). Luego se grafica la inercia en función de `k` (Gráfica del **Codo**), donde el punto óptimo es donde la curva comienza a aplanarse.



In [None]:
inercias = []
k_values = range(2, 10)
for k in k_values:
    kmeans = KMeans(n_clusters=k, n_init=10, random_state=42).fit(df_scaled)
    inercias.append(kmeans.inertia_)

plt.figure(figsize=(6,5), dpi=100)
plt.scatter(k_values, inercias, marker="o", color='blue', s=100)
plt.plot(k_values, inercias, linestyle='-', color='blue')
plt.xlabel("Número de Clusters", fontsize=10)
plt.ylabel("Inercia", fontsize=10)
plt.title("Método del Codo")
plt.show()

Se prueban valores de $k$ entre 1 a 8, luego se calculan las métricas de calidad y se generan gráficos mostrando la segmentación para cada $k$.

In [None]:
fig = plt.figure(figsize=(26, 12))
for k in range(1, 9):
    kmeans = KMeans(n_clusters=k+1, n_init=10, random_state=42).fit(df_scaled)
    labels = kmeans.labels_
    silhouette = silhouette_score(df_scaled, labels)
    davies_bouldin = davies_bouldin_score(df_scaled, labels)
    
    ax = fig.add_subplot(2, 4, k)
    ax.scatter(df_scaled.iloc[:, 0], df_scaled.iloc[:, 1], c=labels, s=200, 
               linewidth=0.5, edgecolors="black", alpha=0.85)
    ax.set_title(f"K={k+1}\nSilueta = {silhouette:.2f}\nDavies-Bouldin = {davies_bouldin:.2f}", fontsize=20)
    ax.axis("off")

plt.subplots_adjust(hspace=0.5)
plt.show()

### **2. Agrupamiento basado en densidad (dbescan)**

