<p style="text-align:center">
    <a href="https://skills.network/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork31430127-2022-01-01" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Skills Network Logo"  />
    </a>
</p>


# ***Non-Negative Matrix Factorization DEMO***


$ \ $

$\color{lightblue}{\text{Non-Negative Matrix Factorization (NMF)}}$ is a dimensionality reduction technique that factorizes a non-negative data matrix into two non-negative matrices. It is widely used for feature extraction and unsupervised learning tasks. More specifically, given a non-negative data matrix $X \in \mathbb{R}^{m \times n}$ with non-negative entries, $\color{lightblue}{\text{NMF}}$ aims to find two non-negative matrices, $W \in \mathbb{R}^{m \times r}$ and $H \in \mathbb{R}^{r \times n}$, such that:

$$ X \approx WH $$

where:
- $r$ is the reduced rank or the number of components used to represent the data.
- $W$ is the non-negative basis matrix that represents the features or components of the data.
- $H$ is the non-negative coefficient matrix that encodes how much each component contributes to each data point.

The objective of $\color{lightblue}{\text{NMF}}$ is to minimize the reconstruction error between $X$ and its approximation $WH$, subject to the constraint that all entries of $W$ and $H$ are non-negative.

$(1)$ **Objective Function:**

The objective function of $\color{lightblue}{\text{NMF}}$ is typically formulated as the Frobenius norm of the reconstruction error:

$$ \underset{W, \ H}{Min} \ \frac{1}{2} \| X - WH \|_{F}^{2} $$

where $\| \cdot \|_{F}$ denotes the Frobenius norm, which is the square root of the sum of squared elements of a matrix.

$(2)$ **Non-Negativity Constraints:**

The non-negativity constraints in $\color{lightblue}{\text{NMF}}$ require that all elements of $W$ and $H$ are non-negative:

$$ W \geq 0, \quad H \geq 0 $$

This constraint ensures that the components and coefficients are additive and interpretable.

$(3)$ **Optimization:**

To find the optimal values of $W$ and $H$, various optimization algorithms can be used. One common approach is multiplicative update rules, which iteratively updates $W$ and $H$ to minimize the objective function while enforcing the non-negativity constraints. The multiplicative update rules are as follows:

$$W_{ik} \leftarrow W_{ik} \frac{(XH^T)_{ik}}{(WHH^T)_{ik}}$$

$$H_{kj} \leftarrow H_{kj} \frac{(W^TX)_{kj}}{(W^TWH)_{kj}}$$

where $(\cdot)_{ik}$ denotes the element at the $i$-th row and $k$-th column of the matrix, and $(\cdot)^T$ denotes the transpose.

$(4)$ **Initialization:**

$\color{lightblue}{\text{NMF}}$ is sensitive to initialization, and different initial values for $W$ and $H$ may result in different solutions. Common initialization strategies include random initialization and using other techniques such as $\color{lightgreen}{\text{singular value decomposition (SVD)}}$.

$(5)$ **Termination:**

The optimization process continues iteratively until convergence criteria are met. Convergence can be determined based on the number of iterations, the relative change in the objective function, or other stopping criteria.

$(6)$ **Interpretation:**

Once the optimization converges, the matrices $W$ and $H$ represent the low-dimensional feature representations and coefficients, respectively. These components and coefficients can be interpreted to understand the underlying structure and patterns in the data.

In summary, $\color{lightblue}{\text{Non-Negative Matrix Factorization}}$ is a dimensionality reduction technique that factors a non-negative data matrix into two non-negative matrices, representing features and coefficients. By enforcing non-negativity constraints, $\color{lightblue}{\text{NMF}}$ generates interpretable and additive components, making it useful for feature extraction and pattern discovery in various applications.

$ \ $

-----

## ***Installing required libraries***

$ \ $


The following required modules are pre-installed in the Skills Network Labs environment.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.sparse import coo_matrix
from sklearn.decomposition import NMF

In [2]:
# Surpress numpy data type warnings
import warnings
warnings.filterwarnings("ignore", category = DeprecationWarning)
warnings.filterwarnings("ignore", category = UserWarning)
warnings.filterwarnings("ignore", category = RuntimeWarning)
warnings.filterwarnings("ignore", category = FutureWarning)

In [3]:
# Ajustamos el contexto de los gráficos a 'notebook'.
sns.set_context('notebook')

# Ajustamos el estilo de los gráficos a 'white'.
sns.set_style('white')

$ \ $

----

## ***Data (BBC dataset)***

$ \ $

We will be using the BBC dataset. These are articles collected from $5$ different topics, with the data pre-processed. These data are available in the data folder or online [here](http://mlg.ucd.ie/files/datasets/bbc.zip?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork821-2023-01-01). The data consists of a few files. The steps we'll be following are:

* ***bbc.terms*** is just a list of words.

* ***bbc.docs*** is a list of articles listed by topic.

At a high level, we're going to:

$(1)$ Turn the ***bbc.mtx*** file into a sparse matrix (a [sparse matrix](https://docs.scipy.org/doc/scipy/reference/sparse.html?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork821-2023-01-01) format can be useful for matrices with many values that are $0$, and save space by storing the position and values of non-zero elements).

$(2)$ Decompose that sparse matrix using NMF.


$(3)$ Use the resulting components of NMF to analyze the topics that result.


$ \ $

----

## ***Example***

$ \ $

$(1)$ We use the urllib module to open a connection to the URL given below and then we read the corresponding content.

> $\underline{\text{Note:}}$ The description of the file from ***bbc.mtx*** is a list:

* first column is ***wordID***,

* second is ***articleID***

* and the third is the number of times that word appeared in that article.

 So, if word $1$ appears in article $3$, $2$ times, one element of our list will be `(1, 3, 2)`.


In [4]:
# Importamos el módulo 'urllib', que proporciona una colección de funciones para trabajar con URLs.
import urllib

In [5]:
# Abrimos una conexión a la URL 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-ML0187EN-SkillsNetwork/labs/module%203/data/bbc.mtx'
# utilizando el método 'urlopen' del módulo 'urllib.request'.
# La conexión se realiza para obtener el contenido del archivo 'bbc.mtx'.
with urllib.request.urlopen('https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-ML0187EN-SkillsNetwork/labs/module%203/data/bbc.mtx') as r:
    # Leemos el contenido de la respuesta utilizando el método 'readlines()'.
    # Esto devuelve una lista de cadenas, donde cada cadena representa una línea del archivo.
    content = r.readlines()

# Utilizamos el slicing '[2:]' para omitir las dos primeras líneas del contenido.
# La primera línea generalmente contiene metadatos sobre el formato de la matriz y la segunda línea contiene información sobre su tamaño.
# Por lo tanto, estamos obteniendo solo las líneas que contienen los datos reales de la matriz.
content = content[2:]

In [6]:
# Mostramos los primeros 5 elementos en content
content[:5]

[b'1 1 1.0\n', b'1 7 2.0\n', b'1 11 1.0\n', b'1 14 1.0\n', b'1 15 2.0\n']


$ \ $


$(2)$ We will turn this into a list of tuples representing a [sparse matrix](https://docs.scipy.org/doc/scipy/reference/sparse.html?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork821-2023-01-01).




In [7]:
# Creamos una lista vacía llamada 'sparse_mat' que se utilizará para almacenar los datos de la matriz dispersa.
sparse_mat = []

# Iteramos sobre cada cadena 'c' en la lista 'content', que contiene las líneas del archivo 'bbc.mtx'.
for c in content:
    # Utilizamos el método 'split()' para dividir la cadena en elementos individuales (números) basados en los espacios.
    # Esto crea una lista de cadenas llamada 'cadena'.
    cadena = c.split()

    # Utilizamos la función 'map(float, cadena)' para convertir cada elemento de la lista 'cadena' a un número de punto flotante (float).
    # Esto se hace para asegurarnos de que los valores numéricos estén en el formato adecuado.
    cadena = map(float, cadena)

    # Utilizamos la función 'map(int, cadena)' para convertir cada número de punto flotante en la lista 'cadena' a un número entero (int).
    # Esto se realiza porque los valores numéricos en el formato original son números de punto flotante, pero para representar la matriz dispersa necesitamos números enteros.
    tupla = tuple(map(int, cadena))

    # Agregamos la tupla 'tupla' a la lista 'sparsemat' utilizando el método 'append()'.
    # De esta manera, la lista 'sparsemat' se va construyendo a medida que se procesa cada línea del archivo.
    sparse_mat.append(tupla)

# Finalmente, imprimimos los primeros 8 elementos de la lista 'sparsemat', que representan las primeras 8 tuplas generadas a partir del contenido del archivo 'bbc.mtx'.
# Cada tupla representa una fila de datos de la matriz dispersa y contiene elementos numéricos enteros que representan los índices y valores de los elementos no cero en la matriz.
sparse_mat[:8]

[(1, 1, 1),
 (1, 7, 2),
 (1, 11, 1),
 (1, 14, 1),
 (1, 15, 2),
 (1, 19, 2),
 (1, 21, 1),
 (1, 29, 1)]

$ \ $

$(3)$ We will use the [coo matrix](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.coo_matrix.html?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork821-2023-01-01) function to turn the sparse matrix into an array.


In [8]:
# Extraemos los valores de la primera posición (fila) de cada tupla en 'sparsemat' utilizando list comprehension.
# Esto crea una lista llamada 'rows' que contiene los índices de fila de los elementos no cero en la matriz dispersa.
rows = [x[0] for x in sparse_mat]

# Extraemos los valores de la segunda posición (columna) de cada tupla en 'sparsemat' utilizando list comprehension.
# Esto crea una lista llamada 'cols' que contiene los índices de columna de los elementos no cero en la matriz dispersa.
cols = [x[1] for x in sparse_mat]

# Extraemos los valores de la tercera posición (valor) de cada tupla en 'sparsemat' utilizando list comprehension.
# Esto crea una lista llamada 'values' que contiene los valores de los elementos no cero en la matriz dispersa.
values = [x[2] for x in sparse_mat]

# Usamos la función 'coo_matrix' de la librería SciPy para crear una matriz dispersa de coordenadas (COO) utilizando los datos extraídos.
# La función 'coo_matrix' recibe tres argumentos: los valores de los elementos no cero ('values'), los índices de fila ('rows') y los índices de columna ('cols').
# Esta función construye la matriz dispersa COO utilizando la información proporcionada.
coo = coo_matrix((values, (rows, cols)))

$ \ $

$(4)$ We will import `NMF`, define a model object with $5$ components, and `fit_transform` the data created above.

In [9]:
# Creamos una instancia del modelo NMF (Factorización Matricial No Negativa) con 5 componentes y una inicialización aleatoria.
# También establecemos la semilla aleatoria en 818 para garantizar la reproducibilidad del modelo.
model = NMF(n_components = 5, init = 'random', random_state = 818)

# Aplicamos el modelo NMF a la matriz dispersa de coordenadas 'coo' utilizando la función 'fit_transform'.
# Esto ajusta el modelo a los datos de 'coo' y transforma la matriz de entrada en una representación de temas latentes.
# La matriz resultante se denomina 'doc_topic'.
doc_topic = model.fit_transform(coo)

# Obtenemos la forma de la matriz 'doc_topic', que nos proporciona el número de documentos (filas) y el número de componentes (columnas).
doc_topic.shape

(9636, 5)

$ \ $

$(5)$ We find feature with highest value per doc.

In [10]:
# Utilizamos la función np.argmax para encontrar el índice del valor máximo en cada fila de la matriz 'doc_topic'.
# El argumento 'axis=1' indica que queremos encontrar el valor máximo a lo largo del eje 1 (por filas).
# Esto devuelve un array de una dimensión que contiene los índices del valor máximo en cada fila de la matriz 'doc_topic'.
np.argmax(doc_topic, axis = 1)

array([0, 0, 2, ..., 4, 4, 4])

$ \ $

$(6)$ We Check out the `components` of this model.

In [11]:
# Utilizamos la propiedad 'components_' del modelo NMF 'model' para acceder a la matriz de componentes.
# Esta matriz contiene los vectores característicos (bases) que representan los temas o patrones latentes en los datos.
model.components_

array([[0.00000000e+00, 0.00000000e+00, 1.38270552e-02, ...,
        1.16294930e-01, 2.67658884e-02, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,
        0.00000000e+00, 3.45973237e-03, 0.00000000e+00],
       [0.00000000e+00, 2.42318342e-01, 2.70555550e-01, ...,
        1.94836183e-01, 8.57914245e-02, 0.00000000e+00],
       [0.00000000e+00, 8.51673991e-03, 3.89478235e-03, ...,
        4.79348843e-02, 6.39591089e-03, 4.85501158e+00],
       [0.00000000e+00, 1.16747418e-01, 0.00000000e+00, ...,
        3.75339490e-01, 2.16110570e-01, 8.89277077e-02]])

In [12]:
# Usamos el atributo 'shape' para obtener la forma (dimensiones) de la matriz 'components_'.
# La propiedad 'shape' devuelve una tupla que representa las dimensiones de la matriz, en este caso, es (número_de_temas, número_de_características).
# Donde 'número_de_temas' es el número de temas latentes especificados al crear el modelo NMF, y 'número_de_características' es la cantidad de características o dimensiones en los datos originales.
model.components_.shape

(5, 2226)

This is five rows, each of which is a "topic" containing the weights of each word on that topic. The exercise is to get a list of the top 10 words for each topic. We can just store this in a list of lists.

$ \ $

$(7)$ We'll  read  the words from the `bbc.terms` file just like we read in the above above.

In [13]:
# Utilizamos 'urllib.request.urlopen' para abrir una conexión a la URL y obtener el contenido del archivo de términos.
# La función 'readlines' lee el contenido del archivo línea por línea y lo almacena en la variable 'content'.
with urllib.request.urlopen('https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-ML0187EN-SkillsNetwork/labs/module%203/data/bbc.terms') as r:
    content = r.readlines()

In [14]:
content[:5]

[b'ad\n', b'sale\n', b'boost\n', b'time\n', b'warner\n']

In [15]:
# Creamos una lista llamada 'words' para almacenar las palabras del archivo de términos procesadas.
words = []

# Iteramos sobre las líneas en 'content', que contiene el contenido del archivo de términos.
for c in content:
    # Utilizamos 'split' para dividir cada línea en palabras.
    # Luego, seleccionamos el primer elemento (la primera palabra) utilizando el índice [0].
    # Esto se debe a que cada línea del archivo de términos contiene una palabra seguida de un valor numérico, y solo queremos las palabras.
    word = c.split()[0]
    # Agregamos la palabra a la lista 'words'.
    words.append(word)

In [16]:
# Creamos una lista llamada 'topic_words' para almacenar las palabras más representativas de cada tema.
topic_words = []

# Iteramos sobre cada fila (tema) en 'model.components_'.
for r in model.components_:
    # En cada iteración, estamos creando una lista llamada 'a', que contiene tuplas de la forma (valor, índice).
    # Cada tupla representa un valor de importancia y su índice correspondiente en la fila 'r'.
    # Utilizamos la función 'enumerate' para obtener el índice y el valor de cada elemento en la fila 'r'.
    # Luego, utilizamos 'sorted' para ordenar las tuplas en orden descendente según los valores.
    # Y finalmente, seleccionamos las 12 primeras tuplas en orden descendente utilizando la rebanada [0:12].
    a = sorted([(v, i) for i, v in enumerate(r)], reverse = True)[0:12]

    # Creamos una lista llamada 'topic_words_row' para almacenar las palabras más representativas del tema actual.
    topic_words_row = []

    # Iteramos sobre las tuplas en 'a'.
    for e in a:
        # Obtenemos el índice 'e[1]' de la tupla, que corresponde al índice de la palabra en 'words'.
        # Luego, utilizamos este índice para obtener la palabra real en la lista 'words'.
        word = words[e[1]]
        # Agregamos la palabra a la lista 'topic_words_row'.
        topic_words_row.append(word)

    # Agregamos la lista 'topic_words_row' (palabras más representativas del tema actual) a la lista 'topic_words'.
    topic_words.append(topic_words_row)

In [17]:
# Mostramos los primeros 5 elementos de la lista
topic_words[:5]

[[b'bondi',
  b'stanlei',
  b'continent',
  b'mortgag',
  b'bare',
  b'least',
  b'extent',
  b'200',
  b'leav',
  b'frustrat',
  b'yuan',
  b'industri'],
 [b'manipul',
  b'teenag',
  b'drawn',
  b'go',
  b'prosecutor',
  b'herbert',
  b'host',
  b'protest',
  b'hike',
  b'nation',
  b'calcul',
  b'power'],
 [b'dimens',
  b'hous',
  b'march',
  b'wider',
  b'owner',
  b'intend',
  b'declin',
  b'forc',
  b'posit',
  b'founder',
  b'york',
  b'unavail'],
 [b'rome',
  b'ft',
  b'regain',
  b'lawmak',
  b'outright',
  b'resum',
  b'childhood',
  b'greatest',
  b'citi',
  b'stagnat',
  b'crown',
  b'bodi'],
 [b'build',
  b'empir',
  b'isol',
  b'\xc2\xa312',
  b'restructur',
  b'closer',
  b'plung',
  b'depreci',
  b'durham',
  b'race',
  b'juli',
  b'segreg']]

The original data had $5$ topics, as listed in `bbc.docs` (which these topic words relate to).

```
Business
Entertainment
Politics
Sport
Tech
```

In "real life", we would have found a way to use these to inform the model. But for this little demo, we can just compare the recovered topics to the original ones. And they seem to match reasonably well. The order is different, which is to be expected in this kind of model.


In [18]:
# Utilizamos urllib.request.urlopen para abrir y leer el contenido del archivo 'bbc.docs' en línea.
# Este archivo contiene el contenido de los documentos en el conjunto de datos.
with urllib.request.urlopen('https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-ML0187EN-SkillsNetwork/labs/module%203/data/bbc.docs') as r:
    doc_content = r.readlines()

# Mostramos los primeros 8 elementos de la lista doc_content para obtener una vista previa del contenido de los documentos.
doc_content

[b'business.001\n',
 b'business.002\n',
 b'business.003\n',
 b'business.004\n',
 b'business.005\n',
 b'business.006\n',
 b'business.007\n',
 b'business.008\n',
 b'business.009\n',
 b'business.010\n',
 b'business.011\n',
 b'business.012\n',
 b'business.013\n',
 b'business.014\n',
 b'business.015\n',
 b'business.016\n',
 b'business.017\n',
 b'business.018\n',
 b'business.019\n',
 b'business.020\n',
 b'business.021\n',
 b'business.022\n',
 b'business.023\n',
 b'business.024\n',
 b'business.025\n',
 b'business.026\n',
 b'business.027\n',
 b'business.028\n',
 b'business.029\n',
 b'business.030\n',
 b'business.031\n',
 b'business.032\n',
 b'business.033\n',
 b'business.034\n',
 b'business.035\n',
 b'business.036\n',
 b'business.037\n',
 b'business.038\n',
 b'business.039\n',
 b'business.040\n',
 b'business.041\n',
 b'business.042\n',
 b'business.043\n',
 b'business.044\n',
 b'business.045\n',
 b'business.046\n',
 b'business.047\n',
 b'business.048\n',
 b'business.049\n',
 b'business.050\n',
