## Tarea Semana 4: Análisis de clustering para la Aceptación de Tecnologías Emergentes en el Aula de Clases

### Instrucciones generales 

**Introducción:**
Con el objetivo de profundizar en la comprensión de los factores que influyen en la percepción de los docentes sobre tecnologías emergentes en el ámbito educativo, se plantea la realización de un análisis de clustering sobre un conjunto de datos obtenidos mediante una encuesta. La encuesta evaluó la percepción de los docentes en relación con cuatro factores clave: Effort Expectancy (EE), Performance Expectancy (PEX), Social Influence (SI) y Facilitating Conditions (FC), utilizando una escala Likert de 1 a 5.

**Objetivo del Análisis:**
El objetivo de este análisis de clustering es identificar posibles patrones o segmentos de docentes basados en sus respuestas a los diferentes factores considerados en la encuesta. Se pretende agrupar a los docentes en categorías homogéneas según su percepción, lo que permitirá una comprensión más profunda de cómo estos factores interactúan y cómo podrían influir en la adopción de tecnologías emergentes en el aula.

**Datos Disponibles:**
- Respuesta (answer) en una escala Likert de 1 a 5.
- Datos demográficos (Sexo, Edad).
- Factores. Dos preguntas para cada factor a continuación: 
  - **External:** Perceived Usefulness (PU: Q4, Q5), Self-Efficacy (SE: Q6, Q7), Perceived Compatibility (PC: Q8, Q9), and Perceived Entertainment (PE: Q10, Q11).
  - **Internal:** Effort Expectancy (EE: Q12, Q13), Performance Expectancy (PEX: Q14, Q15), Social Influence (SI: Q16, Q17) y Facilitating Conditions (FC: Q18, Q19).
- **Nota:** No use las columnas Q1, Q2, Q3.

**Método Propuesto:**
1. Se llevará a cabo un análisis exploratorio de los datos para comprender la distribución de las respuestas y la relación entre los diferentes factores.
2. Se aplicará un algoritmo de hierarchical clustering, para agrupar a los docentes en segmentos basados en sus respuestas a los factores considerados.
3. Se analizarán las características de cada cluster identificado para identificar patrones de percepción comunes entre los docentes.
5. Se interpretarán los resultados del análisis de clustering en el contexto de la aceptación de tecnologías emergentes en el aula y se discutirán posibles implicaciones para la práctica educativa.

**Entregables:**
Se presentará un informe detallado que incluirá los resultados del análisis de clustering, las características de los clusters identificados, y una discusión sobre las implicaciones para la aceptación de tecnologías emergentes en el aula de clases.

- Revise: https://www.mdpi.com/2227-7102/14/1/10

### OPCIÓN 1: LOW-CODE Y RÉPLICA DE NOTEBOOK

1. **Cargue el dataset:**

```Python
import pandas as pd

data = pd.read_csv("https://raw.githubusercontent.com/marsgr6/estadistica-ux/main/data/final_ET.csv")

data.head()
```

|    | Sexo   |   Edad | Q1   | Q2   | Q3   |   Q4 |   Q5 |   Q6 |   Q7 |   Q8 |   Q9 |   Q10 |   Q11 |   Q12 |   Q13 |   Q14 |   Q15 |   Q16 |   Q17 |   Q18 |   Q19 |
|---:|:-------|-------:|:-----|:-----|:-----|-----:|-----:|-----:|-----:|-----:|-----:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|
|  0 | Male   |     18 | Si   | Si   | No   |    2 |    4 |    3 |    3 |    3 |    2 |     1 |     3 |     4 |     2 |     5 |     3 |     1 |     3 |     4 |     2 |
|  1 | Male   |     18 | Si   | Si   | Si   |    4 |    3 |    3 |    2 |    3 |    2 |     2 |     3 |     4 |     3 |     4 |     3 |     2 |     4 |     3 |     2 |
|  2 | Male   |     18 | Si   | Si   | Si   |    3 |    3 |    3 |    3 |    3 |    2 |     3 |     5 |     3 |     4 |     1 |     4 |     3 |     2 |     3 |     4 |
|  3 | Male   |     18 | Si   | Si   | Si   |    4 |    4 |    4 |    2 |    2 |    3 |     3 |     2 |     3 |     3 |     4 |     3 |     3 |     3 |     4 |     2 |
|  4 | Male   |     18 | Si   | Si   | No   |    4 |    4 |    2 |    2 |    3 |    4 |     3 |     3 |     5 |     3 |     4 |     3 |     3 |     2 |     2 |     3 |

2. **Seleccione solo las variables correspondientes a las preguntas en escala likert: Q4 a Q19.**
  - Realice un análisis de clustering jerarquico con estos datos.
  - Debe obtener el siguiente resultado usando euclidean distance y ward linkage:

```Python
from sklearn.cluster import AgglomerativeClustering
import scipy.cluster.hierarchy as shc
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt

data_cl = data[data.columns[5:]]  # variables numéricas
Z=shc.linkage(data_cl, method='ward')

plt.figure(figsize=(16, 8))
plt.title("Dendrograms")
dend = shc.dendrogram(shc.linkage(data_cl, method='metodo_de_agrupamiento'))
plt.show()
```

  <img src="https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/ts4_cl2.png" alt="drawing" width="800"/>

  - Agregue la columna cluster a los datos cargados en el punto 1. **Note** la última columna a continuación.

```Python
cluster = AgglomerativeClustering(n_clusters=numero_de_cluters, metric='medida_de_distancia', linkage='metodo_de_agrupamiento')
labels = cluster.fit_predict(data_cl)
data['cluster'] = labels.astype('str')
data['cluster'] = data['cluster'].astype("category")
data.head()
```

- Resultado esperado
  
|    | Sexo   |   Edad | Q1   | Q2   | Q3   |   Q4 |   Q5 |   Q6 |   Q7 |   Q8 |   Q9 |   Q10 |   Q11 |   Q12 |   Q13 |   Q14 |   Q15 |   Q16 |   Q17 |   Q18 |   Q19 |   cluster |
|---:|:-------|-------:|:-----|:-----|:-----|-----:|-----:|-----:|-----:|-----:|-----:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|----------:|
|  0 | Male   |     18 | Si   | Si   | No   |    2 |    4 |    3 |    3 |    3 |    2 |     1 |     3 |     4 |     2 |     5 |     3 |     1 |     3 |     4 |     2 |         1 |
|  1 | Male   |     18 | Si   | Si   | Si   |    4 |    3 |    3 |    2 |    3 |    2 |     2 |     3 |     4 |     3 |     4 |     3 |     2 |     4 |     3 |     2 |         1 |
|  2 | Male   |     18 | Si   | Si   | Si   |    3 |    3 |    3 |    3 |    3 |    2 |     3 |     5 |     3 |     4 |     1 |     4 |     3 |     2 |     3 |     4 |         0 |
|  3 | Male   |     18 | Si   | Si   | Si   |    4 |    4 |    4 |    2 |    2 |    3 |     3 |     2 |     3 |     3 |     4 |     3 |     3 |     3 |     4 |     2 |         1 |
|  4 | Male   |     18 | Si   | Si   | No   |    4 |    4 |    2 |    2 |    3 |    4 |     3 |     3 |     5 |     3 |     4 |     3 |     3 |     2 |     2 |     3 |         1 |
  
3. **Realice un análisis exploratorio para entender los clusters.**
  - Haga un melt de los datos:
    - Número de observaciones es 120, y cada factor 2 preguntas: `[PU']*120*2`.
    - Similar para factores generales externos e internos: `['External']*120*8 + ['Internal']*120*8.`
      - Cada uno de ellos corresponde a 2 preguntas por 4 factores específicos (`*8`).
  
```Python  
data_m = pd.melt(data, id_vars=['Sexo', 'Edad', 'cluster', 'Q1', 'Q2', 'Q3'])
factor = ['PU']*120*2 + ['SE']*120*2 + ['PC']*120*2 + ['PE']*120*2 + ['EE']*120*2 + ['PEX']*120*2 + ['SI']*120*2 + ['FC']*120*2
tf = ['External']*120*8 + ['Internal']*120*8
data_m['factor'] = factor
data_m['tf'] = tf
```
  - Debe obtener el siguiente dataset:

|    | Sexo   |   Edad |   cluster | Q1   | Q2   | Q3   | variable   |   value | factor   | tf       |
|---:|:-------|-------:|----------:|:-----|:-----|:-----|:-----------|--------:|:---------|:---------|
|  0 | Male   |     18 |         1 | Si   | Si   | No   | Q4         |       2 | PU       | External |
|  1 | Male   |     18 |         1 | Si   | Si   | Si   | Q4         |       4 | PU       | External |
|  2 | Male   |     18 |         0 | Si   | Si   | Si   | Q4         |       3 | PU       | External |
|  3 | Male   |     18 |         1 | Si   | Si   | Si   | Q4         |       4 | PU       | External |
|  4 | Male   |     18 |         1 | Si   | Si   | No   | Q4         |       4 | PU       | External |

- Ejecute el script de visualización para el dataset `melted`, debe descargar el script a su capeta de trabajo: https://raw.githubusercontent.com/marsgr6/estadistica-ux/main/viz.py

```Python     
from viz import *

all_data = {}

# Add dataframes to data dictionary
all_data['ET_melted'] = data_m

# call the function to perform EDA from viz.py passing the dictionary
plot_data(all_data)
```

- Reproduzca y disucta los siguientes gráficos:
    
  <img src="https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/ts4_lineplot.png" alt="drawing" width="800"/>

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/ts4_violin.png" alt="drawing" width="800"/>

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/ts4_lineplot_gender.png" alt="drawing" width="800"/>

4. **De conclusiones.**

**Vea:**
- https://nbviewer.org/github/marsgr6/estadistica-ux/blob/main/ux_visualization.ipynb
- https://nbviewer.org/github/marsgr6/estadistica-ux/blob/main/clustering.ipynb
    

### OPCIÓN 2: REPORTE EJECUTIVO PARA GERENCIA

- **Elabore un informe ejecutivo** discutiendo las figuras y resultados anteriores, puntos 1 a 4 de la Opción Low Code.

El reporte ejecutivo debe tener una extensión máxima de 3 páginas. Crea un documento en word que incluya lo siguiente:
  1. Descripción general del problema: explica el contexto o problema empresarial y el enfoque de análisis. 
  2. Diccionario de variables o base de datos: describe los datos utilizados para el análisis. 
  3. Análisis descriptivo de datos agrupados.
  4. Interpretación de las técnicas de clustering: explica por qué el análisis de clustering usado es adecuado para este problema. También incluye una interpretación de los resultados de dichas técnicas con detalle. **Los resultados están disponibles en las secciones 1 a 4 de la Opción Low Code.** Es importante que lleve a cabo el ejercicio del punto Low Code 3: **Realice un análisis exploratorio para entender los clusters.** Ejecute el script descargando el siguiente archivo a su carpeta de trabajo: https://raw.githubusercontent.com/marsgr6/estadistica-ux/main/viz.py. 

  5. Conclusión y Recomendaciones: ofrece recomendaciones gerenciales y sugerencias estratégicas que permita a la empresa tomar decisiones.
  
La explicación en todas las secciones del reporte ejecutivo debe ser detallado, justificado y relacionado al contexto o problema.