In [None]:
# Analisis descriptivo
# Se incluirán gráficos relevantes para las variables categóricas y cuantitativas.

In [None]:
pip install dash plotly


In [None]:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu


In [None]:
pip install tf-keras

In [None]:
pip install torch

In [None]:
pip install tensorflow

In [None]:
pip install transformers

In [None]:
pip install textblob googletrans==4.0.0-rc1

In [None]:
pip install rapidfuzz

In [None]:
!pip install textblob

In [None]:
# -------------------------------
# Importación de librerías necesarias
# -------------------------------

# Librerías de análisis y procesamiento de datos
import pandas as pd
import numpy as np

# Visualización de datos
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from wordcloud import WordCloud

# Procesamiento de texto (nlp)
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from textblob import TextBlob
from transformers import pipeline
from rapidfuzz import process, fuzz

# Clustering y preprocesamiento
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from scipy.cluster.hierarchy import dendrogram, linkage

# Dash (dashboard interactivo)
import dash
import dash_core_components as dcc
import dash_html_components as html
from dash.dependencies import Input, Output

In [None]:
# Descargar recursos necesarios de nltk
nltk.download('punkt')  # Tokenizador
nltk.download('stopwords')  # Stopwords
nltk.download('wordnet')  # Lemmatizer
nltk.download('omw-1.4')  # Recurso adicional para lemmatizer

In [None]:
# Configuración de visualización
sns.set(style="whitegrid")

In [None]:
# Cargar el dataset
data = pd.read_csv("Dirty_Evaluation_Data.csv")

In [None]:
# Información general del dataset
print("\n\n=== Información General del Dataset ===\n")
data.info()

In [None]:
# Estadísticas descriptivas
print("\n\n=== Estadísticas Descriptivas ===\n")
print(data.describe(include='all'))

In [None]:
# Visualizar las primeras filas del dataset
print("\n\n=== Primeras Filas del Dataset ===\n")
print(data.head())

In [None]:
# Verificar valores nulos por columna
print("\n\n=== Valores Nulos por Columna ===\n")
null_counts = data.isnull().sum()
null_percent = (data.isnull().mean() * 100).round(2)
nulls = pd.DataFrame({"Valores Nulos": null_counts, "Porcentaje (%)": null_percent})
print(nulls)

In [None]:
# Visualización de la distribución de valores nulos
plt.figure(figsize=(10, 6))
sns.heatmap(data.isnull(), cbar=False, cmap="viridis")
plt.title("Mapa de Calor de Valores Nulos")
plt.show()

In [None]:
# Reprocesamiento voy hacer arreglos necesarios que vi pertintentes en algunas variables

In [None]:
# Definir columnas afectadas con formato esperado
columnas_a_corregir = {
    'Id Instructor': 10,                 # Debe tener exactamente 10 dígitos
    'Curso': 6,                          # Debe tener 6 dígitos
    'Nº Clase': 4,                       # Debe tener 5 dígitos
    'Nota final por curso': 'nota',      # Notas deben ser tipo decimal
    'Nota final por clase': 'nota',      # Notas deben ser tipo decimal
    'Total Evaluaciones generadas': 4,   # Máximo 4 dígitos
    'Evaluaciones realizadas': 4,        # Máximo 4 dígitos
    '% de participación': 'porcentaje'  # Porcentajes deben estar entre 0 y 100
}

In [None]:
# Función para corregir valores mal formateados
def corregir_valor(valor, formato):
    try:
        if pd.isna(valor):  # Si es NaN, no lo tocamos
            return valor
        if formato == 'nota':  # Corregir notas mal formateadas como 50 -> 5.0
            valor = float(valor)
            return valor / 10 if valor > 10 else valor
        elif formato == 'porcentaje':  # Asegurar que el porcentaje esté entre 0 y 100
            return float(valor) if 0 <= float(valor) <= 100 else np.nan
        else:  # Para truncar según el número de dígitos especificado
            valor_str = str(int(valor))  # Convertir a entero y luego a cadena
            return int(valor_str[:formato]) if len(valor_str) > formato else int(valor_str)
    except:
        return np.nan  # En caso de error, devolver NaN

In [None]:
# Aplicar correcciones a las columnas afectadas
for columna, formato in columnas_a_corregir.items():
    data[columna] = data[columna].apply(lambda x: corregir_valor(x, formato))

In [None]:
# Ajustes en variables categoricas


In [None]:
# Definir las categorías válidas para las columnas restantes
categorias_validas = {
    'Modo de Enseñanza': ['Presencial', 'Virtual Formal'],
    'Grado Académico': ['PREG', 'DOCT', 'MSTR']
}

In [None]:
# Función para eliminar espacios vacíos dentro de las respuestas
def eliminar_espacios(valor):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
    return " ".join(str(valor).split())  # Elimina espacios múltiples y alrededor

In [None]:
# Función para corregir las categorías utilizando fuzzy matching
def corregir_categorias(valor, categorias):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
    
    valor_normalizado = str(valor).strip().upper()  # Normalizamos el texto y lo pasamos a mayúsculas
    
# # usar fuzzy matching para encontrar el mejor match
    mejor_match = process.extractOne(valor_normalizado, categorias)
    
# # si se encontró un match, devuelve la categoría correspondiente
    if mejor_match:
        return mejor_match[0]  # Devuelve el valor del mejor match
    
    return valor  # Si no hay match, devuelve el valor original

In [None]:
# Aplicar eliminación de espacios a las columnas categóricas
columnas_categoricas = ['Modo de Enseñanza', 'Grado Académico']
for columna in columnas_categoricas:
    data[columna] = data[columna].apply(eliminar_espacios)

In [None]:
from rapidfuzz import process

In [None]:
# Corregir las categorías para "grado académico"
data['Grado Académico'] = data['Grado Académico'].apply(lambda x: corregir_categorias(x, categorias_validas['Grado Académico']))

In [None]:
# Corregir las categorías para "modo de enseñanza"
data['Modo de Enseñanza'] = data['Modo de Enseñanza'].apply(lambda x: corregir_categorias(x, categorias_validas['Modo de Enseñanza']))

In [None]:
# Función para limpiar la columna catálogo
def limpiar_catalogo(valor):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
# # eliminar todos los espacios en blanco
    valor_limpio = "".join(str(valor).split())  
    return valor_limpio

In [None]:
# Aplicar la limpieza a la columna 'catálogo'
data['Catálogo'] = data['Catálogo'].apply(limpiar_catalogo)

In [None]:
# Función para organizar la columna 'catálogo' a 6 caracteres: dos letras seguidas de 4 números
def organizar_catalogo(valor):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
# # eliminar todos los espacios en blanco
    valor = "".join(str(valor).split())
    
# # separar las letras y los números
    letras = "".join([c for c in valor if c.isalpha()])  # Extraer letras
    numeros = "".join([c for c in valor if c.isdigit()])  # Extraer números
    
# # asegurarse de que hay al menos 2 letras y 4 números
    letras = letras[:2]  # Tomar solo las primeras dos letras
    numeros = numeros[:4]  # Tomar solo los primeros 4 números
    
# # concatenar las letras y números asegurando que siempre sean 6 caracteres
    catalogo_organizado = letras + numeros
    return catalogo_organizado

# Aplicar la organización a la columna 'catálogo'
data['Catálogo'] = data['Catálogo'].apply(organizar_catalogo)
  

In [None]:
# Definir las categorías o nombres correctos para los catálogos
categorias_catalogo = ['Psicología General I', 'Matemáticas II', 'Biología Molecular', 'Química Orgánica']

# Función para corregir las palabras mal ordenadas en el catálogo
def corregir_catalogo(valor, categorias):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
    
    valor_normalizado = str(valor).strip().lower()  # Normalizamos el texto y lo pasamos a minúsculas
# # usamos fuzzy matching para encontrar el mejor match
    mejor_match = process.extractOne(valor_normalizado, categorias, scorer=fuzz.ratio)
    
# # `mejor_match` ahora es una tupla (mejor_match, score), así que accedemos al primer valor
    return mejor_match[0] if mejor_match else valor  # Si no hay match, devolvemos el valor original


In [None]:
# Aplicar la corrección a la columna 'nombre catalogo'
data['Nombre Catalogo'] = data['Nombre Catalogo'].apply(lambda x: corregir_catalogo(x, categorias_catalogo))

In [None]:
# Definir las categorías correctas para "centro de costos"
categorias_centros_costos = ['Psicología', 'Matemáticas', 'Biología', 'Química', 'Física', 'Administración', 'Derecho', 'Ingeniería', 'Comunicación']

In [None]:
# Función para corregir las palabras mal ordenadas en el "centro de costos"
def corregir_centro_costos(valor, categorias):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
    
    valor_normalizado = str(valor).strip().lower()  # Normalizamos el texto y lo pasamos a minúsculas
# # usamos fuzzy matching para encontrar el mejor match
    resultado = process.extractOne(valor_normalizado, categorias, scorer=fuzz.ratio)
    
# # si se encuentra un match, devolvemos el mejor match
    if resultado:
        mejor_match = resultado[0]
        return mejor_match
    return valor  # Si no hay match, devolvemos el valor original


In [None]:
# Aplicar la corrección a la columna 'centro de costos'
data['Centro de Costos'] = data['Centro de Costos'].apply(lambda x: corregir_centro_costos(x, categorias_centros_costos))

In [None]:
# Definir las categorías correctas para la columna 'pregunta'
categorias_pregunta = [
    'Menciona un aspecto a mejorar del desempeño de tu profe en el aula',
    '¿Tienes algún comentario adicional de tu profe o del curso?'
]

In [None]:
# Función para corregir las palabras mal ordenadas en la columna 'pregunta'
def corregir_pregunta(valor, categorias):
    if pd.isna(valor):  # Si el valor es NaN, no lo procesamos
        return valor
    
    valor_normalizado = str(valor).strip().lower()  # Normalizamos el texto y lo pasamos a minúsculas
# # usamos fuzzy matching para encontrar el mejor match
    resultado = process.extractOne(valor_normalizado, categorias, scorer=fuzz.ratio)
    
# # si se encuentra un match, devolvemos el mejor match
    if resultado:
        mejor_match = resultado[0]
        return mejor_match
    return valor  # Si no hay match, devolvemos el valor original

In [None]:
# Aplicar la corrección a la columna 'pregunta'
data['Pregunta'] = data['Pregunta'].apply(lambda x: corregir_pregunta(x, categorias_pregunta))

In [None]:
# Eliminar la columna 'comentarios' no veo como sume para el analisis
data = data.drop(columns=['Competencia Evaluada'])

In [None]:
# Limpieza de datos categóricos
def clean_categorical_column(column):
    return column.str.strip().str.lower().str.replace(r'[^a-z\s]', '', regex=True).fillna("desconocido")

if 'Modo de Enseñanza' in data.columns:
    data['Modo de Enseñanza'] = clean_categorical_column(data['Modo de Enseñanza'])
if 'Centro de Costos' in data.columns:
    
    data['Centro de Costos'] = clean_categorical_column(data['Centro de Costos'])

In [None]:
# Visualizar distribuciones de variables numéricas
numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns

for col in numeric_cols:
    plt.figure(figsize=(8, 4))
    sns.histplot(data[col].dropna(), kde=True, bins=30)
    plt.title(f"Distribución de {col}")
    plt.xlabel(col)
    plt.ylabel("Frecuencia")
    plt.show()

In [None]:
# Verificar correlaciones entre variables numéricas
plt.figure(figsize=(12, 8))
correlation_matrix = data[numeric_cols].corr()
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Mapa de Calor de Correlación")
plt.show()

In [None]:
# Análisis de palabras clave en comentarios
if 'Comentarios' in data.columns:
    text_data = " ".join(data['Comentarios'].dropna().astype(str))
    wordcloud = WordCloud(width=800, height=400, background_color="white").generate(text_data)
    plt.figure(figsize=(10, 6))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis("off")
    plt.title("Nube de Palabras: Comentarios")
    plt.show()

In [None]:
# Llenar los valores nan con la moda de cada columna, para eficiencia del analisis , veo que es un 10% por columna y veo que lo puedo realzair asi
for columna in data.columns:
    moda = data[columna].mode()[0]  # Obtener la moda de la columna
    data[columna] = data[columna].fillna(moda)  # Rellenar NaN con la moda

In [None]:
# Eliminar valores nulos en la columna de comentarios (asumiendo que se llama 'comentarios')
data = data.dropna(subset=['Comentarios'])

In [None]:
# Función para limpiar texto
def clean_text(text):
    text = text.lower()  # Convertir a minúsculas
    text = re.sub(r'\d+', '', text)  # Eliminar números
    text = re.sub(r'[^\w\s]', '', text)  # Eliminar signos de puntuación
    text = re.sub(r'\s+', ' ', text)  # Eliminar espacios múltiples
    return text

In [None]:
# Aplicar limpieza de texto
data['Comentarios_limpios'] = data['Comentarios'].apply(clean_text)

In [None]:
# Eliminar stopwords
stop_words = set(stopwords.words('spanish'))
data['Comentarios_tokenizados'] = data['Comentarios_limpios'].apply(
    lambda x: ' '.join([word for word in word_tokenize(x) if word not in stop_words])
)

print(data[['Comentarios', 'Comentarios_limpios', 'Comentarios_tokenizados']].head())

In [None]:
# Función para analizar el sentimiento
def analizar_sentimiento(texto):
    blob = TextBlob(texto)
    polaridad = blob.sentiment.polarity
    if polaridad > 0:
        return "positivo"
    elif polaridad < 0:
        return "negativo"
    else:
        return "neutro"

In [None]:
# Cambia 'comentarios_limpios' por el nombre de la columna que deseas usar para el análisis
data['sentimiento'] = data['Comentarios_limpios'].apply(analizar_sentimiento)

In [None]:
print(data[['Comentarios', 'sentimiento']].head())

In [None]:
print(data['sentimiento'].value_counts())

In [None]:
# Gráfico de barras para la distribución de sentimientos
plt.figure(figsize=(8, 6))
sns.countplot(x='sentimiento', data=data, palette='coolwarm')
plt.title('Distribución de Sentimientos')
plt.xlabel('Sentimiento')
plt.ylabel('Cantidad')
plt.show()

In [None]:
# Gráfico de dispersión para ver cómo la 'nota final por curso' se relaciona con los sentimientos
plt.figure(figsize=(10, 6))
sns.boxplot(x='sentimiento', y='Nota final por curso', data=data, palette='coolwarm')
plt.title('Distribución de Nota Final por Curso según Sentimiento')
plt.xlabel('Sentimiento')
plt.ylabel('Nota Final por Curso')
plt.show()

In [None]:
# Gráfico de dispersión para ver cómo el '% de participación' se relaciona con los sentimientos
plt.figure(figsize=(10, 6))
sns.boxplot(x='sentimiento', y='% de participación', data=data, palette='coolwarm')
plt.title('Distribución de % de Participación según Sentimiento')
plt.xlabel('Sentimiento')
plt.ylabel('% de Participación')
plt.show()

In [None]:
# Clusterización de textos

In [None]:
# 1. verificar datos cargados
print(data.head())
print(data.info())

In [None]:
# Mapear valores de sentimiento a números
sentimiento_map = {
    "positivo": 1,
    "neutro": 0,
    "negativo": -1
}

In [None]:
# Reemplazar valores de sentimiento por números
data['sentimiento_numerico'] = data['sentimiento'].map(sentimiento_map)

In [None]:
# Verificar si hay valores no mapeados
if data['sentimiento_numerico'].isnull().any():
    print("Advertencia: Hay valores de sentimiento que no se han mapeado correctamente.")
    print(data.loc[data['sentimiento_numerico'].isnull(), 'sentimiento'].unique())


In [None]:
# Normalizar los valores numéricos de sentimiento
data['sentimiento_normalizado'] = (data['sentimiento_numerico'] - data['sentimiento_numerico'].mean()) / data['sentimiento_numerico'].std()

In [None]:
# 1. selección de las columnas de interés
numerical_columns = ['Nota final por curso','sentimiento_normalizado']
categorical_columns = ['Grado Académico', 'Nombre Catalogo', 'Modo de Enseñanza', 'Centro de Costos', 'Pregunta']

In [None]:
# 2. preprocesamiento: categóricas con onehotencoding y numéricas con escalado
# Usamos columntransformer para aplicar diferentes transformaciones a las columnas numéricas y categóricas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_columns),
        ('cat', OneHotEncoder(), categorical_columns)
    ])

In [None]:
# 3. crear un pipeline que primero aplica el preprocesamiento y luego la clusterización
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

In [None]:
# 4. transformar los datos
data_preprocessed = pipeline.fit_transform(data)

# Convertimos la matriz dispersa a densa
data_preprocessed_dense = data_preprocessed.toarray()

In [None]:
# 5. método del codo para determinar el número óptimo de clústeres
inertia = []
range_n_clusters = range(1, 11)  # Probar con diferentes valores de k (de 1 a 10)
for k in range_n_clusters:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(data_preprocessed_dense)
    inertia.append(kmeans.inertia_)

# Graficar el método del codo
plt.figure(figsize=(8, 6))
plt.plot(range_n_clusters, inertia, marker='o')
plt.title('Método del Codo')
plt.xlabel('Número de Clústeres')
plt.ylabel('Inercia')
plt.show()

In [None]:
# A continuación, supongamos que determinamos que el número óptimo de clústeres es, por ejemplo, 4.
optimal_clusters = 4

# 6. aplicamos kmeans con el número óptimo de clústeres
kmeans = KMeans(n_clusters=optimal_clusters, random_state=42)
data['Cluster'] = kmeans.fit_predict(data_preprocessed_dense)

# Mostrar las primeras filas del dataframe con la nueva columna de clústeres
print(data.head())

In [None]:
for i in range(4):
    print(f"\nCluster {i+1}:")
    print(data[data['Cluster'] == i]['sentimiento'].head(5))

In [None]:
# Dasboard

In [None]:
# 1. cargar y preparar los datos
# Suponemos que ya tienes el dataframe 'data' con las columnas relevantes: cluster y sentimiento
# Si el dataframe contiene nans, podrías querer hacer una limpieza aquí.
data = data.copy()

In [None]:

# 2. crear el dashboard de dash
app = dash.Dash(__name__)

# Layout del dashboard
app.layout = html.Div([
# # título
    html.H1("Análisis Interactivo de Segmentación y Sentimiento"),
    
# # filtro para seleccionar el cluster
    html.Label("Selecciona un Cluster:"),
    dcc.Dropdown(
        id='cluster-dropdown',
        options=[{'label': f'Cluster {i}', 'value': i} for i in range(data['Cluster'].nunique())],
        value=0,  # Valor por defecto (cluster 0)
        multi=False
    ),
    
# # gráfico 1: distribución de las notas finales por curso según el clúster
    html.Div([
        dcc.Graph(id='nota-final-curso')
    ]),
    
# # gráfico 2: sentimiento promedio por clúster
    html.Div([
        dcc.Graph(id='sentimiento-promedio')
    ]),
    
# # gráfico 3: relación entre el sentimiento y las notas finales por curso
    html.Div([
        dcc.Graph(id='sentimiento-vs-nota')
    ]),
    
# # gráfico 4: distribución de las variables categóricas
    html.Div([
        dcc.Graph(id='distribucion-categoricas')
    ])
])

# Callback para actualizar los gráficos según el clúster seleccionado
@app.callback(
    [Output('nota-final-curso', 'figure'),
     Output('sentimiento-promedio', 'figure'),
     Output('sentimiento-vs-nota', 'figure'),
     Output('distribucion-categoricas', 'figure')],
    [Input('cluster-dropdown', 'value')]
)
def update_graphs(selected_cluster):
# # filtrar los datos por el cluster seleccionado
    filtered_data = data[data['Cluster'] == selected_cluster]

# # 1. gráfico: distribución de las notas finales por curso según el clúster
    fig1 = px.histogram(filtered_data, x='Nota final por curso', nbins=20, title=f'Distribución de las Notas Finales por Curso (Cluster {selected_cluster})')
    
# # 2. gráfico: sentimiento promedio por clúster
    fig2 = px.box(filtered_data, y='sentimiento', title=f'Sentimiento Promedio por Cluster {selected_cluster}')
    
# # 3. gráfico: relación entre el sentimiento y las notas finales por curso
    fig3 = px.scatter(filtered_data, x='Nota final por curso', y='sentimiento', 
                      title=f'Relación entre Sentimiento y Nota Final por Curso (Cluster {selected_cluster})')

# # 4. gráfico: distribución de las variables categóricas (grado académico, modo de enseñanza, etc.)
    fig4 = px.histogram(filtered_data, x='Grado Académico', color='Modo de Enseñanza', 
                         title=f'Distribución por Grado Académico y Modo de Enseñanza (Cluster {selected_cluster})')

    return fig1, fig2, fig3, fig4

# Ejecutar el servidor
if __name__ == '__main__':
    app.run_server(debug=True)
