# Proyecto de Minería de Datos – Reglas de Asociación
## 1. Presentación del problema

**Patrones de participación estudiantil en CETYS Universidad**

Fox Coding es un club representativo de CETYS Universidad dedicado a promover el aprendizaje colaborativo en programación, tecnología e innovación. A través de talleres, hackathons y proyectos, busca desarrollar habilidades técnicas y fortalecer la comunidad estudiantil.

Sin embargo, no todos los estudiantes conocen o se integran al club. Por ello, este proyecto busca identificar qué factores influyen en la decisión de unirse a Fox Coding, analizando perfiles, intereses y comportamientos mediante reglas de asociación y el algoritmo Apriori.

A través del uso de estas reglas, se buscará detectar patrones de afinidad entre variables académicas, intereses personales, comportamientos y motivaciones, con el fin de comprender qué perfiles tienen mayor probabilidad de integrarse al club o mostrar interés por él.


## 2. Recolección de datos

### Fuente de los datos

**Origen:**
Los datos son de origen real y serán recolectados directamente de una fuente primaria.

No se trata de un conjunto de datos descargado o preexistente.
La fuente de los datos son los estudiantes de **CETYS Universidad** (campus Mexicali, Tijuana y Ensenada), quienes responderán a la encuesta **"Patrones de participación estudiantil en CETYS Universidad"** diseñada específicamente para este proyecto.

---

### Tipo de archivo

La encuesta está diseñada como un formulario digital (presumiblemente **Google Forms**).
Los datos se recopilarán inicialmente en una hoja de cálculo en línea (como **Google Sheets**).

Para el análisis de minería de datos (específicamente para usar el **algoritmo Apriori**), este archivo se exportará a un formato estructurado como:

- **CSV (Comma-Separated Values):** Es el formato más común para algoritmos de minería de datos, ya que es ligero y fácil de procesar por la mayoría de las herramientas y librerías (como *Pandas* en Python).
- **Excel (.xlsx):** Podría usarse para una limpieza y pre-procesamiento inicial antes de convertirlo a CSV.

---

### Descripción de las columnas

Las columnas del conjunto de datos corresponderán directamente a cada una de las preguntas de la encuesta.
A continuación, se describen las variables (columnas) que se obtendrán:

---

#### **Sección: Datos Generales**

- **Campus:** *(Categórica)* Ubicación del campus del estudiante (Mexicali, Tijuana, Ensenada).
- **Edad:** *(Numérica)* Edad del estudiante.
- **Género:** *(Categórica)* Identidad de género del estudiante (Femenino, Masculino, Prefiero no decir, Otro).

---

#### **Sección: Perfil académico**

- **Carrera:** *(Categórica)* Programa de ingeniería o licenciatura que estudia (ICC, IMEC, IM, IDGD, etc.).
- **Semestre:** *(Numérica/Ordinal)* Semestre que cursa actualmente.
- **Experiencia_previa_programacion:** *(Binaria)* Respuesta (Sí/No) a si tiene experiencia previa.
- **Actividades_extracurriculares_previas:** *(Categórica/Múltiple)* Tipos de actividades en las que ha participado (Clubes, Hackathons, Talleres, Deportes, Ninguna).

---

#### **Sección: Intereses y motivaciones**

- **Temas_interes:** *(Categórica/Múltiple)* Temas que le resultan de interés (Programación, Innovación, Emprendimiento, etc.).
- **Motivacion_unirse_club:** *(Categórica/Múltiple)* Razones principales para unirse a un club (Aprender, Conocer personas, CV, etc.).
- **Participacion_previa_FoxCoding:** *(Categórica)* Nivel de interacción previa con el club (Sí, No, No sabía que existía).

---

#### **Sección: Actitud y percepción**

- **Confianza_programacion:** *(Ordinal)* Nivel de autoconfianza en programación, en una escala del 1 (Nada) al 4 (Muy).
- **Percepcion_ambiente_clubes:** *(Categórica)* Percepción general del ambiente en clubes (Acogedor, Neutro, Poco acogedor, No tengo opinión).
- **Tiempo_libre_semanal:** *(Ordinal/Categórica)* Rango de horas disponibles por semana (Menos de 2, 2-5, 6-10, Más de 10).
- **Valor_club_FoxCoding:** *(Ordinal)* Valor percibido de pertenecer al club, en una escala del 1 (Nada) al 4 (Muy).

---

#### **Sección: Camaradería y relaciones sociales**

- **Descripcion_personal:** *(Categórica)* Autopercepción social (Extrovertido, Reservado, Depende).
- **Comodidad_grupal:** *(Ordinal)* Nivel de comodidad en actividades grupales, en una escala del 1 (Nada) al 4 (Muy).
- **Frecuencia_actividades_sociales:** *(Ordinal)* Frecuencia de participación en eventos sociales (Frecuentemente, A veces, Rara vez, Nunca).
- **Razon_inscripcion_club:** *(Categórica)* Razón principal si se unió a un club anteriormente (Amigo, Temática, Conocer personas, Probar).
- **Importancia_comunidad:** *(Ordinal)* Importancia dada al sentido de comunidad, en una escala del 1 (Nada) al 4 (Muy).

---

#### **Sección: Canales y comunicación**

- **Medio_informacion_FoxCoding:** *(Categórica/Múltiple)* Canal principal de comunicación (Instagram, Facebook, Correo, Amigos, etc.).
- **Frecuencia_uso_redes_eventos:** *(Ordinal)* Frecuencia de uso de redes sociales para informarse (Diario, Varias veces/semana, Rara vez, Nunca).

---

#### **Sección: Opiniones y sugerencias (Datos Cualitativos)**

- **Motivacion_extra_FoxCoding:** *(Cualitativa/Texto)* Respuesta abierta sobre qué le motivaría a unirse.
- **Sugerencia_eventos:** *(Cualitativa/Texto)* Respuesta abierta sobre eventos deseados.

---

### Nota sobre pre-procesamiento

Para aplicar el **algoritmo Apriori**, las variables **cualitativas (texto abierto)** y **numéricas** (como *Edad* o *Semestre*) deberán ser pre-procesadas:

- Las numéricas se **discretizarán** (convertirán en rangos, ej. *“18–20 años”*).
- Las cualitativas se **codificarán en categorías** (ej. *“Talleres de IA”*, *“Eventos sociales”*).

De esta forma, podrán ser tratadas como *items* en el análisis de **reglas de asociación**.


In [None]:
import pandas as pd

# Cambia la ruta según tu archivo
df = pd.read_csv('datos.csv')

# Mostrar las primeras filas
df.head()

## 3. Preparación de los datos
Describe las transformaciones aplicadas:
- Limpieza (valores nulos, duplicados)
- Selección de columnas relevantes
- Conversión al formato de transacciones

In [None]:
# Ejemplo de preprocesamiento
df = df.drop_duplicates()
df = df.dropna()

# Convertir a lista de transacciones
transactions = df.groupby('ID_Transaccion')['Producto'].apply(list).tolist()
transactions[:5]

## 4. Aplicación de reglas de asociación

### Algoritmo seleccionado: **Apriori**

El algoritmo **Apriori** será utilizado para identificar **reglas de asociación** entre los diferentes atributos del conjunto de datos, con el fin de descubrir patrones de comportamiento, intereses y motivaciones entre los estudiantes de CETYS Universidad.

---

### ¿Qué es el algoritmo Apriori?

**Apriori** es un algoritmo clásico de **minería de datos** que se utiliza para encontrar **conjuntos de ítems frecuentes** en una base de datos y derivar de ellos **reglas de asociación**.
Su nombre proviene de la idea de que el algoritmo usa conocimiento "a priori": si un conjunto de ítems es frecuente, entonces **todos sus subconjuntos también lo son**.

En otras palabras, Apriori busca relaciones del tipo:

> **Si un estudiante tiene cierto patrón de características (A), es probable que también tenga otra característica (B).**
> Ejemplo:
> *Si un estudiante participa en hackathons y tiene alto interés en programación, es probable que también valore el sentido de comunidad.*

---

### Funcionamiento general del algoritmo

1. **Conversión de datos a transacciones:**
   Cada respuesta de un estudiante se convierte en una "transacción" que contiene los ítems seleccionados (por ejemplo, *Campus = Mexicali*, *Carrera = ICC*, *Interés = Programación*, etc.).

2. **Definición del umbral de soporte:**
   Se define un valor mínimo de frecuencia (soporte) que determina qué combinaciones de ítems son relevantes.
   Solo se conservan los conjuntos de ítems que aparecen con una frecuencia mayor o igual al soporte mínimo.

3. **Generación de conjuntos de ítems frecuentes:**
   El algoritmo combina ítems y elimina los que no cumplen el soporte mínimo, repitiendo el proceso hasta que no queden combinaciones nuevas.

4. **Generación de reglas de asociación:**
   A partir de los conjuntos frecuentes, se crean reglas del tipo `A → B`, donde:
   - A y B son subconjuntos distintos del conjunto frecuente.
   - Se calculan medidas como **confianza** y **lift** para determinar la fuerza de la asociación.

---

y los parámetros elegidos (soporte, confianza, lift). **pendiente**

## 5. Análisis de resultados
Interpreta las reglas obtenidas:
- ¿Qué relaciones interesantes encontraste?
- ¿Qué significan los valores de soporte, confianza y lift?
- ¿Qué reglas serían útiles para el contexto del problema?

## 6. Comparación con Altair AI Studio
Realiza el mismo análisis en Altair AI Studio.

Incluye aquí:
- Capturas de pantalla o resultados de Altair
- Comparación breve entre ambos entornos:
  - ¿Los resultados fueron similares?
  - ¿Qué ventajas observaste en cada herramienta?

## 7. Conclusiones
- ¿Qué patrones o reglas te parecieron más relevantes?
- ¿Qué conocimiento nuevo obtuviste del análisis?
- ¿Qué mejorarías en el proceso?

## 8. Referencias
Lista de fuentes de datos, artículos o materiales consultados.