<a href="https://colab.research.google.com/github/ENRIKO-18/DataMining/blob/main/A2_Data_Quality_Preparacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Minería de Datos
## Actividad: Calidad y Preparación de Datos

**Entorno:** Google Colab + Pandas  
**Archivo:** `estudiantes_rendimiento_100_registros.csv`

---
## Objetivo general
Analizar la calidad de un conjunto de datos utilizando métricas de Data Quality y posteriormente aplicar técnicas de preparación de datos para su uso en minería de datos.

## Parte 1 – Carga y exploración inicial de los datos
1. Cargue el archivo CSV usando Pandas.
2. Muestre las primeras filas del dataset.
3. Explore la estructura general de los datos (`info`, `describe`,  `shape`).

In [None]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('estudiantes_rendimiento_100_registros.csv')
df.head()

## Parte 2 – Análisis de Calidad de Datos
Evalúe las siguientes dimensiones. Para cada una:
- Explique brevemente qué significa.
- Muestre el análisis en código.
- Interprete los resultados.

### 2.1 Completeness (Completitud)
- Muestre el total de valores faltantes (isnull) por columna.
- Muestre el total de valores faltantes (isnull) por registro.

In [None]:
# Completeness-columna
Tu CÓDIGO AQUÍ

In [None]:
# Completeness-registro
Tu CÓDIGO AQUÍ

### 2.2 Uniqueness (Unicidad)
Analice duplicados en `id_estudiante` y correos electrónicos (correo') y muestra un conteo de cuantos duplicados totales hay en estas dos columnas.

In [None]:
# Uniqueness
Tu CÓDIGO AQUÍ

### 2.3 Validity (Validez)
Implemente dos reglas de validación a alguna de las siguientes variables: edad, promedio, correo, sexo.
Como salida miestra aquellos registros que no cumplan con alguna de las dos reglas propuestas ("|").

Describe brevemente en que consistieron las reglas.

In [None]:
# Validity -Regla 1
Tu CÓDIGO AQUÍ

In [None]:
#Validity - Regla 2
Tu CÓDIGO AQUÍ

### 2.4 Timeliness
 Analice si las fechas de registro ("fecha_registro")son razonables respecto a la fecha actual.

In [None]:
# Conversión a formato fecha
Tu CÓDIGO AQUÍ
#
Tu CÓDIGO AQUÍ

### 2.5 Accuracy (Exactitud)
Identifique valores improbables o poco realistas en 'créditos_aprobados' y en la columna 'edad', considerando son estudiantes de universidad (mayores a 16 años) y cuyos créditos no superan los 300. Muestra como salida aquellos registros que cumplen con una u otra condición ("|").

In [None]:
#Accuracy
Tu CÓDIGO AQUÍ

### 2.6 Consistency (Consistencia)
Reviar consistencia entre créditos y estatus sabiendo que un estatus 'Baja' debe presentarse cuando el promedio sea menor a 70. Mostrar como salida aquellos registros que no cumplen la condición.

## Parte 3 – Conclusiones de Calidad de Datos
Responda:
- ¿Cuál fue la dimensión con más problemas?
- ¿El dataset es apto para minería de datos en su estado actual?


---
## Parte 4 – Preparación de Datos (Tarea 2)
A partir del diagnóstico previo, realice las siguientes etapas:

### 4.1 Limpieza de datos


4.1.1 Eliminación de duplicados.



In [None]:
# Elimina los duplicados de la tabla y guar el df en una variable nueva (df_clean)
df_clean =

4.1.2 Tratamiento de valores faltantes

In [None]:
#Cuenta cuantos datos nulos existen en la columna "edad"
df_clean['edad'].isnull().sum()

In [None]:
#Llena los valor nulos de la columna "edad" (fillna) con la mediana de las edades existentes (el valor central de todos los datos ordenados)--df_clean['edad'].median()
TU CÓDIGO AQUÍ


Antes de borrar datos en la columna (ej. 'promedio'), siempre es mejor "verlos". Para identificar valores atípicos (o outliers), la mejor herramienta es el Boxplot (Diagrama de Caja).

Para crear este gráfico en Python, usaremos las librerías seaborn y matplotlib. Aquí tienes el código que necesitas:

In [None]:
# Configuramos el estilo
sns.set_theme(style="whitegrid")

# Creamos el gráfico de caja para la columna 'promedio'
plt.figure(figsize=(10, 6))
sns.boxplot(x=df_clean['promedio'], color='skyblue')

# Añadimos títulos claros
plt.title('Distribución de Promedios y Detección de Valores Atípicos', fontsize=15)
plt.xlabel('Promedio', fontsize=12)

plt.show()

**4.1.3 Limpieza por rango**

Filtrado de datos para quedarase con los registros que cumplan con una condición.

In [None]:
# Mantén únicamente las filas donde el valor de la columna 'promedio' esté entre 0 y 100 (inclusive)".
df_clean = df_clean[Tu CÓDIGO AQUÍ]
df_clean.head()

Ahora que hemos eliminado aquellos datos que salen de la condición, vuelve a generar la gráfica de caja para ver como están distribuidos tus datos.


In [None]:
# BOX LOT

Tú CÓDIGO AQUÍ

¿Vez alguna diferencia antes y despues de la limpieza en 'promedio'?

[Desarrolla tu respuesta aquí]




### 4.2 Transformación
- Conversión de tipos de datos.
- Codificación de variables categóricas.
- Normalización o estandarización si aplica.

In [None]:
# Imprime el tipode dato de tus columnas en df_clean. ¿Que tipo de dato es 'sexo'?
df_clean.info()

Dado que queremos trabajar con valores numéricos en 'sexo', necesitamos convertirlos.

".map({...})": Es la función que hace la conversión. Utiliza un diccionario {clave: valor} donde la "clave" es lo que buscas y el "valor" es el resultado deseado.

In [None]:
#De la columna de 'sexo' convierte aquellos valores 'M' a 0´s y 'F' a 1´s.
df_clean['sexo'] =

**One-Hot Encoding** (o creación de variables variables "dummy"): Es el siguiente nivel de transformación después del simple mapeo.

Transforma columnas que tienen categorías de texto (como nombres de carreras) en múltiples columnas nuevas de unos (1) y ceros (0).

In [None]:
#Implementa ONE-HOT ENCODING (.get_dummies) para las columnas 'carrera' y 'estatus'.
df_clean = pd.get_dummies(Aquí TU CÓDIGO)
df_clean.head()

### 4.3 Reducción
Eliminda de tu dataframe las columnas 'correo' & 'fecha_registro'.
Muestras tu dataframe y su tamaño final.

### 4.4 Partición de los datos

Este es el paso previo al análisis con cualquier modelo de Machine Learning.

El datset se tiene que dividir en dos grupos distintos para poder evaluar si el modelo realmente está aprendiendo o si solo está memorizando.


In [None]:
from sklearn.model_selection import train_test_split  #importamos la función 'train_test_split de SKLEARN

In [None]:
#Divida el dataset en entrenamiento y prueba (ej. 70% / 30%).
train, test =

## Reflexión final
Explique cómo la preparación de datos mejora la calidad y confiabilidad para aplicar técnicas de minería de datos.