#**SEMANA  Introducción a la programación con Python**

Esta semana analizaremos la libreria Scikit-Learn:

* ¿Qué es Sckit-Learn?
* Preprocesamiento de datos.
* Desafío final.

##**¿Qué es Scikit-Learn?**



* Scikit-learn es una biblioteca de Python diseñada para Machine Learning.

* Es ampliamente utilizada por su simplicidad y variedad de herramientas para tareas como clasificación, regresión, agrupamiento, reducción de dimensionalidad y preprocesamiento de datos.

**Características principales:**
* Soporta diversos algoritmos de ML.
* Incluye herramientas para preprocesamiento de datos.
* Fácil integración con otras bibliotecas como NumPy, Pandas y Matplotlib.

##**Preprocesamiento de datos**

Scikit-learn ofrece varias herramientas para transformar y preparar datos antes de aplicar algoritmos de ML.

###**1. Escalado de datos**


* El escalado ajusta los valores de las características para que estén dentro de un rango específico o tengan características estadísticas deseadas.

* Los algoritmos de ML funcionan mejor cuando los datos están normalizados o escalados a rangos específicos.

####**1.1 MinMaxScaler**

Escala los datos a un rango específico, generalmente [0, 1].

In [None]:
# Ejemplo
from sklearn.preprocessing import MinMaxScaler

# Datos de ejemplo
import pandas as pd
df = pd.DataFrame({'A': [10, 20, 30], 'B': [5, 15, 25]})
# Salida del dataframe original
print ("DataFrame original :\n", df)

# Escalar al rango [0, 1]
 # Inicialización del Escalador
 # Se crea una instancia de la clase MinMaxScaler.
 # Este escalador transformará los valores de cada columna para que estén
 #dentro del rango [0, 1], utilizando la fórmula: valor escalado = valor-minimo (máximo-mínimo)
scaler = MinMaxScaler()

# Transformación y Escalado
 # scaler.fit_transform(df)
 # Calcula el mínimo y el máximo de cada columna en el DataFrame df.
 # Escala cada valor de acuerdo con la fórmula anterior.
 # pd.DataFrame(..., columns=df.columns):
 # Convierte el resultado (que es un array de NumPy) nuevamente en un DataFrame de Pandas.
 # Asigna los mismos nombres de columnas que el DataFrame original (df.columns).
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print("Datos escalados al rango [0, 1]:\n", df_scaled)


####**1.2 StandardScaler**


Normaliza los datos para que tengan una media de 0 y una desviación estándar de 1.

In [None]:
# Ejemplo
from sklearn.preprocessing import StandardScaler

# Datos de ejemplo
import pandas as pd
df = pd.DataFrame({'A': [10, 20, 30], 'B': [5, 15, 25]})
# Salida del dataframe original
print ("DataFrame original :\n", df)

# Escalar los datos con media=0 y std=1
scaler = StandardScaler()
df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print("Datos escalados con StandardScaler:\n", df_standardized)


####**1.3. RobustScaler**


Escala los datos usando la mediana y el rango intercuartílico (IQR), lo que lo hace resistente a valores atípicos.

El rango intercuartílico (IQR, por sus siglas en inglés) es una medida de dispersión que representa la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1) de un conjunto de datos.

Al aplicar RobustScaler, la transformación reduce la influencia de los valores atípicos al basarse en los cuartiles, en lugar de la media y la desviación estándar, que son sensibles a los outliers.

In [None]:
# Ejemplo
from sklearn.preprocessing import RobustScaler

# Datos de ejemplo
import pandas as pd
df = pd.DataFrame({'A': [10, 20, 30], 'B': [5, 15, 25]})
# Salida del dataframe original
print ("DataFrame original :\n", df)

# Escalar los datos con RobustScaler
scaler = RobustScaler()
df_robust = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print("Datos escalados con RobustScaler:\n", df_robust)


###**2. Imputación de Valores Faltantes**

scikit-learn permite rellenar valores faltantes (NaN) con valores estadísticos como la media, mediana o un valor constante.

####**2.1 Imputación con la Media**

In [None]:
# Ejemplo
# SimpleImputer: Herramienta de scikit-learn para manejar valores faltantes
#en datos.
#Permite reemplazar los valores faltantes con una estrategia definida,
#como la media, mediana, o un valor constante.
from sklearn.impute import SimpleImputer
# numpy: Biblioteca usada para trabajar con arrays
#y para representar valores faltantes con np.nan
import numpy as np

# Datos con valores faltantes
data = pd.DataFrame({'A': [1, 2, np.nan], 'B': [4, np.nan, 6]})
print ("DataFrame original :\n", data)

# Imputar con la media
# SimpleImputer se configura con la estrategia mean,
# lo que significa que los valores faltantes serán reemplazados por la media
# de cada columna.
# Otras estrategias disponibles:
# median: Usa la mediana.
# most_frequent: Usa el valor más frecuente.
# constant: Usa un valor constante especificado por el usuario.
imputer = SimpleImputer(strategy='mean')

# Imputación de Valores Faltantes:
# imputer.fit_transform(data):
# fit: Calcula la media de cada columna.
# transform: Reemplaza los valores faltantes por la media calculada.
# Los resultados se convierten nuevamente a un DataFrame con los mismos
# nombres de columnas.

data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

print("Datos después de la imputación con la media:\n", data_imputed)


###**3. Codificación de datos categóricos**

Los modelos de machine learning requieren datos numéricos, por lo que es necesario transformar datos categóricos en números.

####**3.1 One-Hot Encoding**

Convierte categorías en columnas binarias o one-hot-encoding.

**Columnas Binarias**
>Una columna binaria es una representación en la que cada categoría de una variable categórica se representa como un único bit o valor binario (0 o 1).

>>**Estructura:**
>>>Generalmente, toda la información de las categorías está contenida en una sola columna.
Por ejemplo:

>>>Categoría A → 0

>>>Categoría B → 1

>>**Ejemplo:** Si tenemos la columna Género:
>>>Original: ['Hombre', 'Mujer', 'Hombre'].

>>>Representación Binaria: [0, 1, 0]

>>**Usos Comunes:**
>>>Variables con dos categorías (variables binarias o dicotómicas).

>>**Ejemplo:**
>>>Género (Hombre/Mujer),

>>>¿Compra realizada? (Sí/No).

>>**Ventaja:**
>>>Es más eficiente en términos de almacenamiento y procesamiento porque solo necesita una columna.

>>**Limitación:**
>>>Solo se puede usar cuando la variable tiene exactamente dos categorías.


**One-Hot Encoding**
>Crea una columna separada para cada categoría de una variable categórica, y marca con un 1 si la fila pertenece a esa categoría o con un 0 si no.

>>Estructura:
>>>Cada categoría tiene su propia columna binaria.
>>>Categoría A → [1, 0, 0]
>>>Categoría B → [0, 1, 0]
>>>Categoría C → [0, 0, 1]

>>Ejemplo:
>>>Si tenemos la columna Género:
>>>Original: ['Hombre', 'Mujer', 'Hombre']

>>>[One-Hot Encoding](https://drive.google.com/file/d/1ssf2uNd7Hu55GG04LjBkd8RjbwjrPZgH/view?usp=sharing):


>>**Usos Comunes:**
>>>Variables con tres o más categorías.

>>**Ejemplo:**
>>>Color (Rojo, Azul, Verde),

>>>Nivel Educativo (Primaria, Secundaria, Universitaria).

>>**Ventaja:**
>>>Funciona con cualquier cantidad de categorías y mantiene las relaciones de exclusividad entre categorías.

>>**Limitación:**
>>>Aumenta significativamente el número de columnas cuando hay muchas categorías.

[Tabla resumen](https://drive.google.com/file/d/1ZxU8jnVTCmVSjI5Ze8F28zQdVUn3lOel/view?usp=sharing)

In [None]:
# Ejemplo

# Importación del OneHotEncoder
# Esta herramienta de scikit-learn se utiliza para convertir datos categóricos
# en un formato que los modelos de machine learning puedan manejar: columnas binarias
# o One-Hot Encoding.
# Cada categoría única se convierte en una columna separada con valores 1
# (si pertenece a esa categoría) o 0 (si no pertenece).

from sklearn.preprocessing import OneHotEncoder

# Datos categóricos
data = pd.DataFrame({'Género': ['Hombre', 'Mujer', 'Hombre']})

# Codificación One-Hot
#cInicialización del Codificador One-Hot:
# OneHotEncoder convierte los valores categóricos en columnas binarias.
# Parámetro sparse=False:
# Por defecto, OneHotEncoder devuelve una matriz dispersa (sparse matrix) para ahorrar memoria.
# Matriz densa:
# Es una matriz "normal", donde se almacenan todos los valores,
# incluyendo los ceros. Cada elemento se guarda, sin importar si es 0 o cualquier otro número.
# Es más fácil de usar y manipular, pero puede ocupar mucha memoria si la matriz es grande.
# Matriz dispersa:
# Solo guarda los valores no nulos (por ejemplo, los valores distintos de cero).
# Es muy eficiente en memoria cuando la matriz tiene muchos ceros,
# como en la codificación one-hot, porque no guarda los ceros, solo los valores que realmente importan.

# Aquí usamos sparse=False para obtener una matriz densa más fácil de manipular con Pandas.
encoder = OneHotEncoder(sparse_output=False)

# Codificación One-Hot:
# encoder.fit_transform(data):
# fit: Aprende las categorías únicas en la columna Género
# (en este caso, "Hombre" y "Mujer").
# transform: Convierte los datos categóricos en columnas binarias.
# pd.DataFrame(...):
# Convierte el resultado de fit_transform (un array de NumPy) nuevamente en un DataFrame.
# encoder.get_feature_names_out():
# Genera los nombres de las nuevas columnas en función de las categorías únicas encontradas.
# Por ejemplo, genera las columnas Género_Hombre y Género_Mujer.
data_encoded = pd.DataFrame(encoder.fit_transform(data), columns=encoder.get_feature_names_out(['Género']))
print("Datos codificados con One-Hot Encoding:\n", data_encoded)


In [None]:
# Otro ejemplo agregando más categorías
# Supongamos que añadimos las cateogrías "Otro", "prefiero no decirlo":
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Datos con más categorías
data = pd.DataFrame({'Género': ['Hombre', 'Mujer', 'Otro', 'Prefiero no decirlo', 'Hombre', 'Otro']})

# Crear el codificador One-Hot
encoder = OneHotEncoder(sparse_output=False)  # Cambiar sparse_output para scikit-learn >=1.2.0
data_encoded = pd.DataFrame(encoder.fit_transform(data[['Género']]),
                            columns=encoder.get_feature_names_out(['Género']))

print("Datos codificados con One-Hot Encoding:\n", data_encoded)


####**3.2 Binarización**

Convierte valores numéricos en valores binarios en función de un umbral.

In [None]:
# Importación del Binarizer:
# Se importa Binarizer desde scikit-learn.
# Binarizer es una herramienta que se utiliza para transformar
# datos numéricos en datos binarios (0 o 1) en función de un umbral (threshold).
# Es útil cuando deseamos convertir datos continuos en datos discretos
# según un valor límite (umbral).
from sklearn.preprocessing import Binarizer

# Datos de ejemplo
data = pd.DataFrame({'Notas': [7, 4, 3, 5, 6]})

# Binarización con umbral 5
# Inicialización del Binarizer:
# Se crea un objeto binarizer utilizando la clase Binarizer y se le asigna
# un umbral de 5 (threshold=5).
# Este umbral es el valor de corte para convertir las notas en valores binarios.
# Si una nota es mayor o igual a 5, se convierte en 1. Si es menor que 5, se convierte en 0.
binarizer = Binarizer(threshold=5)

# Transformación de los Datos:
# binarizer.fit_transform(data):
# fit: Calcula el umbral (en este caso no es necesario porque ya lo hemos definido, pero es parte del proceso).
# transform: Aplica la binarización a los datos.
# Las notas que son mayores o iguales a 5 se convierten en 1, y las notas menores a 5 se convierten en 0.
# pd.DataFrame(...):
# Convierte el array resultante en un DataFrame de Pandas con una nueva columna llamada Notas Binarizadas.
data_binarized = pd.DataFrame(binarizer.fit_transform(data), columns=['Notas Binarizadas'])
print("Datos binarizados:\n", data_binarized)


##**Desafío final**

**Objetivo:** Analizar y procesar los datos de estudiantes para descubrir patrones, realizar transformaciones, y crear visualizaciones utilizando NumPy, Pandas, Sckit-Learn y Matplotlib.

1. **Cargue el archivo datos_estudiantes_desafio.csv**
* El archivo datos_estudiantes_desafio.csv contiene 20 mil registros:
 * Estudiante_ID: Identificador único del estudiante.
 * Edad: Edad del estudiante.
 * Horas_de_estudio: Número promedio de horas de estudio por semana.
 * Nota_Matemáticas, Nota_Lenguaje, Nota_Ciencias: Calificaciones en cada asignatura.
 * Genero: Género del estudiante.
 * Comuna: Comuna donde reside el estudiante.


2. **Exploración de datos:**
* Verificar las primeras y últimas filas del conjunto de datos (head y tail).
* Mostrar la forma del conjunto de datos (shape).
* Mostrar estadísticas descriptivas de las columnas numéricas (describe).
* Pregunta: ¿Cuál es el rango de edad más común entre los estudiantes?


3. **Limpieza de Datos:**
* Verificar y manejar valores nulos o faltantes en el conjunto de datos.
 * Identificar si hay valores nulos (isnull).
 * Si hay valores nulos, reemplazarlos por la mediana en las columnas numéricas.
* Pregunta: ¿Cuál es el porcentaje de datos faltantes en cada columna?


4. **Análisis Exploratorio:**
* Calcular las siguientes métricas para las columnas de calificaciones:
 * Promedio general por asignatura.
 * Promedio por estudiante.
* Determinar el porcentaje de estudiantes que tienen una calificación mayor o igual a 60 en las tres asignaturas.
* Pregunta: ¿Qué comuna tiene el promedio más alto en matemáticas?


5. **Filtros y Agrupaciones:**
* Filtrar estudiantes con calificaciones promedio mayores a 80 y mostrarlos en un nuevo DataFrame.
* Agrupar los datos por género y calcular el promedio de calificaciones por género.


6. **Preprocesamiento de Datos:**
* Normalizar las columnas de calificaciones y horas de estudio usando NumPy o Scikit-learn.
* Convertir las categorías de la columna Genero en variables numéricas (One-Hot Encoding).
* Pregunta: ¿Cuál es el rango de las calificaciones después de la normalización.


7. **Visualizaciones:**
* Crear gráficos utilizando Matplotlib (https://matplotlib.org/stable/gallery/index.html).
  * Distribución de calificaciones por asignatura.
  * Promedio de calificaciones por comuna (gráfico de barras).
* Crear un gráfico de dispersión que relacione Horas_de_estudio y Nota_Matemáticas.
* Pregunta: ¿Qué patrón observas entre horas de estudio y desempeño en matemáticas?

## Parte 3 - Análisis visual y preprocesamiento con Scikit-learn

En esta parte del desafío, trabajarás con visualización de datos y técnicas de preprocesamiento.

Usando la librería `Seaborn` o `Matplotlib`, debes realizar los siguientes pasos:

### Visualización exploratoria:
1. Crea histogramas de las variables `edad`, `notas`, y `tiempo_estudio` para ver su distribución.
2. Crea un gráfico de dispersión entre `tiempo_estudio` y `notas` para ver si hay una posible correlación.
3. Usa `sns.boxplot()` para comparar las notas de estudiantes por género (`genero`).
4. Calcula y visualiza la matriz de correlación entre las variables numéricas usando `sns.heatmap()`.

### Preprocesamiento con Scikit-learn:
1. Escala las columnas numéricas (`edad`, `tiempo_estudio`, `notas`) usando `StandardScaler`.
2. Convierte las variables categóricas como `genero` o `tipo_escuela` en variables numéricas usando `OneHotEncoder`.
3. Crea un nuevo DataFrame con los datos preprocesados y muéstralo.

> **Nota:** Esta sección solo contempla el preprocesamiento, no se debe aplicar ningún modelo de ML todavía.

Puedes apoyarte en el contenido de los cuadernos anteriores para guiar tu análisis.
        