![Machine Learning Lab](banner.jpg)

# Laboratorio 1

## Objetivos

**Familiarizarse con comandos de consola en Jupyter Notebook**: Aprender a ejecutar comandos de sistema como ls, mkdir, curl, unzip, e instalar paquetes con pip.

**Explorar y manipular datos con Pandas y NumPy**: Cargar, analizar y transformar datasets mediante Pandas, además de realizar operaciones matemáticas y estadísticas con NumPy.

**Aplicar visualización de datos y Machine Learning**: Utilizar Matplotlib, Seaborn y Scikit-learn para crear gráficos, analizar correlaciones y entrenar modelos de regresión lineal, y logística.


## Comandos de consola

En un Notebook the Jupyter podemos ejecutar comandos de consola directamente creando un bloque de código que comience con el carácter `!` seguido del comando. Por ejemplo podemos listar el contenido del directorio en el cual se está ejecutando el Notebook.

In [None]:
!ls -l

Por medio de comandos podemos:
- Crear directorios nuevos `mkdir`
-  Descargar archivos `curl`
- Descomprimir archivos `unzip`

In [None]:
!mkdir datasets

In [None]:
!curl -L -o datasets/heart-attack-prediction-dataset.zip https://www.kaggle.com/api/v1/datasets/download/iamsouravbanerjee/heart-attack-prediction-dataset

In [None]:
!unzip datasets/heart-attack-prediction-dataset.zip -d datasets/heart-attack-prediction-dataset

## Paquetes

Ahora que hemos descargado nuestro primer dataset podemos instalar los paquetes de python necesarios para el resto del laboratorio. Esto lo podemos hacer con el comando de console `pip`

In [None]:
!pip install pandas

También podemos instalar multiples versiones específicas de paquetes usando un archivo `requirements.txt`


In [None]:
!pip install -r requirements.txt

También podemos extraer los paquetes instalados y sus dependencias a un archivo

In [None]:
!pip freeze > requirements_2.txt

## Pandas

Documentación: https://pandas.pydata.org/docs/reference/index.html

Ya que hemos descargado nuestro primer dataset podemos explorar algunas de las funcionalidades de la libreria pandas



### Leer y guardar datos

Pandas permite leer y guardar datos desde/para múltiples formatos como CSV, Excel, JSON, entre otros.

In [None]:
# importar la libreria
import pandas as pd

# Leer un archivo CSV
heart_data = pd.read_csv("datasets/heart-attack-prediction-dataset/heart_attack_prediction_dataset.csv")
print(heart_data.head())

# Guardar un DataFrame en un archivo Excel
heart_data.head().to_csv("test_output.csv", index=False, sep='\t')


## Exploración de datos

Podemos explorar las columnas y algunos estadísticos de los datos

In [None]:
# Tipo y conteo de cada columna
heart_data.info()

In [None]:
# Estadísticos de cada columna
heart_data.describe()

In [None]:
# Selección de columnas numéricas
heart_data_numeric = heart_data.select_dtypes(include=['number'])
# Correlación entre columnas
heart_data_numeric.corr()

### Manejo de datos faltantes

Puedes identificar, rellenar o eliminar valores faltantes de forma sencilla.

In [None]:
# Crear un DataFrame con valores faltantes
data = {"A": [1, 2, None], "B": [4, None, 6]}
df = pd.DataFrame(data)
df

In [None]:
# Detectar valores faltantes
df.isnull()

In [None]:
# Rellenar valores faltantes
df_filled = df.fillna(0)
df_filled

In [None]:
# Eliminar filas con valores faltantes
df_dropped = df.dropna()
df_dropped

### Filtrar y seleccionar datos

Permite seleccionar columnas, filas o aplicar condiciones fácilmente.

In [None]:
head_heart_data = heart_data.head()
print(head_heart_data)

In [None]:
# Seleccionar una columna
head_heart_data["Sex"]

In [None]:
# Filtrar las entradas de los hombres
filtered_heart_data = head_heart_data[head_heart_data["Sex"] == "Male"]
print(filtered_heart_data)

### Agrupación y agregación de datos

Facilita el cálculo de estadísticas como sumas, promedios o conteos, agrupando por categorías.

In [None]:
# Edad media para frecuencia de actividad física
grouped_heart_data = heart_data.groupby("Physical Activity Days Per Week")["Age"].mean()
grouped_heart_data


### Transformación y limpieza de datos
Puedes aplicar funciones para limpiar y transformar columnas.

In [None]:
# Convertir la columna para que esté en minúscula
heart_data["Sex"] = heart_data["Sex"].str.lower()
heart_data.head()


In [None]:
# Normalizamos el BMI
BMI_std = heart_data['BMI'].std()
BMI_mean = heart_data['BMI'].mean()
heart_data['BMI'] = heart_data['BMI'].apply(lambda x: (x - BMI_mean) / BMI_std)
heart_data['BMI']

## Perfilamiento de datos.

In [None]:
# Con esto podemos generar un reporte completo de los datos
from ydata_profiling import ProfileReport

profile = ProfileReport(heart_data, title="DataFrame Report")
profile.to_notebook_iframe()

## Numpy

Numpy es una libreria de manejo de datos. Esta es la libreria en la cual se basa pandas

In [None]:
# Los datos de pandas pueden ser extraídos en arreglos de numpy
print(type(heart_data['BMI'].values))
heart_data['BMI'].values

### Creación de Arrays
NumPy permite crear y manipular arrays multidimensionales de manera eficiente. El array es una de las estructuras de datos principales de la librería.

In [None]:
import numpy as np

# Crear un array de 1D
array_1d = np.array([1, 2, 3, 4, 5])
print(array_1d)

# Crear un array de 2D
array_2d = np.array([[1, 2], [3, 4], [5, 6]])
print(array_2d)


## Operaciones Element-wise

NumPy permite realizar operaciones aritméticas de forma eficiente entre arrays o con escalares, aplicándolas a cada elemento.

In [None]:
# Operación de suma
array_1 = np.array([1, 2, 3])
array_2 = heart_data.head(3)['BMI'].values
result = array_1 + array_2
print(result)  # [5, 7, 9]

# Multiplicación por un escalar
result = array_1 * 2
print(result)  # [2, 4, 6]


### Operaciones de matrices

Numpy también permite hacer operaciones matriciales como multiplicaciones de matrices y transposition. Entre otras.


In [None]:
# Definir dos matrices A y B
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# Multiplicación de matrices
C = A @ B  # o np.dot(A, B)

print("Multiplicación de matrices (A * B):\n", C)

v = np.array([[2], [3]])

# Multiplicación matriz-vector
result = A @ v  # o np.dot(A, v)

print("Multiplicación de matriz por vector:\n", result)

# Transposición de la matriz A
A_T = A.T  # o np.transpose(A)

print("Transposición de la matriz A:\n", A_T)


### Funciones Matemáticas

NumPy incluye una gran cantidad de funciones matemáticas para operar sobre arrays, como funciones trigonométricas, estadísticas, álgebra lineal, etc.

In [None]:
# Funciones estadísticas
data = heart_data.head(5)['Cholesterol'].values
mean = np.mean(data)
std_dev = np.std(data)
print(f"Media: {mean}, Desviación estándar: {std_dev}")

# Funciones trigonométricas
angles = np.array([0, np.pi / 2, np.pi])
sin_values = np.sin(angles)
print(sin_values)  # [0. 1. 0.]


Antes de continuar descarguemos otro dataset

In [None]:
!curl -L -o datasets/air-quality-and-pollution-assessment.zip https://www.kaggle.com/api/v1/datasets/download/mujtabamatin/air-quality-and-pollution-assessment

In [None]:
!unzip datasets/air-quality-and-pollution-assessment.zip -d datasets/air-quality-and-pollution-assessment

In [None]:
!ls datasets/air-quality-and-pollution-assessment

## Matplotlib / Pyplot / Seaborn

Matplotlib Documentación: https://matplotlib.org/stable/index.html

Estas tres librerias nos dan la opción de crear gráficas en nuestro Notebook

In [None]:
air_quality_data = pd.read_csv("datasets/air-quality-and-pollution-assessment/updated_pollution_dataset.csv")
air_quality_data.head()

In [None]:
air_quality_data.info()

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt

x = np.arange(0, 10, 0.1)
y = np.sin(x)
# Graficamos una función sinusoidal.
plt.plot(x, y)
plt.show()

### Seaborne

Documentación: https://seaborn.pydata.org/

Aunque podamos crear los gráficos usando pyplot directamente es preferible usar una libreria como seaborne para hacer análisis de nuestros datos

In [None]:
import seaborn as sns

corr_matrix = air_quality_data.select_dtypes(include='number').corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Correlation Heatmap of Air Quality Indicators')
plt.show()

In [None]:
sns.pairplot(air_quality_data[['Temperature', 'Humidity', 'PM2.5', 'PM10', 'NO2', 'SO2', 'CO', 'Air Quality']],
             hue='Air Quality')
plt.suptitle('PairPlot of Air Quality Features', y=1.02)
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Air Quality', y='PM2.5', data=air_quality_data)
plt.title('PM2.5 Distribution by Air Quality')
plt.show()

## SkLearn

La última libreria que exploraremos será SKLEarn. Esta es una libreria con utilidades para Machine Learning. En este caso veremos como hacer una regresión lineal y logística

### Regresión Lineal

Para este ejercicio el objetivo es predecir la variable numerica `PM10` de tipo `float64` a partir del resto de variables que son `['Temperature', 'Humidity', 'PM2.5', 'NO2', 'SO2', 'CO',
       'Proximity_to_Industrial_Areas', 'Population_Density', 'Air Quality']`.

In [None]:
# Importar librerias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import matplotlib.pyplot as plt

In [None]:
X = air_quality_data.drop('PM10', axis=1)  # Variables independientes
y = air_quality_data['PM10']  # Variable dependiente

In [None]:
print(X.columns)

### One Hot encoding

Debido a que el algoritmo de regresión lineal solo recibe valores numéricos, debemos transformar nuestras variables categóricas como lo es `Air Quality` a una variable numérica. La forma de hacer esto es por medio de one hot encoding que convierte una variable categórica `X` con posibles valores `{category_1 ,category_2 ,cate ..., category_n }` a `n` variables binarias `X_category_{i} = int(X == category{i}`


In [None]:
# 1. Codificar la columna categórica 'Air Quality'
preprocessor = ColumnTransformer(
    transformers=[
        ('air_quality', OneHotEncoder(), ['Air Quality'])
    ], remainder='passthrough')

In [None]:
# 2. Dividir el dataset en entrenamiento y prueba (75% entrenamiento, 25% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
# Veamos algunos ejemplos de one hot encoding
X_example = X_train[['Air Quality']].head(6)
X_example

In [None]:
example_onehot = OneHotEncoder()

example = example_onehot.fit_transform(X_example)

example.toarray()

In [None]:
# 3. Aplicar OneHotEncoding ...
X_train_transformed = preprocessor.fit_transform(X_train)
X_test_transformed = preprocessor.transform(X_test)

print(X_train_transformed)

In [None]:
# ... y luego estandarizar las variables
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_transformed)
X_test_scaled = scaler.transform(X_test_transformed)

In [None]:
# 4. Crear el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train_scaled, y_train)

In [None]:
# 5. Realizar predicciones
y_pred = model.predict(X_test_scaled)
y_pred

### Evaluación del modelo

Para evaluar una regresión lineal hay tres métricas que podemos observar

- MSE: (Mean squared error) definido como `mse = sum((y_real[i] - y_predicted[i]) ** 2) / len(y_real)`
- MAE (Mean average error) similar a MSE `mse = sum(abs(y_real[i] - y_predicted[i])) / len(y_real)`
Es importante notar que tanto MSE como MAE pueden ser usados como la función de perdida para una regresión lineal.
- R2: Finalmente R2 `R2 = 1 - sum((y_real[i] - y_predicted[i]) ** 2) / sum((y_real[i] - mean(y_real)) ** 2)`. El R2 se puede interpretar como la proporción de la varianza que es explicada por el modelo

In [None]:
# 6. Evaluar el modelo
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print(r2, mse, mae)


In [None]:
preprocessor.transformers_[0][1].get_feature_names_out(['Air Quality'])

In [None]:
# 7. Analizar los coeficientes del modelo
coefficients = model.coef_

# Mostrar los coeficientes junto con las columnas correspondientes
feature_names = preprocessor.transformers_[0][1].get_feature_names_out(['Air Quality']).tolist() + X.columns[:-1].tolist()
coeff_df = pd.DataFrame(coefficients, index=feature_names, columns=['Coefficient'])
coeff_df

In [None]:
# 8. Graficar los resultados
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, color='blue', label='Predicciones')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='--',
         label='Línea de referencia')
plt.xlabel('Valores reales de PM10')
plt.ylabel('Valores predichos de PM10')
plt.title('Comparación entre valores reales y predichos de PM10')
plt.legend()
plt.show()

# Resultados
print(f"R²: {r2}")
print(f"Error cuadrático medio (MSE): {mse}")
print(f"Error absoluto medio (MAE): {mae}")
print("\nCoeficientes del modelo:")
print(coeff_df)


### Regresión logística

Ahora en esta parte del laboratorio buscamos predecir la variable categórica `Air Quality` esto lo haremos a partir del resto de las variables numéricas en el dataset.


In [None]:
# Importar librerias

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
# 1. Cargar datos
X = air_quality_data.drop('Air Quality', axis=1)  # Variables independientes
y = air_quality_data['Air Quality']  # Variable dependiente

In [None]:
# 2. Dividir el dataset en entrenamiento y prueba (75% entrenamiento, 25% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
# 3. Aplicar OneHotEncoding y luego estandarizar las variables
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# 4. Crear el modelo de regresión logística
model = LogisticRegression(max_iter=1000)
model.fit(X_train_scaled, y_train)

In [None]:
# 5. Realizar predicciones
y_pred = model.predict(X_test_scaled)

In [None]:
# 6. Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)
print(accuracy)
print(conf_matrix)
print(class_report)

In [None]:
model.classes_

In [None]:
# 7. Analizar los coeficientes del modelo
coefficients = model.coef_

# Mostrar los coeficientes junto con las columnas correspondientes
feature_names = X.columns.tolist()
coeff_df = pd.DataFrame(coefficients.T, index=feature_names, columns=model.classes_)
coeff_df

In [None]:
# 8. Graficar los resultados (Matriz de Confusión)
plt.figure(figsize=(10, 7))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=model.classes_, yticklabels=model.classes_)
plt.title('Matriz de Confusión')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.show()

# Resultados
print(f"Precisión: {accuracy}")
print("\nReporte de Clasificación:")
print(class_report)
print("\nCoeficientes del modelo:")
print(coeff_df)
