# Introducción al Machine Learning




Esta es una pequeña introducción la ML con el objetivo de cubrir conceptos basicos que son comunes a muchos modelos de ML antes de meternos con modelos mas complejos. Aqui se cubrira:

- Como usar pandas dataframes

- Tipos de algoritmos en Machine Learning

- Train test split

- Underfitting, overfitting

- Train a simple model (Decision Tree)

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

## Pandas

- Pandas es un paquete muy util para manipular datos tabulares en Python

- Se utiliza ampliamente para preparar los datos antes de entrenar modelos

- Maneja muchos tipos de archivos: csv, json, pickle, txt...


In [2]:
## Como leer un archivo pickle con pandas
path = 'df_Data.pickle'
df = pd.read_pickle(path)

Ahora tenemos nuestro archivo cargado en un DataFrame, que es basicamente una tabla de datos. 

In [3]:
df.head() ### Muestra las primeras filas del DataFrame

Unnamed: 0,Bp_DIRA_OWNPV,Bp_ENDVERTEX_Z,Bp_dtf_chi2,D0bar_AMAXDOCA,Bp_dtf_M
0,0.999724,-36.3371,604.90918,0.004355,4984.371094
1,0.999985,66.5905,193.147156,0.002669,5126.588867
2,0.999956,43.5113,1120.280273,0.066824,5098.875
3,0.999998,-56.3566,53.200436,0.045907,5137.095215
4,1.0,44.0419,8.675973,0.003995,5066.12207


In [4]:
df.describe() ### Hace un resumen estadístico de las columnas 

Unnamed: 0,Bp_DIRA_OWNPV,Bp_ENDVERTEX_Z,Bp_dtf_chi2,D0bar_AMAXDOCA,Bp_dtf_M
count,440035.0,440035.0,440035.0,440035.0,440035.0
mean,0.999962,26.72512,532.548035,0.04487421,5382.586426
std,0.000114,45.031645,1280.392822,0.04608537,396.68573
min,0.995212,-363.6746,0.639358,5.530798e-07,4581.266602
25%,0.999977,-4.17765,70.049164,0.01136289,5109.548828
50%,0.999995,25.8703,263.482086,0.02745107,5272.873047
75%,0.999999,56.9307,615.407959,0.06264498,5533.601562
max,1.0,403.2354,75029.09375,0.2004595,8145.925781


In [5]:
#podemos llamar a columas:

df['Bp_DIRA_OWNPV']

0         0.999724
1         0.999985
2         0.999956
3         0.999998
4         1.000000
            ...   
440030    0.999997
440031    0.999996
440032    0.999936
440033    0.999993
440034    0.999979
Name: Bp_DIRA_OWNPV, Length: 440035, dtype: float64

In [6]:
#podemos crear columnas nuevas:
df_dummie = df.copy()
df_dummie['new_feature'] = 'hello :)'
df_dummie.head()

Unnamed: 0,Bp_DIRA_OWNPV,Bp_ENDVERTEX_Z,Bp_dtf_chi2,D0bar_AMAXDOCA,Bp_dtf_M,new_feature
0,0.999724,-36.3371,604.90918,0.004355,4984.371094,hello :)
1,0.999985,66.5905,193.147156,0.002669,5126.588867,hello :)
2,0.999956,43.5113,1120.280273,0.066824,5098.875,hello :)
3,0.999998,-56.3566,53.200436,0.045907,5137.095215,hello :)
4,1.0,44.0419,8.675973,0.003995,5066.12207,hello :)


### Filtrar dataframes


In [7]:
# podemos filtrar dataframes muy facilmente definiendo una condicion:

condition = df['Bp_DIRA_OWNPV'] > 0.9999
df_filtered = df[condition]
len(df_filtered)

399652

Cada fila del dataset (también conocida como **instancia**) representa un evento físico en el que se detecta una posible desintegración del tipo  $B^+ \rightarrow \bar{D}^0 D_s^+ $. Para cada uno de estos eventos, se registran distintas variables físicas que describen propiedades del sistema reconstruido:

- **`Bp_DIRA_OWNPV`**: Angulo entre el momento del meson $B^+$ respecto a su vértice primario (*Primary Vertex*, PV), es decir, donde se produjo. Es una medida de qué tan bien alineado está el vector de momento con la línea que une el punto de producción y el punto de decaimiento del  $B^+$ . Valores cercanos a 1 indican buena alineación (característico de una señal real).

- **`Bp_ENDVERTEX_Z`**: Coordenada Z del vértice de decaimiento del  $B^+$. Básicamente, indica dónde (en el eje longitudinal del detector) se desintegró la partícula.

- **`Bp_dtf_chi2`**: Valor de  $\chi^2$  del ajuste cinemático del  $B^+$. Valores bajos indican un buen ajuste (mejor calidad del evento).

- **`D0bar_AMAXDOCA`**: Máxima distancia de acercamiento (*Distance of Closest Approach*, DOCA) entre las partículas hijas del $ \bar{D}^0 $. Si esta distancia es muy grande, puede indicar que las partículas no provienen de un mismo punto.

- **`Bp_dtf_M`**: Masa invariante del  $B^+$  obtenida a partir del ajuste cinemático. 


## Entrenamiento de algoritmos de machine learning

#### Tipos de algoritmos

Los algoritmos de machine learning (aprendizaje automático) se dividen principalmente en dos tipos: aprendizaje supervisado y no supervisado. 


1. Aprendizaje Supervisado:

- Los datos con los que entrenamos vienen etiquetados (sabemos la respuesta correcta de antemano).
- El modelo aprende a partir de ejemplos con soluciones para poder predecir la respuesta para eventos nuevos sin etiquetar.
- Puede ser de dos tipos:

  - Regresión: predice números (ej: precio de casas).
  - Clasificación: predice categorías (ej: señal vs. fondo).

2. Aprendizaje No Supervisado:

- Los datos no tienen etiquetas.
- El modelo descubre patrones y grupos por sí solo.
- Ejemplo: clusterización



El primer algoritmo que vamos a entrenar tiene como objetivo diferenciar entre señal y fondo, algo muy común en el campo de la Física de Altas Energías. Este tipo de algoritmo se conoce como clasificador, y es un caso de aprendizaje supervisado. En nuestro caso tenemos nuestra ***señal*** simulada en df_MC.pickle, mientras que nuestro fondo son datos del experimento LHCb df_Data.pickle, que sabemos que tienen nada o una cantidad infima de señal, por lo que lo tomamos como ***fondo***.

Nuestro caso es el caso supervisado, ya que tenemos un archivo de simulacion (Monte Carlo) que se corresponde con nuestra señal, y un archivo de datos que se corresponden con el fondo. Lo primero que debemos hacer es etiquetar nuestros datos:

In [8]:
bkg_path = 'df_Data.pickle'
signal = 'df_MC.pickle'

df_bkg = pd.read_pickle(bkg_path)       
df_signal = pd.read_pickle(signal)

#### necesitamos la etiqueta de cada instancia para poder entrenar un modelo supervisado.
#### creamos una nueva columna que sea la etiqueta de la clase
df_bkg['label'] = 0  # Asignamos la etiqueta 0 para el background
df_signal['label'] = 1  # Asignamos la etiqueta 1 para la señal

### juntamos los dos DataFrames 
df_total = pd.concat([df_bkg, df_signal], ignore_index=True)
df_total

Unnamed: 0,Bp_DIRA_OWNPV,Bp_ENDVERTEX_Z,Bp_dtf_chi2,D0bar_AMAXDOCA,Bp_dtf_M,label
0,0.999724,-36.3371,604.909180,0.004355,4984.371094,0
1,0.999985,66.5905,193.147156,0.002669,5126.588867,0
2,0.999956,43.5113,1120.280273,0.066824,5098.875000,0
3,0.999998,-56.3566,53.200436,0.045907,5137.095215,0
4,1.000000,44.0419,8.675973,0.003995,5066.122070,0
...,...,...,...,...,...,...
483855,0.999999,2.7691,4.619840,0.000426,,1
483856,0.999997,-4.0556,13.866141,0.024470,,1
483857,1.000000,9.8752,3.063880,0.001528,,1
483858,1.000000,107.1379,16.460026,0.046119,,1


#### Train test split

Una vez etiquetados, lo que debemos hacer es separar nuestros datos en un train set y en un test set:


***Train set (conjunto de entrenamiento)***

Es el conjunto de datos que se utiliza para entrenar al modelo. Aquí es donde el modelo aprende las relaciones entre las features y las etiquetas.

***Test set (conjunto de prueba)***

Es un conjunto completamente separado que se utiliza únicamente para evaluar el rendimiento del modelo una vez que ha sido entrenado. El modelo no ve estos datos durante el entrenamiento.

Estos sets deben ser completamente independientes entre si porque si el modelo entrena y se evalúa sobre los mismos datos, puede memorizar los ejemplos en lugar de aprender patrones generales. Esto se conoce como ***overfitting***, y significa que el modelo funciona muy bien con los datos conocidos, pero falla al enfrentarse a datos nuevos. Es el equivalente a intentar hacer una regresion lineal con un polinomio de grado alto: funciona bien en el fitting pero el modelo no es el correcto.

![](./figs/underoverfitting.png)


In [9]:

features = ['Bp_DIRA_OWNPV', 'Bp_ENDVERTEX_Z', 'Bp_dtf_chi2', 'D0bar_AMAXDOCA']
X = df_total[features]
y = df_total['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


#### Decision tree

Una vez divididos nuestros datos de entrenamiento, vamos a entrenar uno de los algoritmos mas sencillos de Machine Learning, un Decision Tree. Un Decision Tree (DT) es una algoritmo de ML  que toma decisiones dividiendo los datos en diferentes ramas, según los valores de ciertas variables. Por ejemplo, podría empezar preguntando si una variable como Bp_DIRA_OWNPV es mayor que cierto valor, y luego seguir dividiendo según otras condiciones. Al final, cada rama lleva a una predicción: si un evento es fondo o señal.

<img src="./figs/dt.jpg" alt="Árbol de decisión" width="600"/>



Como se entrena? Es muy sencillo:

In [10]:

dt = DecisionTreeClassifier() # Creamos el clasificador
dt.fit(X_train, y_train)      # Entrenamos el clasificador con los datos de entrenamiento

Una vez entrenado, podemos hacer una prediccion sobre la muestra de test y la muestra de train.

In [11]:
y_pred_test = dt.predict(X_test)
y_pred_train = dt.predict(X_train)


Para ver si el modelo se ha sobreajustado a los datos (overfitting), podemos comparar la accuracy en el test set y en el train set:

In [12]:
accuracy_test = accuracy_score(y_test, y_pred_test)
accuracy_train = accuracy_score(y_train, y_pred_train)

print(f"Exactitud del DT sobre el train set: {accuracy_train:.2f}")
print(f"Exactitud del DT sobre el test set: {accuracy_test:.2f}")

Exactitud del DT sobre el train set: 1.00
Exactitud del DT sobre el test set: 0.89


Vemos que ha hecho overfitting, ya que la exactitud en el train set es muy alta (del 100%) y en el test set es mucho menor. Esto se puede deber a que el modelo es demasiado complejo. Podemos solucionar esto limitando la profundidad del decision tree

In [13]:
dt = DecisionTreeClassifier(max_depth = 4)
dt.fit(X_train, y_train)     

In [14]:
y_pred_test = dt.predict(X_test)
y_pred_train = dt.predict(X_train)
accuracy_test = accuracy_score(y_test, y_pred_test)
accuracy_train = accuracy_score(y_train, y_pred_train)
print(f"Exactitud del BDT sobre el train set: {accuracy_train:.2f}")
print(f"Exactitud del BDT sobre el test set: {accuracy_test:.2f}")

Exactitud del BDT sobre el train set: 0.91
Exactitud del BDT sobre el test set: 0.91


Ahora vemos que la exactitud es igual en los dos casos, lo que nos indica que ya no hay overfitting. 

Como vemos, con este modelo super sencillo ya hemos obtenido un 91% de accuracy clasificando eventos de señal y ruido, lo cual es genial pero no siempre es asi... Este ejemplo es muy sencillo, pero hay casos en los que la complejidad de la relacion entre las variables o el numero de variables son tan altos que un modelo tan simple no nos llega. 