<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG201 - Aprendizaje supervisado**</span>

Bienvenido al curso!!!

Vamos a revisar diferentes algoritmos de <span style="color:gold">aprendizaje supervisado</span> y su aplicación en Geología. <br>
Es necesario que tengas un conocimiento previo en programación con Python, álgebra lineal, estadística y geología.


<span style="color:gold; font-size:20px">**Regresión Logística**</span>
***

- [¿Qué es la Regresión Logística?](#parte-1)
- [Caso de estudio: Mapeo litológico de la superficie lunar](#parte-2)
- [Generación de mapas de probabilidades](#parte-3)
- [En conclusión...](#parte-4)
***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es la regresión logística?**</span>
***

La regresión logística es un modelo estadístico utilizado para modelar la relación entre una <span style="color:#43c6ac">variable dependiente categórica</span> (también conocida como variable objetivo o variable de respuesta) y una o más variables independientes (también llamadas variables predictoras o características). 

> A diferencia de la regresión lineal, que se usa para predecir valores continuos, la regresión logística se utiliza principalmente para predecir probabilidades y clasificaciones en variables categóricas.

En su aplicación más común, la <span style="color:#43c6ac">regresión logística binaria</span> se utiliza para resolver problemas de clasificación donde la variable objetivo tiene solo dos posibles resultados, como "sí/no" o "0/1". Sin embargo, también se puede adaptar para situaciones en las que la variable objetivo tiene más de dos categorías. En estos casos, se emplea la <span style="color:#43c6ac">regresión logística multinomial</span>, que permite clasificar observaciones en múltiples clases manteniendo el enfoque probabilístico.

La fórmula del modelo logístico para una variable dependiente binaria es:

<center>
    $ \Large P(y = 1) = \frac{1}{1 + e^{-(b_0 + b_1x_1 + b_2x_2 + \ldots + b_nx_n)}} $
</center>

Donde:
- $P(y = 1)\,$ es la probabilidad de que ocurra el evento de interés (por ejemplo, que $\,y=1$).
- $b_0\,$ es el intercepto del modelo (el término de sesgo)..
- $b_1, b_2,..., b_n$ son los coeficientes que se ajustan durante el entrenamiento.
- $x_1, x_2,..., x_n$ son las variables independientes (o características).

La salida de la regresión logística está en el rango de 0 a 1, y se interpreta como la probabilidad de que la variable dependiente tome el valor de 1. Esto se debe a que el modelo logístico usa la función sigmoide, que transforma cualquier valor real en un valor dentro de este rango.

<center>
    $ \Large \sigma(z) = \frac{1}{1 + e^{-z}} $
</center>
<br>

Donde $z$ es la combinación lineal de los valores de entrada.

En el caso binario, un umbral (generalmente 0.5) se aplica a la probabilidad predicha para clasificar la observación. <span style="color:#43c6ac">Si la probabilidad es mayor que el umbral, la observación se clasifica en la clase 1, de lo contrario, en la clase 0.</span>

Los coeficientes del modelo ($b_1, b_2,...,b_n$) se ajustan durante el entrenamiento del modelo utilizando un proceso de optimización, como el descenso de gradiente, para minimizar la diferencia entre las predicciones y los valores reales.

***
<span style="color:gold">**Ventajas y limitaciones de la Regresión Logística** </span>

- <span style="color:lightgreen">Interpretabilidad:</span> los coeficientes pueden interpretarse en términos de cómo afectan las probabilidades de pertenecer a una clase específica.
- <span style="color:lightgreen">Flexibilidad:</span> aunque se usa principalmente para clasificación binaria, puede extenderse a más clases y manejar tanto variables continuas como categóricas.
- <span style="color:lightgreen">Probabilidades directas:</span> proporciona no solo una clasificación, sino también una medida de cuán confiada es esa clasificación en términos de probabilidad.
- <span style="color:orange">Linealidad en el logit:</span> asume que la relación entre las variables independientes y el logit (logaritmo de las probabilidades) es lineal.
- <span style="color:orange">No captura relaciones complejas:</span> Puede no ser adecuada para relaciones complejas no lineales entre variables.

***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Caso de estudio: Mapeo litológico de la superficie lunar** </span>
***

El estudio de la litología de la superficie lunar proporciona información crucial sobre los procesos geológicos que han dado forma a nuestro satélite natural. El área específica de estudio se encuentra alrededor del Mare Crisium y estos rasters provienen del trabajo realizado por [Bhatt et al (2019)](https://zenodo.org/records/5762834).

En este notebook, exploraremos cómo aplicar el modelo de Regresión Logística para mapear las litologías predominantes en la Luna utilizando datos geoquímicos.  En particular, nos centraremos en dos tipos de rocas clave:
- Las <span style="color:#43c6ac">anortositas</span>, que son representativas de las tierras altas lunares.
- Y los <span style="color:#43c6ac">basaltos</span>, que caracterizan los mares lunares.

Para este análisis, utilizaremos datos geoquímicos terrestres de anortositas y basaltos toleíticos provenientes de la Tierra. Estas rocas han sido seleccionadas por su similitud con las formaciones geológicas encontradas en la superficie lunar. Los datos incluyen concentraciones de calcio (Ca), hierro (Fe) y magnesio (Mg), que son elementos clave en la caracterización litológica.

Vamos a entrenar un modelo de Regresión Logística utilizando estos datos terrestres, con el fin de <span style="color:#43c6ac">predecir la probabilidad de que una muestra lunar pertenezca a una de estas dos litologías</span>. Posteriormente, este modelo será aplicado sobre los rasters geoquímicos lunares (Ca, Fe, Mg), generando un mapa probabilístico de la litología predominante en el área del Mare Crisium.

***
<span style="color:gold">**Procesamiento y exploración de datos** </span>

Empezaremos cargando los rasters de Ca, Fe, Mg de la superficie lunar y las tablas geoquímicas de anortositas y basaltos toleíticos de la Tierra:

In [None]:
import rioxarray as riox
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.utils import resample

> Usaremos la función `open_rasterio` de Rioxarray para abrir los rasters.

In [None]:
# Leer los rasters de geoquímica lunar
Ca = riox.open_rasterio("files/rasters/lunar_mapping/raster_LPGRS_Ca.tif")
Fe = riox.open_rasterio("files/rasters/lunar_mapping/raster_LPGRS_Fe_clean.tif")
Mg = riox.open_rasterio("files/rasters/lunar_mapping/raster_LPGRS_Mg.tif")

In [None]:
# Extraemos los arreglos numéricos de cada raster
array_Ca = Ca.values.squeeze()
array_Fe = Fe.values.squeeze()
array_Mg = Mg.values.squeeze()

Empezaremos mostrando una imagen de falso color de la superficie lunar usando los elementos de Ca, Fe, Mg:

> Una <span style="color:#43c6ac">imagen de falso color</span> es una representación visual que asigna colores arbitrarios a diferentes longitudes de onda del espectro electromagnético, resaltando características que no son visibles en la luz natural.
>
> Comúnmente utilizada en teledetección, este tipo de imagen facilita la identificación y análisis de detalles específicos, como la vegetación o la presencia de estructuras espaciales, al codificar la información en colores que destacan elementos clave, permitiendo interpretar datos complejos de manera más efectiva.

In [None]:
# Primero, normalizamos los arreglos al rango [0, 1]
array_Ca_norm = (array_Ca - np.nanmin(array_Ca)) / (np.nanmax(array_Ca) - np.nanmin(array_Ca))
array_Fe_norm = (array_Fe - np.nanmin(array_Fe)) / (np.nanmax(array_Fe) - np.nanmin(array_Fe))
array_Mg_norm = (array_Mg - np.nanmin(array_Mg)) / (np.nanmax(array_Mg) - np.nanmin(array_Mg))

# Componer los arreglos en una imagen RGB
rgb_image = np.stack((array_Ca_norm, array_Fe_norm, array_Mg_norm), axis=-1)
rgb_image = np.where(np.isnan(rgb_image), 0, rgb_image)

In [None]:
# Mostrar la imagen RGB
fig, ax = plt.subplots(figsize=(10, 6))
ax.imshow(rgb_image)
ax.set_title("Ca (rojo), Fe (verde), Mg (azul) - Superficie lunar")
ax.axis("off")  # Ocultar los ejes
plt.show()

En la imagen, se observa una predominancia del color rojo (Ca) en las tierras altas lunares, mientras que en los mares lunares predominan los colores verde (Fe) y azul (Mg).

Los datos geoquímicos terrestres corresponden a anortositas y basaltos toleíticos, que son las rocas más similares a las que se encuentran en la superficie lunar:

In [None]:
# Leer los datos de geoquímica terrestre
anorth = pd.read_csv("files/anorthosite.csv")
basalt = pd.read_csv("files/tholeitic_basalt.csv")

# Agregar las columnas de litología
anorth["target"] = "anorthosite"
basalt["target"] = "basalt"

Ahora, mostraremos un resumen estadístico de ambas litologías:

In [None]:
# Resumen estadístico de anortosita
anorth.describe().T

In [None]:
# Resumen estadístico de basalto
basalt.describe().T

Podemos observar un desbalance en la cantidad de datos entre anortositas (58) y basaltos (1381). 

Para investigar si existe un patrón de separación definido entre ambas litologías, visualizaremos la distribución de las muestras en una figura 3D.

In [None]:
# Figura principal (anortosita)
fig = go.Figure(data=[go.Scatter3d(
    x=anorth["Ca"],
    y=anorth["Fe"],
    z=anorth["Mg"],
    mode="markers",
    hovertemplate="Ca: %{x}<br>Fe: %{y}<br>Mg: %{z}<extra></extra>",
    marker=dict(
        size=2,
        color="blue",
        opacity=0.8
    ),
    name="Anortositas"
)])

# Figura secundaria (basalto) 
fig.add_trace(
    go.Scatter3d(
        x=basalt["Ca"],
        y=basalt["Fe"],
        z=basalt["Mg"],
        mode="markers",
        hovertemplate="Ca: %{x}<br>Fe: %{y}<br>Mg: %{z}<extra></extra>",
        marker=dict(
            size=2,
            color="orange",
            opacity=0.8
        ),
        name="Basaltos"
    )
)

# Configurar el layout del gráfico
fig.update_layout(
    width=700,
    height=500,
    scene = dict(
        xaxis_title="Ca (%)",
        yaxis_title="Fe (%)",
        zaxis_title="Mg (%)"
    ),
    title="Dispersión 3D de Ca - Fe - Mg",
    legend=dict(
        itemsizing="constant",
        title="Geoquímica terrestre",
        bordercolor="black",  # Color del borde de la leyenda
        borderwidth=1         # Grosor del borde de la leyenda
    ),
)

# Mostrar el gráfico
fig.show()

En el gráfico 3D se aprecia una clara separación entre las muestras de anortositas y basaltos. El modelo deberá aprender a distinguir entre estas clases utilizando las variables Ca, Fe y Mg para predecir la probabilidad de pertenencia a una litología específica.

In [None]:
# Unir ambas tablas
data = pd.concat([anorth, basalt]).reset_index(drop=True)

# Mostrar el conteo de datos disponibles
conteo = data["target"].value_counts()
for r, c in conteo.items():
    print(f"Litología: {r:<11} | Datos disponibles: {c:<4} ({c / len(data):.2%})")

Nuestro modelo utilizará las concentraciones de `Ca`, `Fe` y `Mg` como características (features) para predecir la variable objetivo (`target`), que representa la clasificación litológica entre basalto y anortosita.

In [None]:
X = data[["Ca", "Fe", "Mg"]].values  # Features
y = data["target"].values            # Target

Utilizaremos la función `train_test_split` para dividir los datos en conjuntos de entrenamiento y prueba:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=123)

Para abordar el desbalance en nuestros datos, emplearemos la función `resample` para sobremuestrear los datos de anortosita hasta que igualen en cantidad a los de basalto. De esta manera, evitaremos que el modelo sesgue su aprendizaje hacia una litología específica, asegurando una clasificación más equilibrada entre anortosita y basalto:

In [None]:
# Sobremuestrear la clase anortosita
filtro = (y_train == "anorthosite")
oversample = resample(X_train[filtro], 
                      replace=True, # Permitir duplicados
                      n_samples=X_train[~filtro].shape[0], # Número de muestras de basalto,
                      random_state=42
                     )

# Combinar las muestras sobremuestreadas con las de la clase mayoritaria
X_train = np.vstack([oversample, X_train])
y_train = np.hstack([np.full(shape=(oversample.shape[0],), fill_value="anorthosite"), y_train])

Instanciaremos el modelo usando la función `LogisticRegression` y usaremos el hiperparámetro `C` para regularizar el entrenamiento del modelo.

> La <span style="color:#43c6ac">regularización</span> es una técnica utilizada para prevenir el sobreajuste del modelo al penalizar los coeficientes grandes, lo que ayuda a mantener el modelo más simple y generalizable a nuevos datos.
> 
> `C` es el inverso de la fuerza de regularización, la regresión logística en scikit-learn aplica por defecto una regularización de tipo L2 (Ridge), que penaliza la suma de los cuadrados de los coeficientes del modelo.

In [None]:
# Crear y entrenar el modelo de regresión logística
model = LogisticRegression(C=1e-4)
model.fit(X_train, y_train)

Vamos a evaluar el rendimiento del modelo de clasificación usando la función `classification_report`:

> Esta función genera un reporte que incluye varias métricas de evaluación comunes para cada clase en el conjunto de datos. 

In [None]:
# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
print(classification_report(y_test, y_pred))

El reporte de clasificación muestra un rendimiento excelente del modelo al clasificar las muestras de anortosita y basalto. La precisión, el recall y el F1-score son muy altos para ambas clases. 

La precisión general del modelo es del 99%, lo que sugiere que está altamente capacitado para distinguir entre ambas litologías.

***
<span style="color:gold">**Análisis de coeficientes** </span>

Podemos obtener los coeficientes del modelo de Regresión Logística usando el atributo `coef_`:

In [None]:
# Coeficientes del modelo
coefficients = model.coef_[0]

print("Coeficientes del modelo")
print("-----------------------")
for feature, coef in zip(["Ca", "Fe", "Mg"], coefficients):
    print(f"{feature}: {coef:>6.3f}")

Vamos a transformar estos coeficientes a razones de probabilidades:

> La <span style="color:gold">razón de probabilidades (odds ratio)</span> es una medida estadística utilizada para describir la fuerza de asociación o la magnitud del efecto de una variable independiente sobre un resultado en un modelo de regresión logística.
> 
> Representa la relación entre las probabilidades de ocurrencia y no ocurrencia de un evento, permitiendo comparar cuán probable es que ocurra un evento en presencia de una determinada condición (variable independiente) en comparación con su ausencia.
>
> El odds de un evento se define como la razón entre la probabilidad de que ocurra el evento $(P)$ y la probabilidad de que no ocurra $(1-P)$:
>
> <center>
    $ \Large \text{Odds} = \frac{P}{1-P} $
> </center>
> <br>
> La razón de probabilidades compara las probabilidades de un evento bajo dos condiciones diferentes, típicamente la presencia y ausencia de una variable independiente o entre dos niveles de una variable.
>
> - <span style="color:#43c6ac">Odds Ratio > 1:</span> indica que un aumento en la variable independiente está asociado con un aumento en los odds de que ocurra el evento. Esto sugiere una relación positiva entre la variable independiente y el evento.
> - <span style="color:#43c6ac">Odds Ratio = 1:</span> sugiere que no hay relación entre la variable independiente y la probabilidad de que ocurra el evento. Los odds del evento son iguales en ambos grupos.
> - <span style="color:#43c6ac">Odds Ratio < 1:</span> indica que un aumento en la variable independiente está asociado con una disminución en los odds de que ocurra el evento. Esto sugiere una relación negativa entre la variable independiente y el evento.

In [None]:
# Exponenciación para calcular los odds ratios
odds_ratios = np.exp(coefficients)

print("Razones de probabilidades del modelo")
print("-----------------------")
for feature, odd in zip(["Ca", "Fe", "Mg"], odds_ratios):
    print(f"{feature}: {odd:>6.3f}")

En base a la probabilidad del evento de pertenecer a la clase 1 (`basalt`), vamos a interpretar los resultados obtenidos:

1. <span style="color:#43c6ac">Coeficiente para Ca (-0.028):</span> <br>
   El coeficiente negativo indica que a medida que aumenta la concentración de Ca, la probabilidad del evento de pertenecer a la clase `basalt` disminuye ligeramente. <br>
   Una razón de probabilidades menor que 1 (0.973) confirma que con cada unidad adicional de Ca, las probabilidades de pertenecer a la clase `basalt` disminuyen en aproximadamente un 2.7%. Esto sugiere una relación inversa débil entre Ca y la probabilidad del evento.

2. <span style="color:#43c6ac">Coeficiente para Fe (0.167):</span> <br>
   El coeficiente positivo indica que un aumento en la concentración de Fe está asociado con un aumento en la probabilidad del evento de pertenecer a la clase `basalt`. <br>
   Una razón de probabilidades mayor que 1 (1.181) implica que con cada unidad adicional de Fe, las probabilidades de pertenecer a la clase `basalt` aumentan en un 18.1%. Esto indica una relación positiva moderada entre Fe y la probabilidad del evento.

3. <span style="color:#43c6ac">Coeficiente para Mg (0.112):</span> <br>
    El coeficiente positivo indica que un aumento en la concentración de Mg también está asociado con un aumento en la probabilidad del evento de pertenecer a la clase `basalt`. <br>
    Una razón de probabilidades de 1.119 sugiere que con cada unidad adicional de Mg, las probabilidades de pertenecer a la clase `basalt` aumentan en un 11.9%. Esto indica una relación positiva entre Mg y la probabilidad del evento, aunque es menos fuerte que la relación con Fe.

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Generación de mapas de probabilidades** </span>
***

Vamos a utilizar el método `predict_proba` para predecir las probabilidades de que una muestra pertenezca a una de las dos litologías: basalto o anortosita. 

Este enfoque nos permitirá no solo clasificar las muestras, sino también obtener una medida de confianza sobre cada predicción realizada por el modelo.

In [None]:
# Obtener las probabilidades de las predicciones
y_prob = model.predict_proba(X_test)

# Mostrar las primeras 10 predicciones con sus probabilidades
print("----------------------------|       Probabilidad      |")
print("Real         | Predicción   | anorthosite |  basalt   |")
print("-----------------------------------------------------")
for i in range(10):
    a, b = y_prob[i]
    print(f"{y_test[i]:<12} | {y_pred[i]:<12} |    {a:.1%}    |   {b:.1%}   |")

Observamos que los errores del modelo tienden a ocurrir cuando las probabilidades de anortosita y basalto son similares. Esto sugiere la existencia de una zona de transición en la superficie lunar, caracterizada por propiedades intermedias entre las de anortosita y basalto.

A continuación, generaremos los mapas de probabilidad de basalto y anortosita usando el modelo de Regresión Logística:

In [None]:
# Unir las 3 capas de Ca, Fe y Mg en un solo arreglo
raster = np.array([array_Ca, array_Fe, array_Mg])

# Inicializar los mapas de probabilidades
raster_anorth = np.full_like(array_Ca, np.nan)
raster_basalt = np.full_like(array_Ca, np.nan)

# Crear una máscara para los valores válidos (no NaN)
mask = ~np.isnan(array_Ca)

# Extraer las posiciones de los valores válidos
valid_indices = np.where(mask)

# Preparar los valores de entrada para el modelo
values = np.stack([array_Ca[mask], array_Fe[mask], array_Mg[mask]], axis=1)

Asignaremos las probabilidades de anortosita y basalto a los respectivos mapas (`raster_anorth` y `raster_basalt`).

In [None]:
# Predecir las probabilidades usando el modelo
probs = model.predict_proba(values)

# Asignar las probabilidades a los rasters correspondientes
raster_anorth[mask] = probs[:, 0]  # Probabilidad de anortosita
raster_basalt[mask] = probs[:, 1]  # Probabilidad de basalto

Ahora que hemos generado los mapas, vamos a visualizarlos en un solo gráfico, considerando que las probabilidades de anortosita y basalto suman 100%.

> Utilizaremos una escala de grises para los colores, lo que permitirá que las imágenes se asemejen al paisaje lunar real.

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 5))

# Raster
cax = ax.imshow(raster_anorth, cmap="gray")

# Texto
ax.set_title("Mare Crisium - Mapa de probabilidades")
ax.set_xlabel("Longitud (°)")
ax.set_ylabel("Latitud (°)")

# Ticks
xticks = ax.get_xticks()
ax.set_xticks(xticks[1::2])
ax.set_xticklabels([f"{40 + (tick * 0.05):.2f}" for tick in xticks[1::2]])
yticks = ax.get_yticks()
ax.set_yticks(yticks[1:-1:2])
ax.set_yticklabels([f"{35 - (tick * 0.05):.2f}" for tick in yticks[1:-1:2]])

# Barra de colores
cbar = fig.colorbar(cax, ax=ax, orientation="vertical", fraction=0.04, pad=0.05)
cbar.set_label("Probabilidad de litología", rotation=270, labelpad=-40)
cbar.set_ticks([np.nanmin(raster_anorth), np.nanmax(raster_anorth)])  # Posiciones de las etiquetas
cbar.set_ticklabels(["Rocas\nbasálticas", "Rocas\nanortosíticas"])  # Etiquetas


# Mostrar la figura
plt.tight_layout()

Por último, guardaremos la figura en alta calidad y con el método `savefig`:

> El parámetro `bbox_inches="tight"` evita que el archivo exporte espacio en blanco innecesario.

In [None]:
fig.savefig("litologia_lunar.png", dpi=300, bbox_inches="tight")

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**En conclusión...** </span>
***

La regresión logística es una técnica versátil utilizada tanto para clasificación binaria como multiclase, permitiendo <span style="color:#43c6ac">interpretar claramente los efectos de las variables independientes sobre la probabilidad de ocurrencia de un evento</span>. Incluye opciones de regularización (L1 y L2) que ayudan a prevenir el sobreajuste, mejorando la capacidad del modelo para generalizar a nuevos datos. Esto es particularmente útil en situaciones con muchas variables independientes o datos ruidosos, asegurando un rendimiento robusto en diversos escenarios.

La regresión logística no solo proporciona clasificaciones, sino también <span style="color:#43c6ac">probabilidades de pertenencia a cada clase</span>, lo que es esencial en análisis de riesgo y diagnóstico. Además, es computacionalmente eficiente, adecuada para aplicaciones prácticas con grandes conjuntos de datos, y fácilmente integrable en flujos de trabajo de ciencia de datos.

Uno de los puntos fuertes de la regresión logística es la <span style="color:#43c6ac">interpretabilidad de sus coeficientes</span>. Cada coeficiente del modelo puede interpretarse como la influencia que una variable independiente tiene sobre la probabilidad de ocurrencia del evento de interés.

El uso de regresión logística en este caso de estudio ha demostrado ser una herramienta efectiva para clasificar litologías en la superficie lunar. Al entrenar el modelo con datos geoquímicos terrestres de anortositas y basaltos, hemos podido predecir la probabilidad de que una muestra pertenezca a una de estas dos categorías en función de las concentraciones de Ca, Fe y Mg. Esta metodología proporciona un enfoque cuantitativo para diferenciar entre litologías basadas en características geoquímicas, lo que es esencial para el análisis remoto de cuerpos planetarios.


***