In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.signal import savgol_filter
from scipy import stats

plt.style.use('seaborn-v0_8-whitegrid')
%matplotlib inline

print("‚úÖ Bibliotecas cargadas")

## 1Ô∏è‚É£ Empalme de Datos

### ¬øPor qu√© empalmar datos?

En campo, se realizan m√∫ltiples mediciones con diferentes configuraciones de **MN/2**. El empalme combina estas mediciones para obtener una curva √∫nica y representativa.

**Problema com√∫n**: M√∫ltiples mediciones en el mismo **AB/2** con diferentes **MN/2**

In [None]:
# Simular datos con m√∫ltiples mediciones en mismo AB/2
datos_repetidos = pd.DataFrame({
    'AB/2': [10, 10, 10, 20, 20, 20, 30, 30, 40, 40, 60, 60, 90, 90],
    'MN/2': [1, 1, 3, 1, 3, 3, 3, 9, 9, 9, 9, 27, 27, 27],
    'pa (Œ©*m)': [85, 88, 92, 110, 115, 108, 125, 130, 135, 132, 128, 125, 120, 118]
})

print("üìã Datos con m√∫ltiples mediciones por AB/2:")
display(datos_repetidos)

print(f"\nüìä Total de mediciones: {len(datos_repetidos)}")
print(f"üî¢ AB/2 √∫nicos: {datos_repetidos['AB/2'].nunique()}")

In [None]:
# Realizar empalme (promedio por AB/2)
datos_empalmados = datos_repetidos.groupby('AB/2').agg({
    'pa (Œ©*m)': 'mean',
    'MN/2': 'mean'
}).reset_index()

print("‚úÖ Datos empalmados (promediados por AB/2):")
display(datos_empalmados)

print(f"\nüìâ Reducci√≥n: {len(datos_repetidos)} ‚Üí {len(datos_empalmados)} puntos")

In [None]:
# Comparaci√≥n visual
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Datos originales
ax1.loglog(datos_repetidos['AB/2'], datos_repetidos['pa (Œ©*m)'], 
           'o', markersize=8, alpha=0.6, label='Mediciones m√∫ltiples')
ax1.set_xlabel('AB/2 (m)', fontweight='bold')
ax1.set_ylabel('Resistividad aparente (Œ©¬∑m)', fontweight='bold')
ax1.set_title('Datos Originales (con repeticiones)', fontweight='bold')
ax1.grid(True, which='both', alpha=0.3)
ax1.legend()

# Datos empalmados
ax2.loglog(datos_empalmados['AB/2'], datos_empalmados['pa (Œ©*m)'], 
           's-', markersize=10, linewidth=2, color='green', label='Datos empalmados')
ax2.set_xlabel('AB/2 (m)', fontweight='bold')
ax2.set_ylabel('Resistividad aparente (Œ©¬∑m)', fontweight='bold')
ax2.set_title('Datos Empalmados (promediados)', fontweight='bold')
ax2.grid(True, which='both', alpha=0.3)
ax2.legend()

plt.tight_layout()
plt.show()

print("‚úÖ El empalme reduce el ruido y simplifica la curva")

## 2Ô∏è‚É£ Suavizado de Datos

### T√©cnicas de suavizado:

1. **Media m√≥vil**: Promedio de ventana deslizante
2. **Savitzky-Golay**: Ajuste polinomial local
3. **Media exponencial**: Peso decreciente hacia atr√°s

In [None]:
# Generar datos con ruido
np.random.seed(42)
ab2_values = np.logspace(0, 2.3, 25)
resistividad_teorica = 50 + 60 * np.log10(ab2_values) - 10 * np.sin(np.log10(ab2_values) * 3)
ruido = np.random.normal(0, 8, len(ab2_values))
resistividad_con_ruido = resistividad_teorica + ruido

datos_ruido = pd.DataFrame({
    'AB/2': ab2_values,
    'pa (Œ©*m)': resistividad_con_ruido
})

print(f"üìä Datos generados: {len(datos_ruido)} puntos con ruido gaussiano")

In [None]:
# Aplicar diferentes t√©cnicas de suavizado
ventana = 5

# 1. Media m√≥vil
media_movil = np.convolve(datos_ruido['pa (Œ©*m)'], np.ones(ventana)/ventana, mode='same')

# 2. Savitzky-Golay
savgol = savgol_filter(datos_ruido['pa (Œ©*m)'], window_length=9, polyorder=2)

# 3. Media exponencial
media_exp = datos_ruido['pa (Œ©*m)'].ewm(span=ventana, adjust=False).mean()

print("‚úÖ Filtros aplicados:")
print(f"   1. Media m√≥vil (ventana={ventana})")
print(f"   2. Savitzky-Golay (ventana=9, orden=2)")
print(f"   3. Media exponencial (span={ventana})")

In [None]:
# Visualizar comparaci√≥n de filtros
plt.figure(figsize=(14, 8))

plt.semilogx(datos_ruido['AB/2'], datos_ruido['pa (Œ©*m)'], 
             'o', alpha=0.4, markersize=6, label='Datos con ruido', color='gray')
plt.semilogx(datos_ruido['AB/2'], media_movil, 
             '-', linewidth=2, label='Media m√≥vil', color='blue')
plt.semilogx(datos_ruido['AB/2'], savgol, 
             '-', linewidth=2, label='Savitzky-Golay', color='green')
plt.semilogx(datos_ruido['AB/2'], media_exp, 
             '-', linewidth=2, label='Media exponencial', color='red')
plt.semilogx(datos_ruido['AB/2'], resistividad_teorica, 
             '--', linewidth=2, label='Te√≥rico (sin ruido)', color='black')

plt.xlabel('AB/2 (m)', fontsize=12, fontweight='bold')
plt.ylabel('Resistividad aparente (Œ©¬∑m)', fontsize=12, fontweight='bold')
plt.title('Comparaci√≥n de T√©cnicas de Suavizado', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, which='both', alpha=0.3)
plt.tight_layout()
plt.show()

print("\nüí° Observaciones:")
print("   - Media m√≥vil: Simple pero puede perder detalles")
print("   - Savitzky-Golay: Preserva mejor picos y valles")
print("   - Media exponencial: Da m√°s peso a datos recientes")

## 3Ô∏è‚É£ Detecci√≥n de Valores At√≠picos (Outliers)

Los outliers pueden deberse a:
- Errores de medici√≥n
- Ruido el√©ctrico
- Contacto deficiente de electrodos

### M√©todos de detecci√≥n:
- **Z-score**: Distancia en desviaciones est√°ndar
- **IQR (Rango intercuart√≠lico)**: Basado en cuartiles

In [None]:
# Agregar outliers artificiales
datos_con_outliers = datos_ruido.copy()
outlier_indices = [5, 15, 20]
datos_con_outliers.loc[outlier_indices, 'pa (Œ©*m)'] *= 2.5

print("üìä Datos con outliers artificiales agregados")

In [None]:
# Detecci√≥n con Z-score
z_scores = np.abs(stats.zscore(datos_con_outliers['pa (Œ©*m)']))
umbral_z = 2.5
outliers_z = z_scores > umbral_z

print(f"üîç Detecci√≥n con Z-score (umbral={umbral_z}):")
print(f"   Outliers detectados: {outliers_z.sum()}")

# Detecci√≥n con IQR
Q1 = datos_con_outliers['pa (Œ©*m)'].quantile(0.25)
Q3 = datos_con_outliers['pa (Œ©*m)'].quantile(0.75)
IQR = Q3 - Q1
outliers_iqr = (datos_con_outliers['pa (Œ©*m)'] < (Q1 - 1.5 * IQR)) | \
               (datos_con_outliers['pa (Œ©*m)'] > (Q3 + 1.5 * IQR))

print(f"\nüîç Detecci√≥n con IQR:")
print(f"   Q1: {Q1:.1f}, Q3: {Q3:.1f}, IQR: {IQR:.1f}")
print(f"   Outliers detectados: {outliers_iqr.sum()}")

In [None]:
# Visualizar outliers
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fica con outliers marcados
axes[0].semilogx(datos_con_outliers['AB/2'], datos_con_outliers['pa (Œ©*m)'], 
                 'o-', markersize=6, label='Datos')
axes[0].semilogx(datos_con_outliers.loc[outliers_z, 'AB/2'], 
                 datos_con_outliers.loc[outliers_z, 'pa (Œ©*m)'], 
                 'ro', markersize=12, label='Outliers (Z-score)', markeredgewidth=2)
axes[0].set_xlabel('AB/2 (m)', fontweight='bold')
axes[0].set_ylabel('Resistividad aparente (Œ©¬∑m)', fontweight='bold')
axes[0].set_title('Detecci√≥n de Outliers', fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Boxplot
axes[1].boxplot(datos_con_outliers['pa (Œ©*m)'], vert=True)
axes[1].set_ylabel('Resistividad aparente (Œ©¬∑m)', fontweight='bold')
axes[1].set_title('Diagrama de Caja', fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Datos limpios (sin outliers)
datos_limpios = datos_con_outliers[~outliers_z].copy()
print(f"\n‚úÖ Datos limpios: {len(datos_limpios)} puntos (eliminados {outliers_z.sum()})")

## 4Ô∏è‚É£ Pipeline Completo de Preprocesamiento

In [None]:
def preprocesar_sev(datos, empalme=True, filtro='savgol', remover_outliers=True):
    """
    Pipeline completo de preprocesamiento de datos SEV.
    
    Par√°metros:
    -----------
    datos : DataFrame con columnas 'AB/2' y 'pa (Œ©*m)'
    empalme : bool, realizar empalme por AB/2
    filtro : str, tipo de filtro ('savgol', 'media_movil', 'exponencial')
    remover_outliers : bool, eliminar valores at√≠picos
    
    Retorna:
    --------
    DataFrame procesado
    """
    resultado = datos.copy()
    
    print("üîß Iniciando preprocesamiento...")
    print(f"   Datos iniciales: {len(resultado)} puntos\n")
    
    # 1. Empalme
    if empalme and 'AB/2' in resultado.columns:
        n_antes = len(resultado)
        resultado = resultado.groupby('AB/2')['pa (Œ©*m)'].mean().reset_index()
        print(f"‚úÖ Empalme: {n_antes} ‚Üí {len(resultado)} puntos")
    
    # 2. Remover outliers
    if remover_outliers:
        z_scores = np.abs(stats.zscore(resultado['pa (Œ©*m)']))
        mask = z_scores < 2.5
        n_antes = len(resultado)
        resultado = resultado[mask].reset_index(drop=True)
        print(f"‚úÖ Outliers removidos: {n_antes} ‚Üí {len(resultado)} puntos")
    
    # 3. Suavizado
    if filtro == 'savgol' and len(resultado) >= 9:
        resultado['pa (Œ©*m)'] = savgol_filter(resultado['pa (Œ©*m)'], 9, 2)
        print(f"‚úÖ Filtro aplicado: Savitzky-Golay")
    elif filtro == 'media_movil':
        ventana = min(5, len(resultado))
        resultado['pa (Œ©*m)'] = np.convolve(resultado['pa (Œ©*m)'], 
                                             np.ones(ventana)/ventana, mode='same')
        print(f"‚úÖ Filtro aplicado: Media m√≥vil (ventana={ventana})")
    elif filtro == 'exponencial':
        resultado['pa (Œ©*m)'] = resultado['pa (Œ©*m)'].ewm(span=5, adjust=False).mean()
        print(f"‚úÖ Filtro aplicado: Media exponencial")
    
    print(f"\n‚úÖ Preprocesamiento completado: {len(resultado)} puntos finales")
    return resultado

print("‚úÖ Funci√≥n de preprocesamiento definida")

In [None]:
# Aplicar pipeline completo
datos_procesados = preprocesar_sev(
    datos_con_outliers, 
    empalme=False,
    filtro='savgol',
    remover_outliers=True
)

In [None]:
# Comparaci√≥n antes/despu√©s
plt.figure(figsize=(12, 6))

plt.semilogx(datos_con_outliers['AB/2'], datos_con_outliers['pa (Œ©*m)'], 
             'o', alpha=0.4, markersize=6, label='Datos originales (con outliers)', color='gray')
plt.semilogx(datos_procesados['AB/2'], datos_procesados['pa (Œ©*m)'], 
             's-', linewidth=2.5, markersize=8, label='Datos procesados', color='green')

plt.xlabel('AB/2 (m)', fontsize=12, fontweight='bold')
plt.ylabel('Resistividad aparente (Œ©¬∑m)', fontsize=12, fontweight='bold')
plt.title('Comparaci√≥n: Datos Originales vs Procesados', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, which='both', alpha=0.3)
plt.tight_layout()
plt.show()

print("‚úÖ Los datos procesados est√°n listos para inversi√≥n")

## üìù Resumen

En este tutorial aprendiste:

‚úÖ **Empalme de datos**: Combinar m√∫ltiples mediciones  
‚úÖ **Suavizado**: Media m√≥vil, Savitzky-Golay, media exponencial  
‚úÖ **Detecci√≥n de outliers**: Z-score e IQR  
‚úÖ **Pipeline completo**: Funci√≥n automatizada de preprocesamiento  

### üöÄ Pr√≥ximo paso

En el **Tutorial 3** aprender√°s sobre:
- Inversi√≥n de datos SEV con PyGIMLi
- Interpretaci√≥n de modelos de capas
- An√°lisis de incertidumbre

---

**VESPY** - Vertical Electrical Sounding in Python  
üìß josemariagarciamarquez2.72@gmail.com  
üåê [Web](https://josemariagarciamarquez.github.io/webjoma/) ‚Ä¢ ‚òï [Patreon](https://www.patreon.com/chemitas)