In [1]:
import pandas as pd
import numpy as np

# Cargar los datos desde los archivos proporcionados
costos_df = pd.read_excel('Costos_Subprocesos.xlsx')
indicadores_minas_df = pd.read_excel('Indicadores_Minas.xlsx')
indicadores_carguio_df = pd.read_excel('Indicadores_Carguio.xlsx')
indicadores_perforacion_df = pd.read_excel('Indicadores_Perforación.xlsx')
indicadores_transporte_df = pd.read_excel('Indicadores_Transporte.xlsx')

# Convertir las fechas a formato datetime en costos
costos_df['Subproceso_Costo'] = pd.to_datetime(costos_df['Subproceso_Costo'])

# Convertir las fechas a formato datetime en los DataFrames de indicadores
for df in [indicadores_minas_df, indicadores_carguio_df, indicadores_perforacion_df, indicadores_transporte_df]:
    df['Fecha'] = pd.to_datetime(df['Fecha'])

# Unir todos los DataFrames de indicadores en uno solo
indicadores_df = indicadores_minas_df.copy()
indicadores_df = pd.merge(indicadores_df, indicadores_carguio_df, on='Fecha', how='inner', suffixes=('_minas', '_carguio'))
indicadores_df = pd.merge(indicadores_df, indicadores_perforacion_df, on='Fecha', how='inner', suffixes=('', '_perforacion'))
indicadores_df = pd.merge(indicadores_df, indicadores_transporte_df, on='Fecha', how='inner', suffixes=('', '_transporte'))

# Unir el DataFrame de costos con el DataFrame combinado de indicadores
df_unificado = pd.merge(costos_df, indicadores_df, left_on='Subproceso_Costo', right_on='Fecha', how='inner')
df_unificado = df_unificado.drop(columns=['Fecha'])  # Eliminar la columna duplicada de Fecha

# Calcular la correlación entre todos los subprocesos y todos los indicadores
subprocesos_cols = costos_df.columns[1:]  # Excluyendo la columna de fecha
indicadores_cols = indicadores_df.columns[1:]  # Excluyendo la columna de fecha

correlation_matrix = df_unificado.corr(method='pearson')
correlation_filtered = correlation_matrix.loc[subprocesos_cols, indicadores_cols]

# Crear una tabla con los subprocesos, indicadores más correlacionados y sus valores de correlación
resultados_lista = []
for subproceso in correlation_filtered.index:
    for indicador, correlacion in correlation_filtered.loc[subproceso].nlargest(3).items():
        resultados_lista.append({
            'Subproceso': subproceso,
            'Indicador': indicador,
            'Correlación': correlacion
        })

df_resultados = pd.DataFrame(resultados_lista)

# Guardar los resultados en un archivo Excel
df_resultados.to_excel('Mejor_Indicador_Pearson.xlsx', index=False)

# Continuar con la división de los datos para entrenamiento y prueba

# Dividir los datos en entrenamiento (2016-2021) y prueba (2022)
train_data = df_unificado[df_unificado['Subproceso_Costo'] < '2022-01-01']
test_data = df_unificado[(df_unificado['Subproceso_Costo'] >= '2022-01-01') & (df_unificado['Subproceso_Costo'] < '2023-01-01')]

In [3]:
import pandas as pd
import numpy as np

# Cargar los datos desde los archivos proporcionados
costos_df = pd.read_excel('Costos_Subprocesos.xlsx')
indicadores_minas_df = pd.read_excel('Indicadores_Minas.xlsx')
indicadores_carguio_df = pd.read_excel('Indicadores_Carguio.xlsx')
indicadores_perforacion_df = pd.read_excel('Indicadores_Perforación.xlsx')
indicadores_transporte_df = pd.read_excel('Indicadores_Transporte.xlsx')

# Convertir las fechas a formato datetime en costos
costos_df['Subproceso_Costo'] = pd.to_datetime(costos_df['Subproceso_Costo'])

# Convertir las fechas a formato datetime en los DataFrames de indicadores
for df in [indicadores_minas_df, indicadores_carguio_df, indicadores_perforacion_df, indicadores_transporte_df]:
    df['Fecha'] = pd.to_datetime(df['Fecha'])

# Unir todos los DataFrames de indicadores en uno solo
indicadores_df = indicadores_minas_df.copy()
indicadores_df = pd.merge(indicadores_df, indicadores_carguio_df, on='Fecha', how='inner', suffixes=('_minas', '_carguio'))
indicadores_df = pd.merge(indicadores_df, indicadores_perforacion_df, on='Fecha', how='inner', suffixes=('', '_perforacion'))
indicadores_df = pd.merge(indicadores_df, indicadores_transporte_df, on='Fecha', how='inner', suffixes=('', '_transporte'))

# Unir el DataFrame de costos con el DataFrame combinado de indicadores
df_unificado = pd.merge(costos_df, indicadores_df, left_on='Subproceso_Costo', right_on='Fecha', how='inner')
df_unificado = df_unificado.drop(columns=['Fecha'])  # Eliminar la columna duplicada de Fecha

# Calcular la correlación de Spearman entre todos los subprocesos y todos los indicadores
correlation_matrix = df_unificado.corr(method='spearman')
correlation_filtered = correlation_matrix.loc[costos_df.columns[1:], indicadores_df.columns[1:]]

# Crear una tabla con los subprocesos, indicadores más correlacionados y sus valores de correlación
resultados_lista = []
for subproceso in correlation_filtered.index:
    for indicador, correlacion in correlation_filtered.loc[subproceso].nlargest(3).items():
        resultados_lista.append({
            'Subproceso': subproceso,
            'Indicador': indicador,
            'Correlación': correlacion
        })

df_resultados = pd.DataFrame(resultados_lista)

# Guardar los resultados en un archivo Excel
df_resultados.to_excel('Mejor_Indicador_Spearman.xlsx', index=False)

print("Los resultados se han guardado en 'Mejor_Indicador_Spearman.xlsx'")

# Dividir los datos en entrenamiento (2016-2021) y prueba (2022)
train_data = df_unificado[df_unificado['Subproceso_Costo'] < '2022-01-01']
test_data = df_unificado[(df_unificado['Subproceso_Costo'] >= '2022-01-01') & (df_unificado['Subproceso_Costo'] < '2023-01-01')]


Los resultados se han guardado en 'Mejor_Indicador_Spearman.xlsx'


In [20]:
import pandas as pd
import numpy as np

# Cargar los datos desde los archivos proporcionados
costos_df = pd.read_excel('Costos_Subprocesos.xlsx')
indicadores_minas_df = pd.read_excel('Indicadores_Minas.xlsx')
indicadores_carguio_df = pd.read_excel('Indicadores_Carguio.xlsx')
indicadores_perforacion_df = pd.read_excel('Indicadores_Perforación.xlsx')
indicadores_transporte_df = pd.read_excel('Indicadores_Transporte.xlsx')

# Convertir las fechas a formato datetime en costos
costos_df['Subproceso_Costo'] = pd.to_datetime(costos_df['Subproceso_Costo'])

# Convertir las fechas a formato datetime en los DataFrames de indicadores
for df in [indicadores_minas_df, indicadores_carguio_df, indicadores_perforacion_df, indicadores_transporte_df]:
    df['Fecha'] = pd.to_datetime(df['Fecha'])

# Unir todos los DataFrames de indicadores en uno solo
indicadores_df = indicadores_minas_df.copy()
indicadores_df = pd.merge(indicadores_df, indicadores_carguio_df, on='Fecha', how='inner', suffixes=('_minas', '_carguio'))
indicadores_df = pd.merge(indicadores_df, indicadores_perforacion_df, on='Fecha', how='inner', suffixes=('', '_perforacion'))
indicadores_df = pd.merge(indicadores_df, indicadores_transporte_df, on='Fecha', how='inner', suffixes=('', '_transporte'))

# Unir el DataFrame de costos con el DataFrame combinado de indicadores
df_unificado = pd.merge(costos_df, indicadores_df, left_on='Subproceso_Costo', right_on='Fecha', how='inner')
df_unificado = df_unificado.drop(columns=['Fecha'])  # Eliminar la columna duplicada de Fecha

# Calcular la correlación de Spearman entre todos los subprocesos y todos los indicadores
correlation_matrix = df_unificado.corr(method='kendall')
correlation_filtered = correlation_matrix.loc[costos_df.columns[1:], indicadores_df.columns[1:]]

# Crear una tabla con los subprocesos, indicadores más correlacionados y sus valores de correlación
resultados_lista = []
for subproceso in correlation_filtered.index:
    for indicador, correlacion in correlation_filtered.loc[subproceso].nlargest(3).items():
        resultados_lista.append({
            'Subproceso': subproceso,
            'Indicador': indicador,
            'Correlación': correlacion
        })

df_resultados = pd.DataFrame(resultados_lista)

# Guardar los resultados en un archivo Excel
df_resultados.to_excel('Mejor_Indicador_Kendall.xlsx', index=False)

print("Los resultados se han guardado en 'Mejor_Indicador_kendall.xlsx'")

# Dividir los datos en entrenamiento (2016-2021) y prueba (2022)
train_data = df_unificado[df_unificado['Subproceso_Costo'] < '2022-01-01']
test_data = df_unificado[(df_unificado['Subproceso_Costo'] >= '2022-01-01') & (df_unificado['Subproceso_Costo'] < '2023-01-01')]

Los resultados se han guardado en 'Mejor_Indicador_kendall.xlsx'
