# PROCESO DE JUNTAR LAS TABLAS EN UNA SOLA

In [55]:
import os
import pandas as pd

# Ruta base de la carpeta donde están los CSV
base_path = "/content/TABLA_GLOBAL"

# Listar los archivos CSV en la carpeta
csv_files = [f for f in os.listdir(base_path) if f.endswith('.csv')]

# Mostrar las primeras 5 filas de cada archivo
for csv_file in csv_files:
    file_path = os.path.join(base_path, csv_file)
    try:
        # Leer el archivo
        df = pd.read_csv(file_path)

        # Mostrar nombre del archivo y primeras filas
        print(f"\nArchivo: {csv_file}")
        print(df.head())  # Mostrar las primeras 5 filas
    except Exception as e:
        print(f"Error al procesar {csv_file}: {e}")



Archivo: 6variedades_distrital_mensual_anual.csv
    AÑO  MES  DEPARTAMENTO PROVINCIA                DISTRITO      PRODUCTO  \
0  2015    8      AMAZONAS      LUYA  SAN FRANCISCO DEL YESO        Huayro   
1  2015    2      AMAZONAS      LUYA                   LAMUD  Canchan-INIA   
2  2015    2      AMAZONAS      LUYA                   LAMUD        Yungay   
3  2015    2      AMAZONAS      LUYA          SANTA CATALINA        Huayro   
4  2015    3  HUANCAVELICA  HUAYTARA         HUAYACUNDO ARMA  Canchan-INIA   

   SIEMBRA  COSECHA  PRODUCCION  PRECIO_CHACRA  
0      0.0      7.0       136.5           0.87  
1      3.0      0.0         0.0           0.00  
2      0.0      0.0         0.0           0.00  
3     10.0      0.0         0.0           0.00  
4      0.0      4.0        41.7           0.60  

Archivo: Variedad_a_Caracteristicas.csv
  Variety;Late blight (LB);Predominant tuber flesh color;Tuber shape depth of eyes;Dry matter (%);Growing period highland
0         Perricholi;MR;

In [56]:
# Leer archivos problemáticos con codificación alternativa
problematic_files = [
    "temperaturaMax_mensual_distrital.csv",
    "Temp_min-mensual-distritos.csv"
]

for file in problematic_files:
    file_path = os.path.join(base_path, file)
    try:
        df = pd.read_csv(file_path, encoding="latin1")
        print(f"\nArchivo {file} leído correctamente.")
        print(df.head())
    except Exception as e:
        print(f"Error al procesar {file}: {e}")



Archivo temperaturaMax_mensual_distrital.csv leído correctamente.
    NOMBDEP NOMBPROV  NOMBDIST   INVIERNO       MAYO     AGOSTO    OCTUBRE  \
0  AMAZONAS    BAGUA  ARAMANGO  26.863174  27.111162  26.810782  28.228055   
1  AMAZONAS    BAGUA     BAGUA  30.520419  30.209566  30.530455  31.899539   
2  AMAZONAS    BAGUA  COPALLIN  26.640124  26.692143  26.566268  28.179436   
3  AMAZONAS    BAGUA  EL PARCO  30.007970  29.989424  30.010680  31.877391   
4  AMAZONAS    BAGUA     IMAZA  26.780580  27.356814  26.749295  27.947892   

       MARZO  DICIEMBRE      ENERO  SEPTIEMBRE     VERANO      JUNIO  \
0  27.505999  28.109687  27.076085   27.614823  27.140192  26.405174   
1  30.830805  31.484104  30.873373   31.548531  30.779754  29.663877   
2  26.824876  27.838548  26.916340   27.506804  26.790089  26.232811   
3  30.163648  31.613463  30.324965   31.386001  30.174626  29.754390   
4  27.826918  28.076469  27.759810   27.465628  27.711762  26.552791   

   NOVIEMBRE      ABRIL    FEBR

In [57]:
def transform_to_long(file_path, id_vars, value_vars, value_name):
    # Leer archivo
    df = pd.read_csv(file_path, encoding="latin1")
    # Cambiar nombres de columnas (si es necesario)
    df.rename(columns={"setiembre": "septiembre"}, inplace=True)
    # Transformar a formato largo
    df_long = pd.melt(df, id_vars=id_vars, value_vars=value_vars,
                      var_name="MES", value_name=value_name)
    return df_long

# Archivo Temp_min-mensual-distritos.csv
temp_min_path = os.path.join(base_path, "Temp_min-mensual-distritos.csv")
id_vars = ['NOMBDEP', 'NOMBPROV', 'NOMBDIST']
value_vars = ['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio',
              'julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre']
temp_min_long = transform_to_long(temp_min_path, id_vars, value_vars, "TEMP_MIN")
print(temp_min_long.head())


    NOMBDEP NOMBPROV  NOMBDIST    MES   TEMP_MIN
0  AMAZONAS    BAGUA  ARAMANGO  enero  16.459685
1  AMAZONAS    BAGUA     BAGUA  enero  19.670997
2  AMAZONAS    BAGUA  COPALLIN  enero  16.379788
3  AMAZONAS    BAGUA  EL PARCO  enero  19.980193
4  AMAZONAS    BAGUA     IMAZA  enero  18.321999


In [58]:
# Inspeccionar valores nulos
for csv_file in csv_files:
    file_path = os.path.join(base_path, csv_file)
    try:
        df = pd.read_csv(file_path, encoding="latin1")
        print(f"\nArchivo: {csv_file}")
        print("Valores nulos por columna:")
        print(df.isnull().sum())
    except Exception as e:
        print(f"Error al procesar {csv_file}: {e}")



Archivo: 6variedades_distrital_mensual_anual.csv
Valores nulos por columna:
AÃO             0
MES              0
DEPARTAMENTO     0
PROVINCIA        0
DISTRITO         0
PRODUCTO         0
SIEMBRA          0
COSECHA          0
PRODUCCION       0
PRECIO_CHACRA    0
dtype: int64

Archivo: Variedad_a_Caracteristicas.csv
Valores nulos por columna:
ï»¿Variety;Late blight (LB);Predominant tuber flesh color;Tuber shape depth of eyes;Dry matter (%);Growing period highland    0
dtype: int64
Error al procesar Variedad_a_Caracteristicas_28.csv: Error tokenizing data. C error: Expected 1 fields in line 17, saw 2


Archivo: Temp_min-mensual-distritos.csv
Valores nulos por columna:
NOMBDEP       0
NOMBPROV      0
NOMBDIST      0
noviembre     0
enero         0
anual         0
febrero       0
diciembre     0
marzo         0
julio         0
junio         0
septiembre    0
octubre       0
verano        0
invierno      0
mayo          0
otoño         0
agosto        0
abril         0
dtype: int64

Arc

In [59]:
# Ejemplo de replicar filas para datos anuales
def expand_to_months(df, id_vars, value_var):
    # Crear una columna de meses (1-12)
    months = pd.DataFrame({'MES': range(1, 13)})
    df_expanded = df.merge(months, how='cross')
    return df_expanded

# Archivo tizon_distrital_noMensual_noAnual.csv
tizon_path = os.path.join(base_path, "tizon_distrital_noMensual_noAnual.csv")
tizon_df = pd.read_csv(tizon_path, encoding="latin1")
tizon_expanded = expand_to_months(tizon_df, ['Departamento', 'Provincia', 'Distrito'], 'Promedio_Ponderado')
print(tizon_expanded.head())


  Departamento  Provincia  Distrito  Promedio_Ponderado  MES
0    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    1
1    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    2
2    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    3
3    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    4
4    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    5


In [60]:
def transform_to_long(df, id_vars, value_vars, value_name):
    df_long = pd.melt(df, id_vars=id_vars, value_vars=value_vars,
                      var_name="MES", value_name=value_name)
    return df_long

# Ejemplo para temperatura máxima
temp_max_path = "/content/TABLA_GLOBAL/temperaturaMax_mensual_distrital.csv"
temp_max_df = pd.read_csv(temp_max_path, encoding="latin1")
value_vars = ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO',
              'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']
temp_max_long = transform_to_long(temp_max_df, ['NOMBDEP', 'NOMBPROV', 'NOMBDIST'], value_vars, "TEMP_MAX")
print(temp_max_long.head())


    NOMBDEP NOMBPROV  NOMBDIST    MES   TEMP_MAX
0  AMAZONAS    BAGUA  ARAMANGO  ENERO  27.076085
1  AMAZONAS    BAGUA     BAGUA  ENERO  30.873373
2  AMAZONAS    BAGUA  COPALLIN  ENERO  26.916340
3  AMAZONAS    BAGUA  EL PARCO  ENERO  30.324965
4  AMAZONAS    BAGUA     IMAZA  ENERO  27.759810


In [61]:
def expand_to_months(df, id_vars, value_var):
    months = pd.DataFrame({'MES': range(1, 13)})  # Crear meses 1-12
    df_expanded = df.merge(months, how='cross')
    return df_expanded

# Ejemplo para tizon
tizon_path = "/content/TABLA_GLOBAL/tizon_distrital_noMensual_noAnual.csv"
tizon_df = pd.read_csv(tizon_path, encoding="latin1")
tizon_expanded = expand_to_months(tizon_df, ['Departamento', 'Provincia', 'Distrito'], 'Promedio_Ponderado')
print(tizon_expanded.head())


  Departamento  Provincia  Distrito  Promedio_Ponderado  MES
0    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    1
1    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    2
2    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    3
3    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    4
4    CAJAMARCA  CONTUMAZA  GUZMANGO           68.171875    5


In [62]:
clima_path = "/content/TABLA_GLOBAL/ClasificacionClimatica_distrital.csv"
clima_df = pd.read_csv(clima_path, encoding="latin1")

# Rellenar nulos con una categoría "Desconocido" (opcional)
clima_df.fillna("Desconocido", inplace=True)
print(clima_df.isnull().sum())


NOMBDEP                    0
NOMBPROV                   0
NOMBDIST                   0
Clasificacion_Climatica    0
dtype: int64


In [63]:
# Archivo de temperatura máxima (ya transformado a formato largo previamente en este caso)
temp_max_long_path = "/content/TABLA_GLOBAL/temperaturaMax_mensual_distrital.csv"
temp_max_df = pd.read_csv(temp_max_long_path, encoding="latin1")

# Archivo de Clasificación Climática
clima_path = "/content/TABLA_GLOBAL/ClasificacionClimatica_distrital.csv"
clima_df = pd.read_csv(clima_path, encoding="latin1")

# Transformación de TEMP_MAX al formato largo
value_vars = ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO',
              'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']
temp_max_long = pd.melt(temp_max_df,
                        id_vars=['NOMBDEP', 'NOMBPROV', 'NOMBDIST'],
                        value_vars=value_vars,
                        var_name="MES",
                        value_name="TEMP_MAX")

# Unión de TEMP_MAX y Clasificación Climática
tabla_base = temp_max_long.merge(clima_df,
                                 how='left',
                                 left_on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST'],
                                 right_on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST'])

# Archivo de Tizón
tizon_path = "/content/TABLA_GLOBAL/tizon_distrital_noMensual_noAnual.csv"
tizon_df = pd.read_csv(tizon_path, encoding="latin1")

# Expansión de datos de Tizón para incluir meses
months = pd.DataFrame({'MES': ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO',
                               'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']})
tizon_expanded = tizon_df.merge(months, how='cross')

# Unión de Tizón con la Tabla Base
tabla_base = tabla_base.merge(tizon_expanded,
                              how='left',
                              left_on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'MES'],
                              right_on=['Departamento', 'Provincia', 'Distrito', 'MES'])

# Limpieza de columnas no necesarias
tabla_base.drop(columns=['Departamento', 'Provincia', 'Distrito'], inplace=True)

# Verificar la tabla resultante
tabla_base


Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MAX,Clasificacion_Climatica,Promedio_Ponderado
0,AMAZONAS,BAGUA,ARAMANGO,ENERO,27.076085,Lluvioso con humedad abundante todas las estac...,0.000000
1,AMAZONAS,BAGUA,BAGUA,ENERO,30.873373,Semiseco con humedad abundante todas las estac...,15.945946
2,AMAZONAS,BAGUA,COPALLIN,ENERO,26.916340,Semiseco con humedad abundante todas las estac...,2.335443
3,AMAZONAS,BAGUA,EL PARCO,ENERO,30.324965,Semiseco con humedad abundante todas las estac...,0.000000
4,AMAZONAS,BAGUA,IMAZA,ENERO,27.759810,Lluvioso con humedad abundante todas las estac...,0.077615
...,...,...,...,...,...,...,...
22483,UCAYALI,PADRE ABAD,CURIMANA,DICIEMBRE,31.235136,Lluvioso con humedad abundante todas las estac...,0.000000
22484,UCAYALI,PADRE ABAD,IRAZOLA,DICIEMBRE,30.333002,Lluvioso con humedad abundante todas las estac...,0.000000
22485,UCAYALI,PADRE ABAD,NESHUYA,DICIEMBRE,31.858374,Lluvioso con humedad abundante todas las estac...,0.000000
22486,UCAYALI,PADRE ABAD,PADRE ABAD,DICIEMBRE,28.494550,Lluvioso con humedad abundante todas las estac...,0.000000


In [64]:
# Renombrar la columna Promedio_Ponderado a TIZON_PROMEDIO
tabla_base.rename(columns={"Promedio_Ponderado": "TIZON_PROMEDIO"}, inplace=True)

# Verificar la tabla actualizada
print(tabla_base.head())


    NOMBDEP NOMBPROV  NOMBDIST    MES   TEMP_MAX  \
0  AMAZONAS    BAGUA  ARAMANGO  ENERO  27.076085   
1  AMAZONAS    BAGUA     BAGUA  ENERO  30.873373   
2  AMAZONAS    BAGUA  COPALLIN  ENERO  26.916340   
3  AMAZONAS    BAGUA  EL PARCO  ENERO  30.324965   
4  AMAZONAS    BAGUA     IMAZA  ENERO  27.759810   

                             Clasificacion_Climatica  TIZON_PROMEDIO  
0  Lluvioso con humedad abundante todas las estac...        0.000000  
1  Semiseco con humedad abundante todas las estac...       15.945946  
2  Semiseco con humedad abundante todas las estac...        2.335443  
3  Semiseco con humedad abundante todas las estac...        0.000000  
4  Lluvioso con humedad abundante todas las estac...        0.077615  


In [65]:
# Verificar si (NOMBDEP, NOMBPROV, NOMBDIST) es único
is_unique = tabla_base.duplicated(subset=['NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'MES'], keep=False)
duplicates = tabla_base[is_unique]

# Mostrar cuántos duplicados hay y un ejemplo
print(f"Total de duplicados: {duplicates.shape[0]}")
print("Ejemplo de duplicados:")
print(duplicates.head())

# Exportar duplicados para inspección más detallada (opcional)
duplicates.to_csv("/content/duplicados.csv", index=False)


Total de duplicados: 0
Ejemplo de duplicados:
Empty DataFrame
Columns: [NOMBDEP, NOMBPROV, NOMBDIST, MES, TEMP_MAX, Clasificacion_Climatica, TIZON_PROMEDIO]
Index: []


In [66]:
# Leer el archivo de temperatura mínima
temp_min_path = "/content/TABLA_GLOBAL/Temp_min-mensual-distritos.csv"
temp_min_df = pd.read_csv(temp_min_path, encoding="latin1")

# Renombrar columnas para unificar nombres de meses
month_mapping = {
    'enero': 'ENERO', 'febrero': 'FEBRERO', 'marzo': 'MARZO', 'abril': 'ABRIL',
    'mayo': 'MAYO', 'junio': 'JUNIO', 'julio': 'JULIO', 'agosto': 'AGOSTO',
    'setiembre': 'SEPTIEMBRE', 'septiembre': 'SEPTIEMBRE', 'octubre': 'OCTUBRE',
    'noviembre': 'NOVIEMBRE', 'diciembre': 'DICIEMBRE'
}

temp_min_df.rename(columns=month_mapping, inplace=True)

# Transformar al formato largo
value_vars = ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO',
              'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']
temp_min_long = pd.melt(temp_min_df,
                        id_vars=['NOMBDEP', 'NOMBPROV', 'NOMBDIST'],
                        value_vars=value_vars,
                        var_name="MES",
                        value_name="TEMP_MIN")

temp_min_long


Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MIN
0,AMAZONAS,BAGUA,ARAMANGO,ENERO,16.459685
1,AMAZONAS,BAGUA,BAGUA,ENERO,19.670997
2,AMAZONAS,BAGUA,COPALLIN,ENERO,16.379788
3,AMAZONAS,BAGUA,EL PARCO,ENERO,19.980193
4,AMAZONAS,BAGUA,IMAZA,ENERO,18.321999
...,...,...,...,...,...
22483,UCAYALI,PADRE ABAD,CURIMANA,DICIEMBRE,21.994663
22484,UCAYALI,PADRE ABAD,IRAZOLA,DICIEMBRE,21.780076
22485,UCAYALI,PADRE ABAD,NESHUYA,DICIEMBRE,22.000000
22486,UCAYALI,PADRE ABAD,PADRE ABAD,DICIEMBRE,19.685969


In [67]:
# Unir TEMP_MIN con la tabla base
tabla_base = tabla_base.merge(temp_min_long,
                              how='left',
                              on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'MES'])

# Verificar la tabla actualizada
tabla_base

Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MAX,Clasificacion_Climatica,TIZON_PROMEDIO,TEMP_MIN
0,AMAZONAS,BAGUA,ARAMANGO,ENERO,27.076085,Lluvioso con humedad abundante todas las estac...,0.000000,16.459685
1,AMAZONAS,BAGUA,BAGUA,ENERO,30.873373,Semiseco con humedad abundante todas las estac...,15.945946,19.670997
2,AMAZONAS,BAGUA,COPALLIN,ENERO,26.916340,Semiseco con humedad abundante todas las estac...,2.335443,16.379788
3,AMAZONAS,BAGUA,EL PARCO,ENERO,30.324965,Semiseco con humedad abundante todas las estac...,0.000000,19.980193
4,AMAZONAS,BAGUA,IMAZA,ENERO,27.759810,Lluvioso con humedad abundante todas las estac...,0.077615,18.321999
...,...,...,...,...,...,...,...,...
22483,UCAYALI,PADRE ABAD,CURIMANA,DICIEMBRE,31.235136,Lluvioso con humedad abundante todas las estac...,0.000000,21.994663
22484,UCAYALI,PADRE ABAD,IRAZOLA,DICIEMBRE,30.333002,Lluvioso con humedad abundante todas las estac...,0.000000,21.780076
22485,UCAYALI,PADRE ABAD,NESHUYA,DICIEMBRE,31.858374,Lluvioso con humedad abundante todas las estac...,0.000000,22.000000
22486,UCAYALI,PADRE ABAD,PADRE ABAD,DICIEMBRE,28.494550,Lluvioso con humedad abundante todas las estac...,0.000000,19.685969


In [68]:
# Leer el archivo de precipitación mensual
precipitacion_path = "/content/TABLA_GLOBAL/Precipitacion_mensual_distrital_noAnual.csv"
precipitacion_df = pd.read_csv(precipitacion_path, encoding="latin1")

# Renombrar columnas de meses para unificar
precipitacion_df.rename(columns=month_mapping, inplace=True)

# Transformar al formato largo
precipitacion_long = pd.melt(precipitacion_df,
                             id_vars=['NOMBDEP', 'NOMBPROV', 'NOMBDIST'],
                             value_vars=value_vars,
                             var_name="MES",
                             value_name="PRECIPITACION")

# Unir PRECIPITACION con la tabla base
tabla_base = tabla_base.merge(precipitacion_long,
                              how='left',
                              on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'MES'])

# Verificar la tabla actualizada
tabla_base

Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MAX,Clasificacion_Climatica,TIZON_PROMEDIO,TEMP_MIN,PRECIPITACION
0,AMAZONAS,BAGUA,ARAMANGO,ENERO,27.076085,Lluvioso con humedad abundante todas las estac...,0.000000,16.459685,129.894485
1,AMAZONAS,BAGUA,BAGUA,ENERO,30.873373,Semiseco con humedad abundante todas las estac...,15.945946,19.670997,55.416202
2,AMAZONAS,BAGUA,COPALLIN,ENERO,26.916340,Semiseco con humedad abundante todas las estac...,2.335443,16.379788,73.479792
3,AMAZONAS,BAGUA,EL PARCO,ENERO,30.324965,Semiseco con humedad abundante todas las estac...,0.000000,19.980193,59.510244
4,AMAZONAS,BAGUA,IMAZA,ENERO,27.759810,Lluvioso con humedad abundante todas las estac...,0.077615,18.321999,311.072020
...,...,...,...,...,...,...,...,...,...
22483,UCAYALI,PADRE ABAD,CURIMANA,DICIEMBRE,31.235136,Lluvioso con humedad abundante todas las estac...,0.000000,21.994663,303.789348
22484,UCAYALI,PADRE ABAD,IRAZOLA,DICIEMBRE,30.333002,Lluvioso con humedad abundante todas las estac...,0.000000,21.780076,407.883075
22485,UCAYALI,PADRE ABAD,NESHUYA,DICIEMBRE,31.858374,Lluvioso con humedad abundante todas las estac...,0.000000,22.000000,248.436134
22486,UCAYALI,PADRE ABAD,PADRE ABAD,DICIEMBRE,28.494550,Lluvioso con humedad abundante todas las estac...,0.000000,19.685969,626.462697


In [69]:
# Guardar la tabla consolidada en un archivo CSV
output_path = "/content/tabla_consolidada_v2.csv"
tabla_base.to_csv(output_path, index=False, encoding="latin1")

# Confirmar el guardado
print(f"Tabla consolidada actualizada guardada en: {output_path}")


Tabla consolidada actualizada guardada en: /content/tabla_consolidada_v2.csv


In [70]:
# Leer el archivo de nevada mensual
nevada_path = "/content/TABLA_GLOBAL/nevada_distrital_mensual_noAnual.csv"
nevada_df = pd.read_csv(nevada_path, encoding="latin1")

# Renombrar columnas para unificar nombres de meses
month_mapping = {
    'Enero': 'ENERO', 'Febrero': 'FEBRERO', 'Marzo': 'MARZO', 'Abril': 'ABRIL',
    'Mayo': 'MAYO', 'Junio': 'JUNIO', 'Julio': 'JULIO', 'Agosto': 'AGOSTO',
    'Setiembre': 'SEPTIEMBRE', 'Septiembre': 'SEPTIEMBRE', 'Octubre': 'OCTUBRE',
    'Noviembre': 'NOVIEMBRE', 'Diciembre': 'DICIEMBRE'
}

nevada_df.rename(columns=month_mapping, inplace=True)

# Transformar al formato largo
value_vars = ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO',
              'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']
nevada_long = pd.melt(nevada_df,
                      id_vars=['UBIGEO', 'NOMBDEP', 'NOMBPROV', 'NOMBDIST'],
                      value_vars=value_vars,
                      var_name="MES",
                      value_name="NEVADA")

# Unir NEVADA con la tabla base
tabla_base = tabla_base.merge(nevada_long,
                              how='left',
                              on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'MES'])

# Verificar la tabla actualizada
print(tabla_base.head())


    NOMBDEP NOMBPROV  NOMBDIST    MES   TEMP_MAX  \
0  AMAZONAS    BAGUA  ARAMANGO  ENERO  27.076085   
1  AMAZONAS    BAGUA     BAGUA  ENERO  30.873373   
2  AMAZONAS    BAGUA  COPALLIN  ENERO  26.916340   
3  AMAZONAS    BAGUA  EL PARCO  ENERO  30.324965   
4  AMAZONAS    BAGUA     IMAZA  ENERO  27.759810   

                             Clasificacion_Climatica  TIZON_PROMEDIO  \
0  Lluvioso con humedad abundante todas las estac...        0.000000   
1  Semiseco con humedad abundante todas las estac...       15.945946   
2  Semiseco con humedad abundante todas las estac...        2.335443   
3  Semiseco con humedad abundante todas las estac...        0.000000   
4  Lluvioso con humedad abundante todas las estac...        0.077615   

    TEMP_MIN  PRECIPITACION  UBIGEO  NEVADA  
0  16.459685     129.894485   10202     0.0  
1  19.670997      55.416202   10201     0.0  
2  16.379788      73.479792   10203     0.0  
3  19.980193      59.510244   10204     0.0  
4  18.321999     311.072

In [71]:
# Leer el archivo de erosión
erosion_path = "/content/TABLA_GLOBAL/erosion_distrital_noMensual_NoAnual.csv"
erosion_df = pd.read_csv(erosion_path, encoding="latin1")

# Crear una lista de meses
months = ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO',
          'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']

# Replicar los datos para todos los meses
erosion_expanded = erosion_df.merge(pd.DataFrame({'MES': months}), how='cross')

# Unir EROSION_PROMEDIO con la tabla base
tabla_base = tabla_base.merge(erosion_expanded,
                              how='left',
                              left_on=['NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'MES'],
                              right_on=['DEPARTAMENTO', 'PROVINCIA', 'DISTRITO', 'MES'])

# Eliminar columnas innecesarias después de la unión
tabla_base.drop(columns=['DEPARTAMENTO', 'PROVINCIA', 'DISTRITO'], inplace=True)

# Verificar la tabla actualizada
tabla_base

Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MAX,Clasificacion_Climatica,TIZON_PROMEDIO,TEMP_MIN,PRECIPITACION,UBIGEO,NEVADA,EROSION_PROMEDIO
0,AMAZONAS,BAGUA,ARAMANGO,ENERO,27.076085,Lluvioso con humedad abundante todas las estac...,0.000000,16.459685,129.894485,10202,0.0,15.131108
1,AMAZONAS,BAGUA,BAGUA,ENERO,30.873373,Semiseco con humedad abundante todas las estac...,15.945946,19.670997,55.416202,10201,0.0,23.318603
2,AMAZONAS,BAGUA,COPALLIN,ENERO,26.916340,Semiseco con humedad abundante todas las estac...,2.335443,16.379788,73.479792,10203,0.0,12.791936
3,AMAZONAS,BAGUA,EL PARCO,ENERO,30.324965,Semiseco con humedad abundante todas las estac...,0.000000,19.980193,59.510244,10204,0.0,12.397214
4,AMAZONAS,BAGUA,IMAZA,ENERO,27.759810,Lluvioso con humedad abundante todas las estac...,0.077615,18.321999,311.072020,10205,0.0,4.367886
...,...,...,...,...,...,...,...,...,...,...,...,...
22483,UCAYALI,PADRE ABAD,CURIMANA,DICIEMBRE,31.235136,Lluvioso con humedad abundante todas las estac...,0.000000,21.994663,303.789348,250303,0.0,0.456189
22484,UCAYALI,PADRE ABAD,IRAZOLA,DICIEMBRE,30.333002,Lluvioso con humedad abundante todas las estac...,0.000000,21.780076,407.883075,250302,0.0,1.088604
22485,UCAYALI,PADRE ABAD,NESHUYA,DICIEMBRE,31.858374,Lluvioso con humedad abundante todas las estac...,0.000000,22.000000,248.436134,250304,0.0,1.414686
22486,UCAYALI,PADRE ABAD,PADRE ABAD,DICIEMBRE,28.494550,Lluvioso con humedad abundante todas las estac...,0.000000,19.685969,626.462697,250301,0.0,7.460539


In [72]:
# Guardar la tabla consolidada actualizada
output_path = "/content/tabla_consolidada_v5.csv"
tabla_base.to_csv(output_path, index=False, encoding="latin1")

# Confirmar el guardado
print(f"Tabla consolidada actualizada guardada en: {output_path}")


Tabla consolidada actualizada guardada en: /content/tabla_consolidada_v5.csv


#### Pequeño script para exportar la relacion entre punto espacio temporal con su vector d ecaracteristicas

In [73]:
tabla_base

Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MAX,Clasificacion_Climatica,TIZON_PROMEDIO,TEMP_MIN,PRECIPITACION,UBIGEO,NEVADA,EROSION_PROMEDIO
0,AMAZONAS,BAGUA,ARAMANGO,ENERO,27.076085,Lluvioso con humedad abundante todas las estac...,0.000000,16.459685,129.894485,10202,0.0,15.131108
1,AMAZONAS,BAGUA,BAGUA,ENERO,30.873373,Semiseco con humedad abundante todas las estac...,15.945946,19.670997,55.416202,10201,0.0,23.318603
2,AMAZONAS,BAGUA,COPALLIN,ENERO,26.916340,Semiseco con humedad abundante todas las estac...,2.335443,16.379788,73.479792,10203,0.0,12.791936
3,AMAZONAS,BAGUA,EL PARCO,ENERO,30.324965,Semiseco con humedad abundante todas las estac...,0.000000,19.980193,59.510244,10204,0.0,12.397214
4,AMAZONAS,BAGUA,IMAZA,ENERO,27.759810,Lluvioso con humedad abundante todas las estac...,0.077615,18.321999,311.072020,10205,0.0,4.367886
...,...,...,...,...,...,...,...,...,...,...,...,...
22483,UCAYALI,PADRE ABAD,CURIMANA,DICIEMBRE,31.235136,Lluvioso con humedad abundante todas las estac...,0.000000,21.994663,303.789348,250303,0.0,0.456189
22484,UCAYALI,PADRE ABAD,IRAZOLA,DICIEMBRE,30.333002,Lluvioso con humedad abundante todas las estac...,0.000000,21.780076,407.883075,250302,0.0,1.088604
22485,UCAYALI,PADRE ABAD,NESHUYA,DICIEMBRE,31.858374,Lluvioso con humedad abundante todas las estac...,0.000000,22.000000,248.436134,250304,0.0,1.414686
22486,UCAYALI,PADRE ABAD,PADRE ABAD,DICIEMBRE,28.494550,Lluvioso con humedad abundante todas las estac...,0.000000,19.685969,626.462697,250301,0.0,7.460539


In [74]:
import pandas as pd

# Crear un diccionario para mapear las clasificaciones a las agrupaciones
clasificacion_a_agrupacion = {
    'Lluvioso con humedad abundante todas las estaciones del a': 'Lluvioso con humedad abundante todas las estaciones del a',
    'Semiseco con humedad abundante todas las estaciones del a': 'Semiseco con humedad abundante todas las estaciones del a',
    'Muy lluvioso con humedad abundante todas las estaciones del aSo. Templado.': 'Muy lluvioso con humedad abundante todas las estaciones del aSo. Templado.',
    'Muy lluvioso con humedad abundante todas las estaciones del aao. CClido.': 'Muy lluvioso con humedad abundante todas las estaciones del aSo. Templado.',
    'Lluvioso con oto': 'Lluvioso con oto',
    'Semi)rido con invierno seco. Templado.': 'Semi)rido con invierno seco. Templado.',
    'Semiseco con invierno seco. Templado.': 'Semiseco con invierno seco. Templado.',
    'Lluvioso con otoeo e invierno secos. Templado.': 'Lluvioso con oto',
    'Muy lluvioso con humedad abundante todas las estaciones del aä°¬o. Frä\x93\x8ao.': 'Muy lluvioso con humedad abundante todas las estaciones del aSo. Templado.',
    'Semiseco con invierno y primavera secos. Templado.': 'Semiseco con invierno seco. Templado.',
    'Erido con deficiencia de humedad en todas las estaciones del aoo. Templado.': 'Erido con deficiencia de humedad en todas las estaciones del aoo. Templado.',
    'Semiseco con oto': 'Semiseco con oto o e invierno secos. Frso.',
    'Lluvioso con invierno seco. Freo.': 'Lluvioso con oto',
    'Semiseco con invierno seco. Semifrsgido.': 'Semiseco con invierno seco. Templado.',
    'Semi rido con invierno y primavera secos. Frmo.': 'Semi)rido con invierno seco. Frro.',
    'Erido con deficiencia de humedad en todas las estaciones del aeo. Templado.': 'Erido con deficiencia de humedad en todas las estaciones del aoo. Templado.',
    'Semiseco con invierno seco. Frao.': 'Semiseco con invierno seco. Frao.',
    'Lluvioso con invierno seco. Semifr gido.': 'Lluvioso con oto',
    'Semi)rido con invierno seco. Frro.': 'Semi)rido con invierno seco. Frro.',
    'Semiseco con otoì\x88¬o e invierno secos. Frâ¤ªo.': 'Semiseco con oto o e invierno secos. Frso.',
    'Lluvioso con invierno seco. Templado.': 'Lluvioso con oto',
    'Semi rido con invierno y primavera secos. Templado.': 'Semi)rido con invierno seco. Templado.',
    'Semiseco con oto o e invierno secos. Frso.': 'Semiseco con oto o e invierno secos. Frso.',
    'Erido con deficiencia de humedad en todas las estaciones del aeo. Celido.': 'Erido con deficiencia de humedad en todas las estaciones del aoo. Templado.',
    'Semi rido con invierno y primavera secos. Calido.': 'Semi)rido con invierno seco. Frro.',
    'Lluvioso con otoio e invierno secos. Semifrsgido.': 'Lluvioso con oto',
    'Lago Titicaca': 'Lluvioso con oto'  # Asignar una agrupación si es necesario
}

# Crear un diccionario para mapear las agrupaciones a los códigos
agrupacion_a_codigo = {
    'Erido con deficiencia de humedad en todas las estaciones del aoo. Templado.': 0,
    'Lluvioso con humedad abundante todas las estaciones del a': 1,
    'Lluvioso con oto': 2,
    'Muy lluvioso con humedad abundante todas las estaciones del aSo. Templado.': 3,
    'Semi)rido con invierno seco. Frro.': 4,
    'Semi)rido con invierno seco. Templado.': 5,
    'Semiseco con humedad abundante todas las estaciones del a': 6,
    'Semiseco con invierno seco. Frao.': 7,
    'Semiseco con invierno seco. Templado.': 8,
    'Semiseco con oto o e invierno secos. Frso.': 9
}


# Reemplazar Clasificacion_Climatica por la agrupación correspondiente
tabla_base['Clasificacion_Climatica'] = tabla_base['Clasificacion_Climatica'].map(clasificacion_a_agrupacion)

# Reemplazar la agrupación por su código correspondiente
tabla_base['Clasificacion_Climatica'] = tabla_base['Clasificacion_Climatica'].map(agrupacion_a_codigo)



In [75]:
from sklearn.preprocessing import MinMaxScaler

# Seleccionar columnas numéricas para escalar
numeric_columns = ['TEMP_MAX', 'TEMP_MIN', 'PRECIPITACION', 'NEVADA', 'EROSION_PROMEDIO']

# Crear un escalador y aplicar la normalización
scaler = MinMaxScaler()
tabla_base[numeric_columns] = scaler.fit_transform(tabla_base[numeric_columns])

# Verificar los datos escalados
print("\nDatos escalados (primeras filas):")
print(tabla_base[numeric_columns].head())



Datos escalados (primeras filas):
   TEMP_MAX  TEMP_MIN  PRECIPITACION  NEVADA  EROSION_PROMEDIO
0  0.709040  0.791465       0.179790     0.0          0.094282
1  0.868611  0.881023       0.074680     0.0          0.145316
2  0.702327  0.789237       0.100173     0.0          0.079702
3  0.845566  0.889646       0.080458     0.0          0.077242
4  0.737772  0.843402       0.435483     0.0          0.027194


In [77]:
tabla_base['Clasificacion_Climatica'].unique()

array([1, 6, 3, 2, 5, 8, 0, 9, 4, 7])

In [76]:
# Guardar la tabla preparada
output_prepared_path = "/content/DistrToVectorNormal.csv"
tabla_base.to_csv(output_prepared_path, index=False, encoding="latin1")

# Confirmar el guardado
print(f"Tabla preparada para el modelo guardada en: {output_prepared_path}")


Tabla preparada para el modelo guardada en: /content/DistrToVectorNormal.csv


In [None]:
# Leer el archivo de variedades (labels)
variedades_path = "/content/TABLA_GLOBAL/6variedades_distrital_mensual_anual.csv"
variedades_df = pd.read_csv(variedades_path, encoding="latin1")

# Explorar la estructura del archivo
print("Columnas disponibles en la tabla de variedades:")
print(variedades_df.columns)

# Verificar las primeras filas
print("\nPrimeras filas del archivo de variedades:")
print(variedades_df.head())

# Revisar si hay valores nulos
print("\nValores nulos por columna:")
print(variedades_df.isnull().sum())


Columnas disponibles en la tabla de variedades:
Index(['AÃO', 'MES', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO', 'PRODUCTO',
       'SIEMBRA', 'COSECHA', 'PRODUCCION', 'PRECIO_CHACRA'],
      dtype='object')

Primeras filas del archivo de variedades:
   AÃO  MES  DEPARTAMENTO PROVINCIA                DISTRITO      PRODUCTO  \
0  2015    8      AMAZONAS      LUYA  SAN FRANCISCO DEL YESO        Huayro   
1  2015    2      AMAZONAS      LUYA                   LAMUD  Canchan-INIA   
2  2015    2      AMAZONAS      LUYA                   LAMUD        Yungay   
3  2015    2      AMAZONAS      LUYA          SANTA CATALINA        Huayro   
4  2015    3  HUANCAVELICA  HUAYTARA         HUAYACUNDO ARMA  Canchan-INIA   

   SIEMBRA  COSECHA  PRODUCCION  PRECIO_CHACRA  
0      0.0      7.0       136.5           0.87  
1      3.0      0.0         0.0           0.00  
2      0.0      0.0         0.0           0.00  
3     10.0      0.0         0.0           0.00  
4      0.0      4.0        41.7      

In [None]:
# Leer el archivo de variedades
variedades_path = "/content/TABLA_GLOBAL/6variedades_distrital_mensual_anual.csv"
variedades_df = pd.read_csv(variedades_path, encoding="latin1")

# Renombrar columnas para que coincidan con la tabla base
variedades_df.rename(columns={
    'AÃ\x91O': 'AÑO',
    'DEPARTAMENTO': 'NOMBDEP',
    'PROVINCIA': 'NOMBPROV',
    'DISTRITO': 'NOMBDIST'
}, inplace=True)

# Verificar el resultado
print("Columnas después del renombrado:")
print(variedades_df.columns)


Columnas después del renombrado:
Index(['AÑO', 'MES', 'NOMBDEP', 'NOMBPROV', 'NOMBDIST', 'PRODUCTO', 'SIEMBRA',
       'COSECHA', 'PRODUCCION', 'PRECIO_CHACRA'],
      dtype='object')


In [None]:
# Crear diccionario para convertir entre números y nombres de meses
mes_mapping = {
    1: 'ENERO', 2: 'FEBRERO', 3: 'MARZO', 4: 'ABRIL',
    5: 'MAYO', 6: 'JUNIO', 7: 'JULIO', 8: 'AGOSTO',
    9: 'SEPTIEMBRE', 10: 'OCTUBRE', 11: 'NOVIEMBRE', 12: 'DICIEMBRE'
}

# Asegurar que ambas tablas tienen MES en el mismo formato
# Si `MES` en la tabla de variedades está como número, lo convertimos a nombres
if variedades_df['MES'].dtype == 'int64':
    variedades_df['MES'] = variedades_df['MES'].map(mes_mapping)

# Si `MES` en la tabla base está como número, lo convertimos a nombres
if tabla_base['MES'].dtype == 'int64':
    tabla_base['MES'] = tabla_base['MES'].map(mes_mapping)

# Unir las tablas después de alinear los formatos de MES
tabla_base = tabla_base.merge(variedades_df,
                              how='left',
                              on=['MES', 'NOMBDEP', 'NOMBPROV', 'NOMBDIST'])

# Verificar la tabla actualizada
print("Primeras filas después de la integración de variedades:")
print(tabla_base.head())


Primeras filas después de la integración de variedades:
    NOMBDEP NOMBPROV  NOMBDIST    MES   TEMP_MAX  \
0  AMAZONAS    BAGUA  ARAMANGO  ENERO  27.076085   
1  AMAZONAS    BAGUA     BAGUA  ENERO  30.873373   
2  AMAZONAS    BAGUA  COPALLIN  ENERO  26.916340   
3  AMAZONAS    BAGUA  EL PARCO  ENERO  30.324965   
4  AMAZONAS    BAGUA     IMAZA  ENERO  27.759810   

                             Clasificacion_Climatica  TIZON_PROMEDIO  \
0  Lluvioso con humedad abundante todas las estac...        0.000000   
1  Semiseco con humedad abundante todas las estac...       15.945946   
2  Semiseco con humedad abundante todas las estac...        2.335443   
3  Semiseco con humedad abundante todas las estac...        0.000000   
4  Lluvioso con humedad abundante todas las estac...        0.077615   

    TEMP_MIN  PRECIPITACION  UBIGEO  NEVADA  EROSION_PROMEDIO  AÑO PRODUCTO  \
0  16.459685     129.894485   10202     0.0         15.131108  NaN      NaN   
1  19.670997      55.416202   10201     

In [None]:
# Verificar valores nulos en la tabla consolidada
print("Valores nulos por columna:")
print(tabla_base.isnull().sum())

# Verificar tipos de datos y primeros valores
print("\nTipos de datos:")
print(tabla_base.dtypes)

# Mostrar un resumen estadístico de las columnas numéricas
print("\nResumen estadístico de las columnas numéricas:")
print(tabla_base.describe())


Valores nulos por columna:
NOMBDEP                        0
NOMBPROV                       0
NOMBDIST                       0
MES                            0
TEMP_MAX                       0
Clasificacion_Climatica        0
TIZON_PROMEDIO               204
TEMP_MIN                       0
PRECIPITACION                  0
UBIGEO                         0
NEVADA                         0
EROSION_PROMEDIO              24
AÑO                        21355
PRODUCTO                   21355
SIEMBRA                    21355
COSECHA                    21355
PRODUCCION                 21355
PRECIO_CHACRA              21355
dtype: int64

Tipos de datos:
NOMBDEP                     object
NOMBPROV                    object
NOMBDIST                    object
MES                         object
TEMP_MAX                   float64
Clasificacion_Climatica     object
TIZON_PROMEDIO             float64
TEMP_MIN                   float64
PRECIPITACION              float64
UBIGEO                       int64

In [None]:
# Eliminar filas donde no hay información en PRODUCTO o columnas relacionadas
columns_to_check = ['PRODUCTO', 'SIEMBRA', 'COSECHA', 'PRODUCCION', 'PRECIO_CHACRA']
tabla_base = tabla_base.dropna(subset=columns_to_check)

# Verificar la tabla después del filtro
print(f"Filas restantes después de eliminar las que no tienen labels: {len(tabla_base)}")
tabla_base


Filas restantes después de eliminar las que no tienen labels: 4239


Unnamed: 0,NOMBDEP,NOMBPROV,NOMBDIST,MES,TEMP_MAX,Clasificacion_Climatica,TIZON_PROMEDIO,TEMP_MIN,PRECIPITACION,UBIGEO,NEVADA,EROSION_PROMEDIO,AÑO,PRODUCTO,SIEMBRA,COSECHA,PRODUCCION,PRECIO_CHACRA
18,AMAZONAS,CHACHAPOYAS,ASUNCION,ENERO,19.908074,Lluvioso con humedad abundante todas las estac...,91.931034,9.561039,144.084149,10102,0.0,11.817168,2018.0,Amarilis-INIA,0.0,0.0,0.0,0.0
19,AMAZONAS,CHACHAPOYAS,ASUNCION,ENERO,19.908074,Lluvioso con humedad abundante todas las estac...,91.931034,9.561039,144.084149,10102,0.0,11.817168,2023.0,Amarilis-INIA,1.0,3.0,55.5,2.4
20,AMAZONAS,CHACHAPOYAS,ASUNCION,ENERO,19.908074,Lluvioso con humedad abundante todas las estac...,91.931034,9.561039,144.084149,10102,0.0,11.817168,2017.0,Yungay,0.0,0.0,0.0,0.0
21,AMAZONAS,CHACHAPOYAS,ASUNCION,ENERO,19.908074,Lluvioso con humedad abundante todas las estac...,91.931034,9.561039,144.084149,10102,0.0,11.817168,2022.0,Huayro,0.0,5.0,86.0,1.5
22,AMAZONAS,CHACHAPOYAS,ASUNCION,ENERO,19.908074,Lluvioso con humedad abundante todas las estac...,91.931034,9.561039,144.084149,10102,0.0,11.817168,2022.0,Amarilis-INIA,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25144,LIMA,YAUYOS,CHOCOS,DICIEMBRE,19.965858,Erido con deficiencia de humedad en todas las ...,52.882313,10.898490,16.427087,151009,3.5,24.870271,2022.0,Canchan-INIA,0.0,0.0,0.0,0.0
25154,LIMA,YAUYOS,LINCHA,DICIEMBRE,13.779136,Lluvioso con oto,92.800546,2.581347,73.315156,151019,3.5,67.868030,2020.0,Canchan-INIA,0.0,0.0,0.0,0.0
25155,LIMA,YAUYOS,MADEAN,DICIEMBRE,14.234178,Semiseco con invierno seco. Frao.,91.245155,3.617250,45.703579,151020,3.5,37.478718,2021.0,Canchan-INIA,0.0,0.0,0.0,0.0
25166,LIMA,YAUYOS,TUPE,DICIEMBRE,14.140949,Lluvioso con oto,84.858539,3.322246,71.701025,151031,0.0,67.410028,2020.0,Yungay,0.0,0.0,0.0,0.0


In [None]:
# Codificar la columna PRODUCTO
tabla_base['PRODUCTO_CODE'] = tabla_base['PRODUCTO'].astype('category').cat.codes

# Codificar Clasificacion_Climatica
tabla_base['CLIMA_CODE'] = tabla_base['Clasificacion_Climatica'].astype('category').cat.codes

# Verificar las nuevas columnas codificadas
print("Primeras filas con códigos:")
print(tabla_base[['PRODUCTO', 'PRODUCTO_CODE', 'Clasificacion_Climatica', 'CLIMA_CODE']].head())


Primeras filas con códigos:
         PRODUCTO  PRODUCTO_CODE  \
18  Amarilis-INIA              0   
19  Amarilis-INIA              0   
20         Yungay              5   
21         Huayro              2   
22  Amarilis-INIA              0   

                              Clasificacion_Climatica  CLIMA_CODE  
18  Lluvioso con humedad abundante todas las estac...           1  
19  Lluvioso con humedad abundante todas las estac...           1  
20  Lluvioso con humedad abundante todas las estac...           1  
21  Lluvioso con humedad abundante todas las estac...           1  
22  Lluvioso con humedad abundante todas las estac...           1  


In [None]:
from sklearn.preprocessing import MinMaxScaler

# Seleccionar columnas numéricas para escalar
numeric_columns = ['TEMP_MAX', 'TEMP_MIN', 'PRECIPITACION', 'NEVADA', 'EROSION_PROMEDIO',
                   'SIEMBRA', 'COSECHA', 'PRODUCCION', 'PRECIO_CHACRA']

# Crear un escalador y aplicar la normalización
scaler = MinMaxScaler()
tabla_base[numeric_columns] = scaler.fit_transform(tabla_base[numeric_columns])

# Verificar los datos escalados
print("\nDatos escalados (primeras filas):")
print(tabla_base[numeric_columns].head())



Datos escalados (primeras filas):
    TEMP_MAX  TEMP_MIN  PRECIPITACION  NEVADA  EROSION_PROMEDIO   SIEMBRA  \
18  0.453846  0.554848        0.46179     0.0          0.083869  0.000000   
19  0.453846  0.554848        0.46179     0.0          0.083869  0.003546   
20  0.453846  0.554848        0.46179     0.0          0.083869  0.000000   
21  0.453846  0.554848        0.46179     0.0          0.083869  0.000000   
22  0.453846  0.554848        0.46179     0.0          0.083869  0.000000   

     COSECHA  PRODUCCION  PRECIO_CHACRA  
18  0.000000    0.000000       0.000000  
19  0.010526    0.012982       0.685714  
20  0.000000    0.000000       0.000000  
21  0.017544    0.020117       0.428571  
22  0.000000    0.000000       0.000000  


In [None]:
# Guardar la tabla preparada
output_prepared_path = "/content/tabla_preparada_modelo.csv"
tabla_base.to_csv(output_prepared_path, index=False, encoding="latin1")

# Confirmar el guardado
print(f"Tabla preparada para el modelo guardada en: {output_prepared_path}")


Tabla preparada para el modelo guardada en: /content/tabla_preparada_modelo.csv


In [None]:
tabla_base["PRODUCTO_CODE"].unique()

array([0, 5, 2, 1, 3, 4], dtype=int8)