# Pretratamiento de Datos de Uso de Suelo y Vegetación para entrenamiento

In [None]:
import pandas as pd

# Cargar el archivo Excel y leer la hoja "Sitio"
file_path = '/content/drive/MyDrive/TesisDRB2024/Archivos/INFyS_2015_2020_Mexico_yg9FYY9.xlsx'
sheet_name = 'Sitio'  # Nombre de la hoja a cargar

# Intentar leer la hoja especificada
try:
    data = pd.read_excel(file_path, sheet_name=sheet_name)
    # Mostrar las primeras filas del DataFrame para verificación
    preview = data.head()
except Exception as e:
    preview = str(e)

preview

Unnamed: 0,UPMID,IDConglomerado,Estado_C3,TipoUPM_C3,FechaInicio_C3,Anio_C3,X_C3,Y_C3,CVE_S7_C3,DESCRIP_S7_C3,...,conVegMayorIndividual_C3,conVegMayorGregarios_C3,conCobertura_1m2_C3,conVegMenorZonaArida_C3,conRegeneracionOtrasFormasVida_C3,ConFotografiaHemisferica_C3,ConParametrosFisicoQuimicos_C3,ConSotobosque_C3,ConSubmuestra_C3,ConArboladoManglar_C3
0,53114,64658,México,Inicial,NaT,2015,-99.678694,18.725972,VSa/SBC,VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...,...,0,0,1,0,0,0,0,1,0,0
1,53114,64658,México,Inicial,NaT,2015,-99.678333,18.725278,VSa/SBC,VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...,...,0,0,0,0,0,0,0,0,0,0
2,53114,64658,México,Inicial,NaT,2015,-99.678361,18.725778,VSa/SBC,VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...,...,0,0,1,0,0,0,0,1,0,0
3,53114,64658,México,Inicial,NaT,2015,-99.679111,18.725833,VSa/SBC,VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...,...,0,0,1,0,0,0,0,1,0,0
4,50810,65194,México,Remplazo,2017-02-04,2016,-100.487167,18.646056,VSA/BQ,VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE ENCINO,...,0,0,1,0,0,1,0,1,0,0


In [None]:
# Crear un subset con las columnas deseadas
sitios_infys = data[['UPMID',"Anio_C3", 'X_C3', 'Y_C3', 'DESCRIP_S7_C3']]
print(sitios_infys.head())

   UPMID  Anio_C3        X_C3       Y_C3  \
0  53114     2015  -99.678694  18.725972   
1  53114     2015  -99.678333  18.725278   
2  53114     2015  -99.678361  18.725778   
3  53114     2015  -99.679111  18.725833   
4  50810     2016 -100.487167  18.646056   

                                       DESCRIP_S7_C3  
0  VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...  
1  VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...  
2  VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...  
3  VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA ...  
4  VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE ENCINO  


In [None]:
# Contar los valores únicos en la columna "Anio_C3"
conteo_anios = sitios_infys['Anio_C3'].value_counts()
# Imprimir el resultado
print(conteo_anios)


Anio_C3
2016    192
2015    176
2018    116
2019    112
Name: count, dtype: int64


In [None]:

# Filtrar el DataFrame para incluir solo los años 2017 y 2018, asumiremos que los sitios permanecieron estables durante este periodo de 2 años

sitios_2018_2019 = sitios_infys[sitios_infys['Anio_C3'].isin([2018, 2019])]
# Guardar el subset en un archivo CSV en Google Drive

In [None]:
# Obtener los valores únicos de la columna 'DESCRIP_S7_C3'
valores_unicos_descrip = sitios_2018_2019['DESCRIP_S7_C3'].unique()

# Imprimir los valores únicos
print(valores_unicos_descrip)

['BOSQUE DE ENCINO-PINO'
 'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE ENCINO'
 'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE ENCINO' 'PASTIZAL INDUCIDO'
 'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE PINO-ENCINO'
 'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE PINO'
 'BOSQUE MESÓFILO DE MONTAÑA' 'BOSQUE DE OYAMEL' 'BOSQUE DE ENCINO'
 'VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA CADUCIFOLIA'
 'BOSQUE DE PINO-ENCINO' 'SELVA BAJA CADUCIFOLIA'
 'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE TÁSCATE'
 'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE PINO' 'BOSQUE DE PINO'
 'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE ENCINO-PINO'
 'BOSQUE CULTIVADO'
 'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE PINO-ENCINO'
 'AGRICULTURA DE TEMPORAL ANUAL']


In [None]:
# Diccionario de recodificación
recodificacion = {
    'BOSQUE DE PINO-ENCINO': 'BOSQUE DE ASOCIACIÓN PINO-ENCINO',
    'BOSQUE DE ENCINO-PINO': 'BOSQUE DE ASOCIACIÓN PINO-ENCINO',
    'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE PINO-ENCINO': 'VEGETACIÓN SECUNDARIA ARBUSTIVA',
    'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE ENCINO-PINO': 'VEGETACIÓN SECUNDARIA ARBUSTIVA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE ENCINO-PINO': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE PINO-ENCINO': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE TÁSCATE': 'VEGETACIÓN SECUNDARIA ARBUSTIVA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE TÁSCATE': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'VEGETACIÓN SECUNDARIA ARBUSTIVA DE SELVA BAJA CADUCIFOLIA': 'VEGETACIÓN SECUNDARIA ARBUSTIVA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE SELVA BAJA CADUCIFOLIA': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'BOSQUE DE ENCINO': 'BOSQUE DE ENCINO',
    'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE ENCINO': 'VEGETACIÓN SECUNDARIA ARBUSTIVA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE ENCINO': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'BOSQUE DE PINO': 'BOSQUE DE PINO',
    'VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE PINO': 'VEGETACIÓN SECUNDARIA ARBUSTIVA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE PINO': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'BOSQUE DE OYAMEL': 'BOSQUE DE OYAMEL',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE BOSQUE DE OYAMEL': 'BOSQUE DE OYAMEL',
    'BOSQUE MESÓFILO DE MONTAÑA': 'BOSQUE MESÓFILO DE MONTAÑA',
    'BOSQUE DE CEDRO': 'BOSQUE DE CEDRO',
    'BOSQUE CULTIVADO': 'BOSQUE CULTIVADO',
    'SELVA BAJA CADUCIFOLIA': 'SELVA BAJA CADUCIFOLIA',
    'VEGETACIÓN SECUNDARIA ARBÓREA DE SELVA BAJA CADUCIFOLIA': 'VEGETACIÓN SECUNDARIA ARBÓREA',
    'AGRICULTURA DE TEMPORAL ANUAL': 'AGRICULTURA',
    'AGRICULTURA DE RIEGO ANUAL Y SEMIPERMANENTE': 'AGRICULTURA',
    'PASTIZAL INDUCIDO': 'PASTIZAL INDUCIDO'
}


# Crear una nueva columna con las categorías recodificadas
sitios_2018_2019['USV_N'] = sitios_2018_2019['DESCRIP_S7_C3'].replace(recodificacion)

# Verificar los cambios realizados mostrando las categorías únicas en la nueva columna
print(sitios_2018_2019['USV_N'].unique())

['BOSQUE DE ASOCIACIÓN PINO-ENCINO' 'VEGETACIÓN SECUNDARIA ARBUSTIVA'
 'VEGETACIÓN SECUNDARIA ARBÓREA' 'PASTIZAL INDUCIDO'
 'BOSQUE MESÓFILO DE MONTAÑA' 'BOSQUE DE OYAMEL' 'BOSQUE DE ENCINO'
 'SELVA BAJA CADUCIFOLIA' 'BOSQUE DE PINO' 'BOSQUE CULTIVADO'
 'AGRICULTURA']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sitios_2018_2019['USV_N'] = sitios_2018_2019['DESCRIP_S7_C3'].replace(recodificacion)


In [None]:
print(sitios_2018_2019.head())

    UPMID  Anio_C3        X_C3       Y_C3  \
8   50822     2018 -100.202167  18.643028   
9   50822     2018 -100.201917  18.642472   
10  50822     2018 -100.202639  18.642444   
11  50822     2018 -100.202250  18.642611   
16  54188     2018 -100.058083  18.776500   

                                        DESCRIP_S7_C3  \
8                               BOSQUE DE ENCINO-PINO   
9                               BOSQUE DE ENCINO-PINO   
10                              BOSQUE DE ENCINO-PINO   
11                              BOSQUE DE ENCINO-PINO   
16  VEGETACIÓN SECUNDARIA ARBUSTIVA DE BOSQUE DE E...   

                               USV_N  
8   BOSQUE DE ASOCIACIÓN PINO-ENCINO  
9   BOSQUE DE ASOCIACIÓN PINO-ENCINO  
10  BOSQUE DE ASOCIACIÓN PINO-ENCINO  
11  BOSQUE DE ASOCIACIÓN PINO-ENCINO  
16   VEGETACIÓN SECUNDARIA ARBUSTIVA  


In [None]:
output_file_path = '/content/drive/MyDrive/TesisDRB2024/Archivos/sitios_2018_2019.csv'
sitios_2018_2019.to_csv(output_file_path, index=False)

print("Archivo guardado en:", output_file_path)

Archivo guardado en: /content/drive/MyDrive/TesisDRB2024/Archivos/sitios_2018_2019.csv


In [None]:
# Contar cuántos valores hay en cada categoría de la nueva columna 'USV_N'
conteo_categorias = sitios_2018_2019['USV_N'].value_counts()

# Imprimir el conteo de cada categoría
print(conteo_categorias)


USV_N
BOSQUE DE ASOCIACIÓN PINO-ENCINO    64
VEGETACIÓN SECUNDARIA ARBUSTIVA     60
PASTIZAL INDUCIDO                   24
BOSQUE DE OYAMEL                    20
VEGETACIÓN SECUNDARIA ARBÓREA       16
BOSQUE DE PINO                      16
BOSQUE MESÓFILO DE MONTAÑA           8
BOSQUE DE ENCINO                     8
SELVA BAJA CADUCIFOLIA               4
BOSQUE CULTIVADO                     4
AGRICULTURA                          4
Name: count, dtype: int64


Algunas de las categorías tienen muy pocos sitios de muestreo lo que implica (en general) un menor poder predictivo para las mismas. Por cuestiones académicas continuaremos con el análisis, sin embargo es bueno mencionar que esto impacta fuertemente al modelo, adicionalmente, tenemos fuera algunas categorías como "Cuerpos de agua" o "Urbanización"

In [None]:
import geemap
import ee

In [None]:
ee.Authenticate()

In [None]:
ee.Initialize(project="edu-irnr")

In [None]:
#Crear nuevos puntos de entrenamiento para complementar los puntos obtenidos a través del INFyS

geemap.show_youtube("https://youtu.be/VWh5PxXPZw0")

In [None]:
# Cargar el dataset de WorldCover
worldcover = ee.ImageCollection('ESA/WorldCover/v100').first()

# Cargar las divisiones políticas de GAUL (Administrative Units)
gaul = ee.FeatureCollection("FAO/GAUL/2015/level1")

# Filtrar para obtener solo el estado de México
estado_mexico = gaul.filter(ee.Filter.eq('ADM1_NAME', 'Mexico'))

# Recortar el dataset de WorldCover con el área del estado de México
worldcover_mexico = worldcover.clip(estado_mexico)

# Configuración de visualización para el mapa
visualization = {
    'bands': ['Map'],
}

# Crear un mapa
m = geemap.Map()
m.centerObject(estado_mexico, 8)
m.add_basemap("SATELLITE")
m.addLayer(worldcover_mexico, visualization, 'WorldCover Estado de México')
# Mostrar el mapa
m


Map(center=[19.33896516729066, -99.6280566543368], controls=(WidgetControl(options=['position', 'transparent_b…

In [None]:
rois = m.user_rois.getInfo()
rois

{'type': 'FeatureCollection',
 'columns': {'USV': 'Integer',
  'color': 'String',
  'etiqueta': 'String',
  'system:index': 'String'},
 'features': [{'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [-98.88466, 19.51615]},
   'id': '0',
   'properties': {'USV': 2, 'color': '#f01414', 'etiqueta': 'Urbano'}},
  {'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [-98.87758, 19.514917]},
   'id': '1',
   'properties': {'USV': 2, 'color': '#f01414', 'etiqueta': 'Urbano'}},
  {'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [-98.876057, 19.516939]},
   'id': '2',
   'properties': {'USV': 2, 'color': '#f01414', 'etiqueta': 'Urbano'}},
  {'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [-98.883544, 19.509415]},
   'id': '3',
   'properties': {'USV': 2, 'color': '#f01414', 'etiqueta': 'Urbano'}},
  {'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [-98.888908, 19.51431]},
   'id': '4',
   'properties': {'

In [None]:
geemap.ee_to_shp(rois, "AGUA.shp")

ee_object must be an ee.FeatureCollection


In [None]:
geemap.ee_to_shp(rois, "URBANO.shp")