"""
**2. Preparar el entorno y cargar el dataset

Este notebook carga y preprocesa el dataset de covertype para realizar la selección de características y preparar el ambiente de desarrollo.
"""

In [1]:
# Importar librerías necesarias
import os
import requests
import pandas as pd
from pathlib import Path

# Importar librerías para preprocesamiento y selección de características
from dataclasses import dataclass
from typing import List
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_classif

"""
## 2.2 Cargar y explorar el dataset
"""

Se define el directorio donde se guardarán los datos y se descarga el dataset si aún no existe.
"""

In [2]:
# Define el directorio donde se guardarán los datos y la ruta del archivo CSV
_data_root = Path("./data/covertype")
_data_root.mkdir(parents=True, exist_ok=True)
_data_filepath = _data_root / "covertype_train.csv"

In [3]:
# Descargar el dataset si no existe, se descarga desde la URL
if not _data_filepath.is_file():
    #https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/
    url = "https://docs.google.com/uc?export=download&id=1lVF1BCWLH4eXXV_YOJzjR7xZjj-wAGj9"  
    r = requests.get(url, allow_redirects=True, stream=True)
    with open(_data_filepath, 'wb') as f:
        f.write(r.content)
    print("Dataset descargado.")
else:
    print("El dataset ya existe.")

El dataset ya existe.


In [4]:
# Cargar el dataset en un DataFrame
df = pd.read_csv(_data_filepath)
print("Dimensiones del dataset:", df.shape)
# Mostrar las primeras 5 filas
df.head()

Dimensiones del dataset: (116203, 13)


Unnamed: 0,Elevation,Aspect,Slope,Horizontal_Distance_To_Hydrology,Vertical_Distance_To_Hydrology,Horizontal_Distance_To_Roadways,Hillshade_9am,Hillshade_Noon,Hillshade_3pm,Horizontal_Distance_To_Fire_Points,Wilderness_Area,Soil_Type,Cover_Type
0,2991,119,7,67,11,1015,233,234,133,1570,Commanche,C7202,1
1,2876,3,18,485,71,2495,192,202,144,1557,Commanche,C7757,1
2,3171,315,2,277,9,4374,213,237,162,1052,Rawah,C7745,0
3,3087,342,13,190,31,4774,193,221,166,752,Rawah,C7745,0
4,2835,158,10,212,41,3596,231,242,141,3280,Rawah,C4744,1


In [5]:
# Mostrar información general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 116203 entries, 0 to 116202
Data columns (total 13 columns):
 #   Column                              Non-Null Count   Dtype 
---  ------                              --------------   ----- 
 0   Elevation                           116203 non-null  int64 
 1   Aspect                              116203 non-null  int64 
 2   Slope                               116203 non-null  int64 
 3   Horizontal_Distance_To_Hydrology    116203 non-null  int64 
 4   Vertical_Distance_To_Hydrology      116203 non-null  int64 
 5   Horizontal_Distance_To_Roadways     116203 non-null  int64 
 6   Hillshade_9am                       116203 non-null  int64 
 7   Hillshade_Noon                      116203 non-null  int64 
 8   Hillshade_3pm                       116203 non-null  int64 
 9   Horizontal_Distance_To_Fire_Points  116203 non-null  int64 
 10  Wilderness_Area                     116203 non-null  object
 11  Soil_Type                           116

# 3. Selección de características

Se utilizará un dataclass para almacenar la configuración de los datos, se eliminarán las columnas no numéricas,
se realizará la selección de las mejores características, y se guardará el DataFrame preprocesado.
"""

In [6]:
# Definir la configuración de los datos usando un dataclass
@dataclass
class DataConfig:
    target_col: str
    non_numeric_cols: List[str]
    final_df_path: Path
    
# Definir data_root_prepro y crear el directorio si es necesario
data_root_prepro = Path("./data_prepro")
data_root_prepro.mkdir(parents=True, exist_ok=True)
    
# Crear la instancia de configuración con los valores deseados
config = DataConfig(
    target_col="Cover_Type",
    non_numeric_cols=list(df.select_dtypes(include=['object']).columns),
    final_df_path= data_root_prepro / "covertype_preprocessed.csv"
)

"""
## 3.1 Selección de las mejores características

Se elimina las columnas no numéricas, se separan las características (X) y la etiqueta (y),
se utiliza StandardScaler para normalizar los datos y SelectKBest con la función de puntuación f_classif para
seleccionar las 8 mejores características.
"""

La ejecución de la siguiente celda se omite mediante el comando %%script false --no-raise-error, ya que contiene la normalización de lso datos, un proceso que ya se realizó previamente según lo indicado en el documento.

**"Recuerde que primero debe preparar las características de entrada y de destino:"

Sin embargo, más adelante en el documento se asume que los datos conservan sus valores originales, por lo que la normalización se aplica posteriormente utilizando las herramientas de TFX.

In [7]:
# %% [code] tags=[]
# Eliminar las columnas no numéricas
df_1 = df.drop(columns=config.non_numeric_cols)

# Separar las características y la etiqueta
X = df_1.drop(columns=[config.target_col])
y = df_1[config.target_col].astype('category')

# Normalizar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# Convertir de nuevo a DataFrame, manteniendo los nombres originales
X_scaled = pd.DataFrame(X_scaled, columns=X.columns)

# Seleccionar las 8 mejores características usando f_classif
selector = SelectKBest(score_func=f_classif, k=8)
selector.fit(X, y)

# Crear un DataFrame que muestre qué columnas se retuvieron
selected_columns_df = pd.DataFrame({
    'Column': X.columns,
    'Retain': selector.get_support()
})
selected_columns_df

Unnamed: 0,Column,Retain
0,Elevation,True
1,Aspect,False
2,Slope,True
3,Horizontal_Distance_To_Hydrology,True
4,Vertical_Distance_To_Hydrology,True
5,Horizontal_Distance_To_Roadways,True
6,Hillshade_9am,True
7,Hillshade_Noon,True
8,Hillshade_3pm,False
9,Horizontal_Distance_To_Fire_Points,True


In [8]:
# %% [code] tags=[]
# Seleccionar las mejores características y agregar la etiqueta de vuelta
X_selected = X.loc[:, selector.get_support()]
final_df = X_selected.copy()
final_df[config.target_col] = y.values

# Guardar el DataFrame preprocesado
final_df.to_csv(config.final_df_path, index=False)
print("DataFrame preprocesado guardado en:", config.final_df_path)

DataFrame preprocesado guardado en: data_prepro/covertype_preprocessed.csv


In [9]:
final_df.head()

Unnamed: 0,Elevation,Slope,Horizontal_Distance_To_Hydrology,Vertical_Distance_To_Hydrology,Horizontal_Distance_To_Roadways,Hillshade_9am,Hillshade_Noon,Horizontal_Distance_To_Fire_Points,Cover_Type
0,2991,7,67,11,1015,233,234,1570,1
1,2876,18,485,71,2495,192,202,1557,1
2,3171,2,277,9,4374,213,237,1052,0
3,3087,13,190,31,4774,193,221,752,0
4,2835,10,212,41,3596,231,242,3280,1


Nota: Se debe tener cargado el dataset (final_df) en memoria, pues posteriormente se debe hacer una división para algunas pruebas.

"""
# 4. Data Pipeline (Ejemplo con TFX)

A continuación se muestra un ejemplo básico de cómo configurar el contexto interactivo de TFX y generar ejemplos
usando CsvExampleGen. (Asegúrate de tener instaladas las dependencias de TFX.)
"""

**4.1 Configurar el contexto interactivo

In [10]:
# Instala TFX
!pip install tfx

import os
from tfx.orchestration.experimental.interactive.interactive_context import InteractiveContext

# Define la raíz del pipeline
pipeline_root = os.path.join(os.getcwd(), "tfx_pipeline_output")

# Crea el contexto interactivo
context = InteractiveContext(pipeline_root=str(pipeline_root))

# Verifica el directorio
print("Pipeline root:", pipeline_root)

[0m

2025-03-03 04:09:26.289378: I external/local_tsl/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-03-03 04:09:26.297004: I external/local_tsl/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-03-03 04:09:26.318341: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:479] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2025-03-03 04:09:26.356795: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:10575] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2025-03-03 04:09:26.356866: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1442] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-03-03 04:09:26.383981: I tensorflow/core/platform/cpu_feature_guard.cc:

Pipeline root: /home/jovyan/work/tfx_pipeline_output


**Generando ejemplos

In [13]:
from tfx.components import CsvExampleGen
from tfx.proto import example_gen_pb2

# 2) Define la carpeta donde se encuentra tu CSV.
data_root_prepro = os.path.join(os.getcwd(), "data_prepro")
print("Archivos en data_prepro:", os.listdir(data_root_prepro))

# 3) Configura el input_config para que solo se procese 'covertype_preprocessed.csv'
input_config = example_gen_pb2.Input(
    splits=[
        example_gen_pb2.Input.Split(
            name='train',       # Nombre del split (puedes ajustarlo si lo deseas)
            pattern='covertype_preprocessed.csv'  # Solo este archivo
        )
    ]
)

# 4) Instancia CsvExampleGen usando el input_config definido
example_gen = CsvExampleGen(
    input_base=data_root_prepro,
    input_config=input_config
)

# 5) Ejecuta el componente en el contexto interactivo
context.run(example_gen)

print("CsvExampleGen ejecutado correctamente")


Archivos en data_prepro: ['covertype_preprocessed.csv']
CsvExampleGen ejecutado correctamente


**4.3 Estadísticas

In [14]:
# Obtener el objeto de ejemplo (Artifact)
artifact = example_gen.outputs['examples'].get()[0]

# Imprimir información del artifact
print(f'split names: {artifact.split_names}')
print(f'artifact uri: {artifact.uri}')

# Instanciar el componente StatisticsGen
from tfx.components import StatisticsGen
statistics_gen = StatisticsGen(examples=example_gen.outputs['examples'])

#Ejecutar el componente en el contexto interactivo
context.run(statistics_gen)
print("StatisticsGen ejecutado correctamente")

split names: ["train", "eval"]
artifact uri: /home/jovyan/work/tfx_pipeline_output/CsvExampleGen/examples/9
StatisticsGen ejecutado correctamente


In [15]:
#Mostrar la salida de estadísticas
context.show(statistics_gen.outputs['statistics'])

Despues de revisar lo anterior se puede observar como dice el documento del proyecto que la columna ceros para Cover type está resaltada en rojo. 


**4.4 Inferir el esquema (SchemaGen)

A partir de las estadísticas calculadas, SchemaGen infiere un esquema que describe las características de tus datos (tipos, rangos, valores esperados, etc.).

In [15]:
from tfx.components import SchemaGen

# Instanciar SchemaGen utilizando las estadísticas generadas
schema_gen = SchemaGen(statistics=statistics_gen.outputs['statistics'],)

# Ejecutar el componente en el contexto interactivo
context.run(schema_gen)

print("SchemaGen ejecutado correctamente")

SchemaGen ejecutado correctamente


In [16]:
# Visualizar el Schema
context.show(schema_gen.outputs['schema'])

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Cover_Type',INT,required,,-
'Elevation',INT,required,,-
'Hillshade_9am',INT,required,,-
'Hillshade_Noon',INT,required,,-
'Horizontal_Distance_To_Fire_Points',INT,required,,-
'Horizontal_Distance_To_Hydrology',INT,required,,-
'Horizontal_Distance_To_Roadways',INT,required,,-
'Slope',INT,required,,-
'Vertical_Distance_To_Hydrology',INT,required,,-


** 4.5 Curando el esquema

En este paso se revisa y, si es necesario, se ajusta (curar) el esquema inferido. Esto puede implicar:

Establecer rangos de valores para ciertas columnas (por ejemplo, Hillshade entre 0 y 255, Slope entre 0 y 90, etc.).
Declarar que la columna de la etiqueta (Cover Type) es categórica.
Este proceso se puede hacer manualmente editando el archivo de esquema (por ejemplo, un archivo YAML o JSON generado por SchemaGen) o programáticamente usando las utilidades de TensorFlow Data Validation (TFDV).

In [17]:
import tensorflow_data_validation as tfdv
from tensorflow_metadata.proto.v0 import schema_pb2

# 1. Cargar el esquema inferido
# Se obtiene el esquema inferido desde el artifact generado por SchemaGen bajo el nombre "schema.pbtxt"
schema_path = schema_gen.outputs['schema'].get()[0].uri + "/schema.pbtxt"
# 2.Cargar el esquema desde el archivo (en formato texto Protobuf)
schema = tfdv.load_schema_text(schema_path)
print("Tipo de esquema:", type(schema))

Tipo de esquema: <class 'tensorflow_metadata.proto.v0.schema_pb2.Schema'>


In [18]:
# 3.Curar el esquema: establecer rangos esperados
# Establecer rango para 'Hillshade_9am' (0 a 255)
tfdv.set_domain(schema, 'Hillshade_9am', schema_pb2.IntDomain(min=0, max=255))
# Establecer rango para 'Hillshade_Noon' (0 a 255)
tfdv.set_domain(schema, 'Hillshade_Noon', schema_pb2.IntDomain(min=0, max=255))
# Establecer rango para 'Slope' (0 a 90)
tfdv.set_domain(schema, 'Slope', schema_pb2.IntDomain(min=0, max=90))
# Para 'Cover_Type': dado que en el preprocesamiento se restó 1 y se trata como etiqueta,
# se define un dominio de tipo string con los valores de '0' a '6'
tfdv.set_domain(schema, 'Cover_Type', schema_pb2.StringDomain(value=['0', '1', '2', '3', '4', '5', '6']))

A continuación se actualiza el esquema en memoria,además escribe esos cambios en el archivo del esquema y vuelve a cargarlo en el artifact, garantizando que el pipeline utilizará el esquema curado.

In [20]:
schema.feature[0].type = schema_pb2.FeatureType.BYTES

In [24]:
schema

feature {
  name: "Cover_Type"
  type: BYTES
  string_domain {
    value: "0"
    value: "1"
    value: "2"
    value: "3"
    value: "4"
    value: "5"
    value: "6"
  }
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Elevation"
  type: INT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Hillshade_9am"
  type: INT
  int_domain {
    min: 0
    max: 255
  }
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Hillshade_Noon"
  type: INT
  int_domain {
    min: 0
    max: 255
  }
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Horizontal_Distance_To_Fire_Points"
  type: INT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Horizontal_

In [25]:
# 4. Mostrar el esquema actualizado en memoria
print("\nEsquema actualizado (en memoria):")
tfdv.display_schema(schema)


Esquema actualizado (en memoria):


Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Cover_Type',STRING,required,,'Cover_Type_domain'
'Elevation',INT,required,,-
'Hillshade_9am',INT,required,,min: 0; max: 255
'Hillshade_Noon',INT,required,,min: 0; max: 255
'Horizontal_Distance_To_Fire_Points',INT,required,,-
'Horizontal_Distance_To_Hydrology',INT,required,,-
'Horizontal_Distance_To_Roadways',INT,required,,-
'Slope',INT,required,,min: 0; max: 90
'Vertical_Distance_To_Hydrology',INT,required,,-


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'Cover_Type_domain',"'0', '1', '2', '3', '4', '5', '6'"


In [27]:
# 5. Mostrar el esquema original (tal como está almacenado en el artifact) para comparar
print("\nEsquema original inferido (antes de sobrescribir):")
context.show(schema_gen.outputs['schema'])


Esquema original inferido (antes de sobrescribir):


Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Cover_Type',INT,required,,-
'Elevation',INT,required,,-
'Hillshade_9am',INT,required,,-
'Hillshade_Noon',INT,required,,-
'Horizontal_Distance_To_Fire_Points',INT,required,,-
'Horizontal_Distance_To_Hydrology',INT,required,,-
'Horizontal_Distance_To_Roadways',INT,required,,-
'Slope',INT,required,,-
'Vertical_Distance_To_Hydrology',INT,required,,-


In [29]:
# 6. Sobrescribir el archivo de esquema con el esquema curado para que los cambios sean persistentes
tfdv.write_schema_text(schema, schema_path)
print("\nEsquema actualizado guardado en:", schema_path)


Esquema actualizado guardado en: /home/jovyan/work/tfx_pipeline_output/SchemaGen/schema/13/schema.pbtxt


In [38]:
# 7. Verificar que el artifact ahora refleje el esquema actualizado
print("\nEsquema en el artifact después de la actualización:")
context.show(schema_gen.outputs['schema'])


Esquema en el artifact después de la actualización:


Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Cover_Type',STRING,required,,'Cover_Type_domain'
'Elevation',INT,required,,-
'Hillshade_9am',INT,required,,min: 0; max: 255
'Hillshade_Noon',INT,required,,min: 0; max: 255
'Horizontal_Distance_To_Fire_Points',INT,required,,-
'Horizontal_Distance_To_Hydrology',INT,required,,-
'Horizontal_Distance_To_Roadways',INT,required,,-
'Slope',INT,required,,min: 0; max: 90
'Vertical_Distance_To_Hydrology',INT,required,,-


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'Cover_Type_domain',"'0', '1', '2', '3', '4', '5', '6'"


**4.6 Entornos de esquema

In [41]:
from sklearn.model_selection import train_test_split

# Definir rutas y variables
data_root = Path("./data")
serving_csv_path = data_root / "serving_data.csv"
schema_path = Path("./tfx_pipeline_output/SchemaGen/schema/13/schema.pbtxt")

# 1. Generar el CSV de SERVICIO (simula datos de inferencia sin etiqueta)
def generate_serving_csv(df: pd.DataFrame, path: Path, target: str) -> str:
    # Dividir: 70% entrena, 30% de los datos para SERVICIO.
    _, serving_df = train_test_split(df, test_size=0.3, random_state=42)
    # Eliminar la columna de la etiqueta para simular datos de inferencia
    serving_df = serving_df.drop(columns=[target])
    # Guardar el DataFrame en CSV
    serving_df.to_csv(path, index=False)
    return str(path)

# Generar el archivo CSV de datos de servicio
serving_data = generate_serving_csv(final_df, serving_csv_path, target="Cover_Type")
print("CSV de datos de SERVICIO generado en:", serving_data)

CSV de datos de SERVICIO generado en: data/serving_data.csv


In [42]:
import tensorflow_data_validation as tfdv

# 2. Cargar el esquema curado (ya inferido y modificado en pasos anteriores)
schema = tfdv.load_schema_text(str(schema_path))

# 3. Configurar los entornos en el esquema (4.6)
# Se agregan los entornos TRAINING y SERVING para diferenciar datos de entrenamiento de datos de inferencia.
if 'TRAINING' not in schema.default_environment:
    schema.default_environment.append('TRAINING')
if 'SERVING' not in schema.default_environment:
    schema.default_environment.append('SERVING')

# Indicar que 'Cover_Type' (la etiqueta) NO se espera en SERVING.
tfdv.get_feature(schema, 'Cover_Type').not_in_environment.append('SERVING')

# Guardar el esquema actualizado para que los cambios sean persistentes.
tfdv.write_schema_text(schema, str(schema_path))
print("Esquema actualizado y guardado en:", schema_path)
tfdv.display_schema(schema)

Esquema actualizado y guardado en: tfx_pipeline_output/SchemaGen/schema/13/schema.pbtxt


Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Cover_Type',STRING,required,,'Cover_Type_domain'
'Elevation',INT,required,,-
'Hillshade_9am',INT,required,,min: 0; max: 255
'Hillshade_Noon',INT,required,,min: 0; max: 255
'Horizontal_Distance_To_Fire_Points',INT,required,,-
'Horizontal_Distance_To_Hydrology',INT,required,,-
'Horizontal_Distance_To_Roadways',INT,required,,-
'Slope',INT,required,,min: 0; max: 90
'Vertical_Distance_To_Hydrology',INT,required,,-


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'Cover_Type_domain',"'0', '1', '2', '3', '4', '5', '6'"


In [43]:
# 4. Generar estadísticas para el conjunto de datos de SERVICIO usando el esquema actualizado (4.7)
options = tfdv.StatsOptions(schema=schema)
serving_stats = tfdv.generate_statistics_from_csv(data_location=serving_data, stats_options=options)
print("Estadísticas generadas para SERVING DATA:")
tfdv.visualize_statistics(serving_stats)


Estadísticas generadas para SERVING DATA:


In [44]:
# 5. Validar anomalías en los datos de SERVICIO
# Validar sin especificar el entorno:
serving_anomalies = tfdv.validate_statistics(statistics=serving_stats, schema=schema)
print("Anomalías en SERVING DATA (sin entorno):")
tfdv.display_anomalies(serving_anomalies)

Anomalías en SERVING DATA (sin entorno):


Unnamed: 0_level_0,Anomaly short description,Anomaly long description
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1
'Cover_Type',Column dropped,Column is completely missing


In [35]:
# Validar especificando el entorno SERVING:
serving_anomalies_with_env = tfdv.validate_statistics(statistics=serving_stats, schema=schema, environment='SERVING')
print("Anomalías en SERVING DATA (con entorno 'SERVING'):")
tfdv.display_anomalies(serving_anomalies_with_env)

Anomalías en SERVING DATA (con entorno 'SERVING'):


In [36]:
print(schema.default_environment)

['TRAINING', 'SERVING']


In [45]:
print(schema)

feature {
  name: "Cover_Type"
  type: BYTES
  string_domain {
    value: "0"
    value: "1"
    value: "2"
    value: "3"
    value: "4"
    value: "5"
    value: "6"
  }
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  not_in_environment: "SERVING"
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Elevation"
  type: INT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Hillshade_9am"
  type: INT
  int_domain {
    min: 0
    max: 255
  }
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Hillshade_Noon"
  type: INT
  int_domain {
    min: 0
    max: 255
  }
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }
}
feature {
  name: "Horizontal_Distance_To_Fire_Points"
  type: INT
  presence {
    min_fraction: 1.0
    min_count: 1
  }
  shape {
    dim {
      size: 1
    }
  }


In [46]:
tfdv.display_schema(schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'Cover_Type',STRING,required,,'Cover_Type_domain'
'Elevation',INT,required,,-
'Hillshade_9am',INT,required,,min: 0; max: 255
'Hillshade_Noon',INT,required,,min: 0; max: 255
'Horizontal_Distance_To_Fire_Points',INT,required,,-
'Horizontal_Distance_To_Hydrology',INT,required,,-
'Horizontal_Distance_To_Roadways',INT,required,,-
'Slope',INT,required,,min: 0; max: 90
'Vertical_Distance_To_Hydrology',INT,required,,-


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'Cover_Type_domain',"'0', '1', '2', '3', '4', '5', '6'"


** 4.7 Generar nuevas estadísticas usando el esquema curado

Una vez que hayas curado (ajustado) el esquema, es buena idea recalcular las estadísticas utilizando ese esquema para que las visualizaciones y validaciones se basen en el esquema definitivo.

In [None]:
# Instance SchemaGen with the StattisticsGen ingested dataset
path_local_schema = data_root.parent / "schema_entornos.pbtxt"
chema_gen_2 = ImportSchema(schema_file=str(path_local_schema))

#Run the component
context.run(schema_gen_2)

print('SchemaGen OK")



# Supongamos que ya actualizaste manualmente el esquema y lo guardaste; 
# Si lo tienes disponible en el artifact de SchemaGen, puedes usarlo directamente:
statistics_gen_updated = StatisticsGen(
    examples=example_gen.outputs['examples'],
    schema=schema_gen.outputs['schema']
)

context.run(statistics_gen_updated)

print("StatisticsGen (con esquema actualizado) ejecutado correctamente")

** 4.8 Comprobar anomalías (ExampleValidator)

Ahora, utiliza ExampleValidator para detectar posibles anomalías en los datos comparándolos contra el esquema curado.

In [None]:
from tfx.components import ExampleValidator

# Instanciar ExampleValidator utilizando las estadísticas (actualizadas) y el esquema curado
example_validator = ExampleValidator(
    statistics=statistics_gen_updated.outputs['statistics'],
    schema=schema_gen.outputs['schema']
)

# Ejecutar el componente
context.run(example_validator)

print("ExampleValidator ejecutado correctamente")

** 4.9 Ingeniería de características y Transformación (Transform)

En este paso se realiza el preprocesamiento y transformación de los datos (por ejemplo, escalado, codificación, etc.) para que estén listos para el entrenamiento del modelo. Para ello se utiliza el componente Transform de TFX. Debes tener definida una función de preprocesamiento (por ejemplo, preprocessing_fn) en un archivo (por ejemplo, preprocessing.py).

In [None]:
from tfx.components import Transform
import os

# Supongamos que has definido una función de preprocesamiento en el archivo 'preprocessing.py'
# Asegúrate de tener ese archivo en tu directorio actual.

transform = Transform(
    examples=example_gen.outputs['examples'],
    schema=schema_gen.outputs['schema'],
    module_file=os.path.join(os.getcwd(), "preprocessing.py")  # Aquí debe estar tu función preprocessing_fn
)

context.run(transform)

print("Transform ejecutado correctamente")