# Cargar el Dataset


In [1]:
import os
import requests

## download the dataset
# Directory of the raw data files
_data_root = './data/covertype'
# Path to the raw training data
_data_filepath = os.path.join(_data_root, 'covertype_train.csv')
# Create directory if it doesn't exist
os.makedirs(_data_root, exist_ok=True)
# Check if the file already exists
if not os.path.isfile(_data_filepath):
    # Enlace a la fuente original:
    # https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/
    url = 'https://docs.google.com/uc?export=download&confirm={{VALUE}}&id=1lVF1BCWLH4eXXV_YOJzjR7xZjj-wAGj9'
    r = requests.get(url, allow_redirects=True, stream=True)
    open(_data_filepath, 'wb').write(r.content)


In [2]:
import pandas as pd
import numpy as np
import os
from sklearn.feature_selection import SelectKBest, f_classif  # u otra función de puntuación apropiada

# Supongamos que ya descargaste el dataset en '_data_filepath'
_data_root = './data/covertype'
_data_filepath = os.path.join(_data_root, 'covertype_train.csv')

# Carga del dataset en un DataFrame
df = pd.read_csv(_data_filepath)


In [3]:
df

Unnamed: 0,Elevation,Aspect,Slope,Horizontal_Distance_To_Hydrology,Vertical_Distance_To_Hydrology,Horizontal_Distance_To_Roadways,Hillshade_9am,Hillshade_Noon,Hillshade_3pm,Horizontal_Distance_To_Fire_Points,Wilderness_Area,Soil_Type,Cover_Type
0,2991,119,7,67,11,1015,233,234,133,1570,Commanche,C7202,1
1,2876,3,18,485,71,2495,192,202,144,1557,Commanche,C7757,1
2,3171,315,2,277,9,4374,213,237,162,1052,Rawah,C7745,0
3,3087,342,13,190,31,4774,193,221,166,752,Rawah,C7745,0
4,2835,158,10,212,41,3596,231,242,141,3280,Rawah,C4744,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
116198,3150,220,16,285,47,2275,200,253,187,866,Commanche,C7756,1
116199,3125,47,13,234,2,2430,224,212,120,1426,Rawah,C7745,0
116200,3166,152,11,67,0,1275,234,240,136,2404,Rawah,C7202,0
116201,3154,285,14,738,46,6012,181,239,198,1320,Rawah,C7745,1


# Selección de características

In [4]:
# Seleccionar únicamente columnas numéricas (float, int, etc.)
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()

print("Columnas numéricas detectadas:")
print(numeric_cols)


Columnas numéricas detectadas:
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology', 'Vertical_Distance_To_Hydrology', 'Horizontal_Distance_To_Roadways', 'Hillshade_9am', 'Hillshade_Noon', 'Hillshade_3pm', 'Horizontal_Distance_To_Fire_Points', 'Cover_Type']


In [5]:
# Definimos la variable objetivo y removemos Cover_Type de las columnas de entrada
y = df['Cover_Type']
X = df[numeric_cols].drop('Cover_Type', axis=1, errors='ignore')

print("Dimensiones de X antes de la selección:", X.shape)


Dimensiones de X antes de la selección: (116203, 10)


In [6]:
k = 8

# Crear el selector con la función de puntuación elegida
selector = SelectKBest(score_func=f_classif, k=k)

# Ajustar el selector y transformar X
X_selected = selector.fit_transform(X, y)

# Obtener los nombres de las columnas que han sido seleccionadas
selected_cols = X.columns[selector.get_support()]
print(f"Columnas seleccionadas (k={k}):\n", selected_cols.tolist())


Columnas seleccionadas (k=8):
 ['Elevation', 'Slope', 'Horizontal_Distance_To_Hydrology', 'Vertical_Distance_To_Hydrology', 'Horizontal_Distance_To_Roadways', 'Hillshade_9am', 'Hillshade_Noon', 'Horizontal_Distance_To_Fire_Points']


# Data Pipeline

In [None]:
import os
import tensorflow as tf
import tfx
from tfx.orchestration.experimental.interactive.interactive_context import InteractiveContext
from tfx.components import CsvExampleGen
from tfx.proto import example_gen_pb2


In [None]:
# Directorio raíz del pipeline (donde se guardarán artefactos, logs, etc.)
PIPELINE_ROOT = os.path.join(os.getcwd(), 'tfx_pipeline')

# Directorio de metadatos (no modificar, según las instrucciones del ejercicio)
METADATA_PATH = os.path.join(PIPELINE_ROOT, 'metadata.db')

# Directorio donde están los datos CSV (no la ruta del archivo CSV directamente)
# Asumiendo que tu CSV se encuentra en './data/covertype/' con nombre 'covertype_train.csv'
DATA_ROOT = './data/covertype'

# Crear contexto interactivo
context = InteractiveContext(pipeline_root=PIPELINE_ROOT, 
                            metadata_connection_config=None,  # SQLite por defecto
                            test_data_dir=None)


In [None]:
input_config = example_gen_pb2.Input(splits=[
    example_gen_pb2.Input.Split(name='train', pattern='*.csv', fraction=0.8),
    example_gen_pb2.Input.Split(name='eval', pattern='*.csv', fraction=0.2)
])


In [None]:
# Si deseas usar la configuración por defecto (67/33), omite 'input_config'.
# Si quieres customizar, descomenta lo siguiente y pásalo al constructor:
# input_config = example_gen_pb2.Input(splits=[
#     example_gen_pb2.Input.Split(name='train', pattern='*.csv', fraction=0.8),
#     example_gen_pb2.Input.Split(name='eval', pattern='*.csv', fraction=0.2)
# ])

example_gen = CsvExampleGen(input_base=DATA_ROOT
                            #, input_config=input_config
                            )

# Ejecutar el componente en modo interactivo
context.run(example_gen)
