# Testing reading data  from catalog
En este notebook se probará la lectura de set de datos declarados en el catalogo de Kedro.
 
If you're working outside of the Kedro pipeline—for example, performing exploratory data analysis in a Jupyter notebook—you can still access datasets declared in the catalog by loading the Kedro context and catalog.


In [1]:
# Import Kedro session and context
from kedro.framework.session import KedroSession
from kedro.framework.startup import bootstrap_project

In [2]:
import os

# Getting the root path 
path = os.getcwd()  # Obtiene el directorio actual
root_path = os.path.dirname(path)  # Retrocede una carpeta, tengo que darle la dirección raiz del proeycto de Kedro
print(f"Directorio padre: {root_path}") 

Directorio padre: /Users/orlandoandrade/Documents/Maestria en inteligencia artificial aplicada/Materias/3 trimestre/Repositorio/Repositorio grupal/machine-learning-operations/mlops


## 1) Inicializando el proyecto 

El código bootstrap_project(project_path=root_path) se utiliza para inicializar o arrancar un proyecto Kedro en la ruta especificada por root_path. Esto hace lo siguiente:

- Carga la configuración del proyecto: Lee los archivos de configuración como catalog.yml, parameters.yml, y otros que estén en la carpeta conf/.
- Establece el entorno del proyecto: Prepara las variables de entorno y las rutas necesarias para que el proyecto funcione correctamente.
- Prepara el contexto del proyecto: Permite acceder al contexto de Kedro, que incluye el catálogo de datos (catalog), los parámetros (params), y otras configuraciones.

Este paso es esencial cuando trabajas fuera del flujo normal de Kedro, por ejemplo, en un notebook de Jupyter o en un script independiente. Al inicializar el proyecto con bootstrap_project, puedes acceder a los componentes clave del proyecto Kedro y utilizar las funcionalidades como cargar datasets desde el catálogo o acceder a los parámetros configurados.

En resumen, bootstrap_project(project_path=root_path) prepara y configura el entorno necesario para que puedas interactuar con tu proyecto Kedro desde un entorno externo, asegurando que todas las configuraciones y rutas estén correctamente establecidas.

In [3]:
# Bootstrap the project (loads settings and configurations)
bootstrap_project(project_path=root_path) # Como se puede observar en el output se muestra la configuracion que le dí al proyecto


[1;35mProjectMetadata[0m[1m([0m
    [33mconfig_file[0m=[1;35mPosixPath[0m[1m([0m[32m'/Users/orlandoandrade/Documents/Maestria en inteligencia artificial aplicada/Materias/3 trimestre/Repositorio/Repositorio grupal/machine-learning-operations/mlops/pyproject.toml'[0m[1m)[0m,
    [33mpackage_name[0m=[32m'mlops'[0m,
    [33mproject_name[0m=[32m'MLops'[0m,
    [33mproject_path[0m=[1;35mPosixPath[0m[1m([0m[32m'/Users/orlandoandrade/Documents/Maestria en inteligencia artificial aplicada/Materias/3 trimestre/Repositorio/Repositorio grupal/machine-learning-operations/mlops'[0m[1m)[0m,
    [33msource_dir[0m=[1;35mPosixPath[0m[1m([0m[32m'/Users/orlandoandrade/Documents/Maestria en inteligencia artificial aplicada/Materias/3 trimestre/Repositorio/Repositorio grupal/machine-learning-operations/mlops/src'[0m[1m)[0m,
    [33mkedro_init_version[0m=[32m'0.19.8'[0m,
    [33mtools[0m=[1m[[0m[32m'Linting'[0m, [32m'Testing'[0m, [32m'Custom Logging'[

In [4]:
# Create a Kedro Session and Load the Context
with KedroSession.create(project_path=root_path) as session:
    context = session.load_context()

## 2) Accediendo al catalogo 

In [7]:
catalog = context.catalog
catalog # Aqui puedo ver el nombre de mis set de datos, en este caso uno de ellos llamado raw_data 


[1m{[0m[32m'raw_data'[0m: [32m"kedro_datasets.pandas.excel_dataset.ExcelDataset[0m[32m([0m[32mfilepath[0m[32m=[0m[32mPurePosixPath[0m[32m([0m[32m'/Users/orlandoandrade/Documents/Maestria "[0m
             [32m'en inteligencia artificial aplicada/Materias/3 '[0m
             [32m'trimestre/Repositorio/Repositorio '[0m
             [32m"grupal/machine-learning-operations/mlops/data/01_raw/ENB2012_data.xlsx'[0m[32m)[0m[32m, "[0m
             [32m"[0m[32mprotocol[0m[32m='file', [0m[32mload_args[0m[32m=[0m[32m{[0m[32m'engine': 'openpyxl'[0m[32m}[0m[32m, "[0m
             [32m"[0m[32msave_args[0m[32m=[0m[32m{[0m[32m'index': False[0m[32m}[0m[32m, [0m[32mwriter_args[0m[32m=[0m[32m{[0m[32m'engine': 'openpyxl'[0m[32m}[0m[32m)[0m[32m"[0m,
 [32m'parameters'[0m: [32m"kedro.io.memory_dataset.MemoryDataset[0m[32m([0m[32mdata[0m[32m='[0m[32m<[0m[32mdict[0m[32m>[0m[32m'[0m[32m)[0m[32m"[0m[1m}[0m

## 3) Carga del set de datos 

In [8]:
# Load the dataset by name
raw_data = catalog.load("raw_data")
print("Tipo de objeto:", type(raw_data))
raw_data

Tipo de objeto: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,Y1,Y2
0,0.98,514.5,294.0,110.25,7.0,2,0.0,0,15.55,21.33
1,0.98,514.5,294.0,110.25,7.0,3,0.0,0,15.55,21.33
2,0.98,514.5,294.0,110.25,7.0,4,0.0,0,15.55,21.33
3,0.98,514.5,294.0,110.25,7.0,5,0.0,0,15.55,21.33
4,0.90,563.5,318.5,122.50,7.0,2,0.0,0,20.84,28.28
...,...,...,...,...,...,...,...,...,...,...
763,0.64,784.0,343.0,220.50,3.5,5,0.4,5,17.88,21.40
764,0.62,808.5,367.5,220.50,3.5,2,0.4,5,16.54,16.88
765,0.62,808.5,367.5,220.50,3.5,3,0.4,5,16.44,17.11
766,0.62,808.5,367.5,220.50,3.5,4,0.4,5,16.48,16.61
