# Загрузка данных из файлов

В этом ноутбуке мы рассмотрим загрузку данных из различных файловых форматов (CSV, JSON, YAML) с использованием GPB библиотеки.

## Подготовка окружения

In [None]:
import sys
sys.path.append('../../')

import pandas as pd
import numpy as np
from core.data.schema import DataSchema, ColumnSchema, DataType
from core.data.data_loaders import FileDataLoader

## Создание схемы данных

In [None]:
# Создание схемы данных
schema = DataSchema([
    ColumnSchema(
        name='id',
        data_type=DataType.INTEGER,
        required=True,
        constraints={
            'unique': True
        }
    ),
    ColumnSchema(
        name='name',
        data_type=DataType.STRING,
        required=True
    ),
    ColumnSchema(
        name='age',
        data_type=DataType.INTEGER,
        required=True,
        constraints={
            'min': 0,
            'max': 150
        }
    ),
    ColumnSchema(
        name='email',
        data_type=DataType.STRING,
        required=True,
        constraints={
            'pattern': r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
        }
    )
])

## Загрузка данных из CSV файла

In [None]:
# Создание загрузчика данных
loader = FileDataLoader(schema)

# Загрузка данных из CSV
try:
    df = loader.load_data('data/users.csv')
    print("Данные успешно загружены из CSV:")
    print(df)
except Exception as e:
    print(f"Ошибка при загрузке CSV: {e}")

## Загрузка данных из JSON файла

In [None]:
# Загрузка данных из JSON
try:
    df = loader.load_data('data/users.json')
    print("Данные успешно загружены из JSON:")
    print(df)
except Exception as e:
    print(f"Ошибка при загрузке JSON: {e}")

## Загрузка данных из YAML файла

In [None]:
# Загрузка данных из YAML
try:
    df = loader.load_data('data/users.yaml')
    print("Данные успешно загружены из YAML:")
    print(df)
except Exception as e:
    print(f"Ошибка при загрузке YAML: {e}")

## Дополнительные параметры загрузки

In [None]:
# Загрузка CSV с дополнительными параметрами
try:
    df = loader.load_data(
        'data/users.csv',
        sep=';',  # Разделитель
        encoding='utf-8',  # Кодировка
        decimal=',',  # Разделитель десятичных знаков
        thousands='.'  # Разделитель тысяч
    )
    print("Данные успешно загружены с дополнительными параметрами:")
    print(df)
except Exception as e:
    print(f"Ошибка при загрузке: {e}")

## Обработка ошибок

In [None]:
# Пример обработки ошибок при загрузке
try:
    # Попытка загрузки несуществующего файла
    df = loader.load_data('data/nonexistent.csv')
except FileNotFoundError:
    print("Файл не найден")
except ValueError as e:
    print(f"Ошибка валидации данных: {e}")
except Exception as e:
    print(f"Неожиданная ошибка: {e}")