<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/DL/datasets/%D0%94%D0%B0%D1%82%D0%B0%D1%81%D0%B5%D1%82%D0%B8%D0%BA%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



### 1. **Beijing Multi-Site Air-Quality Data**
Этот датасет содержит данные о качестве воздуха в Пекине с разбивкой по времени и местоположению. В нем много признаков, таких как уровень PM2.5, PM10, SO2 и другие.

- **Описание**: Качество воздуха в Пекине.
- **Ссылка**: [Beijing Air Quality](https://archive.ics.uci.edu/ml/datasets/Beijing+Multi-Site+Air-Quality+Data)
- **Код для загрузки**:


In [None]:
import pandas as pd
import requests
from io import BytesIO
from zipfile import ZipFile

# URL архива
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00501/PRSA2017_Data_20130301-20170228.zip"

# Скачиваем архив
response = requests.get(url)
with ZipFile(BytesIO(response.content)) as zip_file:
    # Список всех файлов в архиве
    file_list = zip_file.namelist()

    # Выбираем первый CSV-файл (например, данные для района Aotizhongxin)
    csv_file_name = [f for f in file_list if f.endswith('.csv')][0]

    # Читаем CSV-файл напрямую из архива
    with zip_file.open(csv_file_name) as csv_file:
        df = pd.read_csv(csv_file)

# Просмотр первых строк
df.head()



### 2. **Metro Interstate Traffic Volume**
Этот датасет содержит данные о трафике на межштатной автомагистрали в Миннесоте. Признаки включают время суток, погодные условия, праздники и другие факторы.

- **Описание**: Трафик на межштатной автомагистрали.
- **Ссылка**: [Metro Interstate Traffic Volume](https://archive.ics.uci.edu/ml/datasets/Metro+Interstate+Traffic+Volume)
- **Код для загрузки**:


In [None]:
import pandas as pd

# Загрузка датасета
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00492/Metro_Interstate_Traffic_Volume.csv.gz"
df = pd.read_csv(url, compression='gzip', parse_dates=True)

# Просмотр первых строк
df.head()


### 3. **Household Power Consumption**
Этот датасет содержит данные о потреблении электроэнергии в домохозяйстве. Признаки включают активную и реактивную мощность, напряжение и ток.

- **Описание**: Потребление электроэнергии в домохозяйстве.
- **Ссылка**: [Household Power Consumption](https://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption)
- **Код для загрузки**:


In [None]:
import pandas as pd

# Загрузка датасета
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00235/household_power_consumption.zip"
df = pd.read_csv(url, sep=";", decimal=",", parse_dates=True)

# Просмотр первых строк
df.head()



### 4. **Energy Efficiency Dataset**
Этот датасет содержит данные о энергоэффективности зданий. Признаки включают геометрические параметры зданий, материалы и другие характеристики.

- **Описание**: Энергоэффективность зданий.
- **Ссылка**: [Energy Efficiency Dataset](https://archive.ics.uci.edu/ml/datasets/Energy+efficiency)
- **Код для загрузки**:



In [None]:
import pandas as pd

# Загрузка датасета
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx"
df = pd.read_excel(url)

# Просмотр первых строк
df.head()



### 5. **Appliances Energy Prediction**
Этот датасет содержит данные о потреблении энергии бытовыми приборами. Признаки включают температуру, влажность, давление и другие факторы.

- **Описание**: Потребление энергии бытовыми приборами.
- **Ссылка**: [Appliances Energy Prediction](https://archive.ics.uci.edu/ml/datasets/Appliances+energy+prediction)
- **Код для загрузки**:


In [None]:
import pandas as pd

# Загрузка датасета
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00374/energydata_complete.csv"
df = pd.read_csv(url)

# Просмотр первых строк
df.head()

### 6. **Сбор принципиально нового датасета**

In [None]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime, timedelta
import pandas as pd

def generate_date_range(start_date, end_date):
    """Генерирует список дат в формате 'dd.mm.yyyy'."""
    date_list = []
    current_date = start_date
    while current_date <= end_date:
        date_list.append(current_date.strftime('%d.%m.%Y'))
        current_date += timedelta(days=1)
    return date_list

def parse_currency_rates_for_dates(dates):
    """Парсит курсы валют для списка дат и сохраняет их в DataFrame."""
    base_url = "https://cbr.ru/currency_base/daily/"
    currency_codes = {"USD": "Доллар США", "EUR": "Евро", "CNY": "Юань"}

    # Создаем пустой DataFrame
    columns = ['Дата', 'Юань', 'Евро', 'Доллар США']
    df = pd.DataFrame(columns=columns)

    for date in dates:
        print(f"Парсинг данных за {date}...")
        params = {'date_req': date}
        response = requests.get(base_url, params=params)

        if response.status_code != 200:
            print(f"Ошибка при получении данных за {date}: {response.status_code}")
            continue

        soup = BeautifulSoup(response.text, 'html.parser')
        table = soup.find('table', class_='data')
        if not table:
            print(f"Таблица с курсами валют не найдена за {date}.")
            continue

        rates = {'Дата': date}
        for row in table.find_all('tr')[1:]:
            columns = row.find_all('td')
            if len(columns) == 5:
                code = columns[1].text.strip()
                rate = float(columns[4].text.replace(',', '.'))
                if code in currency_codes:
                    currency_name = currency_codes[code]
                    rates[currency_name] = rate

        # Добавляем строку в DataFrame с помощью concat
        new_row = pd.DataFrame([rates])
        df = pd.concat([df, new_row], ignore_index=True)

    return df

def main():
    # Задаем диапазон дат
    start_date = datetime(2025, 1, 1)  # Начальная дата
    end_date = datetime(2025, 2, 1)   # Конечная дата

    # Генерируем список дат
    dates = generate_date_range(start_date, end_date)

    # Парсим курсы валют для каждой даты
    df = parse_currency_rates_for_dates(dates)

    # Выводим DataFrame
    print(df)

    # Сохраняем DataFrame в CSV-файл
    df.to_csv('currency_rates.csv', index=False, encoding='utf-8')

if __name__ == "__main__":
    main()