### NBKR

In [17]:
import requests
from bs4 import BeautifulSoup
import json

# URL страницы
url = 'https://www.nbkr.kg/index1.jsp?item=2747&lang=RUS'

# Заголовки для имитации браузера
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
                  'AppleWebKit/537.36 (KHTML, like Gecko) ' \
                  'Chrome/58.0.3029.110 Safari/537.3'
}

# Отправляем GET-запрос к странице
response = requests.get(url, headers=headers)

# Проверяем успешность запроса
if response.status_code != 200:
    print(f'Ошибка при запросе страницы: {response.status_code}')
    exit()

# Парсим HTML с помощью BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Получаем полный HTML как строку
html_content = str(soup)
full_html = f'''
<table class="content-table">
<tr align="center" bgcolor="#2D4283">     
    <td class="informer_header_large" style="color: #ffffff">Дата</td>     
    <td class="informer_header_large" style="color: #ffffff">Мерные золотые слитки, г.</td>     
    <td class="informer_header_large" style="color: #ffffff">Цена обратного выкупа, сом</td>     
    <td class="informer_header_large" style="color: #ffffff">Цена продажи, сом</td>  
</tr>
{html_content}
</table>
'''

soup = BeautifulSoup(full_html, 'html.parser')

table = soup.find('table', class_='content-table')
if not table:
    print('Таблица не найдена в предоставленном HTML.')
    exit()

headers = []
header_row = table.find('tr')
if not header_row:
    print('Строка заголовков не найдена в таблице.')
    exit()

for th in header_row.find_all(['td', 'th']):
    header_text = th.get_text(strip=True)
    headers.append(header_text)

if not headers:
    print('Заголовки столбцов не найдены.')
    exit()

data = []
for row in table.find_all('tr')[1:]:  
    cols = row.find_all('td')
    if len(cols) != len(headers):
        print('Пропуск строки из-за несоответствия количества столбцов.')
        continue 
    row_data = {}
    for header, col in zip(headers, cols):
        cell_text = col.get_text(strip=True)
        row_data[header] = cell_text
    data.append(row_data)

json_data = json.dumps(data, ensure_ascii=False, indent=4)

with open('nbrk.json', 'w', encoding='utf-8') as f:
    f.write(json_data)

print('Данные таблицы успешно сохранены в "table_data.json"')


Данные таблицы успешно сохранены в "table_data.json"


In [4]:
from bs4 import BeautifulSoup
import json
from datetime import datetime

# Ваш существующий код остается прежним до создания списка data
today = datetime.now().strftime('%d.%m.%Y')  # Форматируем текущую дату

# Фильтруем данные только за сегодняшнюю дату
today_data = [row for row in data if row['Дата'] == today]

# Сохраняем отфильтрованные данные в JSON
json_data = json.dumps(today_data, ensure_ascii=False, indent=4)

with open('today_table_data.json', 'w', encoding='utf-8') as f:
    f.write(json_data)

print(f'Данные за {today} успешно сохранены в "today_table_data.json"')

# Дополнительная проверка
if not today_data:
    print(f'Внимание: Данных за {today} не найдено.')

Данные за 08.12.2024 успешно сохранены в "today_table_data.json"
Внимание: Данных за 08.12.2024 не найдено.


In [9]:
import pandas as pd
json_data = pd.read_json('table_data.json')
df = pd.DataFrame(json_data)
df


Unnamed: 0,Дата,"Мерные золотые слитки, г.","Цена обратного выкупа, сом","Цена продажи, сом"
0,Дата,"Мерные золотые слитки, г.","Цена обратного выкупа, сом","Цена продажи, сом"
1,01.10.2024,1.00,8 507.50,8 550.00
2,01.10.2024,2.00,15 738.50,15 801.50
3,01.10.2024,5.00,37 440.50,37 552.50
4,01.10.2024,10.00,73 101.50,73 247.50
...,...,...,...,...
1484,02.10.2023,2.00,12 185.50,12 234.00
1485,02.10.2023,5.00,28 501.50,28 587.00
1486,02.10.2023,10.00,56 094.00,57 484.50
1487,02.10.2023,31.1035,171 615.50,174 727.50


In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime

# Функция для генерации URL с заданным диапазоном дат
def generate_url(begin_day, begin_month, begin_year, end_day, end_month, end_year):
    base_url = 'https://www.nbkr.kg/index1.jsp'
    params = {
        'item': '2746',
        'lang': 'RUS',
        'begin_day': str(begin_day).zfill(2),
        'begin_month': str(begin_month).zfill(2),
        'begin_year': str(begin_year),
        'end_day': str(end_day).zfill(2),
        'end_month': str(end_month).zfill(2),
        'end_year': str(end_year)
    }
    # Преобразуем параметры в строку запроса
    query_string = '&'.join([f"{key}={value}" for key, value in params.items()])
    return f"{base_url}?{query_string}"

# Заголовки для имитации браузера
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
                  'AppleWebKit/537.36 (KHTML, like Gecko) ' \
                  'Chrome/58.0.3029.110 Safari/537.3'
}

# Список лет для парсинга
years = range(2010, 2025)  # 2020 по 2024 включительно

# Инициализируем пустой DataFrame для объединения данных
combined_df = pd.DataFrame()

for year in years:
    print(f"Парсинг данных за {year} год...")
    
    # Задаем начальную и конечную даты для текущего года
    begin_day = 1
    begin_month = 1
    begin_year = year
    
    # Для 2024 года конечная дата — текущая дата
    if year == 2024:
        today = datetime.today()
        end_day = today.day
        end_month = today.month
        end_year = today.year
    else:
        end_day = 31
        end_month = 12
        end_year = year
    
    # Генерируем URL для текущего года
    url = generate_url(begin_day, begin_month, begin_year, end_day, end_month, end_year)
    print(f"URL: {url}")
    
    # Отправляем GET-запрос к странице
    response = requests.get(url, headers=headers)
    
    # Проверяем успешность запроса
    if response.status_code != 200:
        print(f'Ошибка при запросе страницы за {year} год: {response.status_code}')
        continue  # Переходим к следующему году
    
    # Парсим HTML с помощью BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Предполагаем, что данные находятся в таблице <table>
    table = soup.find('table')
    
    if not table:
        print(f'Таблица данных не найдена за {year} год.')
        continue  # Переходим к следующему году
    
    # Проверка наличия строк в таблице
    rows_in_table = table.find_all('tr')
    if len(rows_in_table) < 2:
        print(f'Таблица за {year} год пуста или имеет недостаточно строк.')
        continue
    
    # Вывод HTML таблицы для отладки (можно закомментировать после проверки)
    # print(f"HTML таблицы за {year} год:")
    # print(table.prettify()[:1000])
    
    # Извлекаем заголовки таблицы
    headers_table = []
    header_row = table.find('tr')
    if header_row:
        for th in header_row.find_all(['th', 'td']):
            headers_table.append(th.get_text(strip=True))
    else:
        print(f'Заголовок таблицы не найден за {year} год.')
        continue
    
    # Извлекаем строки таблицы
    rows = []
    for tr in table.find_all('tr')[1:]:  # Пропускаем заголовок
        cells = tr.find_all(['td', 'th'])
        row = [cell.get_text(strip=True) for cell in cells]
        if row:
            rows.append(row)
    
    # Проверка наличия данных
    if not rows:
        print(f'Нет данных для добавления за {year} год.')
        continue
    
    # Проверка соответствия количества колонок
    if len(headers_table) != len(rows[0]):
        print(f'Несоответствие количества колонок в заголовках и данных за {year} год.')
        continue
    
    # Создаем DataFrame для текущего года
    try:
        df_year = pd.DataFrame(rows, columns=headers_table)
    except Exception as e:
        print(f'Ошибка при создании DataFrame за {year} год: {e}')
        continue
    
    # Добавляем столбец года, если его нет
    if 'Год' not in df_year.columns:
        df_year['Год'] = year
    
    # Объединяем с общим DataFrame
    combined_df = pd.concat([combined_df, df_year], ignore_index=True)
    print(f"Данные за {year} год успешно добавлены.\n")

# Проверка наличия данных перед сохранением
if not combined_df.empty:
    # Сохраняем объединенные данные в CSV файл
    combined_df.to_csv('gold_data_2010_2024.csv', index=False, encoding='utf-8-sig')
    print("Все данные успешно сохранены в 'combined_data_2020_2024.csv'.")
else:
    print("Нет данных для сохранения.")


Парсинг данных за 2010 год...
URL: https://www.nbkr.kg/index1.jsp?item=2746&lang=RUS&begin_day=01&begin_month=01&begin_year=2010&end_day=31&end_month=12&end_year=2010
Таблица за 2010 год пуста или имеет недостаточно строк.
Парсинг данных за 2011 год...
URL: https://www.nbkr.kg/index1.jsp?item=2746&lang=RUS&begin_day=01&begin_month=01&begin_year=2011&end_day=31&end_month=12&end_year=2011
Таблица за 2011 год пуста или имеет недостаточно строк.
Парсинг данных за 2012 год...
URL: https://www.nbkr.kg/index1.jsp?item=2746&lang=RUS&begin_day=01&begin_month=01&begin_year=2012&end_day=31&end_month=12&end_year=2012
Таблица за 2012 год пуста или имеет недостаточно строк.
Парсинг данных за 2013 год...
URL: https://www.nbkr.kg/index1.jsp?item=2746&lang=RUS&begin_day=01&begin_month=01&begin_year=2013&end_day=31&end_month=12&end_year=2013
Таблица за 2013 год пуста или имеет недостаточно строк.
Парсинг данных за 2014 год...
URL: https://www.nbkr.kg/index1.jsp?item=2746&lang=RUS&begin_day=01&begin_mont

### Kyrgyz Altyn

In [7]:
import requests
from bs4 import BeautifulSoup
import json

# URL страницы
url = 'https://ru.kyrgyzaltyn.kg/gold_bars/'

# Заголовки для имитации браузера
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
                  'AppleWebKit/537.36 (KHTML, like Gecko) ' \
                  'Chrome/58.0.3029.110 Safari/537.3'
}

# Отправляем GET-запрос к странице
response = requests.get(url, headers=headers)

# Проверяем успешность запроса
if response.status_code != 200:
    print(f'Ошибка при запросе страницы: {response.status_code}')
    exit()

# Парсим HTML с помощью BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Получаем полный HTML как строку
html_content = str(soup)

In [10]:
# Получаем полный HTML как строку
print(html_content)

<!DOCTYPE HTML>

<html lang="ru">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>Кыргызалтын</title>
<link href="https://fonts.googleapis.com" rel="preconnect"/>
<link crossorigin="" href="https://fonts.gstatic.com" rel="preconnect"/>
<link href="https://fonts.googleapis.com/css2?family=Open+Sans:ital,wght@0,400;0,700;1,400&amp;display=swap" rel="stylesheet"/>
<link href="/assets/stylesheet/bootstrap.min.css" rel="stylesheet"/>
<link href="/assets/stylesheet/style.css?test=10093" rel="stylesheet"/>
<link href="/assets/js/slick/slick.css" rel="stylesheet" type="text/css">
<link href="/assets/js/slick/slick-theme.css" rel="stylesheet" type="text/css">
<link href="https://cdn.jsdelivr.net/gh/fancyapps/fancybox@3.5.7/dist/jquery.fancybox.min.css" rel="stylesheet">
<link href="https://unpkg.com/leaflet@1.7.1/dist/leaflet.css" rel="stylesheet">
<meta content="Кыргызалтын" name="description"/>
<meta content="Кыргызалтын" name="keywo

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import re

url = 'https://ru.kyrgyzaltyn.kg/gold_bars/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
                  'AppleWebKit/537.36 (KHTML, like Gecko) ' \
                  'Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get(url, headers=headers)

if response.status_code != 200:
    print(f'Ошибка при запросе страницы: {response.status_code}')
    exit()

soup = BeautifulSoup(response.content, 'html.parser')

html_content = str(soup)

def clean_text(text):
    """Clean and normalize text by removing extra whitespace."""
    return text.strip().replace('\n', '').replace('\r', '')

def extract_gold_prices(html_content):
    """Extract gold prices from HTML content."""
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Find all tables - we're interested in the price tables
    tables = soup.find_all('table', {'border': '1', 'cellpadding': '0', 'cellspacing': '0'})
    
    # We want the price archive table, which is typically the second table
    if len(tables) < 2:
        return []
    
    price_table = tables[1]
    
    # Extract rows from the table
    rows = price_table.find_all('tr')
    
    # Prepare the result list
    gold_prices = []
    
    # Skip the header row
    for row in rows[1:]:
        cols = row.find_all('td')
        
        # Ensure we have 4 columns
        if len(cols) == 4:
            gold_price = {
                "Дата": clean_text(cols[0].get_text()),
                "Мерные золотые слитки, г.": clean_text(cols[1].get_text()),
                "Цена обратного выкупа, сом": clean_text(cols[2].get_text()),
                "Цена продажи, сом": clean_text(cols[3].get_text())
            }
            gold_prices.append(gold_price)
    
    return gold_prices

def save_to_json(data, filename):
    """Save data to a JSON file."""
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)



# Extract gold prices
gold_prices = extract_gold_prices(html_content)

# Save to JSON
save_to_json(gold_prices, 'kyrgyz_gold.json')

print(f"Extracted {len(gold_prices)} gold price entries to kyrgyz_gold.json")

Extracted 189 gold price entries to kyrgyz_gold.json


In [15]:
import re
from bs4 import BeautifulSoup
import json
from datetime import datetime

def clean_text(text):
    """Clean and normalize text by removing extra whitespace."""
    return text.strip().replace('\n', '').replace('\r', '')

def parse_date(date_str):
    """Parse date string to datetime object."""
    return datetime.strptime(date_str, '%d.%m.%Y')

def extract_gold_prices(html_content, start_date=None, end_date=None):
    """Extract gold prices from HTML content with optional date range filtering."""
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Find all tables - we're interested in the price tables
    tables = soup.find_all('table', {'border': '1', 'cellpadding': '0', 'cellspacing': '0'})
    
    # We want the price archive table, which is typically the second table
    if len(tables) < 2:
        return []
    
    price_table = tables[1]
    
    # Extract rows from the table
    rows = price_table.find_all('tr')
    
    # Prepare the result list
    gold_prices = []
    
    # Skip the header row
    for row in rows[1:]:
        cols = row.find_all('td')
        
        # Ensure we have 4 columns
        if len(cols) == 4:
            date_str = clean_text(cols[0].get_text())
            current_date = parse_date(date_str)
            
            # Apply date range filtering if dates are provided
            if (start_date is None or current_date >= start_date) and \
               (end_date is None or current_date <= end_date):
                gold_price = {
                    "Дата": date_str,
                    "Мерные золотые слитки, г.": clean_text(cols[1].get_text()),
                    "Цена обратного выкупа, сом": clean_text(cols[2].get_text()),
                    "Цена продажи, сом": clean_text(cols[3].get_text())
                }
                gold_prices.append(gold_price)
    
    return gold_prices

def save_to_json(data, filename):
    """Save data to a JSON file."""
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# Пример использования скрипта с возможностью выбора диапазона дат
def main():

    # Запрос у пользователя диапазона дат
    print("Введите диапазон дат для извлечения данных.")
    start_input = input("Начальная дата (ДД.ММ.ГГГГ), или нажмите Enter для всех дат: ")
    end_input = input("Конечная дата (ДД.ММ.ГГГГ), или нажмите Enter для всех дат: ")
    
    # Преобразование дат
    start_date = parse_date(start_input) if start_input else None
    end_date = parse_date(end_input) if end_input else None
    
    # Извлечение данных с учетом диапазона дат
    gold_prices = extract_gold_prices(html_content, start_date, end_date)
    
    # Сохранение в JSON
    save_to_json(gold_prices, 'kyrgyz_gold.json')
    
    print(f"Извлечено {len(gold_prices)} записей о ценах на золото в диапазоне дат.")

if __name__ == "__main__":
    main()

Введите диапазон дат для извлечения данных.
Извлечено 189 записей о ценах на золото в диапазоне дат.


In [16]:
import json

# Read the input file
with open('paste.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# Parse the data
data = []
for line in lines:
    # Split the line into components
    parts = line.strip().split('\t')
    
    # Create a dictionary with the specified keys
    entry = {
        "Дата": parts[0],
        "Мерные золотые слитки, г.": parts[1],
        "Цена обратного выкупа, сом": parts[2],
        "Цена продажи, сом": parts[3]
    }
    
    data.append(entry)

# Write to JSON file
with open('output.json', 'w', encoding='utf-8') as jsonfile:
    json.dump(data, jsonfile, ensure_ascii=False, indent=4)

print(f"Converted {len(data)} entries to JSON")
print("First few entries:")
print(json.dumps(data[:5], ensure_ascii=False, indent=4))

Converted 235 entries to JSON
First few entries:
[
    {
        "Дата": "06.11.2024",
        "Мерные золотые слитки, г.": "1",
        "Цена обратного выкупа, сом": "8 885.50",
        "Цена продажи, сом": "8 929.50"
    },
    {
        "Дата": "06.11.2024",
        "Мерные золотые слитки, г.": "2",
        "Цена обратного выкупа, сом": "16 589.00",
        "Цена продажи, сом": "16 655.50"
    },
    {
        "Дата": "06.11.2024",
        "Мерные золотые слитки, г.": "5",
        "Цена обратного выкупа, сом": "39 670.50",
        "Цена продажи, сом": "39 789.50"
    },
    {
        "Дата": "06.11.2024",
        "Мерные золотые слитки, г.": "10",
        "Цена обратного выкупа, сом": "77 698.50",
        "Цена продажи, сом": "77 854.00"
    },
    {
        "Дата": "06.11.2024",
        "Мерные золотые слитки, г.": "20",
        "Цена обратного выкупа, сом": "154 363.00",
        "Цена продажи, сом": "156 678.50"
    }
]


In [7]:
import pandas as pd
from bs4 import BeautifulSoup
from datetime import datetime
import json
from demir import demir
from mbank import mbank
from optima import optima
import requests

def main():
    demir_url = 'https://demirbank.kg/ru'
    mbank_url = 'https://mbank.kg/'
    optima_url = 'https://www.optimabank.kg/index.php?option=com_nbrates&view=default&lang=ru'

    demir_df = demir(demir_url)
    mbank_df = mbank(mbank_url)
    optima_df = optima(optima_url) # u can give two variables (url = url, dates = [list of date]) default is current date

    demir_df.rename(columns={'currency': 'Валюта', 'buy': 'Покупка', 'sell': 'Продажа', 'date': 'Дата', 'bank_name': 'Банк', 'type': 'Курс'}, inplace=True)
    mbank_df.rename(columns={'currency': 'Валюта', 'buy': 'Покупка', 'sell': 'Продажа', 'date': 'Дата', 'bank_name': 'Банк', 'type': 'Курс'}, inplace=True)
    optima_df.rename(columns={'currency': 'Валюта', 'buy': 'Покупка', 'sell': 'Продажа', 'date': 'Дата', 'bank_name': 'Банк', 'type': 'Курс'}, inplace=True)

    combined_df = pd.concat([demir_df, mbank_df, optima_df], ignore_index=True)
 
    today_date = datetime.now().strftime('%Y-%m-%d') 
    filename = f'combined_data_{today_date}.xlsx'
    combined_df.to_excel(filename, index=False)
    print(f"Data saved to {filename}")

main()


  bank_name         type currency      buy     sell        date
0     Демир     Наличный      EUR  92.7000  93.7000  2024-10-08
1     Демир     Наличный      USD  84.8500  85.3500  2024-10-08
2     Демир     Наличный      RUB   0.8800   0.9200  2024-10-08
3     Демир     Наличный      TRY   2.3500   2.6100  2024-10-08
4     Демир     Наличный      KZT   0.1200   0.1900  2024-10-08
5     Демир  Безналичный      EUR  92.7000  93.7000  2024-10-08
6     Демир  Безналичный      USD  84.4500  84.9500  2024-10-08
7     Демир  Безналичный      RUB   0.8610   0.9400  2024-10-08
8     Демир  Безналичный      TRY   2.3500   2.6100  2024-10-08
9     Демир  Безналичный      KZT   0.1195   0.2066  2024-10-08


  df_nal = pd.read_html(str(tables[0]))[0]
  df_beznal = pd.read_html(str(tables[1]))[0]


NameError: name 'requests' is not defined

In [5]:
data = len(pd.read_csv('combined_data_2020_2024.csv'))
data

7062

In [6]:
df = len(pd.read_csv('gold_data_2010_2024.csv'))
df

15342

In [4]:
import pandas as pd

# Read the CSV file without using the index as row identifiers
d = pd.read_csv("data\\optima.csv", index_col=False)
d.columns

Index(['Unnamed: 0', 'Дата', 'Валюта', 'Покупка', 'Продажа', 'Курс', 'Банк',
       'Индекс'],
      dtype='object')

In [5]:

# Drop a specific column completely
d = d.drop(columns=['Unnamed: 0'])

# If you want to reset the index to a default numeric index
d = d.reset_index(drop=True)

In [6]:
d.to_csv("data\\optima.csv")