In [None]:
import re
import json
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import numpy as np
import pandas as pd

# Парсим HTML

Собираем курсы валют с сайта mig.kz

In [None]:
MIG_URL = "https://mig.kz/additional#main"

## Определяем данные, которые нам нужны

* Дата
* Обозначение валюты
* Название валюты
* Курс продажи
* Курс покупки

## Забираем HTML с сайта

In [None]:
html = requests.get(MIG_URL).text
html

## Конвертируем HTML в объект библиотеки BeautifulSoup и находим нужные данне

In [None]:
"""
Сразу же выбираем div с классом informer-additional, 
так как в этом блоке содержатся все нужные нам данные
"""

soup = BeautifulSoup(html, 'lxml').find('div', 'informer-additional')

### Ищем и обрабатываем дату

In [None]:
date = soup.find('date').text.split()
date

In [None]:
# Создадим справочник для преобразования месяца в дате
months = {'января': '01',
          'февраля': '02',
          'марта': '03',
          'апреля': '04',
          'мая': '05',
          'июня': '06',
          'июля': '07',
          'августа': '08',
          'сентября': '09',
          'октября': '10',
          'ноября': '11',
          'декабря': '12'}

In [None]:
dt = datetime.strptime(f'{date[3]}{months[date[2]]}{date[1]}{date[4]}', '%Y%m%d%H:%M')
dt

### Идем по списку валют в таблице и сохраняем данные в словарь

In [None]:
"""
Внутри "супа" находим все строки таблицы (таблица единственная в блоке)
Итерируемся по строкам и сохраняем данные в dictionary
"""

currencies = {}

for row in soup.find_all('tr'):
    curr = row.find('td', 'currency')
    currency = curr.next_element.strip()
    currency_name = curr.find('div', 'description').next_element.strip()
    buy = row.find('td', 'buy').text
    sell = row.find('td', 'sell').text
    currencies[currency] = [currency_name, buy, sell]
    
currencies

### Конвертируем словарь в датафрейм pandas

In [None]:
df = pd.DataFrame.from_dict(currencies, orient='index', columns=['currency_name', 'buy', 'sell'])
df['dt'] = dt
df

# Парсим API с одностраничных приложений (SPA)

Соберем информацию о товарах в ресторане на chocofood.kz

In [None]:
CHOCOFOOD_URL = "https://chocofood.kz/ru/almaty/ginger-sushi/menu/"

## Определяем данные, которые нам нужны

* Категория
* Название
* Описание
* Цена
* Картинка

## Забираем HTML с сайта

In [None]:
html = requests.get(CHOCOFOOD_URL).text
html

## Сайт одностраничный (мало HTML и много JS), ищем API

In [None]:
CATEGORIES_API = "https://chocofood.kz/debug-api/ginger-sushi/foodtypes/new/?slug=ginger-sushi&city_slug=almaty&image_size=xxxhdpi"

In [None]:
FOOD_API = "https://chocofood.kz/debug-api/ginger-sushi/food_list/modification/?slug=ginger-sushi&city_slug=almaty&image_size=xxxhdpi"

## Собираем данные

### Собираем категории

In [None]:
categories = requests.get(CATEGORIES_API).text
categories

In [None]:
categories = json.loads(categories)
categories

### Собираем продукты

In [None]:
products = requests.get(FOOD_API).text
products

In [None]:
products = json.loads(products)
products

### Конвертируем данные в pandas

In [None]:
"""
Категории
"""

df_categories = pd.DataFrame(categories)
df_categories = df_categories[['id', 'title']]
df_categories.head()

In [None]:
"""
Продукты
"""

df_products = pd.DataFrame(products)
df_products = df_products[['id', 'title', 'food_type', 'description', 'price', 'logo']]
df_products.head()

In [None]:
"""
Соединяем категории и продукты
"""

df = df_products.merge(df_categories, left_on='food_type', right_on='id')
df.drop(['id_x', 'id_y', 'food_type'], axis=1, inplace=True)
df = df[['title_x', 'title_y', 'description', 'price', 'logo']]
df.columns = ['product_name', 'category', 'description', 'price', 'logo']
df.head()

### Сохраняем картинки

In [None]:
def get_image(url:str, name:str) -> str:
    """
    На вход принимаем url и название продукта
    """
    
    if url:
        # Парсим url
        new_url = re.search('https://[a-zA-Z0-9\.\/\-\_]+\.\w+$', url).group(0)
        
        # Скачиваем картинку
        img = requests.get(new_url).content
        
        # Узнаем расширение файла
        ext = re.search('\.\w+$', new_url).group(0)
        
        # Создаем новое имя для картинки из названия продукта и timestamp'а
        img_name = f"{name.lower()}_{datetime.now().strftime('%Y%m%d%H%M%S%f')}{ext}"
        
        # Сохраняем файл
        with open(f'chocofood_images/{img_name}', 'wb') as file:
            file.write(img)
        
        return img_name
    
    return None

In [None]:
df['logo'] = df.apply(lambda x: get_image(x.logo, x.product_name), axis=1)
df.head()

# Парсим полнеценный API

Получаем данные о погоде в Яндексе

In [None]:
"""
Для использования API Яндекса нужно создать ключ в кабинете разработчика
"""
API_KEY = "f1b7caeb-e80b-4a16-b277-87fcab42ca0d"

## Документация API

* https://yandex.ru/dev/weather/doc/dg/concepts/forecast-info.html

## Формат запроса

Населенный пункт указывается при помощи значений широты (параметр lat) и долготы (параметр lon). Если данные параметры заданы некорректно, ответ будет содержать код ошибки 404.

<code>GET https://api.weather.yandex.ru/v2/informers?
 lat=<широта>
 & lon=<долгота>
 & [lang=<язык ответа>]
X-Yandex-API-Key: <значение ключа></code>

## Получаем данные

In [None]:
YANDEX_URL = "https://api.weather.yandex.ru/v2/informers"
LAT = 43.254772
LON = 76.943244

### Готовим заголовки

In [None]:
headers = {
    'X-Yandex-API-Key': API_KEY
}

### Отправляем запрос

In [None]:
data = requests.get(f"{YANDEX_URL}?lat={LAT}&lon={LON}", headers=headers).text
data

In [None]:
data = json.loads(data)
data

## Разбираем ответ

In [None]:
info = data.pop('info')
fact = data.pop('fact')
forecast = data.pop('forecast')
forecast_parts = forecast.pop('parts')

In [None]:
print('Data')
print(data)
print('')
print('Info')
print(info)
print('')
print('Fact')
print(fact)
print('')
print('Forecast')
print(forecast)
print('')
print('Forecast Parts')
print(forecast_parts)

## Создаем датафреймы

### Текущий

In [None]:
general = {}
general.update(data)
general.update(info)
general.update(fact)
general.update(forecast)
general

In [None]:
df_general = pd.DataFrame.from_dict([general])
df_general

In [None]:
df_general['now'] = df_general['now'].apply(lambda x: datetime.fromtimestamp(x))
df_general['obs_time'] = df_general['obs_time'].apply(lambda x: datetime.fromtimestamp(x))

In [None]:
df_general.drop(['now_dt', 'url', 'icon', 'date', 'date_ts'], axis=1, inplace=True)
df_general.set_index('now', inplace=True)

In [None]:
df_general

### Прогноз

In [None]:
df_forecast = pd.DataFrame(forecast_parts)
df_forecast

In [None]:
df_forecast.drop(['icon'], axis=1, inplace=True)
df_forecast['now'] = df_general.iloc[0].name
df_forecast