# Создаем простой ETL на Python
## Обзор решения на Python
В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования конвейера для таких задач.
`ETL`, сокращение от `extract-transform-load`, представляет собой серию процессов, которые включают в себя сбор данных, их обработку и хранение в безопасном и доступном месте. `Конвейеры ETL` (`ETL pipeline`) позволяют упростить эти процессы с максимальной эффективностью и минимальными издержками.
Рассмотрим пошаговую реализацию конвейера ETL с использованием модулей Python.

## Сбор данных (Extract)
В этот момент все "сырые" данные собраны, но вряд ли они пригодны для использования. Преобразуем данные для удобства их использования. Перечислим основные типы преобразований:

- **Очистка данных** Все неиспользуемые записи и переменные должны буть удалены. Очистка данных может осуществляться в виде удаления признаков, отсутствующих значений, дубликатов или статистических выбросов.

- **Переформатирование** Часто данные полученные из разных источников нуждаются в переформатировании. Даже если разные источники содержат одну и ту же информацию, они могут быть в собственных уникальных форматах. Например, два источника могут иметь признак даты, но в разных форматах: day-month-year и month-day-year. Такие данные нуждаются в приведении к единому формату.

- **Извлечение признаков** Новые признаки могут быть созданы на основе информации существующих признаков. В качестве примера можно привести преобразования строки в дату.

- **Агрегация** Данные могут быть агрегированы для получения необходимых показателей (количество клиентов, доход и т.п.).

- **Объединение** Данные из нескольких источников могут быть объединены в один набор данных.

- **Фильтрация** Исключение ненужных категорий из набора данных.

- **Загрузка** После применения всех преобразований набор данных пригоден для анализа, но его необходимо загрузить в хранилище данных для последующего использования. В этой заключительной фазе ETL загружает данные в безопасное и доступное хранилище.

- **Реляционная база данных** Реляционные базы данных являются наиболее популярными для хранения данных. Используя такой подход пользователи могут добавлять или перезаписывать данные в базе данных новыми наборами.

- **Плоские файлы** Пользователи также имеют возможность хранить свои данные в плоских файлах (например, электронных таблицах Excel, текстовых файлах). Эти файлы могут быть загружены в хранилище Big Data, например в HDFS.

## Пример реализации

Рассмотрим ETL процессы на простом примере на Python.

Предположим, нам нужно получить данные о новостных статьях, связанных с COVID-19, для какого-то анализа.

Для достижения этой цели мы напишем программу, которая может:
- собирать данные о новостных статьях о COVID-19, опубликованных на текущую дату,
- преобразовывать данные так, чтобы они были пригодны для использования,
- хранить данные в базе данных.

С помощью этого конвейера мы можем получить информацию обо всех новостных статьях на текущую дату. Запуская программу каждый день, мы получим непрерывный поток данных о новостных статьях COVID-19.

### Загрузка модулей

In [2]:
# Загрузка модулей
import requests
import json
import pandas as pd
#from pandas.io.json import json_normalize
# Ошибка, которую вы видите, связана с тем, что json_normalize был перемещен в другую часть библиотеки Pandas. 
# Начиная с версии 1.0.0, json_normalize теперь находится в pandas.json_normalize. 
from sqlalchemy import create_engine

**Примечание**: этот ноутбук включает извлечение данных с использованием [New York Times Article Search API](https://developer.nytimes.com/docs/articlesearch-product/1/overview). Если вы не знакомы с этим API или с использованием API для сбора данных в целом, ознакомьтесьоой стать [Data Collection With API — For Beginners](https://readmedium.com/data-collection-with-api-for-beginners-52b02e571944)4)мени.

## Шаг 1. Сбор данных

Во-первых, нам нужно получить сырые данные новостных статей о COVID-19, используя API New York Times.

Создадим функцию, которая создает URI, необходимый для выполнения необходимых запросов с API для любого заданного промежутка времени.

In [60]:
def get_URI(query:str, page_num:str, b_date:str, e_date:str, API_KEY:str) -> str:
    """# возвращет URL к статьям для текущего запроса по номеру страницы и дате """
    
    # добавляем запрос к uri
    URI = f'https://api.nytimes.com/svc/search/v2/articlesearch.json?q={query}'
    
    # добавляем номер страницы и дату
    URI = URI + f'&page={page_num}&begin_date={b_date}&end_date={e_date}'
    #&begin_date=20120101&end_date=20121231
    
    # добавляем ключ API
    URI = URI + f'&api-key={API_KEY}'
     
    return URI

Используем эту функцию для получения всех новостных статей, относящихся к COVID-19, которые опубликованы в выбранную дату.
Из-за того, что API предоставляет только 10 статей на запрос, нам нужно делать несколько запросов, пока мы не соберем все данные, которые затем хранятся в датафрейме.

In [111]:
import time
#import datetime
from datetime import datetime, timedelta

# создаем датафрейм для хранения всех записей
df = pd.DataFrame()

# получаем текущую дату
#yesterday_date = (datetime.now() - timedelta(days=1)).strftime('%Y%m%d')
#current_date = datetime.now().strftime('%Y%m%d')

b_date = '20240711'
e_date = '20240811'

# собираем данные со всех доступных страниц
page_num = 1

while True:
    # получаем URI с записями, относящимися к теме спорта на вчера
    URI = get_URI(query='Russia', page_num=str(page_num), b_date=b_date, e_date=e_date, API_KEY=API_KEY)
    
    # делаем запрос по URI
    response = requests.get(URI)
    
    # преобразуем результат в формат JSON
    data = response.json()
    
    # Проверяем наличие поля 'response'
    if 'response' not in data:
        break
    
    # преобразуем данные в фрейм данных
    df_request = pd.json_normalize(data['response'], record_path=['docs'])
    
    # прерываем цикл если отсутствуют новые записи
    if df_request.empty:
        break
    
    # добавляем записи в конец дата фрейма
    df = pd.concat([df, df_request])
    
    # пауза для требования по количеству запросов
    time.sleep(6)
    
    # переходим на следующую страницу
    page_num += 1

In [113]:
print(len(df))
df.head(10)

80


Unnamed: 0,abstract,web_url,snippet,lead_paragraph,source,multimedia,keywords,pub_date,document_type,news_desk,...,headline.content_kicker,headline.print_headline,headline.name,headline.seo,headline.sub,byline.original,byline.person,byline.organization,print_section,print_page
0,"Ilya Yashin, one of the Russian opposition pol...",https://www.nytimes.com/video/world/europe/100...,"Ilya Yashin, one of the Russian opposition pol...","Ilya Yashin, one of the Russian opposition pol...",Reuters,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'persons', 'value': 'Yashin, Ilya', ...",2024-08-02T21:14:57+0000,multimedia,,...,,,,,,By Reuters,[],Reuters,,
1,The Wall Street Journal reporter Evan Gershkov...,https://www.nytimes.com/2024/08/01/world/europ...,The Wall Street Journal reporter Evan Gershkov...,A prisoner swap on Thursday among seven countr...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'United States I...",2024-08-01T20:33:00+0000,article,Foreign,...,,Journalists and Dissidents Freed From Russia i...,,,,By Anton Troianovski and Mark Mazzetti,"[{'firstname': 'Anton', 'middlename': None, 'l...",,A,1.0
2,A couple planted as sleeper spies in Slovenia ...,https://www.nytimes.com/2024/08/04/world/europ...,A couple planted as sleeper spies in Slovenia ...,"Darja Stefancic, a painter in Slovenia known f...",The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'glocations', 'value': 'Russia', 'ra...",2024-08-04T16:59:31+0000,article,Foreign,...,,Sleeper Spies With an Art Gallery and Children,,,,By Andrew Higgins,"[{'firstname': 'Andrew', 'middlename': None, '...",,A,1.0
3,"Gershkovich, a reporter for The Wall Street Jo...",https://www.nytimes.com/2024/08/03/insider/pri...,"Gershkovich, a reporter for The Wall Street Jo...","On Thursday, multiple planes touched down in A...",The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'organizations', 'value': 'New York ...",2024-08-03T13:45:07+0000,article,Insider,...,,A Times Reporter Reflects on the Prisoner Swap,,,,By Emmett Lindner,"[{'firstname': 'Emmett', 'middlename': None, '...",,A,2.0
4,Prosecutors in Ukraine are pursuing cases of s...,https://www.nytimes.com/2024/07/27/world/europ...,Prosecutors in Ukraine are pursuing cases of s...,After Daria fled from her Russian-occupied vil...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'Russian Invasio...",2024-07-27T09:00:30+0000,article,Foreign,...,,The Trauma of Rape By Russians Lingers Behind ...,,,,By Monika Pronczuk and Ada Petriczko,"[{'firstname': 'Monika', 'middlename': None, '...",,A,4.0
5,A report by independent investigators said tha...,https://www.nytimes.com/2024/08/09/us/politics...,A report by independent investigators said tha...,The Russian cruise missile that slammed into a...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'Missiles and Mi...",2024-08-09T20:13:20+0000,article,Washington,...,,Missile That Hit Kyiv Hospital Offers Clues In...,,,,By John Ismay,"[{'firstname': 'John', 'middlename': None, 'la...",,A,8.0
6,"By releasing a convicted assassin, Germany pla...",https://www.nytimes.com/2024/08/02/world/europ...,"By releasing a convicted assassin, Germany pla...",The convicted Russian killer bounded off a pla...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'Political Priso...",2024-08-02T21:43:33+0000,article,Foreign,...,,Chancellor Overcame Opposition to Release Russ...,,,,By Neil MacFarquhar and Christopher F. Schuetze,"[{'firstname': 'Neil', 'middlename': None, 'la...",,A,5.0
7,"Vadim Krasikov, who was returned to Russia in ...",https://www.nytimes.com/2024/08/02/world/europ...,"Vadim Krasikov, who was returned to Russia in ...",The convicted assassin who was the linchpin of...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'Espionage and I...",2024-08-02T13:13:32+0000,article,Foreign,...,,Value to Putin of a ‘Hero’ Assassin Made Clear,,,,By Ivan Nechepurenko,"[{'firstname': 'Ivan', 'middlename': None, 'la...",,A,5.0
8,Hundreds of prisoners — including Americans an...,https://www.nytimes.com/2024/08/02/world/europ...,Hundreds of prisoners — including Americans an...,For the 16 people released from Russian captiv...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'Political Priso...",2024-08-02T09:04:56+0000,article,Foreign,...,,"Left Behind, And Hoping For Release",,,,By Ivan Nechepurenko,"[{'firstname': 'Ivan', 'middlename': None, 'la...",,A,7.0
9,The dissident Ilya Yashin calls his release in...,https://www.nytimes.com/2024/08/05/world/europ...,The dissident Ilya Yashin calls his release in...,Escaping the brutal Russian penal system would...,The New York Times,"[{'rank': 0, 'subtype': 'xlarge', 'caption': N...","[{'name': 'subject', 'value': 'Politics and Go...",2024-08-05T13:16:00+0000,article,Foreign,...,,Released Dissident Worries He Will No Longer B...,,,,By Valerie Hopkins,"[{'firstname': 'Valerie', 'middlename': None, ...",,A,9.0


Выводим список признаков в наборе данных.

In [114]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 80 entries, 0 to 9
Data columns (total 28 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   abstract                 80 non-null     object
 1   web_url                  80 non-null     object
 2   snippet                  80 non-null     object
 3   lead_paragraph           80 non-null     object
 4   source                   80 non-null     object
 5   multimedia               80 non-null     object
 6   keywords                 80 non-null     object
 7   pub_date                 80 non-null     object
 8   document_type            80 non-null     object
 9   news_desk                80 non-null     object
 10  section_name             80 non-null     object
 11  subsection_name          67 non-null     object
 12  type_of_material         80 non-null     object
 13  _id                      80 non-null     object
 14  word_count               80 non-null     int64 
 1

## Шаг 2. Преобразование
Убедимся, что данные обрабатываются так, чтобы их можно было использовать.

Из доступных признаков требуются только заголовок новостной статьи, URL-адрес, дата публикации и автор. Кроме того, собранные статьи должны быть беспристрастными и объективными, а это означает, что Op-ed статьи нежелательны.
Для такого сценария идеальными преобразованиями являются очистка и фильтрация данных. Все записи с отсутствующими заголовками, а также любые дубликаты должны быть удалены. Далее, поскольку мы ищем объективные статьи, все op-ed статьи должны быть отфильтрованы из набора данных. Наконец, любые нерелевантные записи должны быть уделены.

In [115]:
# ищем дубликаты и удаляем их
if len(df['_id'].unique()) < len(df):
    print('There are duplicates in the data')
    df = df.drop_duplicates('_id', keep='first')

# ищем и удаляем записи без заголовков 
if df['headline.main'].isnull().any():
    print('There are missing values in this dataset')
    df = df[df['headlinee.main'].isnull()==False]

# фильтруем op-ed статьи
df = df[df['type_of_material']!='op-ed']

# оставляем только поля headline, publication_date, author name и url
df = df[['headline.main', 'pub_date', 'byline.original', 'web_url']]

# переименовываем колонки columns
df.columns = ['headline', 'date', 'author', 'url']

Просмотрим полученный набор данных

In [116]:
print(len(df))
df.head(10)

80


Unnamed: 0,headline,date,author,url
0,"‘My Goal Is to Return to Russia,’ Dissident in...",2024-08-02T21:14:57+0000,By Reuters,https://www.nytimes.com/video/world/europe/100...
1,Major Inmate Swap Frees Dissidents and U.S. Jo...,2024-08-01T20:33:00+0000,By Anton Troianovski and Mark Mazzetti,https://www.nytimes.com/2024/08/01/world/europ...
2,How Two Russian Spies Went Deep Undercover Wit...,2024-08-04T16:59:31+0000,By Andrew Higgins,https://www.nytimes.com/2024/08/04/world/europ...
3,A Times Russia Reporter Reflects on Evan Gersh...,2024-08-03T13:45:07+0000,By Emmett Lindner,https://www.nytimes.com/2024/08/03/insider/pri...
4,‘No One to Talk To’: The Lingering Trauma of R...,2024-07-27T09:00:30+0000,By Monika Pronczuk and Ada Petriczko,https://www.nytimes.com/2024/07/27/world/europ...
5,Evidence Shows ‘Hand to Mouth’ Production of R...,2024-08-09T20:13:20+0000,By John Ismay,https://www.nytimes.com/2024/08/09/us/politics...
6,Germany Grapples With ‘Difficult Decision’ in ...,2024-08-02T21:43:33+0000,By Neil MacFarquhar and Christopher F. Schuetze,https://www.nytimes.com/2024/08/02/world/europ...
7,Convicted Assassin Is a Russian Security Agent...,2024-08-02T13:13:32+0000,By Ivan Nechepurenko,https://www.nytimes.com/2024/08/02/world/europ...
8,Russia Released 16 Prisoners. Hundreds of Othe...,2024-08-02T09:04:56+0000,By Ivan Nechepurenko,https://www.nytimes.com/2024/08/02/world/europ...
9,He Was Freed From a Brutal Russian Jail. Here’...,2024-08-05T13:16:00+0000,By Valerie Hopkins,https://www.nytimes.com/2024/08/05/world/europ...


## Шаг 3. Загрузка
Данные представлены в необходимом формате и могут быть загружены в реляционную базу данных, например PostgreSQL. Для этого используем механизмы отображения объектов (ORM) из модуля SQLAlchemy.

In [120]:
#{'host': 'localhost', 'port': '5433', 'database': 'testdb', 'user': 'postgres', 'password': '123'}
username = 'postgres'
password = '123'
database = 'testdb'
# создаем объект engine для БД
database_loc = f"postgresql://{username}:{password}@localhost:5433/{database}"
engine = create_engine(database_loc)

# Добавляем данные в БД
#df_test.to_sql(name='news_articles', con=engine, index=False, if_exists='append')
df.to_sql(name='news_articles', con=engine, index=False, if_exists='append')

80

Мы используем подключение к уже существующей базе данных, используя данный подход мы сохранили данные в таблицу с названием "news_articles". Если таблица уже создана, то данные будут добавлены в конец таблицы, в противном случае данные будут перезаписаны. Такой подход позволяет сохранить данные, загруженные ранее.
Сейчас данные загружены в указанное расположение и могут быть доступны через SQL запрос.

In [129]:
from sqlalchemy import create_engine, text

username = 'postgres'
password = '123'
database = 'testdb'
# создаем объект engine для БД
database_loc = f"postgresql://{username}:{password}@localhost:5433/{database}"
engine = create_engine(database_loc)

# Выполнение SQL-запроса
with engine.connect() as connection:
    sql_query = text("SELECT * FROM news_articles LIMIT 5;")
    # Используем pandas для чтения SQL-запроса в DataFrame
    results = pd.read_sql(sql_query, connection)
results.head()

Unnamed: 0,headline,date,author,url
0,"‘My Goal Is to Return to Russia,’ Dissident in...",2024-08-02T21:14:57+0000,By Reuters,https://www.nytimes.com/video/world/europe/100...
1,Major Inmate Swap Frees Dissidents and U.S. Jo...,2024-08-01T20:33:00+0000,By Anton Troianovski and Mark Mazzetti,https://www.nytimes.com/2024/08/01/world/europ...
2,How Two Russian Spies Went Deep Undercover Wit...,2024-08-04T16:59:31+0000,By Andrew Higgins,https://www.nytimes.com/2024/08/04/world/europ...
3,A Times Russia Reporter Reflects on Evan Gersh...,2024-08-03T13:45:07+0000,By Emmett Lindner,https://www.nytimes.com/2024/08/03/insider/pri...
4,‘No One to Talk To’: The Lingering Trauma of R...,2024-07-27T09:00:30+0000,By Monika Pronczuk and Ada Petriczko,https://www.nytimes.com/2024/07/27/world/europ...


Используя несколько модулей мы построили простой конвейер ETL который:

- собирает данные с помощью API,
- обрабатывает и очищает информацию,
- сохраняет преобразованную информацию в базе данных для дальнейшего использования.

В целом, код будет обрабатывать все новостные статьи, связанные с темой `Россия`, опубликованные на заданные даты.

## Дополнительные инструменты

Хотя демонстрация показала, что ETL можно выполнять с помощью простой программы, конвейеры данных для реальных бизнес-кейсов более сложны и часто требуют включения других инструментов и технологий.

### Облачные платформы

В примере преобразованные данные хранятся на локальной машине. Однако, когда задействованы большие объемы данных, хранение данных локально нецелесообразно. Таким образом, довольно часто используются облачные платформы (AWS, GCP, Яндекс Облако) для хранения данных.

### Фреймворки Big data

При работе с большими данными конвейерам ETL может потребоваться использования крупномасштабных платформ обработки данных (например, Apache Spark), которые ускорят операции используя параллельную обработку.

### Планировщики заданий

Процесс ETL редко бывает одноразовой работой, возможно, потребуется периодически собирать данные, чтобы они оставались актуальными. Предполагая, что вы не робот, который никогда не болеет и работает 24/7, вам может потребоваться использовать планировщик заданий (например, Apache Airflow) для автоматизации рабочих процессов ETL.