# USDA (данные Минсельхоза США)

Данные прогноза производства, предложения и распределения мировых сельскохозяйственных товаров (PSDF)

https://apps.fas.usda.gov/psdonline/app/index.html#/app/home

Подготовлено: Дмитрий Ходыкин, dmitriy_hodikin (skype)

## Описание API [метод GET]

In [35]:
# Основной URL для запросов к API

url = 'https://apps.fas.usda.gov/OpenData'

`/api/psd/commodity/{commodityCode}/dataReleaseDates`

Возвращает набор записей с номером прогноза для данного товарного кода (например, 0440000 для кукурузы) и заданного рыночного года (например, 2017) для всех применимых стран. База данных PSD содержит данные по большинству товаров с 1960 года. См. Конечную точку по сырьевым товарам, чтобы получить список всех сырьевых товаров PSD с соответствующим кодом товара

`/api/psd/commodity/{commodityCode}/country/{countryCode}/year/{marketYear}`

Возвращает набор записей с номером прогноза для данного товарного кода (например, 0440000 для кукурузы) и заданного рыночного года (например, 2017) для данной страны (например, BR для Бразилии). База данных PSD содержит данные по большинству товаров с 1960 года. Пожалуйста, см. ендпоинт Commodities, чтобы получить список всех сырьевых товаров PSD с соответствующим кодом товара, и эндпоинт Countries для списка всех стран с соответствующим кодом страны

`/api/psd/commodity/{commodityCode}/world/year/{marketYear}`

Возвращает набор записей с номером прогноза для данного товарного кода (например, 0440000 для кукурузы) и заданного рыночного года (например, 2017) для всего мира. Данные из всех применимых стран объединяются вместе для отчетности на мировом уровне. База данных PSD содержит данные по большинству товаров с 1960 года. См. ендпоинт Commodities, чтобы получить список всех сырьевых товаров PSD с соответствующим кодом товара

`/api/psd/regions`

Возвращает набор записей с данными для регионов, классифицированных в системе PSD. Эти данные могут использоваться для сопоставления названия региона на основе кода региона в данных, возвращаемых эндпоинтом Countries

`/api/psd/countries`

Возвращает набор записей с данными для стран и соответствующего кода региона, к которому принадлежит страна. Эти данные можно использовать для сопоставления названия страны на основе кода страны в данных, возвращаемых другими эндпоинтами, возвращающими прогнозы на сырьевые товары

`/api/psd/commodities`

Возвращает набор записей с данными для товаров с соответствующим кодом товара. Эти данные могут использоваться для корреляции названия товара на основе кода товара в данных, возвращаемых другими эндпоинтами, возвращающими прогнозы товаров

`/api/psd/unitsOfMeasure`

Возвращает набор записей с данными для единиц измерения с соответствующим идентификатором единиц измерения. Эти данные можно использовать для корреляции названия единицы измерения на основе идентификатора в данных, возвращаемых другими эндпоинтами, возвращающими прогнозы на сырьевые товары

`/api/psd/commodityAttributes`

Возвращает набор записей с данными для имен атрибутов товаров с соответствующим идентификатором атрибута. Эти данные могут быть использованы для корреляции имени атрибута на основе идентификатора в данных, возвращаемых другими эндпоинтами, возвращающими товарные прогнозы. База данных PSD отслеживает цифры прогнозов по товарам по множеству атрибутов, широко классифицированных по категориям «Производство», «Предложение» и «Распределение»

## Пространство имен

In [52]:
# Импорты

# Базы данных
import psycopg2 as psql

## Данные авторизации
from auth import auth

## Дата-время
from datetime import datetime

## HTTP-запросы
import requests

## Структуры данных
import json
import pandas as pd

## Выгрузка данных

In [3]:
# Доступ к API (api_key доступен после регистрации на портале)
# https://apps.fas.usda.gov/opendataweb/home

api_key = auth.usda_key

In [4]:
# Заголовки HTTP-запроса

headers = {
    'Accept': 'application/json',
    'API_KEY': api_key
}

### Таблицы справочников (ts)

In [5]:
# Справочник регионов

url_regions = f'{url}/api/psd/regions'
req_reg = requests.get(url_regions, headers=headers)
regions = json.loads(req_reg.text)

In [49]:
regions_ts = pd.DataFrame(regions)
regions_ts.head()

Unnamed: 0,regionCode,regionName
0,R00,World
1,R01,North America
2,R02,Caribbean
3,R03,Central America
4,R04,South America


In [7]:
# Справочник стран

url_countries = f'{url}/api/psd/countries'
req_countries = requests.get(url_countries, headers=headers)
countries = json.loads(req_countries.text)

In [8]:
countries_ts = pd.DataFrame(countries)
countries_ts.head()

Unnamed: 0,countryCode,countryName,regionCode,gencCode
0,AF,Afghanistan,R12,AFG
1,T3,"Africa, NEC",R15,
2,AL,Albania,R16,ALB
3,AG,Algeria,R10,DZA
4,AO,Angola,R11,AGO


In [9]:
countries_ts['countryName'].values

array(['Afghanistan', 'Africa, NEC', 'Albania', 'Algeria', 'Angola',
       'Anguilla', 'Antigua and Barbuda', 'Argentina', 'Armenia', 'Aruba',
       'Australia', 'Austria', 'Azerbaijan', 'Azores', 'Bahamas, The',
       'Bahrain', 'Bangladesh', 'Barbados', 'Belarus',
       'Belgium (without Luxembourg)', 'Belgium-Luxembourg', 'Belize',
       'Benin', 'Bermuda', 'Bhutan', 'Bolivia', 'Bosnia and Herzegovina',
       'Botswana', 'Brazil', 'British Ind. Ocean Territory',
       'British Virgin Islands', 'British West Pacific Islands', 'Brunei',
       'Bulgaria', 'Burkina', 'Burma', 'Burundi', 'Cabo Verde',
       'Cambodia', 'Cameroon', 'Canada', 'Canary Islands',
       'Canton and Enderbury Islands', 'Caribbean Basin',
       'Cayman Islands', 'Central African Republic', 'Chad', 'Chile',
       'China', 'Colombia', 'Comoros', 'Congo (Brazzaville)',
       'Congo (Kinshasa)', 'Costa Rica', "Cote d'Ivoire", 'Croatia',
       'Cuba', 'Cyprus', 'Czech Republic', 'Denmark', 'Djibouti',
 

In [28]:
# Подмножество требуемых для анализа стран

countries_small_ts = countries_ts.loc[countries_ts['countryName'].isin(
    [
        'Indonesia',
        'Malaysia',
        'Russia',
        'Kazakhstan',
        'Egypt',
        'Uzbekistan',
        'Azerbaijan',
        'Georgia',
        'Mongolia',
        'Serbia',
        'European Union',
        'China'
    ])
]

countries_small_ts

Unnamed: 0,countryCode,countryName,regionCode,gencCode
12,AJ,Azerbaijan,R07,AZE
48,CH,China,R18,CHN
64,EG,Egypt,R10,EGY
73,E4,European Union,R05,
91,GG,Georgia,R07,GEO
113,ID,Indonesia,R17,IDN
122,KZ,Kazakhstan,R07,KAZ
142,MY,Malaysia,R17,MYS
152,MG,Mongolia,R18,MNG
184,RS,Russia,R07,RUS


In [12]:
# Идентификаторы единиц измерения

url_measures = f'{url}/api/psd/unitsOfMeasure'
req_measures = requests.get(url_measures, headers=headers)
measures = json.loads(req_measures.text)

In [13]:
measures_ts = pd.DataFrame(measures)
measures_ts.head()

Unnamed: 0,unitId,unitDescription
0,1,(1000 BUSHES)
1,2,(1000 60 KG BAGS)
2,3,(1000 COLONIES)
3,4,(1000 HA)
4,5,(1000 HEAD)


In [14]:
# Идентификаторы атрибутов

url_attrs = f'{url}/api/psd/commodityAttributes'
req_attrs = requests.get(url_attrs, headers=headers)
attrs = json.loads(req_attrs.text)

In [15]:
attrs_ts = pd.DataFrame(attrs)
attrs_ts.head()

Unnamed: 0,attributeId,attributeName
0,1,Area Planted
1,4,Area Harvested
2,5,Catch For Reduction
3,6,Cows In Milk
4,7,Crush


In [16]:
attrs_ts['attributeName'].values

array(['Area Planted', 'Area Harvested', 'Catch For Reduction',
       'Cows In Milk', 'Crush', 'Total Grape Crush',
       'Deliv. To Processors', 'Total Trees', 'Bearing Trees',
       'Non-Bearing Trees', 'Beginning Stocks', 'Sow Beginning Stocks',
       'Dairy Cows Beg. Stocks', 'Begin Stock (Ctrl App)',
       'Beef Cows Beg. Stocks', 'Begin Stock (Other)', 'Production',
       'Arabica Production', 'Beet Sugar Production',
       'Commercial Production', 'Cows Milk Production',
       'Farm Sales Weight Prod', 'Filter Production',
       'Prod. from Wine Grapes', 'Cane Sugar Production',
       'Non-Comm. Production', 'Non-Filter Production',
       'Other Milk Production', 'Prod. from Tabl Grapes',
       'Robusta Production', 'Rough Production', 'Other Production',
       'Imports', 'Bean Imports', 'Intra-EU Imports', 'MY Imp. from U.S.',
       'Raw Imports', 'U.S. Leaf Imports', 'MY Imp. from EU',
       'Other Imports', 'Refined Imp.(Raw Val)', 'Roast & Ground Imports',
   

In [17]:
# Справочник товаров

url_commodities = f'{url}/api/psd/commodities'
req_commodities = requests.get(url_commodities, headers=headers)
commodities = json.loads(req_commodities.text)

In [18]:
commodities_ts = pd.DataFrame(commodities)
commodities_ts.head()

Unnamed: 0,commodityCode,commodityName
0,577400,"Almonds, Shelled Basis"
1,11000,"Animal Numbers, Cattle"
2,13000,"Animal Numbers, Swine"
3,574000,"Apples, Fresh"
4,430000,Barley


In [19]:
commodities_ts['commodityName'].values

array(['Almonds, Shelled Basis', 'Animal Numbers, Cattle',
       'Animal Numbers, Swine', 'Apples, Fresh', 'Barley',
       'Cherries (Sweet&Sour), Fresh', 'Coffee, Green', 'Corn', 'Cotton',
       'Dairy, Butter', 'Dairy, Cheese', 'Dairy, Dry Whole Milk Powder',
       'Dairy, Milk, Fluid', 'Dairy, Milk, Nonfat Dry',
       'Grapefruit, Fresh', 'Grapes, Fresh Table', 'Lemons/Limes, Fresh',
       'Meal, Copra', 'Meal, Cottonseed', 'Meal, Fish',
       'Meal, Palm Kernel', 'Meal, Peanut', 'Meal, Rapeseed',
       'Meal, Soybean', 'Meal, Soybean (Local)', 'Meal, Sunflowerseed',
       'Meat, Beef and Veal', 'Meat, Chicken', 'Meat, Swine', 'Millet',
       'Mixed Grain', 'Oats', 'Oil, Coconut', 'Oil, Cottonseed',
       'Oil, Olive', 'Oil, Palm', 'Oil, Palm Kernel', 'Oil, Peanut',
       'Oil, Rapeseed', 'Oil, Soybean', 'Oil, Soybean (Local)',
       'Oil, Sunflowerseed', 'Oilseed, Copra', 'Oilseed, Cottonseed',
       'Oilseed, Palm Kernel', 'Oilseed, Peanut', 'Oilseed, Rapeseed',
    

In [20]:
commodities_small_ts = commodities_ts.loc[commodities_ts['commodityName'].isin(
    [
        'Oil, Palm',
        'Oil, Coconut',
        'Oil, Palm Kernel',
        'Oil, Rapeseed',
        'Oil, Soybean',
        'Oil, Sunflowerseed'
    ])
]

In [21]:
commodities_small_ts

Unnamed: 0,commodityCode,commodityName
32,4242000,"Oil, Coconut"
35,4243000,"Oil, Palm"
36,4244000,"Oil, Palm Kernel"
38,4239100,"Oil, Rapeseed"
39,4232000,"Oil, Soybean"
41,4236000,"Oil, Sunflowerseed"


### Таблицы фактов (tf)

In [23]:
# Данные о периодах релизов прогнозов

url_releases = f'{url}/api/psd/commodity/{4243000}/dataReleaseDates'
req_releases = requests.get(url_releases, headers=headers)
releases = json.loads(req_releases.text)

In [24]:
releases_tf = pd.DataFrame(releases)
releases_tf.head()

Unnamed: 0,commodityCode,countryCode,marketYear,releaseYear,releaseMonth
0,4243000,AO,1964,2006,6
1,4243000,BE,1964,2006,6
2,4243000,BR,1964,2006,6
3,4243000,CA,1964,2006,6
4,4243000,CG,1964,2006,6


In [25]:
# Период отчетности, лет

period = [i for i in range(2015, (datetime.now().year) + 1)]
print(period)

[2015, 2016, 2017, 2018, 2019, 2020]


In [29]:
# Таблица фактов в разрезе стран

bycountry_tf = pd.DataFrame(columns=['commodityCode',
                                    'countryCode',
                                    'marketYear',
                                    'calendarYear',
                                    'month',
                                    'attributeId',
                                    'unitId',
                                    'value'])

# Итерирование по полному списку стран и требуемому списку товаров
commodities_codes_list = commodities_small_ts['commodityCode'].values
countries_codes_list = countries_ts['countryCode'].values

for cmd in commodities_codes_list:
    for ctr in countries_codes_list:
        for yr in period:
            url_bycountry_tf = f'{url}/api/psd/commodity/{cmd}/country/{ctr}/year/{yr}'
            req_bycountry_tf = requests.get(url_bycountry_tf, headers=headers)
            bycountry = json.loads(req_bycountry_tf.text)
            bycountry_tf = bycountry_tf.append(bycountry)

In [38]:
bycountry_tf.head()

Unnamed: 0,commodityCode,countryCode,marketYear,calendarYear,month,attributeId,unitId,value
0,4242000,AS,2015,2018,5,7,8,0.0
1,4242000,AS,2015,2018,5,181,23,0.0
2,4242000,AS,2015,2018,5,20,8,0.0
3,4242000,AS,2015,2018,5,28,8,0.0
4,4242000,AS,2015,2018,5,57,8,12.0


In [39]:
bycountry_tf.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36900 entries, 0 to 19
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   commodityCode  36900 non-null  object 
 1   countryCode    36900 non-null  object 
 2   marketYear     36900 non-null  object 
 3   calendarYear   36900 non-null  object 
 4   month          36900 non-null  object 
 5   attributeId    36900 non-null  object 
 6   unitId         36900 non-null  object 
 7   value          36900 non-null  float64
dtypes: float64(1), object(7)
memory usage: 2.5+ MB


## Аналитические таблицы

In [43]:
# bycountry_tf + commodityName + countryName + attributeName + unitDescription

bycountry_trf = bycountry_tf.merge(
    # Таблицы справочников
    commodities_ts,
    how='inner',
    on=['commodityCode',
        'commodityCode']
).merge(
    countries_ts,
    how='inner',
    on=['countryCode',
        'countryCode']
).merge(
    attrs_ts,
    how='inner',
    on=['attributeId',
        'attributeId']
).merge(
    measures_ts,
    how='inner',
    on=['unitId',
        'unitId']
).merge(
    regions_ts,
    how='inner',
    on=['regionCode',
        'regionCode']
)

In [44]:
# Удалим лишние столбцы с кодами

bycountry_trf = bycountry_trf.drop(['commodityCode',
                                   'countryCode',
                                   'attributeId',
                                   'unitId',
                                   'regionCode',
                                   'gencCode'],
                                   axis=1)

In [45]:
# Оставим в таблице только строки с значениями > 0
bycountry_trf = bycountry_trf[bycountry_trf['value'] > 0]

In [46]:
bycountry_trf

Unnamed: 0,marketYear,calendarYear,month,value,commodityName,countryName,attributeName,unitDescription,regionName
6,2015,2020,02,770.0000,"Oil, Rapeseed",Australia,Crush,(1000 MT),Oceania
7,2016,2020,02,800.0000,"Oil, Rapeseed",Australia,Crush,(1000 MT),Oceania
8,2017,2020,02,800.0000,"Oil, Rapeseed",Australia,Crush,(1000 MT),Oceania
9,2018,2020,05,800.0000,"Oil, Rapeseed",Australia,Crush,(1000 MT),Oceania
10,2019,2020,05,800.0000,"Oil, Rapeseed",Australia,Crush,(1000 MT),Oceania
...,...,...,...,...,...,...,...,...,...
36757,2016,2019,02,3.7857,"Oil, Palm",Dominican Republic,Yield,(MT/HA),Caribbean
36758,2017,2020,03,3.7857,"Oil, Palm",Dominican Republic,Yield,(MT/HA),Caribbean
36759,2018,2020,03,3.7857,"Oil, Palm",Dominican Republic,Yield,(MT/HA),Caribbean
36760,2019,2020,05,3.7857,"Oil, Palm",Dominican Republic,Yield,(MT/HA),Caribbean


In [47]:
# Количество строк сократилось ~ в 2 раза

## Сохранение полученных данных в базу

In [53]:
# Работа с БД

def insert_into_db(data):
    """Вставляет переданные в функцию данные в БД"""

    # Авторизация в базе данных
    conn = psql.connect(
        dbname=auth.psql_db,
        user=auth.psql_user,
        password=auth.psql_passwd,
        host='localhost'
    )

    cursor = conn.cursor()
    print('Создано подключение к БД:', auth.psql_db)
    print('Выполнение запроса...')    

    for index, row in data.iterrows():
        values = (
            row['marketYear'], 
            row['calendarYear'], 
            row['month'],
            row['value'], 
            row['commodityName'], 
            row['countryName'], 
            row['attributeName'], 
            row['unitDescription'],
            row['regionName']
        )

        cursor.execute(
            """
            INSERT INTO 
            usdapsdf (marketYear, calendarYear, monthNum, amount, commodityName, 
                        countryName, attributeName, unitDescription, regionName) 
            VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)
            """, values
        )

    print('Применение изменений...')
    conn.commit()

    cursor.close()
    print('Подключение к БД завершено')

    conn.close()
    print('Соединение с БД закрыто')

In [54]:
insert_into_db(bycountry_trf)

Создано подключение к БД: etl
Выполнение запроса...
Применение изменений...
Подключение к БД завершено
Соединение с БД закрыто
