In [1]:
import pandas as pd
import requests
from tqdm.notebook import trange, tqdm
import math
import random
import time
import os
import shutil

In [2]:
imena = {'I':'budetinetakoe', 'N':'anastasiiamerkulova'}
# имя и аккаунт

In [3]:
def get_obs_to_df(ima, I_ids):
    
    # принимает имена и загружает наблюдения в датасет со столбцами: 'ima','taxon_id', 'obs_id','date','scientific_name', 'english_common_name', 'common_name','uri', 'photos'
    # также принимает список таксонов I_ids, которые нужно загружать с сервера (во избежание загрузки "ненужных" таксонов)
    # возвращает датасет pandas

    page = 1
    pages = 99
    per_page = 200
    url = 'https://api.inaturalist.org/v1/observations?'

    df = pd.DataFrame(columns=['ima','taxon_id', 'obs_id','date','scientific_name', 'english_common_name', 'common_name','uri', 'photos'])
    row_number = 1

    while page <= pages:
        params = {'photos' : 'true',
            'user_login' : ima,
            'quality_grade' : 'research',
            'locale' : 'ru',
            'taxon_id' : I_ids,
            'hrank' : 'species',
            'lrank' : 'form',
            'page' : page,
            'per_page' : per_page}
        response = requests.get(url=url, params=params)
        print(f'Статус: {response.status_code}, на страницу: {per_page}, страница: {page}, всего страниц: {pages}  \n', end='\r')
        json_response = response.json()
        results = json_response['results']
        total_results = json_response['total_results']
        pages = math.ceil(total_results/per_page)

        for i in range(1, len(results)+1):
            obs = results[i-1]
            obs_id = obs['id']
            date = obs['observed_on_details']['date']
            scientific_name = obs['taxon']['name']
            taxon_id = obs['taxon']['id']
            
            try:
                common_name = obs['taxon']['preferred_common_name']
            except:
                common_name = ''
            try:
                english_common_name = json_response['results'][i-1]['taxon']['english_common_name'].capitalize()
            except:
                english_common_name = ''
            uri = obs['uri']

            photos = list()
            for n in range(1, len(json_response['results'][i-1]['photos'])+1):
                photos.append(json_response['results'][i-1]['photos'][n-1]['url'])

            df.loc[row_number] = [ima, taxon_id, obs_id, date, scientific_name, english_common_name, common_name, uri, photos]
            row_number += 1
            
        page += 1
        time.sleep(1)
        
    return df

In [4]:
def get_obs_unique(df):
    
    # оставляет в датасете только одно случайное наблюдение каждого scientific_name
    # возвращает этот же датасет, с уменьшенным количеством строк

    df = df.sample(frac=1).drop_duplicates(subset='taxon_id')
    
    return df

In [5]:
def get_common_obs(df_I, df_N):
    # берёт два датасета и делает из них один, оставляя только совпадающие taxon_id
    # возвращает объединённый датасет

    df = df_I.merge(right=df_N, how='inner',on='taxon_id')

    return df

In [6]:
def get_structure(df_common_obs):
    # берёт общий датасет, идёт по scientific_name и для каждого:
        # создаёт папку с именем scientific_name
        # создаёт в scientific_name подпапки I, N
        # в scientific_name создаёт info.txt
        # в подпапки загружает фотографии 1.jpg, 2.jpg и тд
        # возвращает True если всё ок (это не используется)

        
    for s_name in tqdm(df_I_N['scientific_name_x']):

        current_row = df_I_N[df_I_N['scientific_name_x']==s_name]
        parent_dir = '/home/eva/git/iNat/iNat/'
        current_dir = parent_dir + '/' + s_name
        os.mkdir(current_dir)
        I_dir = current_dir+'/I'
        N_dir = current_dir+'/N'
        os.mkdir(I_dir)
        os.mkdir(N_dir)

        with open(current_dir+'/info.txt','w') as fi:
            
            uri_I = current_row['uri_x'].item()
            uri_N = current_row['uri_y'].item()
            scientific_name = current_row['scientific_name_x'].item()
            english_common_name = current_row['english_common_name_x'].item()
            common_name = current_row['common_name_x'].item()
            string_info = f'Научное название: {scientific_name}\n' + \
                f'Общее название: {common_name} \n' + \
                f'Общее название (англ.): {english_common_name}\n' + \
                f'URI I:\n{uri_I}\n' + \
                f'URI N:\n{uri_N}'

            fi.write(string_info)

        for suffix, name_dir in (('_x', I_dir),('_y', N_dir)):
            for i in range(len(current_row['photos'+suffix].item())):

                photo_url = current_row['photos'+suffix].item()[i]
                photo_url = photo_url.replace('square','original')
                photo_name = str(i+1) + '.jpg'
                file_path =  name_dir + '/' + photo_name
                r = requests.get(url=photo_url, stream=True)

                if r.status_code == 200:
                    with open(file_path, 'wb') as f:
                        r.raw.decode_content = True
                        shutil.copyfileobj(r.raw, f)

    return True

In [7]:
def rename(df_common_obs):
    # берёт список папок и переименовывает их случайным образом в 001, 002 и тд
    # возвращает True если всё ок (это не используется)
    # закоменченные строки с numbers_strong используются чтобы переименовать уже переименованные папки (из 001 в другое случайное число, например, 098)

    numbers = list(range(1,len(df_I_N['scientific_name_x'])+1))
    numbers_strong = numbers.copy()
    random.shuffle(numbers)
    parent_dir = '/home/eva/git/iNat/iNat'

    for s_name, new_name in zip(df_I_N['scientific_name_x'], numbers):
    # for strong_number, new_name in zip(numbers_strong, numbers):
        src = parent_dir + '/' + s_name
        # src = parent_dir + '/' + str(strong_number).zfill(3)
        dst = parent_dir + '/' + str(new_name).zfill(3)
        # dst = parent_dir + '/_' + str(new_name).zfill(3)
        os.rename(src, dst)

    print(f'Всего директорий: {len(numbers)} \n')

    return True

In [8]:
df_I = get_obs_unique(get_obs_to_df(ima=imena['I'], I_ids=''))

I_ids = ','.join(df_I.taxon_id.astype('string'))

print(f'Датасет df_I: {len(df_I)} шт.')


df_N = get_obs_unique(get_obs_to_df(ima=imena['N'], I_ids=I_ids))

print(f'Датасет df_N: {len(df_N)} шт.')

df_I_N = get_common_obs(df_I, df_N)

print(f'Датасет df_I_N: {len(df_I_N)} шт.')

get_structure(df_I_N)

Статус: 200, на страницу: 200, страница: 1, всего страниц: 99  
Статус: 200, на страницу: 200, страница: 2, всего страниц: 2  
Список I_ids: 1453 шт. 

Статус: 200, на страницу: 200, страница: 1, всего страниц: 99  
Статус: 200, на страницу: 200, страница: 2, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 3, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 4, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 5, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 6, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 7, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 8, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 9, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 10, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 11, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 12, всего страниц: 17  
Статус: 200, на страницу: 200, страница: 13, всего страниц: 17  
Статус: 200,

  0%|          | 0/214 [00:00<?, ?it/s]

True

In [9]:
rename(df_I_N)

Всего директорий: 214 



True