In [1]:
import os
import pandas as pd

In [2]:
# Путь к папке с файлами .csv
folder_path = 'source/observations'
file_list = os.listdir(folder_path)
combined_df = pd.DataFrame()

for file in file_list:
    if file.endswith('.csv'):
        file_path = os.path.join(folder_path, file)
        df = pd.read_csv(file_path)
        combined_df = pd.concat([combined_df, df], ignore_index=True)

In [3]:
combined_df.head()

Unnamed: 0,id,image_url,species_guess,scientific_name,common_name,iconic_taxon_name,taxon_id
0,2258,https://static.inaturalist.org/photos/2865/med...,Great Horned Owl,Bubo virginianus,Виргинский филин,Aves,20044
1,118491,https://inaturalist-open-data.s3.amazonaws.com...,Great Horned Owl,Bubo virginianus,Виргинский филин,Aves,20044
2,147887,https://inaturalist-open-data.s3.amazonaws.com...,Great Horned Owl,Bubo virginianus,Виргинский филин,Aves,20044
3,227926,https://static.inaturalist.org/photos/286876/m...,Great Horned Owl,Bubo virginianus,Виргинский филин,Aves,20044
4,551472,https://inaturalist-open-data.s3.amazonaws.com...,Great Horned Owl,Bubo virginianus,Виргинский филин,Aves,20044


In [4]:
combined_df.shape

(4682, 7)

In [5]:
selected_columns = ['id', 'image_url', 'common_name']
filtered_df = combined_df[selected_columns].dropna().reset_index(drop=True).copy()
filtered_df['id'] = filtered_df.index
class_mapping = {
    'Виргинский филин': 'Virginia',
    'Кроличий сыч': 'Rabbit',
    'Обыкновенная сипуха': 'Common_Scops'
}
filtered_df['common_name'] = filtered_df['common_name'].map(class_mapping)
filtered_df

Unnamed: 0,id,image_url,common_name
0,0,https://static.inaturalist.org/photos/2865/med...,Virginia
1,1,https://inaturalist-open-data.s3.amazonaws.com...,Virginia
2,2,https://inaturalist-open-data.s3.amazonaws.com...,Virginia
3,3,https://static.inaturalist.org/photos/286876/m...,Virginia
4,4,https://inaturalist-open-data.s3.amazonaws.com...,Virginia
...,...,...,...
4430,4430,https://inaturalist-open-data.s3.amazonaws.com...,Rabbit
4431,4431,https://inaturalist-open-data.s3.amazonaws.com...,Rabbit
4432,4432,https://inaturalist-open-data.s3.amazonaws.com...,Rabbit
4433,4433,https://static.inaturalist.org/photos/34034742...,Rabbit


In [6]:
output_file_path = 'source/filtered_data.csv'
filtered_df.to_csv(output_file_path, index=False)
print(f"Данные сохранены в файл: {output_file_path}")

Данные сохранены в файл: source/filtered_data.csv


In [7]:
import os
import requests

image_folder_path = {}
for class_ in filtered_df['common_name'].unique():
    image_folder_path[class_] = 'source/images/'+class_
    os.makedirs(image_folder_path[class_], exist_ok=True)

for index, row in filtered_df.iterrows():
    image_index = row['id']
    image_url = row['image_url']
    image_class = row['common_name']
    image_path = os.path.join(image_folder_path[image_class], f'{image_index}.jpg')

    if not os.path.exists(image_path):
        response = requests.get(image_url)
        with open(image_path, 'wb') as f:
            f.write(response.content)

        print(f"Изображение {image_index} сохранено в {image_path}")
    else:
        print(f"Изображение {image_index} уже существует в {image_path}. Пропускаем.")

Изображение 0 уже существует в source/images/Virginia\0.jpg. Пропускаем.
Изображение 1 уже существует в source/images/Virginia\1.jpg. Пропускаем.
Изображение 2 уже существует в source/images/Virginia\2.jpg. Пропускаем.
Изображение 3 уже существует в source/images/Virginia\3.jpg. Пропускаем.
Изображение 4 уже существует в source/images/Virginia\4.jpg. Пропускаем.
Изображение 5 уже существует в source/images/Virginia\5.jpg. Пропускаем.
Изображение 6 уже существует в source/images/Virginia\6.jpg. Пропускаем.
Изображение 7 уже существует в source/images/Virginia\7.jpg. Пропускаем.
Изображение 8 уже существует в source/images/Virginia\8.jpg. Пропускаем.
Изображение 9 уже существует в source/images/Virginia\9.jpg. Пропускаем.
Изображение 10 уже существует в source/images/Virginia\10.jpg. Пропускаем.
Изображение 11 уже существует в source/images/Virginia\11.jpg. Пропускаем.
Изображение 12 уже существует в source/images/Virginia\12.jpg. Пропускаем.
Изображение 13 уже существует в source/images