In [3]:
import requests
import os
from tqdm import tqdm
from bs4 import BeautifulSoup as bs
from urllib.parse import urljoin, urlparse

In [4]:
parsed = urlparse('https://www.dreamstime.com/photos-images/cabbage-leaf.html')

In [5]:
parsed

ParseResult(scheme='https', netloc='www.dreamstime.com', path='/photos-images/cabbage-leaf.html', params='', query='', fragment='')

In [2]:
def is_valid(url):
    """
    Проверяет, является ли url допустимым URL
    """
    parsed = urlparse(url)
    return bool(parsed.netloc) and bool(parsed.scheme)

In [7]:
is_valid('https://www.dreamstime.com/photos-images/cabbage-leaf.html')

True

In [3]:
def get_all_images(url):
    """
    Возвращает все URL‑адреса изображений по одному `url`
    """
    soup = bs(requests.get(url).content, "html.parser")
    urls = []
    for img in tqdm(soup.find_all("img"), "Получено изображение"):
        img_url = img.attrs.get("src")
        if not img_url:
            # если img не содержит атрибута src, просто пропускаем
            continue
        # сделаем URL абсолютным, присоединив имя домена к только что извлеченному URL
        img_url = urljoin(url, img_url)
        # удалим URL‑адреса типа '/hsts-pixel.gif?c=3.2.5'
#         try:
#             pos = img_url.index("?")
#             img_url = img_url[:pos]
#         except ValueError:
#             pass
        # наконец, если URL действителен
        if is_valid(img_url):
            urls.append(img_url)
    return urls

In [12]:
soup = get_all_images('https://umsad.ru/kapusta/vse-bolezni-opisanie')

Получено изображение: 100%|███████████████████████████████████████████████████████| 168/168 [00:00<00:00, 84016.10it/s]


In [4]:
def download(url, pathname):
    """
    Загружает файл по URL‑адресу и помещает его в папку `pathname`
    """
    # если путь не существует, создать dir
    if not os.path.isdir(pathname):
        os.makedirs(pathname)
    # загружаем тело ответа по частям, а не сразу
    response = requests.get(url, stream=True)
    # получить общий размер файла
    file_size = int(response.headers.get("Content-Length", 0))
    # получаем имя файла
    filename = os.path.join(pathname, url.split("/")[-1])
    # индикатор выполнения, изменение единицы измерения на байты вместо итераций (по умолчанию tqdm)
    progress = tqdm(response.iter_content(1024), f"Загружен {filename}", total=file_size, unit="B", unit_scale=True, unit_divisor=1024)
    with open(filename, "wb") as f:
        for data in progress.iterable:
            # записываем прочитанные данные в файл
            f.write(data)
            # обновление индикатора выполнения вручную
            progress.update(len(data))

In [8]:
soup1 = download('https://www.dreamstime.com/photos-images/cabbage-leaf.html', r'C:\Users\nabr9\OneDrive\Documents\диплом\капуста')

Загружен C:\Users\nabr9\OneDrive\Documents\диплом\капуста\cabbage-leaf.html: 244kB [00:00, 1.67MB/s]


In [5]:
def main(url, path):
    # получить все изображения
    imgs = get_all_images(url)
    for img in imgs:
        # скачать для каждого img
        download(img, path)
    


In [9]:
soup2 = main('https://www.dreamstime.com/photos-images/cabbage-leaf.html', r'C:\Users\nabr9\OneDrive\Documents\диплом\data')

Получено изображение: 100%|████████████████████████████████████████████████████████████████████| 81/81 [00:00<?, ?it/s]


KeyboardInterrupt: 

In [12]:
!pip install -U scikit-image[optional]

Collecting scikit-image[optional]

ERROR: Could not install packages due to an OSError: [WinError 5] Отказано в доступе: 'C:\\Users\\nabr9\\anaconda3\\Lib\\site-packages\\~cipy.libs\\libopenblas-802f9ed1179cb9c9b03d67ff79f48187.dll'
Consider using the `--user` option or check the permissions.




  Downloading scikit_image-0.20.0-cp39-cp39-win_amd64.whl (23.9 MB)
     ---------------------------------------- 23.9/23.9 MB 5.8 MB/s eta 0:00:00
Collecting tifffile>=2019.7.26
  Downloading tifffile-2023.4.12-py3-none-any.whl (219 kB)
     -------------------------------------- 219.4/219.4 kB 4.5 MB/s eta 0:00:00
Collecting networkx>=2.8
  Downloading networkx-3.1-py3-none-any.whl (2.1 MB)
     ---------------------------------------- 2.1/2.1 MB 5.1 MB/s eta 0:00:00
Collecting lazy_loader>=0.1
  Downloading lazy_loader-0.2-py3-none-any.whl (8.6 kB)
Collecting PyWavelets>=1.1.1
  Downloading PyWavelets-1.4.1-cp39-cp39-win_amd64.whl (4.2 MB)
     ---------------------------------------- 4.2/4.2 MB 5.2 MB/s eta 0:00:00
Collecting scipy<1.9.2,>=1.8
  Downloading scipy-1.9.1-cp39-cp39-win_amd64.whl (38.6 MB)
     ---------------------------------------- 38.6/38.6 MB 4.6 MB/s eta 0:00:00
Collecting imageio>=2.4.1
  Downloading imageio-2.28.0-py3-none-any.whl (3.4 MB)
     ---------------

In [2]:
from tensorflow.keras.preprocessing import image
import matplotlib.pyplot as plt
from tensorflow.keras.preprocessing.image import ImageDataGenerator, array_to_img, img_to_array, load_img
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import layers
from time import perf_counter 
import glob, os

In [3]:
batch_size = 100
img_height = 250
img_width = 250

In [22]:
connect = tf.keras.preprocessing.image_dataset_from_directory(
    r'C:\Users\nabr9\OneDrive\Documents\диплом\for_data',
    seed=42,
    image_size= (img_height, img_width),
    batch_size=batch_size

)

Found 1007 files belonging to 5 classes.


In [4]:
datagen = ImageDataGenerator(
        rotation_range=40,
        width_shift_range=0.2,
        height_shift_range=0.2,
        rescale=1./255,
        shear_range=0.2,
        zoom_range=0.2,
        horizontal_flip=True,
        fill_mode='nearest')

In [15]:
pic = load_img(r'C:\Users\nabr9\OneDrive\Documents\диплом\Blackgram Plant Leaf Disease Dataset\BPLD Dataset\Anthracnose 230\1a.jpg')

OSError: [Errno 22] Invalid argument: 'C:\\Users\\nabr9\\OneDrive\\Documents\\диплом\\Blackgram Plant Leaf Disease Dataset\\BPLD Dataset\\Anthracnose 230\\*.jpg'

In [6]:
pic.getpixel

<bound method Image.getpixel of <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=512x512 at 0x2905A386610>>

In [7]:
pic_array = img_to_array(pic)

In [8]:
pic_array.shape

(512, 512, 3)

In [9]:
pic_array = pic_array.reshape((1,) + pic_array.shape)

In [10]:
pic_array

array([[[[ 48.,  66.,  18.],
         [ 46.,  63.,  18.],
         [ 44.,  61.,  16.],
         ...,
         [ 77.,  96.,  50.],
         [ 68.,  85.,  40.],
         [ 58.,  75.,  30.]],

        [[ 47.,  65.,  17.],
         [ 45.,  63.,  15.],
         [ 43.,  60.,  15.],
         ...,
         [ 79.,  98.,  52.],
         [ 72.,  89.,  44.],
         [ 61.,  78.,  33.]],

        [[ 47.,  65.,  17.],
         [ 45.,  63.,  15.],
         [ 43.,  60.,  15.],
         ...,
         [ 80.,  99.,  53.],
         [ 78.,  95.,  50.],
         [ 67.,  84.,  39.]],

        ...,

        [[140.,  70.,   8.],
         [144.,  74.,  14.],
         [135.,  64.,  10.],
         ...,
         [163., 156.,  65.],
         [163., 156.,  66.],
         [165., 155.,  66.]],

        [[128.,  60.,  11.],
         [136.,  68.,  21.],
         [132.,  64.,  19.],
         ...,
         [163., 158.,  67.],
         [163., 156.,  66.],
         [163., 156.,  66.]],

        [[124.,  56.,  17.],
       

In [25]:
os.listdir(r'C:\Users\nabr9\OneDrive\Documents\диплом\Blackgram Plant Leaf Disease Dataset\BPLD Dataset')

['Anthracnose 230',
 'Healthy 220',
 'Leaf Crinckle 150',
 'Powdery Mildew 180',
 'Yellow Mosaic 220']

In [26]:
f = os.path.join(r'C:\Users\nabr9\OneDrive\Documents\диплом\Blackgram Plant Leaf Disease Dataset\BPLD Dataset',os.listdir(r'C:\Users\nabr9\OneDrive\Documents\диплом\Blackgram Plant Leaf Disease Dataset\BPLD Dataset')[0])

In [27]:
f

'C:\\Users\\nabr9\\OneDrive\\Documents\\диплом\\Blackgram Plant Leaf Disease Dataset\\BPLD Dataset\\Anthracnose 230'

In [19]:
for file in glob.glob("*.png"):
    print(file)

In [5]:
for i in os.listdir(r'C:\Users\nabr9\OneDrive\Documents\диплом\BPLD Dataset'):
    os.chdir(os.path.join(r'C:\Users\nabr9\OneDrive\Documents\диплом\BPLD Dataset',i))
    for file in glob.glob("*.jpg"):
        img = load_img(file)
        x = img_to_array(img)
        x = x.reshape((1,) + x.shape)
        count = 0
        for batch in datagen.flow(x, batch_size = 5,save_to_dir=os.path.join(r'C:\Users\nabr9\OneDrive\Documents\диплом\BPLD Dataset',i), save_format='jpg'):
            count+=1
            if count == 10:
                break

In [14]:
# count = 0
# for batch in datagen.flow(pic_array, batch_size = 5,save_to_dir=r'C:\Users\nabr9\OneDrive\Documents\диплом\Blackgram Plant Leaf Disease Dataset\BPLD Dataset\Anthracnose 230', save_format='jpeg'):
#     count+=1
#     if count == 10:
#         break

In [23]:
for file in glob.glob("*.jpg"):
    print(file)

100a.jpg
101a.jpg
102a.jpg
103a.jpg
104a.jpg
105a.jpg
106a.jpg
107a.jpg
108a.jpg
109a.jpg
10a.jpg
110a.jpg
111a.jpg
112a.jpg
113a.jpg
114a.jpg
115a.jpg
116a.jpg
117a.jpg
118a.jpg
119a.jpg
11a.jpg
120a.jpg
121a.jpg
122a.jpg
123a.jpg
124a.jpg
125a.jpg
126a.jpg
127a.jpg
128a.jpg
129a.jpg
12a.jpg
130a.jpg
131a.jpg
132a.jpg
133a.jpg
134a.jpg
135a.jpg
136a.jpg
137a.jpg
138a.jpg
139a.jpg
13a.jpg
140a.jpg
141a.jpg
142a.jpg
143a.jpg
144a.jpg
145a.jpg
146a.jpg
147a.jpg
148a.jpg
149a.jpg
14a.jpg
150a.jpg
151a.jpg
152a.jpg
153a.jpg
154a.jpg
155a.jpg
156a.jpg
157a.jpg
158a.jpg
159a.jpg
15a.jpg
160a.jpg
161a.jpg
162a.jpg
163a.jpg
164a.jpg
165a.jpg
166a.jpg
167a.jpg
168a.jpg
169a.jpg
16a.jpg
170a.jpg
171a.jpg
172a.jpg
173a.jpg
174a.jpg
175a.jpg
176a.jpg
177a.jpg
178a.jpg
179a.jpg
17a.jpg
180a.jpg
181a.jpg
182a.jpg
183a.jpg
184a.jpg
185a.jpg
186a.jpg
187a.jpg
188a.jpg
189a.jpg
18a.jpg
190a.jpg
191a.jpg
192a.jpg
193a.jpg
194a.jpg
195a.jpg
196a.jpg
197a.jpg
198a.jpg
199a.jpg
19a.jpg
200a.jpg
201a.jpg
20

In [68]:
from  scipy import ndimage

Unexpected exception formatting exception. Falling back to standard exception


Traceback (most recent call last):
  File "C:\Users\nabr9\anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3460, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "C:\Users\nabr9\AppData\Local\Temp\ipykernel_18076\3193962139.py", line 1, in <module>
    from  scipy import ndimage
  File "C:\Users\nabr9\anaconda3\lib\site-packages\scipy\__init__.py", line 230, in __getattr__
  File "C:\Users\nabr9\anaconda3\lib\importlib\__init__.py", line 127, in import_module
    return _bootstrap._gcd_import(name[level:], package, level)
  File "C:\Users\nabr9\anaconda3\lib\site-packages\scipy\ndimage\__init__.py", line 153, in <module>
    from ._interpolation import *  # noqa: F401 F403
  File "C:\Users\nabr9\anaconda3\lib\site-packages\scipy\ndimage\_interpolation.py", line 37, in <module>
    from scipy import special
  File "C:\Users\nabr9\anaconda3\lib\site-packages\scipy\__init__.py", line 230, in __getattr__
  File "C:\Users\nabr9\anaconda3\lib\import

In [3]:
import splitfolders

In [5]:
input_folder = r'C:\Users\nabr9\OneDrive\Documents\диплом\BPLD Dataset'
output = r'C:\Users\nabr9\OneDrive\Documents\диплом\data\data' #where you want the split datasets saved. one will be created if it does not exist or none is set
splitfolders.ratio(input_folder, output=output, seed=42, ratio=(.75, .25)) # ratio of split are in order of train/val/test. You can change to whatever you want. For train/val sets only, you could do .75, .25 for example.

Copying files: 10107 files [00:31, 325.05 files/s]
