In [1]:
import re
import pandas as pd
import requests
import openpyxl
from time import sleep
from random import uniform
from tqdm import tqdm
from bs4 import BeautifulSoup

In [2]:
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

In [3]:
def get_page(url):
    try:
        response = requests.get(url, headers=headers, timeout=35)
        response.raise_for_status()
        return BeautifulSoup(response.text, 'lxml')
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

In [29]:
def scrape_criminals(url):
    i = 0
    links = []
    while i < 14:
        link = f"{url}?PAGEN_1={i+1}"
        try:
            response = requests.get(link, headers=headers)
            if response.status_code == 200:
                i += 1
                links.append(link)
                print(link)
            else:
                break
        except requests.exceptions.RequestException as e:
            print(f"Error fetching {link}: {e}")
            break
    soup_links = []
    for link in links:
        soup_links.append(get_page(link))
        sleep(uniform(1, 2))
    criminals = []
    for i in range(len(soup_links)):
        criminals.append(soup_links[i].find_all("div", class_="sl-item"))
    return criminals, links, soup_links

In [125]:
def scrape_criminal_data(criminals, links, url):
    pattern = r"^(?:[^/]*\/){2}(.*)"
    pattern_base_url = r'^(https?://[^/]+)'
    df = pd.DataFrame(columns=['Title', 'Text', 'Image', 'Region', 'District'])
    for i in tqdm(range(len(criminals))):
        for j in range(len(criminals[i])):
            title = ""
            image_url = ""
            full_text = ""
            region = ""
            district = ""
            a_tag_reg_dist = criminals[i][j].find_all("a", href="/territory/")
            if len(a_tag_reg_dist) >= 2:
                region = a_tag_reg_dist[0].text
                district = a_tag_reg_dist[1].text
            if len(a_tag_reg_dist) == 1:
                district = a_tag_reg_dist[0].text
            title_div = criminals[i][j].find("div", class_="sl-item-title links")
            if title_div:
                a_tag = title_div.find("a")
                if a_tag:
                    href_criminal = a_tag
                    if href_criminal:
                        match = re.search(pattern, href_criminal['href'])
                        if match:
                            extracted_part = match.group(1)
                            full_path_to_criminal = f'{url}{extracted_part}'
                            criminal_html = get_page(full_path_to_criminal)
                            if criminal_html:
                                criminal_info_blocks = criminal_html.find("div", class_="news-detail")
                                img_tag = criminal_info_blocks.find("img")
                                match = re.match(pattern_base_url, links[0])
                                if match:
                                    base_url = match.group(1)
                                    if img_tag:
                                        image_url = f'{base_url}{img_tag.get("src")}'
                                title_element = criminal_info_blocks.find(['h1', 'h2', 'h3', 'h4'])
                                if title_element:
                                    title = title_element.text
                                text_element = criminal_info_blocks.find_all(
                                    string=lambda text: (text.parent.name not in ['script', 'style', 'head', 'h3']) 
                                    and len(text.strip()) > 20
                                )
                                full_text = "\n".join([p.strip() for p in text_element])
                                df.loc[len(df)] = title, full_text, image_url, region, district
            print(df)
            sleep(uniform(1, 2))
    return df

In [5]:
url = "https://fsin.gov.ru/criminal/"

In [30]:
criminals, links, soup_links = scrape_criminals(url)

https://fsin.gov.ru/criminal/?PAGEN_1=1
https://fsin.gov.ru/criminal/?PAGEN_1=2
https://fsin.gov.ru/criminal/?PAGEN_1=3
https://fsin.gov.ru/criminal/?PAGEN_1=4
https://fsin.gov.ru/criminal/?PAGEN_1=5
https://fsin.gov.ru/criminal/?PAGEN_1=6
https://fsin.gov.ru/criminal/?PAGEN_1=7
https://fsin.gov.ru/criminal/?PAGEN_1=8
https://fsin.gov.ru/criminal/?PAGEN_1=9
https://fsin.gov.ru/criminal/?PAGEN_1=10
https://fsin.gov.ru/criminal/?PAGEN_1=11
https://fsin.gov.ru/criminal/?PAGEN_1=12
https://fsin.gov.ru/criminal/?PAGEN_1=13
https://fsin.gov.ru/criminal/?PAGEN_1=14


In [126]:
df = scrape_criminal_data(criminals, links, url)

  0%|          | 0/14 [00:00<?, ?it/s]

                           Title  \
0  Ориентировка на Карпенко А.А.   

                                                Text  \
0  Карпенко Алексей Александрович, 28.12.1992 год...   

                                               Image  \
0  https://fsin.gov.ru/upload/iblock/6f6/xq9spfce...   

                        Region                       District  
0  Костромская область (УФСИН)  Центральный федеральный округ  
                                        Title  \
0               Ориентировка на Карпенко А.А.   
1  Ориентировка : Долгов Александр Евгеньевич   

                                                Text  \
0  Карпенко Алексей Александрович, 28.12.1992 год...   
1  Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   

                                               Image  \
0  https://fsin.gov.ru/upload/iblock/6f6/xq9spfce...   
1  https://fsin.gov.ru/upload/iblock/71a/j1wdrzqv...   

                        Region                       District  
0  Костромская область 

  7%|▋         | 1/14 [00:37<08:11, 37.80s/it]

                                                Title  \
0                       Ориентировка на Карпенко А.А.   
1          Ориентировка : Долгов Александр Евгеньевич   
2            Ориентировка: Ударцев Станислав Юрьевич    
3       Ориентировка: Тутундаев Александр Васильевич    
4           Ориентировка: Пидасова Галина Алексеевна    
5            Ориентировка: Мадумаров Юрий Валерьевич    
6           Ориентировка: Лебедев Дмитрий Анатольевич   
7   Ориентировка: Козлова Зарина Григорьевна (Голе...   
8                 Ориентировка: Каитов Алий Заурович    
9              Ориентировка: Жуков Андрей Михайлович    
10       Ориентировка: Емельянова Гузалия Шамильевна    
11     Ориентировка: Дорошенко Валентин Григорьевич     
12        Ориентировка: Джафаров Вахаб Агаджафар оглы   
13      Ориентировка: Ведерников Вячеслав Евгеньевич    
14           Ориентировка: Васильев Артем Георгиевич    
15             Ориентировка: Батаев Мамед Мовладович    
16          Ориентировка: Байра

 14%|█▍        | 2/14 [01:15<07:35, 37.96s/it]

                                                Title  \
0                       Ориентировка на Карпенко А.А.   
1          Ориентировка : Долгов Александр Евгеньевич   
2            Ориентировка: Ударцев Станислав Юрьевич    
3       Ориентировка: Тутундаев Александр Васильевич    
4           Ориентировка: Пидасова Галина Алексеевна    
5            Ориентировка: Мадумаров Юрий Валерьевич    
6           Ориентировка: Лебедев Дмитрий Анатольевич   
7   Ориентировка: Козлова Зарина Григорьевна (Голе...   
8                 Ориентировка: Каитов Алий Заурович    
9              Ориентировка: Жуков Андрей Михайлович    
10       Ориентировка: Емельянова Гузалия Шамильевна    
11     Ориентировка: Дорошенко Валентин Григорьевич     
12        Ориентировка: Джафаров Вахаб Агаджафар оглы   
13      Ориентировка: Ведерников Вячеслав Евгеньевич    
14           Ориентировка: Васильев Артем Георгиевич    
15             Ориентировка: Батаев Мамед Мовладович    
16          Ориентировка: Байра

 21%|██▏       | 3/14 [01:52<06:53, 37.55s/it]

                                            Title  \
0                   Ориентировка на Карпенко А.А.   
1      Ориентировка : Долгов Александр Евгеньевич   
2        Ориентировка: Ударцев Станислав Юрьевич    
3   Ориентировка: Тутундаев Александр Васильевич    
4       Ориентировка: Пидасова Галина Алексеевна    
..                                            ...   
56                     Ориентировка Фурсенко В.О.   
57                         Ориентировка Оглы Т.В.   
58                      Ориентировка Антипов А.Н.   
59                    Ориентировка Ахназарян С.В.   
60                     Ориентировка Коршунов А.С.   

                                                 Text  \
0   Карпенко Алексей Александрович, 28.12.1992 год...   
1   Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2   Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3   Тутундаев Александр Васильевич 26.05.1979 г.р....   
4   Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
..                   

 29%|██▊       | 4/14 [02:32<06:23, 38.40s/it]

                                            Title  \
0                   Ориентировка на Карпенко А.А.   
1      Ориентировка : Долгов Александр Евгеньевич   
2        Ориентировка: Ударцев Станислав Юрьевич    
3   Ориентировка: Тутундаев Александр Васильевич    
4       Ориентировка: Пидасова Галина Алексеевна    
..                                            ...   
76            Ориентировка: Егоров Олег Олегович    
77                      Ориентировка Сахилов С.А.   
78            Ориентировка Рузимов (Юлдашев) Э.А.   
79                        Ориентировка Перов Н.А.   
80                   Ориентировка Пайшанбиев З.К.   

                                                 Text  \
0   Карпенко Алексей Александрович, 28.12.1992 год...   
1   Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2   Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3   Тутундаев Александр Васильевич 26.05.1979 г.р....   
4   Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
..                   

 36%|███▌      | 5/14 [03:13<05:52, 39.15s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
96                       Ориентировка Романов С.В.   
97                      Ориентировка Николаев Л.И.   
98                        Ориентировка Бутрим Н.И.   
99                          Ориентировка Оглы В.Г.   
100                    Ориентировка Большаков В.К.   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 43%|████▎     | 6/14 [03:50<05:07, 38.49s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
116                  Ориентировка Александров С.А.   
117                    Ориентировка Михайлова Н.А.   
118                      Ориентировка Гасанов А.В.   
119                      Ориентировка Гасанов А.В.   
120                        Ориентировка Лукин П.Н.   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 50%|█████     | 7/14 [04:27<04:26, 38.09s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
136         Ориентировка: Ивашкевич Антон Олегович   
137         Ориентировка: Небольский Юрий Игоревич   
138           Ориентировка: Яценко Сергей Иванович   
139   Ориентировка: Меркулов Алексей Александрович   
140       Ориентировка: Яковлев Георгий Евгеньевич   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 57%|█████▋    | 8/14 [05:05<03:49, 38.17s/it]

                                                 Title  \
0                        Ориентировка на Карпенко А.А.   
1           Ориентировка : Долгов Александр Евгеньевич   
2             Ориентировка: Ударцев Станислав Юрьевич    
3        Ориентировка: Тутундаев Александр Васильевич    
4            Ориентировка: Пидасова Галина Алексеевна    
..                                                 ...   
156             Ориентировка: Сова Ольга Владимировна    
157    Ориентировка: Скоробогатов Николай Григорьевич    
158          Ориентировка: Сидоров Алексей Васильевич    
159        Ориентировка: Палванова Дилфуза Аллаяровна    
160  Ориентировка: Никульников Александр Александро...   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова

 64%|██████▍   | 9/14 [05:42<03:08, 37.78s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
176          Ориентировка: Тагиев Мехман Таги оглы   
177                Ориентировка нп Артемьева А..С.   
178                 Ориентировка на Михайлика Е.И.   
179                   Ориентировка на Петрова А.Н.   
180                  Ориентировка на Белогура Ю.И.   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 71%|███████▏  | 10/14 [06:21<02:31, 37.91s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
196                    Ориентировка на Болоха М.Ю.   
197                  Ориентировка на Кравчука Е.М.   
198                  Ориентировка на Камолова М.А.   
199                    Ориентировка на Саенко В.Н.   
200                Ориентировка на Нестеренко А.Н.   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 79%|███████▊  | 11/14 [06:59<01:53, 37.93s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
216                  Ориентировка на Галилова Д.И.   
217                 Ориентировка на Казалиева М.И.   
218                    Ориентировка на Синяка Э.В.   
219                  Ориентировка на Мичинмаа М.С.   
220                  Ориентировка на Петухова А.С.   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 86%|████████▌ | 12/14 [07:36<01:15, 37.73s/it]

                                             Title  \
0                    Ориентировка на Карпенко А.А.   
1       Ориентировка : Долгов Александр Евгеньевич   
2         Ориентировка: Ударцев Станислав Юрьевич    
3    Ориентировка: Тутундаев Александр Васильевич    
4        Ориентировка: Пидасова Галина Алексеевна    
..                                             ...   
236              Ориентировка на Кочановского Е.И.   
237              Ориентировка на Незнамова  В. А.    
238                         Ор-ка на Морозова А.М.   
239                  Ориентировка на Великого В.А.   
240                      Ориентировка на Пителя Н.   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова Галина Алексеевна 15.07.1969 г.р\nСиб...   
.. 

 93%|█████████▎| 13/14 [08:13<00:37, 37.63s/it]

                                                 Title  \
0                        Ориентировка на Карпенко А.А.   
1           Ориентировка : Долгов Александр Евгеньевич   
2             Ориентировка: Ударцев Станислав Юрьевич    
3        Ориентировка: Тутундаев Александр Васильевич    
4            Ориентировка: Пидасова Галина Алексеевна    
..                                                 ...   
256          Ориентировка: Киреев Максим Владимирович.   
257        Ориентировка на Аббасова Гариб Гульага Ог,    
258  Ориентировка на Горбунову (Арабаджи) Ольгу Ник...   
259         Ориентировка на Привалова Романа Игоревича   
260                 Ориентировка: Лялина Анна Игоревна   

                                                  Text  \
0    Карпенко Алексей Александрович, 28.12.1992 год...   
1    Долгов Александр Евгеньевич, 25.05.1998\nЦентр...   
2    Ударцев Станислав Юрьевич 05.08.1991 г.р.\nСиб...   
3    Тутундаев Александр Васильевич 26.05.1979 г.р....   
4    Пидасова

100%|██████████| 14/14 [08:19<00:00, 35.70s/it]


In [127]:
df.to_excel('fsin.xlsx')

In [128]:
df.to_csv('fsin.csv')