Шпаргалки по регулярным выражениям:  
https://regex.sorokin.engineer/ru/latest/regular_expressions.html#  
https://uproger.com/shpargalka-po-regulyarnym-vyrazheniyam-python-2023/  
Песочница для проверки регулярных выражений:
https://regex101.com/

**Регулярные выражения (или regex)**- это синтаксический шаблон для поиска и сопоставления строк, основанный на определенных символах и операторах. Они позволяют осуществлять более гибкий и мощный поиск в тексте, облегчая манипуляции с данными. Регулярные выражения поддерживаются во многих языках программирования и текстовых редакторах. Они позволяют осуществлять поиск по заданным шаблонам, проверять соответствие строки определенному формату, заменять определенные части строки и многое другое.

In [None]:
import re

Префикс `r`, добавляемый перед паттерном в регулярном выражении, является синтаксическим элементом некоторых языков программирования, включая Python. Он обозначает "сырую строку" (raw string) и влияет на интерпретацию символов внутри строки.

Когда вы добавляете `r` перед строкой с регулярным выражением в Python, это означает, что обратные слеши (`\`) внутри регулярного выражения не будут интерпретироваться особым образом. Они будут рассматриваться буквально как обычные символы.


1. Квантификаторы и специальные символы: использование метасимволов, таких как *, +, ?, {n}, их комбинации и их значения.

2. Символьные классы: создание и использование [ ] для описания классов символов и диапазонов символов. Например, [a-z] для поиска любой буквы в нижнем регистре или [0-9] для поиска любой цифры.

3. Группы и обратные ссылки: использование круглых скобок для создания групп и обращение к ним путем использования \n, где n - номер группы. Обратные ссылки позволяют нам повторно использовать найденные значения.

4. Альтернативы: использование символа | для создания альтернативы, когда мы ищем несколько возможных паттернов.

5. Жадные и ленивые квантификаторы: понимание разницы между жадными и ленивыми квантификаторами и их влияние на сопоставление.

6. Анкоры: использование символов ^ и $ для указания начала и конца строки, соответственно.

7. Модификаторы: использование модификаторов, таких как i, m и s, для изменения поведения регулярного выражения. Например, модификатор i включает регистронезависимый поиск.

8. Режимы поиска: основные режимы поиска, такие как search, match и findall. Каждый из них возвращает разные результаты при поиске совпадений.

9. Функции регулярных выражений: использование различных функций модуля регулярных выражений в реализации соответствующих операций, таких как search, match, findall, sub и другие.

10. Условные конструкции: использование условных конструкций для более гибкого поиска. Они позволяют проверять наличие совпадений перед или после текущей позиции.

11. Lookahead и Lookbehind: использование положительных и отрицательных просмотров вперед и назад для определения условий совпадения без фактического потребления символов.

12. Границы слов: использование символов \b и \B для определения границы слова при поиске. Например, \bword\b будет соответствовать только целому слову "word".

13. Экранирование: особенности экранирования специальных символов, таких как точка (.), круглые скобки, квадратные скобки и другие, чтобы они были рассмотрены как обычные символы.

14. Многострочный режим: использование модификатора m для работы с многострочными текстами. Например, он позволяет использовать ^ и $ в качестве начала и конца строки для каждой строки в многострочном тексте.

15. Захват групп и незахватывающие группы: использование ?: перед началом группы для создания незахватывающей группы. Захватывающие группы возвращают значение, незахватывающие - нет.

16. Вертикальная черта внутри класса символов: когда вертикальная черта (|) находится внутри символьного класса, она трактуется как обычный символ, а не как оператор альтернативы.



Функция `re.match()` - ищет совпадения в начале строки:

In [None]:
pattern = r"hello"
text = "Hello, how are you?"
# re.IGNORECASE или re.I - позволяет игнорировать регистр символов при сопоставлении
result = re.match(pattern, text, re.I)
print(result)

<re.Match object; span=(0, 5), match='Hello'>


Функция `re.search()` - ищет совпадения в любом месте строки:

In [None]:
pattern = r"hello"
text = ", how Hello are you?"

result = re.search(pattern, text, re.I)
print(result)

<re.Match object; span=(6, 11), match='Hello'>


Основные паттерны регулярных выражений:
- `\d`: соответствует любой цифре (0-9).
- `\w`: соответствует любой букве (латинская, в верхнем или нижнем регистре) или цифре.
- `\s`: соответствует любому пробельному символу (пробел, табуляция, новая строка).
- `.`: соответствует любому символу, кроме новой строки.
- `+`: соответствует одному или более повторений предыдущего символа или группы символов.
- `*`: соответствует нулю или более повторений предыдущего символа или группы символов.
- `?`: соответствует нулю или одному повторению предыдущего символа или группы символов.
- `[]`: определяет класс символов, соответствующий любому одному символу из указанных в квадратных скобках.
- `()` : определяет группу символов как единое целое.
- `|`: соответствует либо левому, либо правому паттерну.

Квантификаторы в регулярных выражениях определяют количество повторений предыдущего элемента или группы символов. Они позволяют указать, сколько раз предыдущий элемент должен встречаться в строке.

Некоторые распространенные квантификаторы в регулярных выражениях:

- `*` (звездочка): позволяет предыдущему элементу повторяться 0 или более раз.
    Например, выражение `a*` соответствует строкам "a", "aa", "aaa" и так далее.

- `+` (плюс): позволяет предыдущему элементу повторяться 1 или более раз.
    Например, выражение `a+` соответствует строкам "a", "aa", "aaa" и так далее, но не соответствует строке без символа "a".

- `?` (знак вопроса): указывает, что предыдущий элемент может присутствовать 0 или 1 раз.
    Например, выражение `colou?r` соответствует и "color", и "colour".

- `{n}`: указывает, что предыдущий элемент должен повторяться ровно n раз.
    Например, выражение `a{3}` соответствует только строке "aaa".

- `{n,}`: указывает, что предыдущий элемент должен повторяться по меньшей мере n раз.
    Например, выражение `a{2,}` соответствует строкам "aa", "aaa", "aaaa" и так далее.

- `{n,m}`: указывает, что предыдущий элемент должен повторяться от n до m раз.
    Например, выражение `a{2,4}` соответствует строкам "aa", "aaa", "aaaa", но не соответствует строкам с одним символом "a" или более чем четырьмя символами "a".


Функция `re.findall()` - находит все совпадения указанного паттерна в строке и возвращает их в виде списка:

In [None]:
pattern = r"\d+"
text = "I have 3 apples and 15 bananas, 145"

result = re.findall(pattern, text)
print(result)

['3', '15', '145']


Функция `re.sub()` - заменяет все совпадения указанного паттерна в строке другой строкой:

In [None]:
pattern = r"apple"
text = "I have an apple"
replacement = "orange"
result = re.sub(pattern, replacement, text)
print(result)

I have an orange


Функция `re.split()` - разделяет строку на подстроки, используя заданный паттерн в качестве разделителя:

In [None]:
text = "Hello   World"
text.split('l')

['He', '', 'o   Wor', 'd']

In [None]:
pattern = r"\s+"
text = "Hello   World"

result = re.split(pattern, text)
print(result)

['Hello', 'World']


Функция `re.finditer()` - находит все совпадения указанного паттерна в строке, возвращая объект итератора:

In [None]:
pattern = r"\w+"
text = "Hello, how are you?"

result = re.finditer(pattern, text)
for match in result:
    print(match.group())

Hello
how
are
you


Жадный квантификатор `.*` и Ленивый квантификатор `.*?`

In [None]:
text = "I am running and swimming."
greedy_pattern = r"I.*ing"  # Жадный квантификатор `I.*ing`
# с жадным квантификатором найдет самое длинное совпадение в строке,
# начиная с символа "I" и заканчивая перед "ing".
lazy_pattern = r"I.*?ing"  # Ленивый квантификатор `I.*?ing`
#с ленивым квантификатором найдет самое короткое совпадение в строке,
#начиная с символа "I" и заканчивая первым вхождением "ing".

greedy_match = re.match(greedy_pattern, text)
lazy_match = re.match(lazy_pattern, text)

if greedy_match:
    print("Greedy match:", greedy_match.group(0))
else:
    print("No greedy match found.")

if lazy_match:
    print("Lazy match:", lazy_match.group(0))
else:
    print("No lazy match found.")


Greedy match: I am running and swimming
Lazy match: I am running


In [None]:

text = "I have a cat and a dog"
pattern = r"cat|dog" # будет искать совпадение с либо "cat", либо "dog".

matches = re.findall(pattern, text)
print(matches)

['cat', 'dog']


In [None]:
text = "I like cats and dogs"
pattern = r"cat(s|) and dog(s|)" # обернули `(s|)` и `s|)` в скобки, чтобы указать, что `s` может быть опциональным символом.
# Результатом будет список `[('s', ''), ('', 's')]`, который указывает, что мы нашли соответствия "cats and dog" и "cat and dogs".

matches = re.findall(pattern, text)
print(matches)

[('s', 's')]


Группировки в регулярных выражениях позволяют объединять части паттерна внутри скобок. Они полезны, когда нужно применить операцию над группой символов, повторить группу или извлечь подстроку из найденного совпадения.  
1. Группы создаются с помощью скобок `()`. Часть паттерна, заключенная в скобки, становится отдельной группой.
   Пример: `(ab)+` - эта группа `(ab)` будет повторяться один или более раз.  
2. Группы могут быть вложенными. Это позволяет создавать более сложные группировки и структурировать паттерн.
   Пример: `((ab)c)+` - эта группа `((ab)c)` будет повторяться один или более раз.  
3. Группы могут быть именованными. Это позволяет обращаться к ним и извлекать подстроки из найденных совпадений по их именам.
   Пример: `(?P<name>\w+)` - эта именованная группа `(?P<name>)` будет соответствовать одному или более буквенно-цифровому символу и называться "name".  
4. Группы могут быть получены через специальные методы, такие как `re.findall()` или `re.search()`, и использоваться для извлечения конкретных частей совпадений.

Пример 1

In [None]:
pattern = r"(\w+)\s+(\d+)"
"""`(\w+)` - это группа, которая соответствует одному или более буквенно-цифровому символу (например, имя).
`\s+` - соответствует одному или более пробелам.
`(\d+)` - это группа, которая соответствует одному или более цифровому символу (например, возраст)."""
text = "There are students John    25, Emily 18, Mike 30"

result = re.findall(pattern, text)
print(result)

[('John', '25'), ('Emily', '18'), ('Mike', '30')]


Пример 2

In [None]:
pattern = r"(<(\w+)>).*?<(/\2>)"
text = "<b>Это</b> <i>интересный</i> <b>пример</b>"
"""(<(\w+)>)` - это внешняя группа, которая соответствует открывающему HTML тегу.
 Внутри внешней группы находится еще одна группа `(\w+)`, которая соответствует самому названию тега.
 Затем `.*?` соответствует любым символам, с ними можно работать через скобки,
 после скобок идёт закрывающийся HTML тег `(<(/\2)>)`, внутри которого ссылка `\2`
 ссылается на значение второй группы, т.е. значение названия тега."""
result = re.findall(pattern, text)
print(result)

[('<b>', 'b', '/b>'), ('<i>', 'i', '/i>'), ('<b>', 'b', '/b>')]


In [None]:
pattern = r"<(\w+)>(.*?)</\1>"
text = "<b>Это</b> <i>интересный</i> <b>пример</b>"
"""- `<(\w+)>`: это соответствует открывающему HTML тегу.
    - `<` - символ `<` обозначает начало HTML тега.
    - `(\w+)` - это группа соответствует одному или более
    символам слова (буквы, цифры или символ подчеркивания `_`), которые составляют название тега.

- `(.*?)`: это группа, которая соответствует любому тексту между открывающим и закрывающим тегами.
    - `.` - символ `.` соответствует любому символу, кроме символа новой строки.
    - `*?` - квантификатор `*?` указывает, что предыдущий символ может
    повторяться ноль или более раз, но с минимальным количеством совпадений (ленивый режим).

- `</\1>`: это соответствует закрывающему HTML тегу, который имеет то же самое название, что и открывающий тег.
    - `</` - символы `</` обозначают начало HTML закрывающего тега.
    - `\1` - это обратная ссылка на значение, которое соответствует первой группе (`(\w+)`), т.е. названию тега.
    - `>` - символ `>` обозначает конец HTML закрывающего тега."""
clean_text = re.sub(pattern, r"\2", text)
print(clean_text)

Это интересный пример


In [None]:
result = re.findall(pattern, text)
result

[('b', 'Это'), ('i', 'интересный'), ('b', 'пример')]

Пример 3 и 4

In [None]:
# pattern = r"(\d{2})-(\d{2})-(\d{4})"
pattern = r"(\d{1,2})-(\d{1,2})-(\d{2,4})"
text = "Today's date is 1-12-2023"
"""`(\d{2})`: Это первая группа захвата `( )`, которая соответствует двум последовательным цифрам.
`\d` обозначает любую цифру, а `{2}` указывает, что предыдущий элемент должен повторяться ровно два раза. Таким образом, это соответствует числу от 00 до 99, представляющему день.

- `-`: Это обычный дефис, который ожидается между днем и месяцем.

- `(\d{2})`: Это вторая группа захвата, которая также соответствует двум последовательным цифрам и представляет месяц.

- `-`: Опять же, это дефис, указывающий разделитель между месяцем и годом.

- `(\d{4})`: Это третья группа захвата, которая соответствует четырем последовательным цифрам, представляющим год."""
match = re.search(pattern, text)
day = match.group(1)
month = match.group(2)
year = match.group(3)

print(day, month, year)

1 12 2023


In [None]:
match

<re.Match object; span=(16, 25), match='1-12-2023'>

In [None]:
text = "Сегодняшняя дата: 12-мар, 2022"
pattern = r"(\d{1,2})[-.,\s](\D+?),?\s(\d{4})"
"""1. `(\d{1,2})` - Это группа захвата, которая ищет одну или две цифры (`\d`), представленные числами от 1 до 2 (`{1,2}`). Это предполагает, что первый элемент в дате - это день.

2. `[-.,\s]` - Это символьный класс, который ищет любой из перечисленных символов: `-`, `.`, `,` или пробел (`\s`). Таким образом, это позволяет нам распознавать различные разделители в дате.

3. `(\D+?)` - Это группа захвата, которая ищет один или более символов, не являющихся цифрами (`\D`).
 `+?` означает, что мы ищем наименьшее количество символов (ленивый квантификатор).
 Это позволяет нам распознавать текстовое представление месяца.

4. `?` - Это символ `?` после `,` указывает, что перед запятой может быть ноль или один символ. Таким образом, мы делаем запятую после месяца необязательной.

5. `\s` - Этот символ `\s` означает пробел. Он используется для распознавания пробела между месяцем и годом.

6. `(\d{4})` - Это группа захвата, которая ищет четыре цифры (год).
"""
matches = re.search(pattern, text)
if matches:
    day = matches.group(1)
    month = matches.group(2)
    year = matches.group(3)
    print(f"Дата: {day}-{month}-{year}")

Дата: 12-мар-2022


In [None]:
text = "Сегодняшняя дата: 12-мар, 2022"
pattern = r"(?P<day>\d{1,2})[-.,\s](?P<month>\D+?),?\s(?P<year>\d{4})"

matches = re.search(pattern, text)
if matches:
    day = matches.group("day")
    month = matches.group("month")
    year = matches.group("year")
    print(f"Дата: {day}-{month}-{year}")

Дата: 12-мар-2022


Альтернативы

In [None]:
text = "Мои контактные номера телефонов: 8-925-123-45-67 или +7-965-432-10-98. Звоните в любое время! Либо пишите на email ivan@ya.ru"
email_pattern = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b"
"""- `\b[A-Za-z0-9._%+-]+` - это сопоставление с любым набором символов верхнего
и нижнего регистра, цифрами и некоторыми специальными символами, которые могут встречаться в почтовых адресах. Это сопоставление начинается с начала слова (`\b`) и может содержать один или более символов.
- `@[A-Za-z0-9.-]+` - это сопоставление символа `@`, за которым может следовать
 один или более символов верхнего или нижнего регистра, цифр, точки или дефисов.
 Это часть адреса после символа `@`, перед разделителем домена.
- `\.[A-Za-z]{2,}` - это сопоставление точки и двух или более символов верхнего или нижнего регистра.
Это сопоставление точки и доменного имени после символа `@`."""
phone_pattern = r"\b\d{1}[-.\s]?\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{2}[-.\s]?\d{2}\b"
"""- `\b` - начало слова (word boundary).
- `\d{1}` - сопоставление одной цифры (от 0 до 9).
- `[-.\s]?` - необязательное сопоставление одного символа из набора: дефиса, точки или пробела.
- `\(?\d{3}\)?` - сопоставление три цифры внутри необязательных скобок: (XXX), где X - цифра.
- `[-.\s]?` - необязательное сопоставление одного символа из набора: дефиса, точки или пробела.
- `\d{3}` - сопоставление трех цифр.
- `[-.\s]?` - необязательное сопоставление одного символа из набора: дефиса, точки или пробела.
- `\d{2}` - сопоставление двух цифр.
- `[-.\s]?` - необязательное сопоставление одного символа из набора: дефиса, точки или пробела.
- `\d{2}` - сопоставление двух цифр.
- `\b` - конец слова (word boundary)."""
matches = re.findall(email_pattern + "|" + phone_pattern, text)

print(matches)

['8-925-123-45-67', '7-965-432-10-98', 'ivan@ya.ru']


Lookahead (вперед) и lookbehind (назад) - это конструкции в регулярных выражениях, которые позволяют определять условия совпадения без фактического потребления символов.

Положительный просмотр вперед (positive lookahead) определяет условие совпадения, которое должно следовать перед текущим положением в поиске. Он используется с помощью синтаксиса "?=". Например, регулярное выражение "a(?=b)" будет искать символ "a", за которым следует символ "b", но символ "b" сам по себе не будет включен в совпадение.

Примеры положительного просмотра вперед:
- "a(?=b)" - найдет символ "a", за которым следует символ "b"
- "(?=abc)d" - найдет символ "d", перед которым идут символы "abc"


In [None]:
text = "Alice, Bob, Ann, Alex, Charlie"
pattern = r"\b(?=A)\w+"
"""- `\b` - граница слова
- `(?=A)` - положительный просмотр вперед на символ "A"
- `\w+` - один или более символов слова
"""
result = re.findall(pattern, text)
print(result)

['Alice', 'Ann', 'Alex']


In [None]:
text = "Visit my website at https://www.example.com. For more information, go to http://example.com."
pattern = r"(https?://\S+)"
"""- `(https?://)` - это захватывающая группа, которая представляет собой строку "http://" или "https://".
Буква "s" ставится после "http" с вопросительным знаком, чтобы указать, что "s" может быть или отсутствовать.
- `\S+` - это один и более непробельных символов после префикса "http://" или "https://"."""
result = re.findall(pattern, text)
print(result)

['https://www.example.com.', 'http://example.com.']


Отрицательный просмотр вперед (negative lookahead) определяет условие, которое не должно следовать перед текущим положением в поиске. Он используется с помощью синтаксиса "?!". Например, регулярное выражение "a(?!b)" будет искать символ "a", за которым не следует символ "b".

Примеры отрицательного просмотра вперед:
- "a(?!b)" - найдет символ "a", за которым не следует символ "b"
- "(?!abc)d" - найдет символ "d", перед которым не идут символы "abc"

Lookbehind (назад) работает аналогично просмотру вперед, но определяет условия совпадения перед текущим положением. Положительный просмотр назад обозначается с помощью синтаксиса "?<=" и отрицательный просмотр назад с помощью "?<!".

Примеры положительного просмотра назад:
- "(?<=a)b" - найдет символ "b", перед которым идет символ "a"
- "(?<=abc)d" - найдет символ "d", перед которым идут символы "abc"

Примеры отрицательного просмотра назад:
- "(?<!a)b" - найдет символ "b", перед которым не идет символ "a"
- "(?<!abc)d" - найдет символ "d", перед которым не идут символы "abc"

In [None]:
emails = ["example@gmail.com", "test@yahoo.com", "user@hotmail.com", "info@example.org"]
pattern = r".+(?!\.com)$"

for email in emails:
    if re.match(pattern, email):
        print(email)

example@gmail.com
test@yahoo.com
user@hotmail.com
info@example.org


In [None]:
files = ["data.txt", "important_file.txt", "dangerous.docx", "очень опасно.txt" "sensitive_data.txt", "passwords.txt", "not_safe.txt"]

pattern = r"^(?!.*опасно).*\.txt$"
"""отрицательный просмотр вперед `(?!.*опасно)` для проверки того, что файл не содержит слово "опасно".
 Знак `^` обозначает начало строки, а `$` — конец строки.
 Мы также добавляем `.*` перед "опасно", чтобы учесть возможное наличие других символов перед этим словом."""
for file in files:
    if re.match(pattern, file, re.IGNORECASE):
        print(file)

data.txt
important_file.txt
passwords.txt
not_safe.txt


In [None]:
phone_numbers = ["123-456-7890", "(555) 123-4567", "9876543210", "123-TEST-1234", "555-5555"]

pattern = r"^(?!.*(^\d{3}-\d{3}-\d{4}$|^\(\d{3}\) \d{3}-\d{4}$|\d{10}$)).*$"
"""- `^` - начало строки;
- `(?!` - начало отрицательного просмотра вперед. Это означает, что мы ищем строки, которые НЕ соответствуют следующему шаблону;
- `.*` - любое количество символов;
- `(^\d{3}-\d{3}-\d{4}$|^\(\d{3}\) \d{3}-\d{4}$|\d{10}$)` - это шаблон, который ищет три различных формата:
  - `^\d{3}-\d{3}-\d{4}$` - формат XXX-XXX-XXXX;
  - `^\(\d{3}\) \d{3}-\d{4}$` - формат (XXX) XXX-XXXX;
  - `\d{10}` - формат XXXXXXXXXX;
- `)` - конец отрицательного просмотра вперед;
- `.*` - любое количество символов;
- `$` - конец строки."""
for phone_number in phone_numbers:
    if re.match(pattern, phone_number):
        print(phone_number)

123-TEST-1234
555-5555


In [None]:
import requests
import pandas as pd

result = []
obj = {}

target_url = 'http://books.toscrape.com/'
response = requests.get(target_url)

html_content = response.text

title_pattern = r'<h3><a.*?>(.*?)<\/a><\/h3>'
"""- `<h3>`: Это открывающий тег `<h3>`, который указывает на заголовок третьего уровня.
- `<a.*?>`: Это открывающий тег `<a>` с любыми атрибутами. Здесь `.*?` означает, что может быть любое количество символов (включая 0)
до закрывающего символа `>`, и сопоставление происходит до первого найденного закрытия `>`.
- `(.*?)`: Это группа, которая захватывает любой текст между тегами `<a>` и `</a>`.
Она использует оператор ленивого сопоставления `*?`, чтобы захватывать минимальное количество символов.
- `<\/a>`: Это закрывающий тег `</a>`, который завершает ссылку.
- `<\/h3>`: Это закрывающий тег `</h3>`, который завершает заголовок третьего уровня."""
price_pattern = r'<p class="price_color">(.*?)<\/p>'
"""- `<p class="price_color">`: Это начало шаблона для открытия тега `<p>` с атрибутом `class="price_color"`.
Он указывает, что мы ищем тег `<p>` с определенным классом `price_color`.
- `(.*?)`: Это группа, которая захватывает любой текст между открывающим и закрывающим тегами `<p class="price_color">` и `</p>`.
Она использует оператор ленивого сопоставления `*?`, чтобы захватывать минимальное количество символов.
- `<\/p>`: Это конец шаблона для закрытия тега `<p>`. """
titles = re.findall(title_pattern, html_content)
prices = re.findall(price_pattern, html_content)

for i in range(len(titles)):
    obj["Title"] = titles[i]
    obj["Price"] = prices[i]
    result.append(obj)
    obj = {}

df = pd.DataFrame(result)

df.head()

Unnamed: 0,Title,Price
0,A Light in the ...,Â£51.77
1,Tipping the Velvet,Â£53.74
2,Soumission,Â£50.10
3,Sharp Objects,Â£47.82
4,Sapiens: A Brief History ...,Â£54.23


In [None]:
import requests
from bs4 import BeautifulSoup
import numpy as np
import time
import os
url = 'https://www.kinopoisk.ru/reviews/type/comment/period/month/page/1/#list'
r = requests.get(url)
r

<Response [200]>

In [None]:
soup = BeautifulSoup(r.text, 'html.parser')
reviews = soup.find_all(class_='_reachbanner_')
reviews_clean = []
for review in reviews:
    reviews_clean.append(review.text)
    print(review.text)
    print('*'*50)

In [None]:
films = soup.find_all('div', class_="reviewItem userReview")
for film in films:
  print(film.find('b').text)
  print(film.find('p', class_="film").find('span').text)


In [None]:
names = soup.find_all('p', class_= 'profile_name')
for name in names:
  print(name.text)

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

def get_reviews(url):
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    reviews = soup.find_all(class_='_reachbanner_')
    reviews_clean = []
    for review in reviews:
        reviews_clean.append(review.text)
    return reviews_clean

def get_films(url):
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    films = soup.find_all('div', class_="reviewItem userReview")
    film_eng = []
    film_rus = []
    for film in films:
        film_eng.append(film.find('b').text)
        film_rus.append(film.find('p', class_="film").find('span').text)
    return film_eng, film_rus

def get_names(url):
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    names = soup.find_all('p', class_= 'profile_name')
    reviewers = []
    for name in names:
        reviewers.append(name.text)
    return reviewers

def scrape_data():
    base_url = 'https://www.kinopoisk.ru/reviews/type/comment/period/month/page/'
    data = {'Reviewer': [], 'Film (English)': [], 'Film (Russian)': [], 'Review': []}
    for page in range(1, 100):
        url = base_url + str(page) + '/#list'
        reviews = get_reviews(url)
        film_eng, film_rus = get_films(url)
        reviewers = get_names(url)
        data['Reviewer'].extend(reviewers)
        data['Film (English)'].extend(film_eng)
        data['Film (Russian)'].extend(film_rus)
        data['Review'].extend(reviews)
        time.sleep(5)
    df = pd.DataFrame(data)
    return df

df = scrape_data()

ValueError: All arrays must be of the same length

In [None]:
df.head()

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Reviewer        0 non-null      float64
 1   Film (English)  0 non-null      float64
 2   Film (Russian)  0 non-null      float64
 3   Review          0 non-null      float64
dtypes: float64(4)
memory usage: 124.0 bytes


In [None]:
df.to_csv('reviews.csv', index=False)