В этом ноутбуке вы узнаете:

1.   Как использовать встроенные методы Python для работы со строками
2.   Как выполнять базовую нормализацию текста
3. Как токенизировать текст с помощью простых методов
4. Как применять эти навыки на практике


**1. Основные понятия и функции**

В Python текст представлен в виде строк (тип данных str). Строки можно создавать, используя одинарные или двойные кавычки.

In [None]:
# Создание строк
text1 = 'Это текст в "одинарных" кавычках'
text2 = "Это текст в 'двойных' кавычках"
text3 = '''Это текст в "тройных" кавычках'''
text4 = '''Это
текст
в 'тройных'
кавычках'''

# Вывод строк
print(text1)
print(text2)
print(text3)
print(text4)

1.1. Индексация и срезы строк.
Строки в Python — это последовательности символов, к которым можно обращаться по индексу. Индексация начинается с 0.

In [None]:
# Строка для примеров
sample_text = "Компьютерная лингвистика"

# Получение отдельного символа
print("Первый символ:", sample_text[0])
print("Пятый символ:", sample_text[4])

# Срезы строк
print("Первые 12 символов:", sample_text[:12])  # от начала до 12-го символа (не включая)
print("С 13-го символа до конца:", sample_text[13:])  # с 13-го символа до конца
print("С 5-го по 10-й символ:", sample_text[5:11])  # с 5-го по 10-й символ (11-й не включается)

1.2. Основные методы строк
Python предоставляет множество встроенных методов для работы со строками. Рассмотрим наиболее полезные для обработки текста:

In [None]:
# Строка для примеров
text = "   Пример текста для анализа.   "

# Удаление пробелов в начале и конце строки
print("После strip():", text.strip())

# Перевод в нижний регистр
print("После lower():", text.lower())

# Перевод в верхний регистр
print("После upper():", text.upper())

# Проверка, начинается ли строка с определенной подстроки
print("Начинается с 'Пример'?", text.strip().startswith("Пример"))

# Проверка, заканчивается ли строка определенной подстрокой
print("Заканчивается на '.'?", text.strip().endswith("."))

# Замена подстроки
print("После replace():", text.replace("анализа", "обработки"))

# Подсчет вхождений подстроки
print("Количество пробелов:", text.count(" "))

1.3. Конкатенация строк и форматирование.
Существует несколько способов объединения строк в Python:

In [None]:
# Простая конкатенация с помощью оператора +
first_name = "Иван"
last_name = "Петров"
full_name = first_name + " " + last_name
print("Полное имя:", full_name)

# Форматирование строк с помощью метода format()
age = 25
message = "Меня зовут {}, мне {} лет.".format(full_name, age)
print(message)

# f-строки (начиная с Python 3.6)
message_f = f"Меня зовут {full_name}, мне {age} лет."
print(message_f)

# Использование %
message_old = "Меня зовут %s, мне %d лет." % (full_name, age)
print(message_old)

**2. Базовая нормализация текста**

Нормализация текста — это процесс преобразования текста к стандартному виду для облегчения его дальнейшей обработки. Рассмотрим базовые операции нормализации.

2.1. Приведение к нижнему регистру помогает унифицировать текст. Обычно используется нижний регистр.

In [None]:
# Пример текста с разным регистром
mixed_case_text = "КомпьЮтерная ЛИНГвистика изучает Методы Автоматической Обработки Текста."

# Приведение к нижнему регистру
normalized_text = mixed_case_text.lower()
print("Исходный текст:", mixed_case_text)
print("Нормализованный текст:", normalized_text)

# Пример на английском
english_text = "Natural Language Processing (NLP) is a FIELD of AI."
print("Английский текст после нормализации:", english_text.lower())

2.2. Удаление лишних пробелов. Часто тексты содержат лишние пробелы, которые нужно удалить.




In [None]:
# Текст с лишними пробелами
text_with_spaces = "   В  этом   тексте  есть  лишние    пробелы.   "

# Удаление пробелов в начале и конце
trimmed_text = text_with_spaces.strip()
print("После strip():", trimmed_text)

words = trimmed_text.split()  # Разбиваем текст на слова
normalized_manually = ' '.join(words)  # Объединяем слова с одним пробелом
print("Нормализация:", normalized_manually)

# Пример на английском
english_spaces = "  This   text   has   extra   spaces. "
english_normalized = ' '.join(english_spaces.strip().split())
print("Английский текст после нормализации пробелов:", english_normalized)

2.3. Удаление пунктуации. Для многих задач обработки текста необходимо удалить знаки пунктуации.

In [None]:
# Текст с пунктуацией
text_with_punctuation = "Привет, мир! Как дела? Это - пример текста; с разными знаками пунктуации."

# Определение знаков пунктуации для удаления
import string
punctuation = string.punctuation  # !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
print("Знаки пунктуации:", punctuation)

# Удаление пунктуации (метод 1)
no_punctuation = ''.join(char for char in text_with_punctuation if char not in punctuation)
print("Текст без пунктуации (метод 1):", no_punctuation)

# Удаление пунктуации (метод 2)
translator = str.maketrans('', '', punctuation)
no_punctuation2 = text_with_punctuation.translate(translator)
print("Текст без пунктуации (метод 2):", no_punctuation2)

# Пример на английском
english_punctuation = "Hello, world! How are you? This is a sample text; with various punctuation marks."
english_no_punctuation = english_punctuation.translate(translator)
print("Английский текст без пунктуации:", english_no_punctuation)

2.4. Комплексная нормализация текста. Объединим все изученные методы для комплексной нормализации текста.

In [None]:
def normalize_text(text):
    """
    Функция для комплексной нормализации текста:
    1. Приведение к нижнему регистру
    2. Удаление лишних пробелов
    3. Удаление пунктуации
    """
    # Шаг 1: Приведение к нижнему регистру
    text = text.lower()

    # Шаг 2: Удаление пунктуации
    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    # Шаг 3: Удаление лишних пробелов
    text = ' '.join(text.split())

    return text

# Проверка функции на русском тексте
russian_text = "   Компьютерная    ЛИНГВИСТИКА - это ОБЛАСТЬ науки, изучающая   методы автоматической    обработки текста!   "
normalized_russian = normalize_text(russian_text)
print("Исходный русский текст:", russian_text)
print("Нормализованный русский текст:", normalized_russian)

# Проверка функции на английском тексте
english_text = "   Natural    LANGUAGE Processing (NLP) - is a FIELD of AI, focusing   on text analysis!   "
normalized_english = normalize_text(english_text)
print("Исходный английский текст:", english_text)
print("Нормализованный английский текст:", normalized_english)

**3. Простая токенизация текста**

Токенизация — это процесс разделения текста на отдельные токены (обычно слова или предложения). Рассмотрим простые методы токенизации с использованием встроенных возможностей Python.

3.1. Токенизация по пробелам. Самый простой способ токенизации — разделение текста по пробелам с помощью метода .split().

In [None]:
# Пример текста
text = "Компьютерная лингвистика изучает методы обработки текста"

# Токенизация по пробелам
tokens = text.split()
print("Токены:", tokens)
print("Количество токенов:", len(tokens))

# Токенизация английского текста
english_text = "Natural language processing studies methods of text analysis"
english_tokens = english_text.split()
print("Английские токены:", english_tokens)
print("Количество английских токенов:", len(english_tokens))

3.2. Токенизация с учетом пунктуации. Токенизация по пробелам не учитывает пунктуацию. Для более точной токенизации можно сначала отделить пунктуацию от слов.

In [None]:
def simple_tokenize(text):
    """
    Простая токенизация с учетом пунктуации:
    1. Добавляем пробелы вокруг знаков пунктуации
    2. Разделяем по пробелам
    3. Удаляем пустые токены
    """
    # Добавляем пробелы вокруг знаков пунктуации
    for punct in string.punctuation:
        text = text.replace(punct, f' {punct} ')

    # Разделяем по пробелам и удаляем пустые токены
    tokens = [token for token in text.split() if token]

    return tokens

# Проверка на русском тексте
russian_text = "Привет, мир! Как дела? Это - пример текста; с разными знаками пунктуации."
russian_tokens = simple_tokenize(russian_text)
print("Русский текст:", russian_text)
print("Токены русского текста:", russian_tokens)
print("Количество токенов:", len(russian_tokens))

# Проверка на английском тексте
english_text = "Hello, world! How are you? This is a sample text; with various punctuation marks."
english_tokens = simple_tokenize(english_text)
print("Английский текст:", english_text)
print("Токены английского текста:", english_tokens)
print("Количество токенов:", len(english_tokens))

3.3. Токенизация предложений. Простой способ — разделение по знакам конца предложения.

In [None]:
def simple_sentence_tokenize(text):
    """
    Простая токенизация на предложения:
    1. Заменяем знаки конца предложения на специальный маркер
    2. Разделяем текст по маркеру
    3. Очищаем полученные предложения
    """
    # Заменяем знаки конца предложения
    for end_mark in ['.', '!', '?']:
        text = text.replace(end_mark, f'{end_mark}SENTENCE_END')

    # Разделяем по маркеру
    sentences = text.split('SENTENCE_END')

    # Очищаем предложения и удаляем пустые
    cleaned_sentences = [sentence.strip() for sentence in sentences if sentence.strip()]

    return cleaned_sentences

# Проверка на русском тексте
russian_text = "Привет, мир! Как дела? Это пример текста. Он состоит из нескольких предложений."
russian_sentences = simple_sentence_tokenize(russian_text)
print("Русский текст:", russian_text)
print("Предложения русского текста:")
for i, sentence in enumerate(russian_sentences, 1):
    print(f"{i}. {sentence}")

# Проверка на английском тексте
english_text = "Hello, world! How are you? This is a sample text. It consists of several sentences."
english_sentences = simple_sentence_tokenize(english_text)
print("\nАнглийский текст:", english_text)
print("Предложения английского текста:")
for i, sentence in enumerate(english_sentences, 1):
    print(f"{i}. {sentence}")

3.4. Объединение токенов обратно в текст. Метод .join() позволяет объединить токены обратно в текст, указав разделитель.

In [None]:
# Пример токенов
tokens = ["Компьютерная", "лингвистика", "изучает", "методы", "обработки", "текста"]

# Объединение токенов с пробелом
text = ' '.join(tokens)
print("Объединенный текст:", text)

# Объединение с другими разделителями
comma_separated = ', '.join(tokens)
print("Токены через запятую:", comma_separated)

# Объединение английских токенов
english_tokens = ["Natural", "language", "processing", "studies", "methods", "of", "text", "analysis"]
english_text = ' '.join(english_tokens)
print("Объединенный английский текст:", english_text)

**4. Практические упражнения**

Упражнение 1: Нормализация текста. Напишите функцию, которая будет нормализовать текст следующим образом:

1. Привести к нижнему регистру
2. Удалить все цифры
3. Заменить все символы пунктуации на пробелы
4. Удалить лишние пробелы



In [5]:
sample_text = "Пример текста123, с РАЗНЫМИ символами! И 456 цифрами?!"
# ваш код

import string

def normalize_text(text):

    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    text = ' '.join(text.split())

    return text

normalized_text = normalize_text(sample_text)
print("Нормализованный текст:", normalized_text)

Нормализованный текст: пример текста с разными символами и цифрами


Упражнение 2: Подсчет частотности слов. Напишите функцию, которая будет принимать текст, нормализовать его, токенизировать и возвращать словарь с частотностью каждого слова.

In [6]:
sample_text = "Компьютерная лингвистика изучает методы обработки текста. Компьютерная лингвистика является областью искусственного интеллекта."
english_text = "Natural language processing is a field of artificial intelligence. Natural language processing focuses on the interaction between computers and humans."
# ваш код

def simple_tokenize(text):
    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    text = text.split()

    dictionary = {}
    for word in text:
      dictionary[word] = text.count(word)

    return dictionary

russian_tokens = simple_tokenize(sample_text)
english_tokens = simple_tokenize(english_text)
print("Частотный словарь русского текста:", russian_tokens)
print("Частотный словарь английского текста:", english_tokens)

Частотный словарь русского текста: {'компьютерная': 2, 'лингвистика': 2, 'изучает': 1, 'методы': 1, 'обработки': 1, 'текста': 1, 'является': 1, 'областью': 1, 'искусственного': 1, 'интеллекта': 1}
Частотный словарь английского текста: {'natural': 2, 'language': 2, 'processing': 2, 'is': 1, 'a': 1, 'field': 1, 'of': 1, 'artificial': 1, 'intelligence': 1, 'focuses': 1, 'on': 1, 'the': 1, 'interaction': 1, 'between': 1, 'computers': 1, 'and': 1, 'humans': 1}


Упражнение 3: Поиск самых длинных и коротких слов. Напишите функцию, которая находит самые длинные и самые короткие слова в тексте.

In [7]:
sample_text = "Компьютерная лингвистика является междисциплинарной областью науки, которая изучает математические и компьютерные модели естественного языка, а также его применение в системах искусственного интеллекта."
english_text = "Computational linguistics is an interdisciplinary field of science that studies mathematical and computational models of natural language and its application in artificial intelligence systems."
# ваш код

def words(text):
    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    text = ' '.join(text.split())
    for punct in string.punctuation:
        text = text.replace(punct, f' {punct} ')

    tokens = [token for token in text.split() if token]

    longest_word = max(tokens, key=len)
    shortest_word = min(tokens, key=len)

    return longest_word, shortest_word

english_words = words(english_text)
russian_words = words(sample_text)

print("В английском тексте cамое длинное слово это '{}', самое короткое - '{}'".format(english_words[0], english_words[1]))
print("В русском тексте cамое длинное слово это '{}', самое короткое - '{}'".format(russian_words[0], russian_words[1]))

В английском тексте cамое длинное слово это 'interdisciplinary', самое короткое - 'is'
В русском тексте cамое длинное слово это 'междисциплинарной', самое короткое - 'и'


Упражнение 4: Поиск и подсчет определенных паттернов. Напишите функцию, которая находит и подсчитывает слова, начинающиеся с определенной буквы или содержащие определенную последовательность букв.

In [8]:
sample_text = "Компьютерная лингвистика изучает методы обработки текста. Математические модели и компьютерные алгоритмы используются для анализа естественных языков."

# Поиск слов, начинающихся с 'к'
# ваш код

def finder(text):
    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    text = text.split()
    k_tokens = []

    for word in text:
        if word.startswith("к"):
            k_tokens.append(word)

    return k_tokens

k_words = finder(sample_text)
print(k_words)


['компьютерная', 'компьютерные']


In [9]:
english_text = "Computational linguistics studies methods of text processing. Mathematical models and computer algorithms are used to analyze natural languages."

# Поиск слов, содержащих 'ing'
# ваш код

def finder(text):
    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    text = text.split()
    ing_tokens = []

    for word in text:
        if word.endswith("ing"):
            ing_tokens.append(word)

    return ing_tokens

words = finder(english_text)
print("Слова, заканчивающиеся на 'ing':", words)
print(words)

Слова, заканчивающиеся на 'ing': ['processing']
['processing']


Упражнение 5: Анализ предложений в тексте. Напишите функцию, которая анализирует текст на уровне предложений, подсчитывая:

1. Количество предложений
2. Среднюю длину предложения (в словах)
3. Самое длинное и самое короткое предложение


In [20]:
sample_text = """Компьютерная лингвистика — это междисциплинарная область науки.
Она изучает математические и компьютерные модели естественного языка.
Методы компьютерной лингвистики применяются для решения различных задач, таких как машинный перевод, автоматическое реферирование и информационный поиск.
Современные алгоритмы позволяют анализировать большие объемы текстов."""

# ваш код
def analyze_text(text):
    sentences = text.split('.')

    sentences = [sentence.strip() for sentence in sentences if sentence.strip()]

    num_sentences = len(sentences)

    lengths = [len(sentence.split()) for sentence in sentences]

    average_length = sum(lengths) / num_sentences if num_sentences > 0 else 0

    longest_sentence = max(sentences, key=len) if sentences else ""
    shortest_sentence = min(sentences, key=len) if sentences else ""

    return {
        "number_of_sentences": num_sentences,
        "average_length": average_length,
        "longest_sentence": longest_sentence,
        "shortest_sentence": shortest_sentence
    }
result = analyze_text(sample_text)

# Анализ предложений
print("Результаты анализа предложений:")
print("Количество предложений:", result["number_of_sentences"])
print("Средняя длина предложения (в словах):", result["average_length"])
print("Самое длинное предложение:", result["longest_sentence"])
print("Самое короткое предложение:", result["shortest_sentence"])

Результаты анализа предложений:
Количество предложений: 4
Средняя длина предложения (в словах): 9.75
Самое длинное предложение: Методы компьютерной лингвистики применяются для решения различных задач, таких как машинный перевод, автоматическое реферирование и информационный поиск
Самое короткое предложение: Компьютерная лингвистика — это междисциплинарная область науки


In [21]:
english_text = """Computational linguistics is an interdisciplinary field of science.
It studies mathematical and computational models of natural language.
Methods of computational linguistics are applied to solve various tasks such as machine translation, automatic summarization, and information retrieval.
Modern algorithms allow analyzing large volumes of texts."""

# ваш код
def analyze_text(text):
    sentences = text.split('.')

    sentences = [sentence.strip() for sentence in sentences if sentence.strip()]

    num_sentences = len(sentences)

    lengths = [len(sentence.split()) for sentence in sentences]

    average_length = sum(lengths) / num_sentences if num_sentences > 0 else 0

    longest_sentence = max(sentences, key=len) if sentences else ""
    shortest_sentence = min(sentences, key=len) if sentences else ""

    return {
        "number_of_sentences": num_sentences,
        "average_length": average_length,
        "longest_sentence": longest_sentence,
        "shortest_sentence": shortest_sentence
    }
result = analyze_text(english_text)

# Анализ предложений на английском
print("\nРезультаты анализа предложений на английском:")
print("Количество предложений:", result["number_of_sentences"])
print("Средняя длина предложения (в словах):", result["average_length"])
print("Самое длинное предложение:", result["longest_sentence"])
print("Самое короткое предложение:", result["shortest_sentence"])


Результаты анализа предложений на английском:
Количество предложений: 4
Средняя длина предложения (в словах): 11.0
Самое длинное предложение: Methods of computational linguistics are applied to solve various tasks such as machine translation, automatic summarization, and information retrieval
Самое короткое предложение: Modern algorithms allow analyzing large volumes of texts


**5. Домашнее задание**

Напишите функцию для нормализации текста, которая:

1. Приводит текст к нижнему регистру
2. Удаляет все знаки пунктуации
3. Заменяет все цифры на символ '#'
4. Удаляет лишние пробелы

Напишите функцию, которая находит и выводит все слова из текста, содержащие гласные в определенной последовательности (например, 'о' и затем 'а').

Создайте функцию, которая:

1.   Токенизирует текст
2.   Отбирает только слова длиной более 4 символов
3. Сортирует их по алфавиту
4. Возвращает первые 10 слов

Напишите функцию для анализа частотности символов в тексте, которая возвращает 5 самых часто встречающихся символов и их количество.

Напишите программу, которая разделяет текст на параграфы (по двойному переносу строки), а затем подсчитывает для каждого параграфа: количество предложений, количество слов, среднюю длину слова

Первое ДЗ

In [22]:
import re
sample_text = "Первая экспедиция (1492—1493 годы) Христофора Колумба в составе 91 человека на судах «Санта-Мария», «Пинта», «Нинья» вышла из Па́лоса-де-ла-Фронтера 3 августа 1492 года, от Канарских островов повернула на Запад (9 сентября), пересекла Атлантический океан в субтропическом поясе и достигла острова Сан-Сальвадор в Багамском архипелаге, где Христофор Колумб высадился 12 октября 1492 года (официальная дата открытия Америки)."
def normalize_text(text):
    text = text.lower()
    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)
    text = re.sub(r'\d', '#', text)
    text = text.strip()
    text = text.split()
    text = ' '.join(text)
    return text

def sort_text(text):
    tokens = text.split()
    sorted_tokens = []
    for i in range(len(tokens)):
        if len(tokens[i]) > 4:
            sorted_tokens.append(tokens[i])
    sorted_tokens = sorted(sorted_tokens)
    return sorted_tokens

print(sort_text(normalize_text(sample_text)))

['####—####', '«нинья»', '«пинта»', '«сантамария»', 'августа', 'америки', 'архипелаге', 'атлантический', 'багамском', 'высадился', 'вышла', 'достигла', 'запад', 'канарских', 'колумб', 'колумба', 'океан', 'октября', 'острова', 'островов', 'открытия', 'официальная', 'па́лосаделафронтера', 'первая', 'пересекла', 'повернула', 'поясе', 'сансальвадор', 'сентября', 'составе', 'субтропическом', 'судах', 'христофор', 'христофора', 'человека', 'экспедиция']


Второе ДЗ

In [32]:
import re
import string
# Функция для для вывода слов с определенной последователньостью гласных
def words_with_two_syllables(X, Z, tokens):
  two_syllables_list = []
  pattern = f"{X}.*{Z}"
  for i in tokens:
    matches = re.findall(pattern, i)
    if matches:
      two_syllables_list.append(i)
  print(f'Слова с последовательностью гласных «{X}», «{Z}»: {two_syllables_list}')

def tokenize_homework(wiki_text):
  #НОРМАЛИЗАЦИЯ ТЕКСТА
  #убираем цифорки
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];

  #приводим к нижнему регистру
  text = wiki_text.lower();

  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);

  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)

  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())

  #ТОКЕНИЗАЦИЯ ТЕКСТОВ

  #Токенизация по пробелам
  tokens = normal_text.split()

  return tokens

wiki_text = """2-я экспедиция (1493—1496 годы), которую Христофор Колумб возглавил уже в чине адмирала, и в должности вице-короля вновь открытых земель, состояла из 17 судов с экипажем свыше 1,5 тыс. человек. 3 ноября 1493 года Колумб открыл острова Доминика и Гваделупа, повернув на Северо-Запад, — ещё около 20 Малых Антильских островов, в том числе Антигуа и Виргинские, а 19 ноября — остров Пуэрто-Рико и подошёл к северному берегу Гаити. 12—29 марта 1494 года Колумб в поисках золота совершил завоевательный поход внутрь Гаити, причём пересёк хребет Кордильера-Сентраль. 29 апреля — 3 мая Колумб с 3 судами прошёл вдоль юго-восточного берега Кубы, повернул от мыса Крус на Юг и 5 мая открыл остров Ямайка. Вернувшись 15 мая к мысу Крус, Колумб прошёл вдоль южного побережья Кубы до 84° западной долготы, обнаружил архипелаг Хардинес-де-ла-Рейна, полуостров Сапата и остров Пинос. 24 июня Христофор Колумб повернул на восток и обследовал 19 августа — 15 сентября весь южный берег Гаити. В 1495 году Христофор Колумб продолжил завоевание Гаити; 10 марта 1496 года оставил остров и 11 июня вернулся в Кастилию."""

tokens = tokenize_homework(wiki_text)

#Слова с последовательностью гласных «А», «У»
words_with_two_syllables("а", "у", tokens)

#Слова с последовательностью гласных «А», «Е»
words_with_two_syllables("а", "е", tokens)

#Слова с последовательностью гласных «Е», «И»
words_with_two_syllables("е", "и", tokens)

#Слова с последовательностью гласных «А», «О»
words_with_two_syllables("а", "о", tokens)

#Слова с последовательностью гласных «Е», «О»
words_with_two_syllables("е", "о", tokens)


Слова с последовательностью гласных «а», «у»: ['гваделупа', 'антигуа', 'обнаружил', 'августа']
Слова с последовательностью гласных «а», «е»: ['экипажем', 'гваделупа', 'завоевательный', 'кордильерасентраль', 'апреля', 'архипелаг', 'хардинесделарейна', 'завоевание']
Слова с последовательностью гласных «е», «и»: ['экспедиция', 'совершил', 'вернувшись', 'завоевание']
Слова с последовательностью гласных «а», «о»: ['завоевательный', 'западной', 'завоевание']
Слова с последовательностью гласных «е», «о»: ['вицекороля', 'человек', 'северозапад', 'северному', 'обследовал']


Третье ДЗ

In [33]:
sample_text = """3-я экспедиция (1498—1500 годы) состояла из 6 судов, 3 из которых сам Христофор Колумб повёл через Атлантический океан близ 10° северной широты. 31 июля 1498 года он открыл остров Тринидад, вошёл с юга в залив Пария, обнаружил устье западного рукава дельты реки Ориноко и полуостров Пария, положив начало открытию Южной Америки. Затем выйдя в Карибское море, Христофор Колумб подходил к полуострову Арая, открыл 15 августа остров Маргарита и 31 августа прибыл в город Санто-Доминго (на острове Гаити). В 1500 году Христофор Колумб был по доносу арестован и отправлен в Кастилию, где был освобождён."""
def words(text):
    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    text = ' '.join(text.split())
    for punct in string.punctuation:
        text = text.replace(punct, f' {punct} ')

    tokens = [token for token in text.split() if token]

    dictionary = []

    for word in tokens:
      if len(word) > 4 :
        dictionary.append(word)

    dictionary.sort()

    return dictionary[:10]

task = words(sample_text)

print("", task)

 ['августа', 'августа', 'америки', 'арестован', 'атлантический', 'вошёл', 'выйдя', 'гаити', 'город', 'дельты']


Четвертое ДЗ

In [34]:
sample_text = """4-я экспедиция (1502—1504 годы). Добившись разрешения продолжать поиски западного пути в Индию, Колумб с 4 судами достиг 15 июня 1502 года острова Мартиника, 30 июля — Гондурасского залива и открыл с 1 августа 1502 по 1 мая 1503 года карибские берега Гондураса, Никарагуа, Коста-Рики и Панамы до залива Ураба. Повернув затем на Север, 25 июня 1503 года потерпел крушение у острова Ямайка; помощь из Санто-Доминго пришла только через год. В Кастилию Христофор Колумб вернулся 7 ноября 1504 года."""
def counter(text):
    text = text.lower()

    digits = "1234567890"
    text = ''.join(char for char in text if char not in digits)

    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    dictionary = {}
    for word in text:
      if word != " ":
        dictionary[word] = text.count(word)

    sorted_dict = sorted(dictionary.items(), key=lambda item: item[1], reverse=True)

    return sorted_dict[:5]

russian_tokens = counter(sample_text)
print("Частотный словарь", russian_tokens)


Частотный словарь [('а', 40), ('о', 39), ('и', 33), ('р', 24), ('с', 20)]


Пятое ДЗ

In [37]:
sample_text = """Открытие Колумбом Америки дало начало Великим географическим открытиям, Колумбовому обмену, трансатлантической работорговле и колониализму, что впоследствии привело Западный мир к господству над всеми остальными.

Колумбов обмен привнёс в европейский быт такие вещи как шоколад, табак и другие, а почти безграничные ресурсы из Нового Света сделало Европейские метрополии, в первую очередь Испанию (см. Революция цен), сказочно богатыми.

На фоне всего этого произошла Индейская демографическая катастрофа, которая уничтожила почти всех индейцев, а уцелевшие от болезней умерли от принудительных работ."""
def analyze_text(text):
    paragraphs = text.split('\n\n')

    results = []

    for paragraph in paragraphs:
        paragraph = paragraph.strip()

        sentences = [sentence.strip() for sentence in paragraph.split('.') if sentence.strip()]

        num_sentences = len(sentences)
        words = paragraph.split()
        num_words = len(words)

        total_length = sum(len(word) for word in words)
        average_length = total_length / num_words if num_words > 0 else 0

        results.append({
            "Число предложений": num_sentences,
            "Количество слов": num_words,
            "Средняя длина слова": average_length
        })

    return results


result = analyze_text(sample_text)
for i, res in enumerate(result):
    print(f"Параграф {i + 1}: {res}")

Параграф 1: {'Число предложений': 1, 'Количество слов': 24, 'Средняя длина слова': 7.875}
Параграф 2: {'Число предложений': 2, 'Количество слов': 32, 'Средняя длина слова': 5.96875}
Параграф 3: {'Число предложений': 1, 'Количество слов': 21, 'Средняя длина слова': 6.809523809523809}
