В этом ноутбуке вы узнаете:

1.   Как использовать встроенные методы Python для работы со строками
2.   Как выполнять базовую нормализацию текста
3. Как токенизировать текст с помощью простых методов
4. Как применять эти навыки на практике


**1. Основные понятия и функции**

В Python текст представлен в виде строк (тип данных str). Строки можно создавать, используя одинарные или двойные кавычки.

In [None]:
# Создание строк
text1 = 'Это текст в "одинарных" кавычках'
text2 = "Это текст в 'двойных' кавычках"
text3 = '''Это текст в "тройных" кавычках'''
text4 = '''Это
текст
в 'тройных'
кавычках'''

# Вывод строк
print(text1)
print(text2)
print(text3)
print(text4)

Это текст в "одинарных" кавычках
Это текст в 'двойных' кавычках
Это текст в "тройных" кавычках
Это
текст
в 'тройных'
кавычках


1.1. Индексация и срезы строк.
Строки в Python — это последовательности символов, к которым можно обращаться по индексу. Индексация начинается с 0.

In [None]:
# Строка для примеров
sample_text = "Компьютерная лингвистика"

# Получение отдельного символа
print("Первый символ:", sample_text[0])
print("Пятый символ:", sample_text[4])

# Срезы строк
print("Первые 12 символов:", sample_text[:12])  # от начала до 12-го символа (не включая)
print("С 13-го символа до конца:", sample_text[13:])  # с 13-го символа до конца
print("С 5-го по 10-й символ:", sample_text[5:11])  # с 5-го по 10-й символ (11-й не включается)

Первый символ: К
Пятый символ: ь
Первые 12 символов: Компьютерная
С 13-го символа до конца: лингвистика
С 5-го по 10-й символ: ютерна


1.2. Основные методы строк
Python предоставляет множество встроенных методов для работы со строками. Рассмотрим наиболее полезные для обработки текста:

In [None]:
# Строка для примеров
text = "   Пример текста для анализа.   "

# Удаление пробелов в начале и конце строки
print("После strip():", text.strip())

# Перевод в нижний регистр
print("После lower():", text.lower())

# Перевод в верхний регистр
print("После upper():", text.upper())

# Проверка, начинается ли строка с определенной подстроки
print("Начинается с 'Пример'?", text.strip().startswith("Пример"))

# Проверка, заканчивается ли строка определенной подстрокой
print("Заканчивается на '.'?", text.strip().endswith("."))

# Замена подстроки
print("После replace():", text.replace("анализа", "обработки"))

# Подсчет вхождений подстроки
print("Количество пробелов:", text.count(" "))

После strip(): Пример текста для анализа.
После lower():    пример текста для анализа.   
После upper():    ПРИМЕР ТЕКСТА ДЛЯ АНАЛИЗА.   
Начинается с 'Пример'? True
Заканчивается на '.'? True
После replace():    Пример текста для обработки.   
Количество пробелов: 9


1.3. Конкатенация строк и форматирование.
Существует несколько способов объединения строк в Python:

In [None]:
# Простая конкатенация с помощью оператора +
first_name = "Иван"
last_name = "Петров"
full_name = first_name + " " + last_name
print("Полное имя:", full_name)

# Форматирование строк с помощью метода format()
age = 25
message = "Меня зовут {}, мне {} лет.".format(full_name, age)
print(message)

# f-строки (начиная с Python 3.6)
message_f = f"Меня зовут {full_name}, мне {age} лет."
print(message_f)

# Использование %
message_old = "Меня зовут %s, мне %d лет." % (full_name, age)
print(message_old)

Полное имя: Иван Петров
Меня зовут Иван Петров, мне 25 лет.
Меня зовут Иван Петров, мне 25 лет.
Меня зовут Иван Петров, мне 25 лет.


**2. Базовая нормализация текста**

Нормализация текста — это процесс преобразования текста к стандартному виду для облегчения его дальнейшей обработки. Рассмотрим базовые операции нормализации.

2.1. Приведение к нижнему регистру помогает унифицировать текст. Обычно используется нижний регистр.

In [None]:
# Пример текста с разным регистром
mixed_case_text = "КомпьЮтерная ЛИНГвистика изучает Методы Автоматической Обработки Текста."

# Приведение к нижнему регистру
normalized_text = mixed_case_text.lower()
print("Исходный текст:", mixed_case_text)
print("Нормализованный текст:", normalized_text)

# Пример на английском
english_text = "Natural Language Processing (NLP) is a FIELD of AI."
print("Английский текст после нормализации:", english_text.lower())

Исходный текст: КомпьЮтерная ЛИНГвистика изучает Методы Автоматической Обработки Текста.
Нормализованный текст: компьютерная лингвистика изучает методы автоматической обработки текста.
Английский текст после нормализации: natural language processing (nlp) is a field of ai.


2.2. Удаление лишних пробелов. Часто тексты содержат лишние пробелы, которые нужно удалить.




In [None]:
# Текст с лишними пробелами
text_with_spaces = "   В  этом   тексте  есть  лишние    пробелы.   "

# Удаление пробелов в начале и конце
trimmed_text = text_with_spaces.strip()
print("После strip():", trimmed_text)

words = trimmed_text.split()  # Разбиваем текст на слова
normalized_manually = ' '.join(words)  # Объединяем слова с одним пробелом
print("Нормализация:", normalized_manually)

# Пример на английском
english_spaces = "  This   text   has   extra   spaces. "
english_normalized = ' '.join(english_spaces.strip().split())
print("Английский текст после нормализации пробелов:", english_normalized)

После strip(): В  этом   тексте  есть  лишние    пробелы.
Нормализация: В этом тексте есть лишние пробелы.
Английский текст после нормализации пробелов: This text has extra spaces.


2.3. Удаление пунктуации. Для многих задач обработки текста необходимо удалить знаки пунктуации.

In [None]:
# Текст с пунктуацией
text_with_punctuation = "Привет, мир! Как дела? Это - пример текста; с разными знаками пунктуации."

# Определение знаков пунктуации для удаления
import string
punctuation = string.punctuation  # !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
print("Знаки пунктуации:", punctuation)

# Удаление пунктуации (метод 1)
no_punctuation = ''.join(char for char in text_with_punctuation if char not in punctuation)
print("Текст без пунктуации (метод 1):", no_punctuation)

# Удаление пунктуации (метод 2)
translator = str.maketrans('', '', punctuation)
no_punctuation2 = text_with_punctuation.translate(translator)
print("Текст без пунктуации (метод 2):", no_punctuation2)

# Пример на английском
english_punctuation = "Hello, world! How are you? This is a sample text; with various punctuation marks."
english_no_punctuation = english_punctuation.translate(translator)
print("Английский текст без пунктуации:", english_no_punctuation)

2.4. Комплексная нормализация текста. Объединим все изученные методы для комплексной нормализации текста.

In [None]:
def normalize_text(text):
    """
    Функция для комплексной нормализации текста:
    1. Приведение к нижнему регистру
    2. Удаление лишних пробелов
    3. Удаление пунктуации
    """
    # Шаг 1: Приведение к нижнему регистру
    text = text.lower()

    # Шаг 2: Удаление пунктуации
    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)

    # Шаг 3: Удаление лишних пробелов
    text = ' '.join(text.split())

    return text

# Проверка функции на русском тексте
russian_text = "   Компьютерная    ЛИНГВИСТИКА - это ОБЛАСТЬ науки, изучающая   методы автоматической    обработки текста!   "
normalized_russian = normalize_text(russian_text)
print("Исходный русский текст:", russian_text)
print("Нормализованный русский текст:", normalized_russian)

# Проверка функции на английском тексте
english_text = "   Natural    LANGUAGE Processing (NLP) - is a FIELD of AI, focusing   on text analysis!   "
normalized_english = normalize_text(english_text)
print("Исходный английский текст:", english_text)
print("Нормализованный английский текст:", normalized_english)

**3. Простая токенизация текста**

Токенизация — это процесс разделения текста на отдельные токены (обычно слова или предложения). Рассмотрим простые методы токенизации с использованием встроенных возможностей Python.

3.1. Токенизация по пробелам. Самый простой способ токенизации — разделение текста по пробелам с помощью метода .split().

In [None]:
# Пример текста
text = "Компьютерная лингвистика изучает методы обработки текста"

# Токенизация по пробелам
tokens = text.split()
print("Токены:", tokens)
print("Количество токенов:", len(tokens))

# Токенизация английского текста
english_text = "Natural language processing studies methods of text analysis"
english_tokens = english_text.split()
print("Английские токены:", english_tokens)
print("Количество английских токенов:", len(english_tokens))

Токены: ['Компьютерная', 'лингвистика', 'изучает', 'методы', 'обработки', 'текста']
Количество токенов: 6
Английские токены: ['Natural', 'language', 'processing', 'studies', 'methods', 'of', 'text', 'analysis']
Количество английских токенов: 8


3.2. Токенизация с учетом пунктуации. Токенизация по пробелам не учитывает пунктуацию. Для более точной токенизации можно сначала отделить пунктуацию от слов.

In [None]:
def simple_tokenize(text):
    """
    Простая токенизация с учетом пунктуации:
    1. Добавляем пробелы вокруг знаков пунктуации
    2. Разделяем по пробелам
    3. Удаляем пустые токены
    """
    # Добавляем пробелы вокруг знаков пунктуации
    for punct in string.punctuation:
        text = text.replace(punct, f' {punct} ')

    # Разделяем по пробелам и удаляем пустые токены
    tokens = [token for token in text.split() if token]

    return tokens

# Проверка на русском тексте
russian_text = "Привет, мир! Как дела? Это - пример текста; с разными знаками пунктуации."
russian_tokens = simple_tokenize(russian_text)
print("Русский текст:", russian_text)
print("Токены русского текста:", russian_tokens)
print("Количество токенов:", len(russian_tokens))

# Проверка на английском тексте
english_text = "Hello, world! How are you? This is a sample text; with various punctuation marks."
english_tokens = simple_tokenize(english_text)
print("Английский текст:", english_text)
print("Токены английского текста:", english_tokens)
print("Количество токенов:", len(english_tokens))

Русский текст: Привет, мир! Как дела? Это - пример текста; с разными знаками пунктуации.
Токены русского текста: ['Привет', ',', 'мир', '!', 'Как', 'дела', '?', 'Это', '-', 'пример', 'текста', ';', 'с', 'разными', 'знаками', 'пунктуации', '.']
Количество токенов: 17
Английский текст: Hello, world! How are you? This is a sample text; with various punctuation marks.
Токены английского текста: ['Hello', ',', 'world', '!', 'How', 'are', 'you', '?', 'This', 'is', 'a', 'sample', 'text', ';', 'with', 'various', 'punctuation', 'marks', '.']
Количество токенов: 19


3.3. Токенизация предложений. Простой способ — разделение по знакам конца предложения.

In [None]:
def simple_sentence_tokenize(text):
    """
    Простая токенизация на предложения:
    1. Заменяем знаки конца предложения на специальный маркер
    2. Разделяем текст по маркеру
    3. Очищаем полученные предложения
    """
    # Заменяем знаки конца предложения
    for end_mark in ['.', '!', '?']:
        text = text.replace(end_mark, f'{end_mark}SENTENCE_END')

    # Разделяем по маркеру
    sentences = text.split('SENTENCE_END')

    # Очищаем предложения и удаляем пустые
    cleaned_sentences = [sentence.strip() for sentence in sentences if sentence.strip()]

    return cleaned_sentences

# Проверка на русском тексте
russian_text = "Привет, мир! Как дела? Это пример текста. Он состоит из нескольких предложений."
russian_sentences = simple_sentence_tokenize(russian_text)
print("Русский текст:", russian_text)
print("Предложения русского текста:")
for i, sentence in enumerate(russian_sentences, 1):
    print(f"{i}. {sentence}")

# Проверка на английском тексте
english_text = "Hello, world! How are you? This is a sample text. It consists of several sentences."
english_sentences = simple_sentence_tokenize(english_text)
print("\nАнглийский текст:", english_text)
print("Предложения английского текста:")
for i, sentence in enumerate(english_sentences, 1):
    print(f"{i}. {sentence}")

Русский текст: Привет, мир! Как дела? Это пример текста. Он состоит из нескольких предложений.
Предложения русского текста:
1. Привет, мир!
2. Как дела?
3. Это пример текста.
4. Он состоит из нескольких предложений.

Английский текст: Hello, world! How are you? This is a sample text. It consists of several sentences.
Предложения английского текста:
1. Hello, world!
2. How are you?
3. This is a sample text.
4. It consists of several sentences.


3.4. Объединение токенов обратно в текст. Метод .join() позволяет объединить токены обратно в текст, указав разделитель.

In [None]:
# Пример токенов
tokens = ["Компьютерная", "лингвистика", "изучает", "методы", "обработки", "текста"]

# Объединение токенов с пробелом
text = ' '.join(tokens)
print("Объединенный текст:", text)

# Объединение с другими разделителями
comma_separated = ', '.join(tokens)
print("Токены через запятую:", comma_separated)

# Объединение английских токенов
english_tokens = ["Natural", "language", "processing", "studies", "methods", "of", "text", "analysis"]
english_text = ' '.join(english_tokens)
print("Объединенный английский текст:", english_text)

Объединенный текст: Компьютерная лингвистика изучает методы обработки текста
Токены через запятую: Компьютерная, лингвистика, изучает, методы, обработки, текста
Объединенный английский текст: Natural language processing studies methods of text analysis


**4. Практические упражнения**

Упражнение 1: Нормализация текста. Напишите функцию, которая будет нормализовать текст следующим образом:

1. Привести к нижнему регистру
2. Удалить все цифры
3. Заменить все символы пунктуации на пробелы
4. Удалить лишние пробелы



In [1]:
#убираем цифорки
import string
def normalize_text(sample_text):
    punctuation = string.punctuation
    numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];
    # ваш код

    #приводим к нижнему регистру
    sample_text_lower = sample_text.lower();

    #удаляем цифры
    sample_text_no_numbers = ''.join(char for char in sample_text_lower if char not in numbers)

    #заменяем все символы пунктуации на пробелы
    translator = str.maketrans('', '', punctuation)
    output_text = sample_text_no_numbers.translate(translator)

    #Удаление лишних пробелов
    output_text = ' '.join(output_text.split())
    print(f'Нормализированный текст: {output_text}');
sample_text = "Пример текста123, с РАЗНЫМИ символами! И 456 цифрами?!"
normalize_text(sample_text)


Нормализированный текст: пример текста с разными символами и цифрами


Упражнение 2: Подсчет частотности слов. Напишите функцию, которая будет принимать текст, нормализовать его, токенизировать и возвращать словарь с частотностью каждого слова.

In [None]:
def get_frequency(text):
  #НОРМАЛИЗАЦИЯ ТЕКСТОВ
  #убираем цифорки
  import string
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];
  #приводим к нижнему регистру
  text = text.lower();
  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);
  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)
  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())
  #ТОКЕНИЗАЦИЯ ТЕКСТОВ
  #Токенизация по пробелам
  tokens = normal_text.split()
  #Кладем в словарь частотность каждого слова
  dict = {}
  for i in tokens:
    if i in dict.keys():
      dict[i]+=1;
    else:
      dict[i] = 1;
  print(dict)

sample_text = "Компьютерная лингвистика изучает методы обработки текста. Компьютерная лингвистика является областью искусственного интеллекта."
english_text = "Natural language processing is a field of artificial intelligence. Natural language processing focuses on the interaction between computers and humans."
# ваш код
get_frequency(sample_text)
get_frequency(english_text)


{'компьютерная': 2, 'лингвистика': 2, 'изучает': 1, 'методы': 1, 'обработки': 1, 'текста': 1, 'является': 1, 'областью': 1, 'искусственного': 1, 'интеллекта': 1}
{'natural': 2, 'language': 2, 'processing': 2, 'is': 1, 'a': 1, 'field': 1, 'of': 1, 'artificial': 1, 'intelligence': 1, 'focuses': 1, 'on': 1, 'the': 1, 'interaction': 1, 'between': 1, 'computers': 1, 'and': 1, 'humans': 1}


Упражнение 3: Поиск самых длинных и коротких слов. Напишите функцию, которая находит самые длинные и самые короткие слова в тексте.

In [None]:
def get_longest_word(text):
  #НОРМАЛИЗАЦИЯ ТЕКСТОВ
  #убираем цифорки
  import string
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];
  #приводим к нижнему регистру
  text = text.lower();
  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);
  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)
  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())
  #ТОКЕНИЗАЦИЯ ТЕКСТОВ
  #Токенизация по пробелам
  tokens = normal_text.split()
  #print(tokens)

  max_length = len(tokens[0])
  min_length = len(tokens[0])
  long_words = []
  short_words = []
  for i in tokens:
    #ищем самое длинное слово
    if len(i) == max_length and i not in long_words: #добавляем слово в список длинных слов, только если оно еще не добавлено
      long_words.append(i)

    elif len(i) > max_length:
      long_words.clear()
      long_words.append(i)
      max_length = len(i)
    #ищем самое короткое слово
    if len(i) == min_length and i not in short_words: #добавляем слово в список коротких слов, только если оно еще не добавлено
      short_words.append(i)
    elif len(i) < min_length:
      short_words.clear()
      short_words.append(i)
      min_length = len(i)
  #выводим результат
  print(f"\tСамые длинные слова: {long_words}") if len(long_words) > 1 else print(f"\tСамое длинное слово: {long_words}")
  print(f"\tСамые короткие слова: {short_words}") if len(short_words) > 1 else print(f"\tСамое короткое слово: {short_words}")

sample_text = "Компьютерная лингвистика является междисциплинарной областью междисциплинарной науки, которая изучает математические и компьютерные модели естественного языка, а также его применение в системах искусственного интеллекта."
english_text = "Computational linguistics is an interdisciplinary field of science that studies mathematical and computational models of natural language and its application in artificial intelligence systems."
# ваш код
print("В тексте на русском языке:")
get_longest_word(sample_text)
print("В тексте на английском языке:")
get_longest_word(english_text)

В тексте на русском языке:
	Самое длинное слово: ['междисциплинарной']
	Самые короткие слова: ['и', 'а', 'в']
В тексте на английском языке:
	Самое длинное слово: ['interdisciplinary']
	Самые короткие слова: ['is', 'an', 'of', 'in']


Упражнение 4: Поиск и подсчет определенных паттернов. Напишите функцию, которая находит и подсчитывает слова, начинающиеся с определенной буквы или содержащие определенную последовательность букв.

In [9]:
import string
def find_k_words(sample_text):
    kwords =[]
    # Поиск слов, начинающихся с 'к'
    #НОРМАЛИЗАЦИЯ ТЕКСТОВ
    #убираем цифорки
    punctuation = string.punctuation
    numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];
    #приводим к нижнему регистру
    text = sample_text.lower();
    #удаляем цифры
    text_no_numbers = ''.join(char for char in text if char not in numbers);
    #заменяем все символы пунктуации на пробелы
    translator = str.maketrans('', '', punctuation)
    normal_text = text_no_numbers.translate(translator)
    #Удаление лишних пробелов
    normal_text = ' '.join(normal_text.split())
    #ТОКЕНИЗАЦИЯ ТЕКСТОВ
    #Токенизация по пробелам
    tokens = normal_text.split()
    quantity = 0
    for i in tokens:
      if i[0][0] =='к':
        quantity += 1
        new_i = re.sub(r'к', 'К', i)
        kwords.append(new_i)
    print(f"Количество слов, начинающихся на букву «к»: {quantity} ({kwords})")

sample_text = "Компьютерная лингвистика изучает методы обработки текста. Математические модели и компьютерные алгоритмы используются для анализа естественных языков."
find_k_words(sample_text)

Количество слов, начинающихся на букву «к»: 2 (['Компьютерная', 'Компьютерные'])


In [7]:
import re
def find_ing_words(english_text):
  ingwords = []
  # Поиск слов, содержащих 'ing'
  # ваш код
  #НОРМАЛИЗАЦИЯ ТЕКСТОВ
  #убираем цифорки
  import string
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];
  #приводим к нижнему регистру
  text = english_text.lower();
  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);
  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)
  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())
  #ТОКЕНИЗАЦИЯ ТЕКСТОВ
  #Токенизация по пробелам
  tokens = normal_text.split()
  quantity = 0
  for i in tokens:
    if 'ing' in i:
      quantity += 1
      new_i = re.sub(r'ing', 'ING', i)
      ingwords.append(new_i)
  print(f"Количество слов, содержащих «ing»: {quantity} ({ingwords})")

english_text = "Computational linguistics studies methods of text processing. Mathematical models and computer algorithms are used to analyze natural languages."
find_ing_words(english_text)

Количество слов, содержащих «ing»: 2 (['lINGuistics', 'processING'])


Упражнение 5: Анализ предложений в тексте. Напишите функцию, которая анализирует текст на уровне предложений, подсчитывая:

1. Количество предложений
2. Среднюю длину предложения (в словах)
3. Самое длинное и самое короткое предложение


In [11]:
# ваш код
def simple_sentence_tokenize(text):
    """
    Простая токенизация на предложения:
    1. Заменяем знаки конца предложения на специальный маркер
    2. Разделяем текст по маркеру
    3. Очищаем полученные предложения
    """
    # Заменяем знаки конца предложения
    for end_mark in ['.', '!', '?']:
        text = text.replace(end_mark, f'{end_mark}SENTENCE_END')

    # Разделяем по маркеру
    sentences = text.split('SENTENCE_END')

    # Очищаем предложения и удаляем пустые
    cleaned_sentences = [sentence.strip() for sentence in sentences if sentence.strip()]

    return cleaned_sentences
def analyze_sentences(sample_text):
  #Считаем количество предложений
  sentences = simple_sentence_tokenize(sample_text)

  sum = 0
  max_length = len(sentences[0])
  min_length = len(sentences[0])
  long_sentence = sentences[0]
  short_sentence = sentences[0]

  for i in sentences:
    #ищем самое длинное предложение
    if len(i) >= max_length:
      long_sentence = i
      max_length = len(i)
    #ищем самое короткое предложение
    if len(i) <= min_length:
      short_sentence = i
      min_length = len(i)

  #НОРМАЛИЗАЦИЯ ТЕКСТОВ
  #убираем цифорки
  import string
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];
  #приводим к нижнему регистру
  text = sample_text.lower();
  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);
  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)
  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())
  normal_text = normal_text.split()
  sum = len(normal_text)        #Считаем общее количество слов в тексте

  # Анализ предложений
  print("Результаты анализа предложений:")
  print(f"Количество предложений: {len(sentences)}")
  print(f"Средняя длина предложения (в словах): {sum / len(sentences)}")
  print(f"Самое длинное предложение: {long_sentence}")
  print(f"Самое короткое предложение: {short_sentence}")

sample_text = """Компьютерная лингвистика - это междисциплинарная область науки.
Она изучает математические и компьютерные модели естественного языка.
Методы компьютерной лингвистики применяются для решения различных задач, таких как машинный перевод, автоматическое реферирование и информационный поиск.
Современные алгоритмы позволяют анализировать большие объемы текстов."""

analyze_sentences(sample_text)




Результаты анализа предложений:
Количество предложений: 4
Средняя длина предложения (в словах): 9.5
Самое длинное предложение: Методы компьютерной лингвистики применяются для решения различных задач, таких как машинный перевод, автоматическое реферирование и информационный поиск.
Самое короткое предложение: Компьютерная лингвистика - это междисциплинарная область науки.


In [15]:
english_text = """Computational linguistics is an interdisciplinary field of science.
It studies mathematical and computational models of natural language.
Methods of computational linguistics are applied to solve various tasks such as machine translation, automatic summarization, and information retrieval.
Modern algorithms allow analyzing large volumes of texts."""

analyze_sentences(english_text)

Результаты анализа предложений:
Количество предложений: 4
Средняя длина предложения (в словах): 11.0
Самое длинное предложение: Methods of computational linguistics are applied to solve various tasks such as machine translation, automatic summarization, and information retrieval.
Самое короткое предложение: Modern algorithms allow analyzing large volumes of texts.


**5. Домашнее задание**

Напишите функцию для нормализации текста, которая:

1. Приводит текст к нижнему регистру
2. Удаляет все знаки пунктуации
3. Заменяет все цифры на символ '#'
4. Удаляет лишние пробелы

Напишите функцию, которая находит и выводит все слова из текста, содержащие гласные в определенной последовательности (например, 'о' и затем 'а').

Создайте функцию, которая:

1.   Токенизирует текст
2.   Отбирает только слова длиной более 4 символов
3. Сортирует их по алфавиту
4. Возвращает первые 10 слов

Напишите функцию для анализа частотности символов в тексте, которая возвращает 5 самых часто встречающихся символов и их количество.

Напишите программу, которая разделяет текст на параграфы (по двойному переносу строки), а затем подсчитывает для каждого параграфа: количество предложений, количество слов, среднюю длину слова

ПЕРВОЕ ДОМАШНЕЕ ЗАДАНИЕ


---


Напишите функцию для нормализации текста, которая:

1. Приводит текст к нижнему регистру
2. Удаляет все знаки пунктуации
3. Заменяет все цифры на символ '#'
4. Удаляет лишние пробелы

In [18]:
import re
def normalize_text_homework(sample_text):
  #Приводим текст к нижнему регистру
  text = sample_text.lower()

  #Удаляем все знаки пунткуации

  # Определение знаков пунктуации для удаления
  import string
  punctuation = string.punctuation  # !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

  #Удаление знаков пунткуации
  text_no_punctuation = ''.join(char for char in text if char not in punctuation)

  #Заменяем все цифры на символ '#'
  text_no_numbers = re.sub(r'\d', '#', text_no_punctuation)

  #Удаляем лишние пробелы
  text_no_spaces = text_no_numbers.split()
  output_text = ' '.join(text_no_spaces)
  print(output_text)

# Далее я попросил DeepSeek составить мне хаотичный текст
# с сумбурно расставленными знаками пунктуации, со скачущим регистром, и великим множеством цифр и кучей пробелов.
# Вот, что из этого вышло
sample_text = """Привет!!!   Это   мой   ТЕКСТ для проверки  .  .  .  Он  должен  быть   ИСПОРЧЕН  всеми  способами:
1)  Тут  есть  цифры  123,  а  тут  4567   и  даже  890!!!
2)  Регистр  скачет  как  сумасшедший:  ОДИН,  два,  ТРИ,  четыре,  ПЯТЬ!!!
3)  Знаки  препинания  расставлены  невпопад  ,  ,  ? !  ...  А  может  ;  и  вот  так  :  —  или  так  –  !
4)  А  еще  тут  есть  дробные  числа  вроде  3.14  и  дата  01.01.2023  !!!
И  много-много     лишних      пробелов    везде!!!!
Проверь,  справится  ли  твоя  функция  с  этим  МЕСИВОМ  из  999  проблем???"""

normalize_text_homework(sample_text)


привет это мой текст для проверки он должен быть испорчен всеми способами # тут есть цифры ### а тут #### и даже ### # регистр скачет как сумасшедший один два три четыре пять # знаки препинания расставлены невпопад а может и вот так — или так – # а еще тут есть дробные числа вроде ### и дата ######## и многомного лишних пробелов везде проверь справится ли твоя функция с этим месивом из ### проблем


ВТОРОЕ ДОМАШНЕЕ ЗАДАНИЕ


---


Напишите функцию, которая находит и выводит все слова из текста, содержащие гласные в определенной последовательности (например, 'о' и затем 'а').


*   Новый пункт
*   Новый пункт



In [19]:
import re
import string
# Функция для для вывода слов с определенной последователньостью гласных
def words_with_two_syllables(X, Z, tokens):
  two_syllables_list = []
  pattern = f"{X}.*{Z}"
  for i in tokens:
    matches = re.findall(pattern, i)
    if matches:
      two_syllables_list.append(i)
  print(f'Слова с последовательностью гласных «{X}», «{Z}»: {two_syllables_list}')

def tokenize_homework(deepseek_text):
  #НОРМАЛИЗАЦИЯ ТЕКСТА
  #убираем цифорки
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];

  #приводим к нижнему регистру
  text = deepseek_text.lower();

  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);

  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)

  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())

  #ТОКЕНИЗАЦИЯ ТЕКСТОВ

  #Токенизация по пробелам
  tokens = normal_text.split()

  return tokens

deepseek_text = """Моя любимая бабушка жила в деревне, и каждое лето я приезжал к ней. Помню, как однажды стояла прекрасная погода,
когда мы пошли по пыльной дороге на её пасеку. По пути мы видели корову, которая мирно жевала траву под большим деревом.
Бабушка несла в руках тарелку со свежим мёдом, но внезапно споткнулась о камень и чуть не уронила её.
К счастью, она успела ухватиться за старые перила у колодца, избежав падения.
В её маленькой комнате висела старая фотография: карета, запряжённая лошадьми,
едет по берегу океана. Это была история из её молодости. Бабушка любила делиться этими воспоминаниями,
и я готов был верить каждому её слову.
Каждое утро она заводила свою старую программу на радио, пока белила стены дома.
"Нужно успеть белить до дождя", — говорила она, замешивая раствор. Я наблюдал, как она ловко
месит известку своими натруженными руками, один палец которой был всегда в мелкой царапине от пчёл.
В местной школе, куда я ходил, была моя заветная мечта — стать путешественником.
Но главной моей работой тогда было помогать бабушке, и я не рассматрил это как бегство от обязанностей.
Деревенское заведение, где мы иногда покупали продукты, до сих пор стоит на том же месте.
"""

tokens = tokenize_homework(deepseek_text)

#Слова с последовательностью гласных «А», «У»
words_with_two_syllables("а", "у", tokens)

#Слова с последовательностью гласных «А», «Е»
words_with_two_syllables("а", "е", tokens)

#Слова с последовательностью гласных «Е», «И»
words_with_two_syllables("е", "и", tokens)

#Слова с последовательностью гласных «А», «О»
words_with_two_syllables("а", "о", tokens)

#Слова с последовательностью гласных «Е», «О»
words_with_two_syllables("е", "о", tokens)



Слова с последовательностью гласных «а», «у»: ['бабушка', 'пасеку', 'траву', 'бабушка', 'тарелку', 'бабушка', 'каждому', 'старую', 'программу', 'натруженными', 'бабушке']
Слова с последовательностью гласных «а», «е»: ['каждое', 'пасеку', 'тарелку', 'камень', 'старые', 'падения', 'маленькой', 'комнате', 'карета', 'каждое', 'замешивая', 'натруженными', 'палец', 'царапине', 'заветная', 'бабушке', 'обязанностей', 'заведение']
Слова с последовательностью гласных «е», «и»: ['видели', 'свежим', 'перила', 'падения', 'делиться', 'верить', 'белила', 'белить', 'замешивая', 'месит', 'натруженными', 'путешественником', 'заведение']
Слова с последовательностью гласных «а», «о»: ['каждое', 'внезапно', 'маленькой', 'каждому', 'каждое', 'заводила', 'радио', 'раствор', 'главной', 'работой', 'обязанностей']
Слова с последовательностью гласных «е», «о»: ['лето', 'деревом', 'внезапно', 'маленькой', 'мелкой', 'местной', 'путешественником', 'бегство', 'деревенское']


ТРЕТЬЕ ДОМАШНЕЕ ЗАДАНИЕ


---


Создайте функцию, которая:

1. Токенизирует текст
2. Отбирает только слова длиной более 4 символов
3. Сортирует их по алфавиту
4. Возвращает первые 10 слов


In [20]:
def first_ten_words(deepseek_text):
  #НОРМАЛИЗАЦИЯ ТЕКСТА
  #убираем цифорки
  import string
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];

  #приводим к нижнему регистру
  text = deepseek_text.lower();

  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);

  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)

  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())

  #ТОКЕНИЗАЦИЯ ТЕКСТОВ

  #Токенизация по пробелам
  tokens = normal_text.split()

  #Отбираем слова длиной более 4 символов
  four_letter_words = []
  for i in tokens:
    if len(i) > 4 and i not in four_letter_words:
      four_letter_words.append(i)
  four_letter_words.sort() #Сортируем по алфавиту
  print(four_letter_words[:10]) # Выводим первые 10 слов

deepseek_text = """Моя любимая бабушка жила в деревне, и каждое лето я приезжал к ней. Помню, как однажды стояла прекрасная погода,
когда мы пошли по пыльной дороге на её пасеку. По пути мы видели корову, которая мирно жевала траву под большим деревом.
Бабушка несла в руках тарелку со свежим мёдом, но внезапно споткнулась о камень и чуть не уронила её.
К счастью, она успела ухватиться за старые перила у колодца, избежав падения.
В её маленькой комнате висела старая фотография: карета, запряжённая лошадьми,
едет по берегу океана. Это была история из её молодости. Бабушка любила делиться этими воспоминаниями,
и я готов был верить каждому её слову.
Каждое утро она заводила свою старую программу на радио, пока белила стены дома.
"Нужно успеть белить до дождя", — говорила она, замешивая раствор. Я наблюдал, как она ловко
месит известку своими натруженными руками, один палец которой был всегда в мелкой царапине от пчёл.
В местной школе, куда я ходил, была моя заветная мечта — стать путешественником.
Но главной моей работой тогда было помогать бабушке, и я не рассматрил это как бегство от обязанностей.
Деревенское заведение, где мы иногда покупали продукты, до сих пор стоит на том же месте.
"""

first_ten_words(deepseek_text)

['бабушка', 'бабушке', 'бегство', 'белила', 'белить', 'берегу', 'большим', 'верить', 'видели', 'висела']


ЧЕТВЕРТОЕ ДОМАШНЕЕ ЗАДАНИЕ


---
Напишите функцию для анализа частотности символов в тексте, которая возвращает
5 самых часто встречающихся символов и их количество.

In [22]:
import string
def most_frequent_chars(deepseek_text):
  #НОРМАЛИЗАЦИЯ ТЕКСТА
  #убираем цифорки
  punctuation = string.punctuation
  numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];

  #приводим к нижнему регистру
  text = deepseek_text.lower();

  #удаляем цифры
  text_no_numbers = ''.join(char for char in text if char not in numbers);

  #заменяем все символы пунктуации на пробелы
  translator = str.maketrans('', '', punctuation)
  normal_text = text_no_numbers.translate(translator)

  #Удаление лишних пробелов
  normal_text = ' '.join(normal_text.split())

  #ТОКЕНИЗАЦИЯ ТЕКСТОВ

  #Токенизация по пробелам
  tokens = normal_text.split()

  #Кладем в словарь частотность каждого символа
  char_dict = {}
  for i in tokens:
    for char in i:
      if char in char_dict.keys():
        char_dict[char]+=1;
      else:
        char_dict[char] = 1;

  #Ищем самые частоупотребимые символы
  sorted_items_desc = sorted(char_dict.items(), key=lambda item: item[1], reverse=True)
  print(f"Самые частоупотребимые символы: {sorted_items_desc[:5]}")

deepseek_text = """Моя любимая бабушка жила в деревне, и каждое лето я приезжал к ней. Помню, как однажды стояла прекрасная погода,
когда мы пошли по пыльной дороге на её пасеку. По пути мы видели корову, которая мирно жевала траву под большим деревом.
Бабушка несла в руках тарелку со свежим мёдом, но внезапно споткнулась о камень и чуть не уронила её.
К счастью, она успела ухватиться за старые перила у колодца, избежав падения.
В её маленькой комнате висела старая фотография: карета, запряжённая лошадьми,
едет по берегу океана. Это была история из её молодости. Бабушка любила делиться этими воспоминаниями,
и я готов был верить каждому её слову.
Каждое утро она заводила свою старую программу на радио, пока белила стены дома.
"Нужно успеть белить до дождя", — говорила она, замешивая раствор. Я наблюдал, как она ловко
месит известку своими натруженными руками, один палец которой был всегда в мелкой царапине от пчёл.
В местной школе, куда я ходил, была моя заветная мечта — стать путешественником.
Но главной моей работой тогда было помогать бабушке, и я не рассматрил это как бегство от обязанностей.
Деревенское заведение, где мы иногда покупали продукты, до сих пор стоит на том же месте.
"""

most_frequent_chars(deepseek_text)

Самые частоупотребимые символы: [('о', 104), ('а', 102), ('е', 77), ('и', 56), ('т', 55)]


ПЯТОЕ ДОМАШНЕЕ ЗАДАНИЕ


---


Напишите программу, которая разделяет текст на параграфы (по двойному переносу строки), а затем подсчитывает для каждого параграфа: количество предложений, количество слов, среднюю длину слова

In [None]:
import re
import string

def simple_sentence_tokenize(text):
    """
    Простая токенизация на предложения:
    1. Заменяем знаки конца предложения на специальный маркер
    2. Разделяем текст по маркеру
    3. Очищаем полученные предложения
    """
    # Заменяем знаки конца предложения
    for end_mark in ['.', '!', '?']:
        text = text.replace(end_mark, f'{end_mark}SENTENCE_END')

    # Разделяем по маркеру
    sentences = text.split('SENTENCE_END')

    # Очищаем предложения и удаляем пустые
    cleaned_sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
    return cleaned_sentences

def analyze_paragraphs(text):
    """
    Разделяет текст на параграфы и анализирует каждый параграф.
    """
    paragraphs = text.split('\n\n')

    for i, paragraph in enumerate(paragraphs):
        sentences = simple_sentence_tokenize(paragraph)
        number_of_sentences = len(sentences)
        total_number_of_words = 0
        sum = 0
        for sentence in sentences:
            # Нормализация и токенизация слов внутри предложения
            #НОРМАЛИЗАЦИЯ ТЕКСТА
            #убираем цифорки
            punctuation = string.punctuation
            numbers = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"];

            #приводим к нижнему регистру
            sentence = sentence.lower();

            #удаляем цифры
            text_no_numbers = ''.join(char for char in sentence if char not in numbers);

            #заменяем все символы пунктуации на пробелы
            translator = str.maketrans('', '', punctuation)
            normal_text = text_no_numbers.translate(translator)

            #Удаление лишних пробелов
            normal_text = ' '.join(normal_text.split())

            #Токенизация по пробелам
            tokens = normal_text.split()
            number_of_words = len(tokens)
            total_number_of_words += number_of_words
            for token in tokens:
                sum += len(token)
        print(f"Параграф {i + 1}:\n Количество предложнний: {number_of_sentences}\n Количество слов: {total_number_of_words}\n Средняя длина слова: {sum / total_number_of_words}")

deepseek_text = """Моя любимая бабушка жила в деревне, и каждое лето я приезжал к ней. Помню, как однажды стояла прекрасная погода,
когда мы пошли по пыльной дороге на её пасеку. По пути мы видели корову, которая мирно жевала траву под большим деревом.
Бабушка несла в руках тарелку со свежим мёдом, но внезапно споткнулась о камень и чуть не уронила её.
К счастью, она успела ухватиться за старые перила у колодца, избежав падения.
В её маленькой комнате висела старая фотография: карета, запряжённая лошадьми,
едет по берегу океана.

Это была история из её молодости. Бабушка любила делиться этими воспоминаниями,
и я готов был верить каждому её слову.
Каждое утро она заводила свою старую программу на радио, пока белила стены дома.
"Нужно успеть белить до дождя", — говорила она, замешивая раствор. Я наблюдал, как она ловко
месит известку своими натруженными руками, один палец которой был всегда в мелкой царапине от пчёл.

В местной школе, куда я ходил, была моя заветная мечта — стать путешественником.
Но главной моей работой тогда было помогать бабушке, и я не рассматрил это как бегство от обязанностей.
Деревенское заведение, где мы иногда покупали продукты, до сих пор стоит на том же месте.."""

analyze_paragraphs(deepseek_text)

Параграф 1:
 Количество предложнний: 6
 Количество слов: 84
 Средняя длина слова: 4.9523809523809526
Параграф 2:
 Количество предложнний: 5
 Количество слов: 62
 Средняя длина слова: 5.129032258064516
Параграф 3:
 Количество предложнний: 4
 Количество слов: 45
 Средняя длина слова: 4.933333333333334
