# Модуль В. Обработка и анализ текстовых данных (инвариант)

**Краткое описание задания:**
Необходимо выполнить парсинг данных для сбора информации с указанных веб-ресурсов. Сформировать структуру набора данных.  Провести предварительную обработку данных. Выполнить построение и отбор признаков. Выполнить семантический анализ текста. 	Провести визуальный анализ статистики текстовых признаков. Сделать выводы, в том числе с использованием инструментов визуализации.

**Задание:**
1. Парсинг данных: выполнить парсинг данных для сбора информации об участии школьников в олимпиаде по литературе: текст сочинения, оценка в баллах.
2. Формирование структуры набора данных: определение необходимых полей и создайте структуры набора данных.
3. Предварительная обработка данных: очистка данных и предварительная обработка (удаление стоп-слов, перевод в нижний регистр, лемматизация, стемминг, удаление аномалий и т.д.).
4. Отбор признаков: определение того, какие слова и лексические паттерны чаще всего применяются в текстах, получающих большее количество баллов и напротив определить ключевые моменты, которые характеризуют более слабые сочинения. 
5. Формулирование выводов.

**Результат модуля:** 
1. Таблица в формате xlsx или csv с необходимыми данными с веб ресурса.
2. Таблица с выявленными признаками и с частотой встречаемости частотой встречаемости.
3. Аналитическая записка в текстовом формате со всех проделанной работой.

# 2. Формирование структуры

In [2]:
import pandas as pd

# Загрузка данных из файла сsv в датафрейм
df = pd.read_csv("Tweets.csv")

In [16]:
df.head()

Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,negativereason,negativereason_confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_location,user_timezone
0,570306133677760513,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2015-02-24 11:35:52 -0800,,Eastern Time (US & Canada)
1,570301130888122368,positive,0.3486,,0.0,Virgin America,,jnardino,,0,@VirginAmerica plus you've added commercials t...,,2015-02-24 11:15:59 -0800,,Pacific Time (US & Canada)
2,570301083672813571,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2015-02-24 11:15:48 -0800,Lets Play,Central Time (US & Canada)
3,570301031407624196,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2015-02-24 11:15:36 -0800,,Pacific Time (US & Canada)
4,570300817074462722,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2015-02-24 11:14:45 -0800,,Pacific Time (US & Canada)


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14640 entries, 0 to 14639
Data columns (total 15 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   tweet_id                      14640 non-null  int64  
 1   airline_sentiment             14640 non-null  object 
 2   airline_sentiment_confidence  14640 non-null  float64
 3   negativereason                9178 non-null   object 
 4   negativereason_confidence     10522 non-null  float64
 5   airline                       14640 non-null  object 
 6   airline_sentiment_gold        40 non-null     object 
 7   name                          14640 non-null  object 
 8   negativereason_gold           32 non-null     object 
 9   retweet_count                 14640 non-null  int64  
 10  text                          14640 non-null  object 
 11  tweet_coord                   1019 non-null   object 
 12  tweet_created                 14640 non-null  object 
 13  t

In [3]:
# Удаление столбцов с хотя бы одним пустым значением
df = df.dropna(axis=1)

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14640 entries, 0 to 14639
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   tweet_id                      14640 non-null  int64  
 1   airline_sentiment             14640 non-null  object 
 2   airline_sentiment_confidence  14640 non-null  float64
 3   airline                       14640 non-null  object 
 4   name                          14640 non-null  object 
 5   retweet_count                 14640 non-null  int64  
 6   text                          14640 non-null  object 
 7   tweet_created                 14640 non-null  object 
dtypes: float64(1), int64(2), object(5)
memory usage: 915.1+ KB


In [22]:
df.head(10)

Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,airline,name,retweet_count,text,tweet_created
0,570306133677760513,neutral,1.0,Virgin America,cairdin,0,@VirginAmerica What @dhepburn said.,2015-02-24 11:35:52 -0800
1,570301130888122368,positive,0.3486,Virgin America,jnardino,0,@VirginAmerica plus you've added commercials t...,2015-02-24 11:15:59 -0800
2,570301083672813571,neutral,0.6837,Virgin America,yvonnalynn,0,@VirginAmerica I didn't today... Must mean I n...,2015-02-24 11:15:48 -0800
3,570301031407624196,negative,1.0,Virgin America,jnardino,0,@VirginAmerica it's really aggressive to blast...,2015-02-24 11:15:36 -0800
4,570300817074462722,negative,1.0,Virgin America,jnardino,0,@VirginAmerica and it's a really big bad thing...,2015-02-24 11:14:45 -0800
5,570300767074181121,negative,1.0,Virgin America,jnardino,0,@VirginAmerica seriously would pay $30 a fligh...,2015-02-24 11:14:33 -0800
6,570300616901320704,positive,0.6745,Virgin America,cjmcginnis,0,"@VirginAmerica yes, nearly every time I fly VX...",2015-02-24 11:13:57 -0800
7,570300248553349120,neutral,0.634,Virgin America,pilot,0,@VirginAmerica Really missed a prime opportuni...,2015-02-24 11:12:29 -0800
8,570299953286942721,positive,0.6559,Virgin America,dhepburn,0,"@virginamerica Well, I didn't…but NOW I DO! :-D",2015-02-24 11:11:19 -0800
9,570295459631263746,positive,1.0,Virgin America,YupitsTate,0,"@VirginAmerica it was amazing, and arrived an ...",2015-02-24 10:53:27 -0800


In [4]:
df = df.iloc[:500]

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   tweet_id                      1000 non-null   int64  
 1   airline_sentiment             1000 non-null   object 
 2   airline_sentiment_confidence  1000 non-null   float64
 3   airline                       1000 non-null   object 
 4   name                          1000 non-null   object 
 5   retweet_count                 1000 non-null   int64  
 6   text                          1000 non-null   object 
 7   tweet_created                 1000 non-null   object 
dtypes: float64(1), int64(2), object(5)
memory usage: 62.6+ KB


In [5]:
import pandas as pd
from googletrans import Translator
import time

# Создаем объект Translator
translator = Translator()

# Функция для перевода текста на русский с выводом прогресса
def translate_text(text, index, total):
    result = translator.translate(text, dest='ru')
    print(f"Переведено строк: {index + 1} из {total}")
    return result.text

# Общая длина DataFrame
total_rows = len(df)

# Применение функции перевода к столбцу 'text' с отслеживанием прогресса
df['text_ru'] = [translate_text(text, i, total_rows) for i, text in enumerate(df['text'])]

Переведено строк: 1 из 500
Переведено строк: 2 из 500
Переведено строк: 3 из 500
Переведено строк: 4 из 500
Переведено строк: 5 из 500
Переведено строк: 6 из 500
Переведено строк: 7 из 500
Переведено строк: 8 из 500
Переведено строк: 9 из 500
Переведено строк: 10 из 500
Переведено строк: 11 из 500
Переведено строк: 12 из 500
Переведено строк: 13 из 500
Переведено строк: 14 из 500
Переведено строк: 15 из 500
Переведено строк: 16 из 500
Переведено строк: 17 из 500
Переведено строк: 18 из 500
Переведено строк: 19 из 500
Переведено строк: 20 из 500
Переведено строк: 21 из 500
Переведено строк: 22 из 500
Переведено строк: 23 из 500
Переведено строк: 24 из 500
Переведено строк: 25 из 500
Переведено строк: 26 из 500
Переведено строк: 27 из 500
Переведено строк: 28 из 500
Переведено строк: 29 из 500
Переведено строк: 30 из 500
Переведено строк: 31 из 500
Переведено строк: 32 из 500
Переведено строк: 33 из 500
Переведено строк: 34 из 500
Переведено строк: 35 из 500
Переведено строк: 36 из 500
П

In [17]:
df.head()

Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,airline,name,retweet_count,text,tweet_created,text_ru
0,570306133677760513,neutral,1.0,Virgin America,cairdin,0,@VirginAmerica What @dhepburn said.,2015-02-24 11:35:52 -0800,@Virginamerica Что сказал @dhepburn.
1,570301130888122368,positive,0.3486,Virgin America,jnardino,0,@VirginAmerica plus you've added commercials t...,2015-02-24 11:15:59 -0800,@Virginamerica плюс вы добавили рекламные роли...
2,570301083672813571,neutral,0.6837,Virgin America,yvonnalynn,0,@VirginAmerica I didn't today... Must mean I n...,2015-02-24 11:15:48 -0800,"@VirginAmerica, я не сегодня ... должен означа..."
3,570301031407624196,negative,1.0,Virgin America,jnardino,0,@VirginAmerica it's really aggressive to blast...,2015-02-24 11:15:36 -0800,@VirginAmerica Это действительно агрессивно вз...
4,570300817074462722,negative,1.0,Virgin America,jnardino,0,@VirginAmerica and it's a really big bad thing...,2015-02-24 11:14:45 -0800,"@Virginamerica, и это очень большая вещь в этом"


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   tweet_id                      500 non-null    int64  
 1   airline_sentiment             500 non-null    object 
 2   airline_sentiment_confidence  500 non-null    float64
 3   airline                       500 non-null    object 
 4   name                          500 non-null    object 
 5   retweet_count                 500 non-null    int64  
 6   text                          500 non-null    object 
 7   tweet_created                 500 non-null    object 
 8   text_ru                       500 non-null    object 
dtypes: float64(1), int64(2), object(6)
memory usage: 35.3+ KB


In [6]:
# Сохранение обработанного DataFrame в формате Excel
output_excel_path = "tweetsRU.xlsx"
df.to_excel(output_excel_path, index=False)

# Сохранение обработанного DataFrame в формате CSV
output_csv_path = "tweetsRU.csv"
df.to_csv(output_csv_path, index=False)

Ниже приведены описания каждого атрибута в наборе данных:

1. **tweet_id**: Уникальный идентификатор для каждого твита.
2. **airline_sentiment**: Настроение твита по отношению к авиакомпании, которое может быть классифицировано как нейтральное, положительное или отрицательное.
3. **airline_sentiment_confidence**: Балл доверия (от 0 до 1), который показывает, насколько уверенной является классификация настроений.
4. **авиакомпания**: Название авиакомпании, упомянутой в твите.
5. **имя**: Имя пользователя, опубликовавшего твит.
6. **retweet_count**: Количество раз, когда твит был ретвитнут.
7. **text**: Оригинальное содержание твита на английском языке.
8. **tweet_created**: Временная метка, когда был создан твит.
9. **text_ru**: Переведенное содержание твита на русский язык.

# 3. Предобработка данных

Выполним следующее: очистку данных и предварительную обработку (удаление стоп-слов, перевод в нижний регистр, лемматизация, стемминг, удаление аномалий и т.д.).

In [10]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.stem.snowball import SnowballStemmer

# Загрузка необходимых данных NLTK
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('punkt_tab')

# Инициализация необходимых инструментов
russian_stopwords = stopwords.words("russian")
lemmatizer = WordNetLemmatizer()
stemmer = SnowballStemmer("russian")

# Функция для предварительной обработки текста
def preprocess_text(text):
    # Удалите URL-адреса, упоминания и другие нежелательные символы
    text = re.sub(r"http\S+|@\w+", "", text)
    # Текст в нижнем регистре
    text = text.lower()
    # Удаление знаков препинания и неалфавитные символы
    text = re.sub(r"[^а-яё\s]", "", text)
    # Токенизация текста
    words = nltk.word_tokenize(text, language="russian")
    # Удаление стоп-слов
    words = [word for word in words if word not in russian_stopwords]
    # Лемматизация и стемминг
    words = [stemmer.stem(lemmatizer.lemmatize(word)) for word in words]
    # Соединение слов в очищенную строку
    return " ".join(words)

# Применим предварительную обработку к столбцу 'text_ru'
df['cleaned_text_ru'] = df['text_ru'].apply(preprocess_text)

df[['text_ru', 'cleaned_text_ru']].head()

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,text_ru,cleaned_text_ru
0,@Virginamerica Что сказал @dhepburn.,сказа
1,@Virginamerica плюс вы добавили рекламные роли...,плюс добав рекламн ролик оп безвкусн
2,"@VirginAmerica, я не сегодня ... должен означа...",сегодн долж означа нужн соверш одн поездк
3,@VirginAmerica Это действительно агрессивно вз...,эт действительн агрессивн взрыва неприятн разв...
4,"@Virginamerica, и это очень большая вещь в этом",эт очен больш вещ


# 4. Отбор признаков

Чтобы выполнить отбор признаков и определить слова и лексические шаблоны, которые характеризуют нейтральные, позитивные и негативные твиты, можно выполнить следующие шаги:

- Токенизация: Разделим очищенный русский текст на отдельные лексемы (слова).
- Классификация по настроению: Сгруппируем слова по связанным с ними настроениям (нейтральные, позитивные, негативные).
- Расчет частоты: Для каждой группы настроений подсчитаем частоту встречаемости каждого слова.
- Таблица результатов: Представьте наиболее часто встречающиеся слова для каждого класса настроений вместе с их количеством.

In [13]:
from collections import Counter

# Сначала сгруппируем очищенный текст по настроению
sentiments = ['neutral', 'positive', 'negative']

# Инициализируем словари для хранения количества слов для каждого чувства
word_counts = {sentiment: Counter() for sentiment in sentiments}

# Пройдеися по данным и подсчитаем частоту слов для каждого чувства
for _, row in df.iterrows():
    sentiment = row['airline_sentiment']
    if sentiment in sentiments:
        words = row['cleaned_text_ru'].split()
        word_counts[sentiment].update(words)

# Преобразуем подсчеты в кадры данных для лучшей визуализации
neutral_freq = pd.DataFrame(word_counts['neutral'].most_common(), columns=['Word', 'Neutral_Frequency'])
positive_freq = pd.DataFrame(word_counts['positive'].most_common(), columns=['Word', 'Positive_Frequency'])
negative_freq = pd.DataFrame(word_counts['negative'].most_common(), columns=['Word', 'Negative_Frequency'])

# Объединим частотные кадры данных, чтобы создать единую таблицу
freq_table = pd.merge(neutral_freq, positive_freq, on='Word', how='outer')
freq_table = pd.merge(freq_table, negative_freq, on='Word', how='outer')

# Заполним пропущенные значения значением 0 (для слов, которые не встречаются в определенных чувствах)
freq_table = freq_table.fillna(0)

# Сортировка по частоте во всех категориях
freq_table = freq_table.sort_values(by=['Neutral_Frequency', 'Positive_Frequency', 'Negative_Frequency'], ascending=False)

freq_table.head()

Unnamed: 0,Word,Neutral_Frequency,Positive_Frequency,Negative_Frequency
1086,рейс,26.0,7.0,41.0
1424,эт,16.0,23.0,26.0
872,полет,12.0,15.0,25.0
587,мо,12.0,8.0,22.0
508,лета,9.0,8.0,5.0


In [14]:
freq_table.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1434 entries, 1086 to 1431
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Word                1434 non-null   object 
 1   Neutral_Frequency   1434 non-null   float64
 2   Positive_Frequency  1434 non-null   float64
 3   Negative_Frequency  1434 non-null   float64
dtypes: float64(3), object(1)
memory usage: 56.0+ KB


Исходя из представленной таблицы, можем наблюдать следующие закономерности в частоте употребления слов в различных настроениях (нейтральном, позитивном и негативном):

1. **рейс (полет)**: Это слово часто встречается во всех настроениях, но чаще всего оно ассоциируется с негативными твитами. Это говорит о том, что в наборе данных преобладают обсуждения полетов, особенно негативного опыта.

2. **эт (это)**: Это слово встречается чаще в позитивных и негативных твитах по сравнению с нейтральными. Это может указывать на то, что данное слово часто используется при выражении сильного мнения, как положительного, так и отрицательного.

3. **полет (полет)**: Это слово также встречается во всех настроениях, но оно немного больше склоняется к негативным твитам. Это может говорить о том, что люди часто выражают беспокойство или негативные отзывы о самом полете.

4. **мо (мой)**: Слово «мой» чаще используется в негативных твитах по сравнению с позитивными или нейтральными, что может означать, что люди часто делятся личным негативным опытом.

5. **лета (летать)**: Это слово почти одинаково часто используется в нейтральных и позитивных твитах, с меньшей частотой в негативных. Это может говорить о том, что обсуждения, связанные с «полетами», часто носят нейтральный или позитивный характер, возможно, имея в виду общий акт полета, а не конкретные проблемы.

### Вывод:
Наиболее часто встречающиеся слова в негативных твитах, по-видимому, связаны с личным опытом полетов, в то время как в нейтральных и позитивных твитах используются более общие термины. Такие слова, как «рейс» (полет) и «полет» (рейс), чаще ассоциируются с негативными настроениями, что, вероятно, отражает жалобы или проблемы, с которыми сталкиваются пассажиры.

# 5. Итоговый отчёт

### Итоговый отчет по анализу данных и обработке текстов

#### 2. Формирование структуры набора данных:
Для проведения анализа мы загрузили набор данных, содержащий твиты о различных авиакомпаниях, и перевели содержание текста на русский язык. Структура набора данных включает следующие основные поля:

- **tweet_id**: Уникальный идентификатор каждого твита.
- **airline_sentiment**: Категория сентимента, ассоциированная с твитом (нейтральный, положительный, отрицательный).
- **airline_sentiment_confidence**: Уровень уверенности модели классификации сентимента в диапазоне от 0 до 1.
- **airline**: Название авиакомпании, упомянутой в твите.
- **name**: Имя пользователя, опубликовавшего твит.
- **retweet_count**: Количество ретвитов для данного твита.
- **text**: Оригинальный текст твита на английском языке.
- **tweet_created**: Дата и время создания твита.
- **text_ru**: Переведенный текст твита на русский язык.

На основе этой структуры были созданы ключевые столбцы для анализа сентимента и содержания текстов.

#### 3. Предварительная обработка данных:
Для подготовки текста на русском языке к дальнейшему анализу была выполнена предварительная обработка данных, которая включала несколько ключевых шагов:

- **Удаление ненужных символов и упоминаний**: Были удалены URL-адреса, упоминания других пользователей (например, @username), чтобы исключить их влияние на анализ текста.
- **Приведение к нижнему регистру**: Весь текст был переведен в нижний регистр, чтобы избежать дублирования слов с разным регистром.
- **Удаление стоп-слов**: Были удалены распространенные слова (стоп-слова) на русском языке, такие как «и», «в», «на», которые не несут значимой информации для анализа сентимента.
- **Лемматизация и стемминг**: Для уменьшения форм слов до их основы (леммы или корня) были применены стемминг и лемматизация. Это позволило сгруппировать слова с одинаковыми корнями, например, «летать» и «летает», в одно общее представление.
  
В результате этих шагов был создан новый столбец с предварительно обработанным текстом.

#### 4. Отбор признаков:
Для анализа того, какие слова и лексические паттерны чаще всего используются в твитах с различными сентиментами (нейтральными, положительными, негативными), были выполнены следующие действия:

1. **Группировка по сентименту**: Тексты твитов были разбиты на группы по сентиментам: нейтральные, положительные и отрицательные.
2. **Частотный анализ слов**: Для каждой группы сентиментов были рассчитаны частоты встречаемости слов. Это позволило выявить ключевые слова и паттерны для каждого типа сентимента. Например, слова «рейс» и «полет» чаще встречаются в отрицательных твитах, что может свидетельствовать о том, что пользователи склонны жаловаться на рейсы. В положительных твитах чаще встречаются слова, такие как «эт», которые могут обозначать похвалу или положительные впечатления.
3. **Построение таблицы**: Была создана таблица, в которой представлены слова и их частотность в каждом сентименте. Это помогло определить, какие слова характерны для каждого типа твитов.

#### Итог:
На основании анализа можно сделать вывод, что сентимент пользователей сильно связан с теми словами, которые они используют. Отрицательные твиты часто содержат слова, связанные с проблемами на рейсах («рейс», «полет»), тогда как положительные твиты более склонны использовать менее конкретные, но эмоционально окрашенные слова. Такой подход позволяет использовать лексические паттерны для автоматического определения сентимента текстов, что может быть полезным при создании моделей анализа сентимента или улучшения обслуживания клиентов авиакомпаний.