<a href="https://colab.research.google.com/github/barbarrista/asu-edu/blob/main/intellectual/lr1/data_mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Лабораторная работа №1 по интеллектуальному анализу данных
В этой лабораторной работе мы сосредоточимся на использовании библиотек научных вычислений для эффективной обработки, преобразования и управления данными. Кроме того, мы предоставим передовые практики и представим инструменты визуализации для эффективного проведения анализа и визуализации больших данных.

---

## Введение
В этом блокноте мы изучим текстовый, документный набор данных с использованием инструментов научных вычислений, таких как **Pandas** и **Numpy**. Кроме того, будут изучены и подробно объяснены несколько фундаментальных концепций интеллектуального анализа данных, начиная от вычисления мер расстояния и заканчивая вычислением векторов частотности терминов. Где это необходимо, будут предоставлены примеры кода, визуализации и демонстрации. Кроме того, после специальных тем приводятся дополнительные упражнения. Эти упражнения направлены на проверку знаний студентов и стимулируют их к изучению техник, выходящих за рамки, рассмотренных в блокноте.

---

---

## 1. Данные
В этом блокноте мы изучим популярный набор данных 20 новостных групп, первоначально предоставленный [здесь](http://qwone.com/~jason/20Newsgroups/). Набор данных называется "Twenty Newsgroups", что означает, что во всем наборе данных доступно 20 категорий новостных статей. Краткое описание набора данных, предоставленное авторами, приведено ниже:

- *Набор данных 20 Newsgroups - это коллекция из примерно 20 000 документов новостных групп, разделенных (почти) равномерно по 20 различным новостным группам. Насколько нам известно, он был первоначально собран Кеном Лангом, вероятно, для его статьи «Newsweeder: Learning to filter netnews», хотя он явно не упоминает эту коллекцию. Коллекция 20 новостных групп стала популярным набором данных для экспериментов в текстовых приложениях методов машинного обучения, таких как классификация текста и кластеризация текста.*

Если вам нужна дополнительная информация о наборе данных, обратитесь к ссылке, указанной выше. Ниже приведен снимок набора данных, уже преобразованного в таблицу. Имейте в виду, что исходный набор данных не имеет такого красивого формата. Эта работа остается за нами. Это одна из задач, которая будет рассмотрена в этом блокноте: как преобразовать необработанные данные в удобные табличные форматы с помощью Pandas.

![atl txt](https://docs.google.com/drawings/d/e/2PACX-1vRd845nNXa1x1Enw6IoEbg-05lB19xG3mfO2BjnpZrloT0pSnY89stBV1gS9Iu6cgRCTq3E5giIT5ZI/pub?w=835&h=550)

---

## 2. Подготовка данных
Теперь давайте начнем изучать данные. Исходный набор данных можно найти по ссылке, указанной выше, или вы можете использовать версию, предоставленную [scikit learn](https://scikit-learn.org/stable/). Здесь мы будем использовать версию scikit learn.

В этой демонстрации мы рассмотрим только 4 категории. Это означает, что мы не будем использовать полный набор данных, а только его подмножество, которое включает 4 категории, определенные ниже:

In [None]:
# категории
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']

In [None]:
# получить документы, содержащие указанные категории
from sklearn.datasets import fetch_20newsgroups

twenty_train = fetch_20newsgroups(subset='train', categories=categories, \
                                  shuffle=True, random_state=42)

Давайте посмотрим на некоторые записи, содержащиеся в нашем подмножестве данных

In [None]:
twenty_train.data[0:2]

**Примечание.** `twenty_train` - это просто набор объектов, к которым можно получить доступ как к словарям python; таким образом, вы можете выполнять следующие операции с `twenty_train`:

In [None]:
twenty_train.target_names

In [None]:
len(twenty_train.data)

In [None]:
len(twenty_train.filenames)

#### Мы также можем распечатать пример из подмножества

In [None]:
# Пример того, что содержит подмножество
print("\n".join(twenty_train.data[0].split("\n")))

... и определить метку примера с помощью значения ключа `target_names`

In [None]:
print(twenty_train.target_names[twenty_train.target[0]])

In [None]:
twenty_train.target[0]

... мы также можем получить категорию 10 документов с помощью значения ключа `target`

In [None]:
# категории первых 10 документов.
twenty_train.target[:10]

**Примечание:** Как вы можете наблюдать, оба подхода выше предоставляют два разных способа получения значения `category` для набора данных. В идеале, мы хотим иметь доступ к обоим типам - числовому и номинальному - в случае, если какая-то конкретная библиотека отдает предпочтение определенному типу.

Как вы, возможно, уже заметили, для текущей версии данных также нет **табличного формата**. Как специалисты по интеллектуальному анализу данных, мы заинтересованы в том, чтобы наш набор данных был в максимально удобном формате; что-то, чем мы можем легко манипулировать и что совместимо с нашими алгоритмами и т. д.

Вот один из способов получить доступ к *текстовой* версии метки подмножества наших обучающих данных:

In [None]:
for t in twenty_train.target[:10]:
    print(twenty_train.target_names[t])

---

###**>>> Задание 1:**
В этом упражнении, пожалуйста, распечатайте *текстовые* данные для первых трех образцов в наборе данных. (См. код выше для справки)

In [None]:
# Ответ здесь


---

## 3. Преобразование данных
Поэтому мы хотим изучить и понять наши данные немного лучше. Прежде чем мы это сделаем, нам определенно нужно применить некоторые преобразования, чтобы наш набор данных был в удобном формате, чтобы мы могли свободно и более эффективно его изучать. К счастью для нас, существуют мощные научные инструменты для преобразования наших данных в этот табличный формат, с которым мы так знакомы. Итак, это то, что мы сделаем в следующем разделе - преобразуем наши данные в хороший табличный формат.

---

### 3.1 Преобразование словаря в фрейм данных Pandas
Здесь мы покажем вам, как преобразовать объекты словаря в фрейм данных pandas. И, кстати, фрейм данных pandas - это не что иное, как электронная таблица, магически приспособленная для эффективного поиска информации.

In [None]:
twenty_train.data[0:2]

In [None]:
twenty_train.target

In [None]:
import nltk



def format_rows(docs):
    """ format the text field and strip special characters """
    D = []
    for d in docs.data:
        temp_d = " ".join(d.split("\n")).strip('\n\t')
        D.append([temp_d])
    return D

def format_labels(target, docs):
    """ format the labels """
    return docs.target_names[target]

def check_missing_values(row):
    """ functions that check and verifies if there are missing values in dataframe """
    counter = 0
    for element in row:
        if element == True:
            counter+=1
    return ("The amoung of missing records is: ", counter)

def tokenize_text(text, remove_stopwords=False):
    """
    Tokenize text using the nltk library
    """
    tokens = []
    for d in nltk.sent_tokenize(text, language='english'):
        for word in nltk.word_tokenize(d, language='english'):
            # filters here
            tokens.append(word)
    return tokens

In [None]:
import pandas as pd

# создать фрейм данных из списка
X = pd.DataFrame.from_records(format_rows(twenty_train), columns= ['text'])

In [None]:
len(X)

In [None]:
X[0:2]

In [None]:
for t in X["text"][:3]:
    print(t)

### Добавление столбцов

Одним из больших преимуществ фрейма данных pandas является его гибкость. Мы можем добавлять столбцы в текущий набор данных программно с очень небольшим усилием.

In [None]:
# добавить категорию во фрейм данных
X['category'] = twenty_train.target

In [None]:
# также добавить метку категории
X['category_name'] = X.category.apply(lambda t: format_labels(t, twenty_train))

Теперь мы можем распечатать и посмотреть, как выглядит наша таблица.

In [None]:
X[0:10]

Отлично! Не правда ли? С этим форматом мы можем легко и эффективно выполнять многие операции, поскольку фреймы данных Pandas предоставляют нам широкий спектр встроенных функций/возможностей. Эти функции - операции, которые можно напрямую и быстро применять к набору данных. Эти операции могут включать стандартные операции, такие как **удаление записей с отсутствующими значениями** и **агрегирование новых полей** в текущую таблицу (далее именуемую фреймом данных), что желательно практически в каждом проекте интеллектуального анализа данных. Вперед, Pandas!

---

### 3.2 Знакомство с данными

Чтобы начать показывать вам великолепие фреймов данных Pandas, давайте посмотрим, как выполнить простой запрос к нашему набору данных. Мы хотим запросить первые 10 строк (документов), и мы хотим сохранить только атрибуты или поля `text` и `category_name`.

In [None]:
# простой запрос
X[0:10][["text", "category_name"]]

Давайте рассмотрим еще несколько интересных запросов, чтобы ознакомиться с эффективностью и удобством фреймов данных Pandas.

#### Давайте запросим последние 10 записей

In [None]:
X[-10:]

Готовы к некоторым волшебным трюкам? Приготовьтесь! Давайте посмотрим, сможем ли мы запросить каждую 10-ю запись в нашем фрейме данных. Кроме того, наш запрос должен содержать только первые 10 записей. Для этого мы будем использовать встроенную функцию под названием `iloc`. Это позволяет нам запрашивать выборку из нашего набора данных по позиции.

In [None]:
# использование loc (по позиции)
X.iloc[::10, 0:2][0:10]

Вы также можете использовать функцию `loc`, чтобы явно определить столбцы, которые вы хотите запросить. Посмотрите эту [отличную дискуссию](https://stackoverflow.com/questions/28757389/pandas-loc-vs-iloc-vs-ix-vs-at-vs-iat/43968774) о различиях между функциями `iloc` и `loc`.

In [None]:
# использование loc (по метке)
X.loc[::10, 'text'][0:10]

In [None]:
# стандартный запрос (можно одновременно выбирать строки и столбцы)
X[::10][0:10]

###**>>> Задание 2:**
Поэкспериментируйте с другими методами запросов, используя фреймы данных pandas. Обратитесь к  [документации](http://pandas.geekwriter.ru/getting_started/index.html) для получения дополнительной информации.

In [None]:
# Ответ здесь


---

### **>>> Задание 3:**
Попробуйте получить записи, принадлежащие категории ```sci.med```, и запросить каждую 10-ю запись. Покажите только первые 5 записей.

In [None]:
# Ответ здесь


---