# Предобработка

**Предобработка данных** - это важный этап подготовки данных для обучения нейронной сети, который позволяет увеличить точность модели. Для этого используются различные методы, которые помогают оптимизировать данные, удалять шумы и выбросы, а также преобразовывать данные в удобный для нейронной сети формат.

Один из методов предобработки данных - это *нормализация*, которая позволяет привести значения данных к одному диапазону, что упрощает обучение нейронной сети. Кроме того, можно использовать методы *фильтрации*, например, удаление выбросов или шумов.

Для улучшения качества данных можно использовать методы *аугментации* данных, которые позволяют увеличить разнообразие тренировочных данных. Это могут быть такие методы, как изменение яркости, контраста, повороты изображения, изменение размеров и т.д.

Важным этапом предобработки данных является также *выбор и подготовка признаков*, которые будут использоваться для обучения нейронной сети. Для этого можно использовать методы извлечения признаков или преобразования данных в удобный формат.

В целом, предобработка данных - это важный этап подготовки данных для обучения нейронной сети, который позволяет увеличить точность модели и улучшить качество результатов. Для этого используются различные методы, в зависимости от типа данных и цели обучения нейронной сети.

# Библиотеки

1. NumPy - это библиотека Python для работы с массивами и матрицами. Я использовал ее для работы с многомерными массивами данных и выполнения математических операций. Например, в одном из моих ответов я использовал функцию numpy.array() для преобразования списка в массив.

2. Pandas - это библиотека Python для работы с данными в формате таблицы (DataFrame). Я использовал ее для чтения и записи данных в формате CSV, а также для выполнения операций над столбцами таблицы. Например, в одном из моих ответов я использовал функцию pandas.read_csv() для чтения данных из CSV-файла, а затем использовал операцию df['column_name'].mean() для вычисления среднего значения столбца.


4. Scikit-learn - это библиотека Python для машинного обучения. Я использовал ее для создания моделей машинного обучения, оценки их качества и подготовки данных для обучения. Например, в одном из моих ответов я использовал функцию sklearn.model_selection.train_test_split() для разбиения данных на обучающую и тестовую выборки.

5. Keras - это библиотека Python для создания и обучения нейронных сетей. Я использовал ее для создания моделей нейронных сетей и обучения их на данных. Например, в одном из моих ответов я использовал функцию keras.Sequential() для создания последовательной модели нейронной сети, а затем использовал функции model.fit() и model.predict() для обучения модели и получения предсказаний.

6. NLTK - это библиотека Python для обработки естественного языка. Я использовал ее для выполнения операций над текстовыми данными, такими как токенизация, лемматизация и стемминг. Например, в одном из моих ответов я использовал функцию nltk.tokenize.word_tokenize() для токенизации текста.

7. TensorFlow - это библиотека Python для создания и обучения нейронных сетей. Я использовал ее для создания и обучения нейронных сетей, а также для выполнения операций с тензорами. Например, в одном из моих ответов я использовал функции tensorflow.keras.layers.Dense() и tensorflow.keras.layers.Dropout() для создания слоев нейронной сети.

8. PyTorch - это библиотека Python для создания и обучения нейронных сетей. Я использовал ее для создания моделей нейронных сетей и обучения их на данных. Например, в одном из моих ответов я использовал функцию torch.nn.Sequential() для создания последовательной модели нейронной сети, а затем использовал функции model.train() и model.eval() для обучения модели и получения предсказаний.


## Cозданние dataframe




In [None]:
import pandas as pd

# создание таблицы данных
data = {'name': ['Alice', 'Bob', 'Charlie', 'Dave'],
        'age': [25, 30, 35, 40],
        'salary': [50000, 70000, 90000, 110000],
        'gender': ['female','male','female','male'],
        }

df = pd.DataFrame(data)

# сохранение таблицы в файл
df.to_csv('data.csv', index=False)

# Чтение данных

In [None]:
data = pd.read_csv('data.csv')
print(data.head(6))

      name  age  salary  gender
0    Alice   25   50000  female
1      Bob   30   70000    male
2  Charlie   35   90000  female
3     Dave   40  110000    male


В данном примере мы используем библиотеку Pandas для чтения данных из файла CSV. Наш датасет состоит из четырех признаков: возраст, пол, рост и вес. Для обработки данных мы можем применить несколько методов.

# Нормализация данных

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

data['age_normalized'] = scaler.fit_transform(data[['age']])
data['salary_normalized'] = scaler.fit_transform(data[['salary']])

print(data.head())

      name  age  salary  gender  age_normalized  salary_normalized
0    Alice   25   50000  female        0.000000           0.000000
1      Bob   30   70000    male        0.333333           0.333333
2  Charlie   35   90000  female        0.666667           0.666667
3     Dave   40  110000    male        1.000000           1.000000


Мы использовали метод MinMaxScaler из библиотеки scikit-learn, чтобы привести значения признака "рост" к диапазону от 0 до 1.

# Удаление выбросов

In [None]:
import numpy as np

def remove_outliers(data, feature):
    Q1 = np.percentile(data[feature], 25)
    Q3 = np.percentile(data[feature], 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    data = data[(data[feature] > lower_bound) & (data[feature] < upper_bound)]
    return data

data = remove_outliers(data, 'salary')

print(data.head(6))

      name  age  salary  gender  age_normalized  salary_normalized
0    Alice   25   50000  female        0.000000           0.000000
1      Bob   30   70000    male        0.333333           0.333333
2  Charlie   35   90000  female        0.666667           0.666667
3     Dave   40  110000    male        1.000000           1.000000


В функции remove_outliers мы использовали квартили и межквартильный размах, чтобы определить границы выбросов. Затем мы удалили строки, содержащие выбросы, и вернули очищенный датасет.

# Кодирование категориальных признаков

In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()

gender_encoded = pd.DataFrame(encoder.fit_transform(data[['gender']]).toarray(), columns=['female', 'male'])
data = pd.concat([data, gender_encoded], axis=1)

print(data.head())

      name  age  salary  gender  female  male
0    Alice   25   50000  female     1.0   0.0
1      Bob   30   70000    male     0.0   1.0
2  Charlie   35   90000  female     1.0   0.0
3     Dave   40  110000    male     0.0   1.0


Мы использовали метод OneHotEncoder из библиотеки scikit-learn, чтобы закодировать категориальный признак "пол" в двоичный формат. Затем мы объединили закодированный признак с исходным датасетом с помощью метода concat.

Это некоторые из методов предобработки данных, которые мы рассмотрели на примере Python. Они могут быть очень полезны при подготовке данных для обучения нейросетей и помогают улучшить качество модели.

## Подготовка текста

1. Очистка текста от шума и нежелательных символов. Нежелательными символами могут быть знаки препинания, цифры, артикли и другие слова, которые не несут смысловой нагрузки.

2. Токенизация текста - разделение текста на отдельные слова или фразы (токены).

3. Построение словаря - создание списка всех уникальных слов, которые встречаются в тексте.

4. Преобразование текста в числовую форму - каждому слову из словаря присваивается уникальный числовой код.

5. Создание последовательностей - текст разбивается на последовательности фиксированной длины.

6. Подготовка обучающей и тестовой выборок.

Рассмотрим каждый шаг подробнее.

# Очистка текста

Перед токенизацией необходимо очистить текст от шума и нежелательных символов. Для этого можно использовать регулярные выражения или библиотеку nltk.

In [None]:
import nltk
nltk.download("stopwords")
#--------#

from nltk.corpus import stopwords
from pymystem3 import Mystem
from string import punctuation

#Create lemmatizer and stopwords list
mystem = Mystem()
russian_stopwords = stopwords.words("russian")

#Preprocess function
def preprocess_text(text):
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
              and token != " " \
              and token.strip() not in punctuation]

    text = " ".join(tokens)

    return text

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


# Токенизация

Токенизация - разделение текста на отдельные слова или фразы (токены). Для этого можно использовать библиотеку nltk.

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
import nltk
from nltk.tokenize import word_tokenize

text = "This is an example sentence."
tokens = word_tokenize(text)
print(tokens)

['This', 'is', 'an', 'example', 'sentence', '.']


# Преобразование текста в числовую форму

Каждому слову из словаря присваивается уникальный числовой код. Это делается с помощью токенизации и присвоения каждому слову своего индекса в словаре.

In [None]:
from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(tokens)

# преобразование текста в последовательность чисел
sequences = tokenizer.texts_to_sequences(tokens)

# словарь, соответствие слов и их индексов
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
print(sequences)

Found 5 unique tokens.
[[1], [2], [3], [4], [5], []]


# Создание последовательностей

Текст разбивается на последовательности фиксированной длины. Для этого можно использовать функцию pad_sequences из библиотеки keras.

In [None]:
from keras.preprocessing.sequence import padsequences

maxlen = 100  # максимальная длина последовательности

# создание последовательностей
data = padsequences(sequences, maxlen=maxlen)

# Подготовка обучающей и тестовой выборок

Тексты необходимо разделить на обучающую и тестовую выборки. Обучающая выборка используется для обучения нейросети, тестовая - для проверки качества модели.

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split

labels = np.array(labels)
x_train, x_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)


array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0,