In [None]:
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim

from torch.utils.data import TensorDataset, DataLoader
from torch.utils.data import random_split

from torchvision import transforms

from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split

In [None]:
# Код для подключения я Гугл диску
from google.colab import drive
drive.mount('/content/drive')

In [None]:
def regression_preprocessing(filename, target):
  '''Предобработка датасета для регрессии
  Преобразует нечисловые значения в числовые при помощи OrdinalEncoder и проводит
  стандартизацию при помощи StandardScaler

  filename: путь к csv файлу
  target: название целевого столбца
  '''
  dataset = pd.read_csv(filename).dropna()

  X, y = dataset.drop(columns=[target]), dataset[target]
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

  encoder = ce.OrdinalEncoder()
  scaler = StandardScaler()

  X_train = encoder.fit_transform(X_train)
  X_train = scaler.fit_transform(X_train)
  y_train = y_train.values

  X_test = encoder.transform(X_test)
  X_test = scaler.transform(X_test)
  y_test = y_test.values

  return X_train, y_train, X_test, y_test

filename = '<путь к файлу>'
target = '<название целевого столбца>'
X_train, y_train, X_test, y_test = regression_preprocessing(filename, target)

In [None]:
def classification_preprocessing(filename, target, encode_target = False):
  '''Предобработка датасета для классификации
  Преобразует нечисловые значения в числовые при помощи OrdinalEncoder и проводит
  стандартизацию при помощи StandardScaler. 

  filename: путь к csv файлу
  target: название целевого столбца
  encode_target: если True, то преобразует значения в столбце target при 
                 помощи LabelEncoder
  '''
  dataset = pd.read_csv(filename).dropna()

  X, y = dataset.drop(columns=[target]), dataset[target].values

  if encode_target:
    target_encoder = LabelEncoder()
    y = target_encoder.fit_transform(y)

  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

  encoder = ce.OrdinalEncoder()
  scaler = StandardScaler()

  X_train = encoder.fit_transform(X_train)
  X_train = scaler.fit_transform(X_train)

  X_test = encoder.transform(X_test)
  X_test = scaler.transform(X_test)

  return X_train, y_train, X_test, y_test

filename = '<путь к файлу>'
target = '<название целевого столбца>'
X_train, y_train, X_test, y_test = classification_preprocessing(filename, target, encode_target=True)

In [None]:
def get_weights(targets):
  '''Возвращает тензор весов для классов в выборке'''
  _, counts = np.unique(targets, return_counts=True)
  return torch.from_numpy(counts.max() / counts).float()

criterion = nn.CrossEntropyLoss(weight=get_weights(y_train))

In [None]:
# Код для распаковки архива 
import zipfile
from tqdm import tqdm

zf = zipfile.ZipFile('<путь к архиву>')
for file in tqdm(zf.infolist()):
    zf.extract(file)

In [None]:
# Загрузка и предобработка датасета с изображениями
from torchvision.datasets import ImageFolder
dataset = ImageFolder('<путь к папке с изображениями>', transform=transforms.Compose([transforms.Resize((100, 100)), 
                                                                              transforms.ToTensor()]))

n_classes = len(dataset.classes)

In [2]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from string import punctuation, digits

nltk.download('stopwords')
nltk.download('punkt')

def remove_punctuation(s):
    list_punctuation = list(punctuation)
    for i in list_punctuation:
        s = s.replace(i,'')
    return s.lower()

def clean_sentence(sentence):
    sentence = sentence.lower()
    sentence = re.sub(r'(\W)\1{2,}', r'\1', sentence) 
    sentence = re.sub(r'(\w)\1{2,}', r'\1\1', sentence)
    sentence = re.sub(r'(?P<url>https?://[^\s]+)', '', sentence) # remove URL adresses
    sentence = re.sub(r"\@(\w+)", '', sentence) # remove usernames
    sentence = re.sub(r"\#(\w+)", '', sentence) # remove hashtags
    sentence = re.sub(r"\$(\w+)", '', sentence) # remove cashtags
    sentence = sentence.replace("-",' ')
    tokens = sentence.split()
    tokens = [remove_punctuation(w) for w in tokens] # remove punctuations
    stop_words = set(stopwords.words('english')) # remove stopwords
    tokens = [w for w in tokens if not w in stop_words]
    remove_digits = str.maketrans('', '', digits)
    tokens = [w.translate(remove_digits) for w in tokens]
    tokens = [w.strip() for w in tokens]
    tokens = [w for w in tokens if w!=""]
    tokens = ' '.join(tokens)
    tokens = tokens.replace("â", "")
    return tokens

def preprocess_df(df, data_col, target_col, target_mapping=None):
  '''Преобрабатывает данные.
  Меняет название столбца data_col на data, target_col на label. Чистит текст в столбце
  data и заменяет названия классов на индексы при помощи словаря target_mapping
  
  data_col: название столбца с исходными данными
  target_col: название столбца для прогнозирования
  target_mapping: словарь для замены названия класса на индекс (может использоваться для объединения нескольких классов в один)
  '''
  df = df[[data_col, target_col]].rename({data_col: 'data', target_col: 'label'}, axis=1)
  if target_mapping is not None:
    df['label'] = df['label'].map(target_mapping)
  df['data'] = df['data'].map(clean_sentence)
  df['data'].replace('', np.nan, inplace=True)
  df.dropna(subset=['data'], inplace=True)
  return df

In [None]:
class Vocab:
  def __init__(self, data):
    tokens = set()
    self.max_seq_len = 0
    for item in data:
      seq = word_tokenize(item)
      tokens.update(seq)
      self.max_seq_len = max(self.max_seq_len, len(seq))

    self.unk_token = '<UNK>'
    self.pad_token = '<PAD>'

    self.idx_to_token = dict(enumerate(tokens, 2))
    self.idx_to_token[1] = self.unk_token
    self.idx_to_token[0] = self.pad_token
    self.token_to_idx = {token: idx for idx, token in self.idx_to_token.items()}
    self.vocab_len = len(self.idx_to_token)

    self.pad_idx = 0
    self.unk_idx = 1

In [None]:
class NLPDataset(Dataset):
  def __init__(self, X, y, vocab):
    self.X = X.values
    self.y = y.values
    self.vocab = vocab

  def to_sequence(self, item):
    seq_t = torch.ones(self.vocab.max_seq_len, dtype=torch.long) * self.vocab.pad_idx
    for idx, tok in enumerate(word_tokenize(item)):
      seq_t[idx] = self.vocab.token_to_idx.get(tok, self.vocab.unk_idx)
    return seq_t
    
  def __len__(self):
    return len(self.X)

  def __getitem__(self, idx):
    return self.to_sequence(self.X[idx]), self.y[idx]

In [None]:
df = pd.read_csv("<путь к файлу с данными>")
target_mapping = {"Extremely Positive": 2,
                  "Positive": 2,
                  "Extremely Negative": 0, 
                  "Negative": 0,
                  "Neutral": 1}
df = preprocess_df(df, 'data', 'target', target_mapping)
vocab = Vocab(df['data'])
dataset = NLPDataset(df['data'], train_df['label'], vocab)