# Основные этапы предобработки данных для линейных классификаторов.

1) обработка пропущенных значений
2) обработка категориальных признаков
3) стратификация
4) балансировка классов
5) масштабирование

# Масштабирование признаков

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
from sklearn.preprocessing import scale
X = scale(X=X)

# Перемешивание выборки

In [None]:
from sklearn.utils import shuffle
data_shuffled = shuffle(data, random_state=123) #перемешивает выборку

# One-Hot кодирование категориальных признаков

In [None]:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
X_categ = enc.fit_transform(data[''].values.reshape(-1, 1))

In [None]:
from sklearn.feature_extraction import DictVectorizer
enc = DictVectorizer(sparse = False)
X_categ = enc.fit_transform(data[['1', '2']].to_dict('records'))

# LabelEncoder кодирование категориальных признаков (каждой категории сопоставляет некоторое целое число)

In [None]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
X_categ = le.fit_transform(data[['1', '2']])
le.inverse_transform(X_categ) #обратная трансформация 

# Хэширование категориальных признаков

https://habr.com/ru/company/ods/blog/326418/ (когда признаки принимают много уникальных значений)

# Обработка текстов

In [None]:
# Приведите тексты к нижнему регистру (text.lower())
data['FullDescription'] = data['FullDescription'].map(lambda x: x.lower())
# Замените все, кроме букв и цифр, на пробелы
data['FullDescription'] = data['FullDescription'].replace('[^a-zA-Z0-9]', ' ', regex = True)

In [None]:
#число слов
data['word_count'] = data['text'].apply(lambda x: len(str(x).split()))

#число уникальных слов в тексте
data['unique_word_count'] = data['text'].apply(lambda x: len(set(str(x).split())))

#число stop_word
data['stop_word_count'] = data['text'].apply(lambda x: len([w for w in str(x).lower().split() if w in STOPWORDS]))

#число ссылок в тексте
data['url_count'] = data['text'].apply(lambda x: len([w for w in str(x).lower().split() if 'http' in w or 'https' in w]))

# средняя длина слов в каждом тексте
data['mean_word_length'] = data['text'].apply(lambda x: np.mean([len(w) for w in str(x).split()]))

# число символов в тексте
data['char_count'] = data['text'].apply(lambda x: len(str(x)))

# число  знаков препинания
data['punctuation_count'] = data['text'].apply(lambda x: len([c for c in str(x) if c in string.punctuation]))

# число хэш-тегов
data['hashtag_count'] = data['text'].apply(lambda x: len([c for c in str(x) if c == '#']))

# mention_count
data['mention_count'] = data['text'].apply(lambda x: len([c for c in str(x) if c == '@']))

In [None]:
import re #работа с регулярными выражениями
def cleanhtml(raw_html): #удаление html
    cleanr = re.compile('<.*?>')
    cleantext = re.sub(cleanr, '', raw_html)
    return cleantext

def removeurl(raw_text): #удаление url
    clean_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
    return clean_text
def standardize_text(df, text_field):
    df[text_field] = df[text_field].str.replace(r"http\S+", "")
    df[text_field] = df[text_field].str.replace(r"http", "")
    df[text_field] = df[text_field].str.replace(r"@\S+", "")
    df[text_field] = df[text_field].str.replace(r"[^A-Za-z0-9(),!?@\'\`\"\_\n]", " ")
    df[text_field] = df[text_field].str.replace(r"@", "at")
    df[text_field] = df[text_field].str.lower()
    return df

In [None]:
from nltk.tokenize import RegexpTokenizer #разбиение текста на слова
tokenizer = RegexpTokenizer(r'\w+')
data["tokens"] = data["text"].apply(tokenizer.tokenize)
data.head()

In [None]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

all_words = [word for tokens in data["tokens"] for word in tokens] #создание списка слов
sentence_lengths = [len(tokens) for tokens in data["tokens"]] #создание списка длин предложений
VOCAB = sorted(list(set(all_words))) #словарь всех слов

## 1) TF-IDF (если ли слово в тексте с весами)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
TF_IDF = TfidfVectorizer(ngram_range=(1,1)) #учитываются униграммы (ngram_range=)
X_transform = TF_IDF.fit_transform(X) # X - тексты
TF_IDF.get_feature_names() #дает закодированные слова

In [None]:
def get_most_important_features(vectorizer, model, n=5): #дает топ самых важных для построения модели слов
    index_to_word = {v:k for k,v in vectorizer.vocabulary_.items()}
    
    # loop for each class
    classes ={}
    for class_index in range(model.coef_.shape[0]):
        word_importances = [(el, index_to_word[i]) for i,el in enumerate(model.coef_[class_index])]
        sorted_coeff = sorted(word_importances, key = lambda x : x[0], reverse=True)
        tops = sorted(sorted_coeff[:n], key = lambda x : x[0])
        bottom = sorted_coeff[-n:]
        classes[class_index] = {
            'tops':tops,
            'bottom':bottom
        }
    return classes

model.fit(X_transform, y)
importance = get_most_important_features(TF_IDF, model, 10)

In [None]:
def plot_important_words(top_scores, top_words, bottom_scores, bottom_words, name): #график топа самых важных слов 
    y_pos = np.arange(len(top_words))
    top_pairs = [(a,b) for a,b in zip(top_words, top_scores)]
    top_pairs = sorted(top_pairs, key=lambda x: x[1])
    
    bottom_pairs = [(a,b) for a,b in zip(bottom_words, bottom_scores)]
    bottom_pairs = sorted(bottom_pairs, key=lambda x: x[1], reverse=True)
    
    top_words = [a[0] for a in top_pairs]
    top_scores = [a[1] for a in top_pairs]
    
    bottom_words = [a[0] for a in bottom_pairs]
    bottom_scores = [a[1] for a in bottom_pairs]
    
    fig = plt.figure(figsize=(10, 10))  

    plt.subplot(121)
    plt.barh(y_pos,bottom_scores, align='center', alpha=0.5)
    plt.title('Irrelevant', fontsize=20)
    plt.yticks(y_pos, bottom_words, fontsize=14)
    plt.suptitle('Key words', fontsize=16)
    plt.xlabel('Importance', fontsize=20)
    
    plt.subplot(122)
    plt.barh(y_pos,top_scores, align='center', alpha=0.5)
    plt.title('Disaster', fontsize=20)
    plt.yticks(y_pos, top_words, fontsize=14)
    plt.suptitle(name, fontsize=16)
    plt.xlabel('Importance', fontsize=20)
    
    plt.subplots_adjust(wspace=0.8)
    plt.show()

top_scores = [a[0] for a in importance[0]['tops']]
top_words = [a[1] for a in importance[0]['tops']]
bottom_scores = [a[0] for a in importance[0]['bottom']]
bottom_words = [a[1] for a in importance[0]['bottom']]

plot_important_words(top_scores, top_words, bottom_scores, bottom_words, "Most important words for relevance")

# 2) CountVectorizer (есть ли слово в тексте, 0 или 1)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X_transform = vectorizer.fit_transform(X)
print vectorizer.get_feature_names()
print X.toarray()

# Трансформация признаков.

In [None]:
from sklearn.preprocessing import PolynomialFeatures #полиномизация
transform = PolynomialFeatures(n) #n -степень полинома
data_train_poly = transform.fit_transform(data_train)
data_test_poly = transform.transform(data_test)

# Pipeline

In [None]:
from sklearn.pipeline import Pipeline
def MyPipeline(vectorizer, transformer, model):
    return Pipeline(
            [("vectorizer", vectorizer),
            ("transformer", transformer),
            ("model", model)]
        )
clf_pipeline = MyPipeline(....)
clf_pipeline.fit(X_train, y_train)
clf_pipeline.predict(X_test)

# Матричные разложения

In [None]:
from sklearn.decomposition import NMF, TruncatedSVD

mf = TruncatedSVD(10) #10 компонент (NMF - ненулевое матричное разложение)
u = mf.fit_transform(mx) #разложение исходной матрицы (mx) на SVD и оставить 10 компонент

# Объединение результатов преобразования признаков

In [None]:
from sklearn.pipeline import FeatureUnion

estimators = [('tfidf', TfidfTransformer()), ('svd', TruncatedSVD(1))]
combined = FeatureUnion(estimators) # итоговый трансформатор