In [None]:
#!pip install --user -U nltk
#!pip install pymorphy2

In [1]:
import csv
import re
import pymorphy2

### Препроцессинг и лемматизация

Делаем с текстом следующее:
* приводим к нижнему регистру;
* удаляем стоп-слова;
* удаляем знаки препинания и прочие символы;
* производим лемматиацию - приведение слов к начальным формам


Список стоп-слов русского языка взят из библиотеки [nltk](https://www.nltk.org/)

Лемматизация произвоится с помощью морфологического анализатора [pymorphy2](https://pymorphy2.readthedocs.io/)

In [2]:
morph = pymorphy2.MorphAnalyzer()

def lemmatize(song):
    
    doc = song.split()
    tokens = ""
    
    for i in range(len(doc)):
        token = morph.normal_forms(doc[i])[0]
        tokens = tokens + token + " "
    return(tokens)

In [3]:
from nltk.corpus import stopwords

stopwords = set(stopwords.words('russian'))
custom_stopwords = ['припев', 'куплет', 'интро']  # дополним список стоп-слов
stopwords.update(custom_stopwords)

def preprocess(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = text.lower().split()
    text = [word for word in text if word not in stopwords]
    text = ' '.join(text)
    text = lemmatize(text)
    return text

In [4]:
def parse_csv(data):
    with open(data) as csv_data:
        lyrics = csv.reader(csv_data, delimiter=',')
        lyrics_list = list(lyrics)
    return lyrics_list

In [5]:
def write_lyrics(lyrics_list, csv_name, counter): 
    
    # lyrics_list - список с текстами
    # csv_name - название нового файла
    # counter - id последней песни в csv с уже найденными песнями
    # например, если уже найдено 50 песен для декады, ставим counter = 50
    
    with open(csv_name,'w') as out:
        csv_out=csv.writer(out)
        
        for row in lyrics_list:
            lyrics = preprocess(row[0])
            counter += 1
            csv_row = (lyrics, counter)
            csv_out.writerow(csv_row)