In [17]:
import numpy as np
import pandas as pd

pd.set_option('display.notebook_repr_html', True)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

import re
import string
from collections import Counter
from math import log

from langdetect import detect_langs 

# Для реализации задач NLP
import spacy 
from spacy.lang.en import English
#from spacy.lang.en.stop_words import STOP_WORDS
from spacy.lang.ru.stop_words import STOP_WORDS
import en_core_web_sm #python -m spacy download en_core_web_sm

import matplotlib.pyplot as plt
%matplotlib inline

In [20]:
STOP_WORDS

{'а',
 'авось',
 'ага',
 'агу',
 'аж',
 'ай',
 'али',
 'алло',
 'ау',
 'ах',
 'ая',
 'б',
 'бац',
 'без',
 'безусловно',
 'бишь',
 'благо',
 'благодаря',
 'ближайшие',
 'близко',
 'более',
 'больше',
 'будем',
 'будет',
 'будете',
 'будешь',
 'будто',
 'буду',
 'будут',
 'будучи',
 'будь',
 'будьте',
 'бы',
 'бывает',
 'бывала',
 'бывали',
 'бываю',
 'бывают',
 'был',
 'была',
 'были',
 'было',
 'бытует',
 'быть',
 'в',
 'вам',
 'вами',
 'вас',
 'ваш',
 'ваша',
 'ваше',
 'ваши',
 'вдали',
 'вдобавок',
 'вдруг',
 'ведь',
 'везде',
 'вернее',
 'весь',
 'взаимно',
 'взаправду',
 'видно',
 'вишь',
 'включая',
 'вместо',
 'внакладе',
 'вначале',
 'вне',
 'вниз',
 'внизу',
 'вновь',
 'во',
 'вовсе',
 'возможно',
 'воистину',
 'вокруг',
 'вон',
 'вообще',
 'вопреки',
 'вот',
 'вперекор',
 'вплоть',
 'вполне',
 'вправду',
 'вправе',
 'впрочем',
 'впрямь',
 'вресноту',
 'вроде',
 'вряд',
 'все',
 'всегда',
 'всего',
 'всей',
 'всем',
 'всеми',
 'всему',
 'всех',
 'всею',
 'всея',
 'всю',
 'всюд

In [5]:
nlp = spacy.load("en_core_web_sm")

In [6]:
with open('book.txt', encoding="utf8") as f:
    book = f.read()

In [7]:
detect_langs(book)

[en:0.9999970248144884]

In [8]:
nlp = en_core_web_sm.load()

test = book[:235]        

lem = nlp(test)

def lemmatizer(test):        
    sent = [word.lemma_ for word in lem]
    return " ".join(sent)

test_lemm = lemmatizer(test)
print(test)

FRIENDSHIP
by RALPH WALDO EMERSON
1. We have a great deal more kindness than is ever spoken. Barring all
the selfishness that chills like east winds the world, the whole human
family is bathed with an element of love like a fine ether.


In [25]:
book_result = re.sub(r'\d+', '', book)

doc = nlp(book_result)

# Лемматизация и конвертация токенов в нижний регистр
book_lemm = [word.lemma_.lower().strip() 
             if word.lemma_ != "-PRON-" 
             else word.lower_ for word in doc]

print(book_lemm[:20])

['friendship', '', 'by', 'ralph', 'waldo', 'emerson', '', '.', 'we', 'have', 'a', 'great', 'deal', 'more', 'kindness', 'than', 'be', 'ever', 'speak', '.']


In [26]:
stop_words = spacy.lang.en.stop_words.STOP_WORDS

# Пример стоп-слов из библиотеки spaCy:
print(sorted(list(stop_words)[:13]))

['an', 'before', 'bottom', 'herself', 'i', 'noone', 'say', 'some', 'than', 'twenty', 'whenever', 'whether', 'your']


In [27]:
punctuations = string.punctuation
punctuations

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [28]:
# Удаление стоп-слов и знаков препинания из документа
book_result = [word for word in book_lemm 
               if word not in stop_words 
               and word not in punctuations]

print(book_result[:20])

['friendship', 'ralph', 'waldo', 'emerson', 'great', 'deal', 'kindness', 'speak', 'bar', 'selfishness', 'chill', 'like', 'east', 'wind', 'world', 'human', 'family', 'bathe', 'element', 'love']


In [29]:
count_words = Counter(book_result)
print('Количество уникальных слов в тексте: '
      '{}.\n'.format(len(count_words)))

Количество уникальных слов в тексте: 1252.



In [30]:
count_words.most_common(10)

[('friend', 43),
 ('man', 34),
 ('friendship', 24),
 ('great', 22),
 ('shall', 22),
 ('let', 21),
 ('love', 19),
 ('relation', 19),
 ('nature', 18),
 ('good', 17)]

In [9]:
nlp = spacy.load("ru_core_news_sm")

In [10]:
book = "В сквере перед парламентом республики был организован палаточный лагерь - Лидер партии Илан Шор связался с манифестантами по Skype. По его словам, палаточный городок будет до тех пор, пока оппозиция не одержит победу. Илан Шор заявил, что президент и премьер довели страну до ручки, поэтому главная цель манифестантов заключается в проведении досрочных парламентских и президентских выборов."

In [11]:
test = book       
lem = nlp(test)
def lemmatizer(test):        
    sent = [word.lemma_ for word in lem]
    return " ".join(sent)

test_lemm = lemmatizer(test)
print(test)

В сквере перед парламентом республики был организован палаточный лагерь - Лидер партии Илан Шор связался с манифестантами по Skype. По его словам, палаточный городок будет до тех пор, пока оппозиция не одержит победу. Илан Шор заявил, что президент и премьер довели страну до ручки, поэтому главная цель манифестантов заключается в проведении досрочных парламентских и президентских выборов.


In [12]:
test_lemm

'в сквер перед парламент республика был организовать палаточный лагерь - лидер партия илан шор связаться с манифестант по skype . по его слово , палаточный городок будет до тот пора , пока оппозиция не одержать победа . илан шор заявить , что президент и премьер довести страна до ручка , поэтому главный цель манифестант заключаться в проведение досрочный парламентский и президентский выбор .'

In [13]:
lem

В сквере перед парламентом республики был организован палаточный лагерь - Лидер партии Илан Шор связался с манифестантами по Skype. По его словам, палаточный городок будет до тех пор, пока оппозиция не одержит победу. Илан Шор заявил, что президент и премьер довели страну до ручки, поэтому главная цель манифестантов заключается в проведении досрочных парламентских и президентских выборов.

In [14]:
#[word.lemma_ for word in lem]

['в',
 'сквер',
 'перед',
 'парламент',
 'республика',
 'был',
 'организовать',
 'палаточный',
 'лагерь',
 '-',
 'лидер',
 'партия',
 'илан',
 'шор',
 'связаться',
 'с',
 'манифестант',
 'по',
 'skype',
 '.',
 'по',
 'его',
 'слово',
 ',',
 'палаточный',
 'городок',
 'будет',
 'до',
 'тот',
 'пора',
 ',',
 'пока',
 'оппозиция',
 'не',
 'одержать',
 'победа',
 '.',
 'илан',
 'шор',
 'заявить',
 ',',
 'что',
 'президент',
 'и',
 'премьер',
 'довести',
 'страна',
 'до',
 'ручка',
 ',',
 'поэтому',
 'главный',
 'цель',
 'манифестант',
 'заключаться',
 'в',
 'проведение',
 'досрочный',
 'парламентский',
 'и',
 'президентский',
 'выбор',
 '.']

In [15]:
STOP_WORDS

{"'d",
 "'ll",
 "'m",
 "'re",
 "'s",
 "'ve",
 'a',
 'about',
 'above',
 'across',
 'after',
 'afterwards',
 'again',
 'against',
 'all',
 'almost',
 'alone',
 'along',
 'already',
 'also',
 'although',
 'always',
 'am',
 'among',
 'amongst',
 'amount',
 'an',
 'and',
 'another',
 'any',
 'anyhow',
 'anyone',
 'anything',
 'anyway',
 'anywhere',
 'are',
 'around',
 'as',
 'at',
 'back',
 'be',
 'became',
 'because',
 'become',
 'becomes',
 'becoming',
 'been',
 'before',
 'beforehand',
 'behind',
 'being',
 'below',
 'beside',
 'besides',
 'between',
 'beyond',
 'both',
 'bottom',
 'but',
 'by',
 'ca',
 'call',
 'can',
 'cannot',
 'could',
 'did',
 'do',
 'does',
 'doing',
 'done',
 'down',
 'due',
 'during',
 'each',
 'eight',
 'either',
 'eleven',
 'else',
 'elsewhere',
 'empty',
 'enough',
 'even',
 'ever',
 'every',
 'everyone',
 'everything',
 'everywhere',
 'except',
 'few',
 'fifteen',
 'fifty',
 'first',
 'five',
 'for',
 'former',
 'formerly',
 'forty',
 'four',
 'from',
 'fron

---

In [21]:
*args **kwargs

NameError: name 'args' is not defined

In [62]:
def f_f(a,c,v,f,g):
    return f*c*v*f*g

In [67]:
a,c,v,f,g,k = 1,5,8,7,9,7

In [68]:
a = [a,c,v,f,g]

In [69]:
f_f(*a)

17640

In [72]:
a = list([1,2,3,4,5])

In [95]:
def f(h,*args):
    print(args[0])
    print(args[1])
    print(h)
    

In [96]:
f(45,*a)

1
2
45


---

In [122]:
config_person_free = {'name': 'ELENA',
        'famali': 'PETROVA',
        'birthday': '20-06-2018',
        'gender': 'woman'}

In [123]:
config_person_free

{'name': 'ELENA',
 'famali': 'PETROVA',
 'birthday': '20-06-2018',
 'gender': 'woman'}

{1, 2, 3, 4}

In [132]:
hash(45)

45

In [147]:
config_person_free = {str(f):str(f)*10 for f in range(10)}

In [148]:
config_person_free

{'0': '0000000000',
 '1': '1111111111',
 '2': '2222222222',
 '3': '3333333333',
 '4': '4444444444',
 '5': '5555555555',
 '6': '6666666666',
 '7': '7777777777',
 '8': '8888888888',
 '9': '9999999999'}

In [149]:
config_person_free

{'0': '0000000000',
 '1': '1111111111',
 '2': '2222222222',
 '3': '3333333333',
 '4': '4444444444',
 '5': '5555555555',
 '6': '6666666666',
 '7': '7777777777',
 '8': '8888888888',
 '9': '9999999999'}

In [155]:
def f_fg(**config_person_free):
    for key,value in config_person_free.items():
        print(key,value)

In [156]:
f_fg(**config_person_free)

0 0000000000
1 1111111111
2 2222222222
3 3333333333
4 4444444444
5 5555555555
6 6666666666
7 7777777777
8 8888888888
9 9999999999


In [161]:
f_fg(h=5,f=6,ggh="dff", htf = "dfg",**config_person_free)

h 5
f 6
ggh dff
htf dfg
0 0000000000
1 1111111111
2 2222222222
3 3333333333
4 4444444444
5 5555555555
6 6666666666
7 7777777777
8 8888888888
9 9999999999


---

In [166]:
a = 6
g = 6
f = 10-4
id(a) == id(g) == id(f)

True

In [None]:
#AAAABBBBCCCC

A  A  A
 B  B  B
  C  C  C

In [None]:
-----
A  A  A
 B  B  B
  C  C  C
------
        
                
            
------
 


            

