Сегодня мы поговорим о библиотеке, которая позволяет работать с табличными данными. Она называется pandas

In [1]:
! pip3 list # проверяем список установленных библиотек, вдруг pandas уже есть


Package                      Version
---------------------------- ------------------
aiormq                       3.3.1
appdirs                      1.4.3
appnope                      0.1.0
attrs                        19.3.0
axial-positional-embedding   0.2.1
backcall                     0.1.0
beautiful                    0.0.2
beautifulsoup4               4.9.1
bleach                       3.1.1
blis                         0.4.1
boto3                        1.15.7
botocore                     1.18.7
catalogue                    1.0.0
certifi                      2020.4.5.2
cffi                         1.14.0
chardet                      3.0.4
click                        7.1.2
contrastive-learner          0.1.0
cryptography                 2.9.2
cycler                       0.10.0
cymem                        2.0.3
dataclasses                  0.6
DAWG                         0.8.0
DAWG-Python                  0.7.2
decorator                    4.4.2
defus

In [2]:
! pip3 install pandas # если pandas не найден, следует запустить эту ячейку



In [1]:
import pandas as pd # теперь импортируем pandas в эту тетрадку

документация для pandas [лежит здесь](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)

Основные элементы "табличек в pandas" - это Series и Dataframe

Series - это объект, похожий на одномерный массив (как обычный список в питоне) с элементами и  индексами вдоль каждого элемента из списка. 

DataFrame "собирается" из таких Series

*визуализация "таблички" в pandas* 

<figure class="captioned-images"><div class="attributed-wrap"><img alt="Series vs DataFrame" class="img-responsive" height="383" src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" width="1000"></div></figure>

Создадим Dataframe:

In [4]:
# шаг 1 создадим словарь

data = {'apples': [3, 2, 0, 1],
        'oranges': [0, 3, 7, 2]
       }

# шаг 2 используем метод pd.DataFrame(), где аргументом подадим созданный словарь
purchases = pd.DataFrame(data) 

# print(purchases) # посмотрим на датафрейм (попробуйте с print и без)

# purchases
display(purchases)

Unnamed: 0,apples,oranges
0,3,0
1,2,3
2,0,7
3,1,2


Как посмотреть, что купил конкретный покупатель? Нам нужны индексы: по строкам работает метод ```.loc```

In [6]:
display(purchases.iloc[3]) # покупатель с индексом 3

apples     1
oranges    2
Name: 3, dtype: int64

Индексы можно задавать не только числовые, но и строковые: давайте сделаем индексацию по именам

In [32]:
purchases = pd.DataFrame(data, index=['Jane', 'Robert', 'Lily', 'David'])

display(purchases)

Unnamed: 0,apples,oranges
Jane,3,0
Robert,2,3
Lily,0,7
David,1,2


По индексу можно проверить целый ряд в датафрейме. Попробуем посмотртеь на "покупку" по имени.

Для этого понадобится метод ```.loc()```

In [8]:
display(purchases.loc['David'])

apples     1
oranges    2
Name: David, dtype: int64

А как посмотреть все значения какой-нибудь колонки? Для этого достаточно указать ее название в квадратных скобках

In [9]:
purchases['oranges'] # посмотрим на всех покупателей яблок


Jane      0
Robert    3
Lily      7
David     2
Name: oranges, dtype: int64

**как посмотреть или изменить конкретные значения по индексу:**

In [10]:
purchases.loc['Jane',"apples"]=4 # изменим значения яблок для Jane, с 3 на 4

### Добавление колонок и строк в датафрейм

В датафрейм можно добавить новые колонки: понадобится метод ```.assign()```

In [33]:
purchases = purchases.assign(weekday=['Mon',"Wed","Thu","Sat"],
                             daytime=["mor","evn","evn","evn"])


display(purchases)

Unnamed: 0,apples,oranges,weekday,daytime
Jane,3,0,Mon,mor
Robert,2,3,Wed,evn
Lily,0,7,Thu,evn
David,1,2,Sat,evn


Добавить строки тоже можно: методом ```.append()```

In [34]:
# шаг1 создадим новый маленький датафрейм: 
df1 = pd.DataFrame({'apples': "3",
                     'oranges': '4',
                        'weekday':"Fri",
                       'daytime':"mor"},
                       index=["Alexander"])
 

df1

Unnamed: 0,apples,oranges,weekday,daytime
Alexander,3,4,Fri,mor


In [35]:
# шаг2 добавим новый df к старому
purchases = purchases.append(df1)


Что будет если запустить ячейку с ```.append()``` несколько раз?

In [20]:
display(purchases) # посмотрим на результат

Unnamed: 0,apples,oranges,weekday,daytime
Jane,4,0,Mon,mor
Robert,2,3,Wed,evn
Lily,0,7,Thu,evn
David,1,2,Sat,evn
Alexander,3,4,Fri,mor
Alexander,3,4,Fri,mor
Alexander,3,4,Fri,mor


### что делать, если добавились ненужные строки? 

In [21]:
# добавим Монику и Олега
# они ничего не купили, потому что пришли в воскресенье вечером, магазин был закрыт 

purchases = purchases.append(pd.DataFrame({
    'apples': [0,0], 
    'oranges': [0,0],
    'weekday':["Sun","Sun"],
    'daytime':["evn","evn"]},
    
     index=["Monica","Oleg"]))

In [22]:
display(purchases)
# теперь у нас есть Моника и Олег, а еще два раза Александр. 
# Мы хотим удалить лишние строки: Монику, Олега и один раз Александра.

Unnamed: 0,apples,oranges,weekday,daytime
Jane,4,0,Mon,mor
Robert,2,3,Wed,evn
Lily,0,7,Thu,evn
David,1,2,Sat,evn
Alexander,3,4,Fri,mor
Alexander,3,4,Fri,mor
Alexander,3,4,Fri,mor
Monica,0,0,Sun,evn
Oleg,0,0,Sun,evn


для удаления строк понадобится метод ```.drop()```

In [23]:
# Удалим строки с покупками Моники и Олега
purchases = purchases.drop(["Monica","Oleg"])

In [24]:
display(purchases)

Unnamed: 0,apples,oranges,weekday,daytime
Jane,4,0,Mon,mor
Robert,2,3,Wed,evn
Lily,0,7,Thu,evn
David,1,2,Sat,evn
Alexander,3,4,Fri,mor
Alexander,3,4,Fri,mor
Alexander,3,4,Fri,mor


А так можно удалить дубликаты уже существующих строк:

In [25]:
#убираем дупликаты
purchases = purchases.drop_duplicates()

In [26]:
# проверяем, что все хорошо: у нас больше нет ненужных строк и дубликатов
display(purchases)

Unnamed: 0,apples,oranges,weekday,daytime
Jane,4,0,Mon,mor
Robert,2,3,Wed,evn
Lily,0,7,Thu,evn
David,1,2,Sat,evn
Alexander,3,4,Fri,mor


**как удалить колонки**
Есть несколько вариантов

1) с пересохранением датафрейма

In [53]:
purchases.drop('daytime', axis=1, inplace=True)
# второй аргумент -- это ось (axis): 0 для рядов и 1 для столбцов

display(purchases)

Unnamed: 0,apples,oranges
Jane,3,0
Robert,2,3
Lily,0,7
David,1,2
Alexander,3,4


еще один вариант с пересохранением

In [52]:
purchases = purchases.drop('weekday', 1)
# второй аргумент -- это ось (axis): 0 для рядов и 1 для столбцов

display(purchases)

Unnamed: 0,apples,oranges,daytime
Jane,3,0,mor
Robert,2,3,evn
Lily,0,7,evn
David,1,2,evn
Alexander,3,4,mor


2) без сохранения (мы не сохранили результат выражения в переменную)

In [29]:
purchases.drop(["oranges"], 1)

Unnamed: 0,apples
Jane,4
Robert,2
Lily,0
David,1
Alexander,3


In [30]:
display(purchases) #в актуальном дф колонка "oranges" не исчезла

Unnamed: 0,apples,oranges
Jane,4,0
Robert,2,3
Lily,0,7
David,1,2
Alexander,3,4


### индексы

In [55]:
# сначала быстро вернем колонку weekdays

purchases = purchases.assign(weekday=['Mon',"Wed","Thu","Sat","Fri"])


display(purchases)

Unnamed: 0,apples,oranges,weekday
Jane,3,0,Mon
Robert,2,3,Wed
Lily,0,7,Thu
David,1,2,Sat
Alexander,3,4,Fri


Объект DataFrame имеет 2 индекса: по строкам и по столбцам.

In [56]:
display(purchases.index)

Index(['Jane', 'Robert', 'Lily', 'David', 'Alexander'], dtype='object')

In [57]:
print('indices are:', purchases.index, "\n")

print('columns are:', purchases.columns)

indices are: Index(['Jane', 'Robert', 'Lily', 'David', 'Alexander'], dtype='object') 

columns are: Index(['apples', 'oranges', 'weekday'], dtype='object')


In [58]:
# пересечение индексов выдаст конкретную ячейку: ищем сколько яблок купил Роберт

display(purchases.loc['Robert']['apples'])


2

**Доступ к строкам по индексу** можно делать несколькими способами:

```.loc``` - используется для доступа по строке

```.iloc``` - используется для доступа по числовому значению (начиная от 0)

In [59]:
purchases.loc['Jane'] # по названию индекса

apples       3
oranges      0
weekday    Mon
Name: Jane, dtype: object

In [60]:
purchases.iloc[-1] # по номеру строки (у первой строки нулевой индекс)

# что покажет индекс -1 ? 

apples       3
oranges      4
weekday    Fri
Name: Alexander, dtype: object

### характеристики датафрейма:

In [61]:
purchases.shape #размеры датафрейма

(5, 3)

In [62]:
purchases.describe()

Unnamed: 0,apples,oranges,weekday
count,5,5,5
unique,5,5,5
top,3,7,Wed
freq,1,1,1


In [63]:
purchases.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Jane to Alexander
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   apples   5 non-null      object
 1   oranges  5 non-null      object
 2   weekday  5 non-null      object
dtypes: object(3)
memory usage: 320.0+ bytes


так можно посмотреть уникальные значения индексов:

In [64]:
purchases.columns.unique()

Index(['apples', 'oranges', 'weekday'], dtype='object')

In [65]:
purchases.index.unique()

Index(['Jane', 'Robert', 'Lily', 'David', 'Alexander'], dtype='object')

### Сохранение в файл и чтение из файла

In [66]:
# сохраним в .csv файл

purchases.to_csv('purchases.csv')

In [67]:
# прочитаем файл

df = pd.read_csv('purchases.csv')
display(df)

Unnamed: 0.1,Unnamed: 0,apples,oranges,weekday
0,Jane,3,0,Mon
1,Robert,2,3,Wed
2,Lily,0,7,Thu
3,David,1,2,Sat
4,Alexander,3,4,Fri


### фильтрация значений

In [68]:
purchases[purchases['weekday'] =='Fri'] # посмотрим, кто совершал покупки в пятницу

Unnamed: 0,apples,oranges,weekday
Alexander,3,4,Fri


In [69]:
df.columns = ['names','apples','oranges',"weekday"]

In [70]:
df

Unnamed: 0,names,apples,oranges,weekday
0,Jane,3,0,Mon
1,Robert,2,3,Wed
2,Lily,0,7,Thu
3,David,1,2,Sat
4,Alexander,3,4,Fri


In [72]:
df.iloc[2] # поиск по индексу (= по строке в табличке)

names      Lily
apples        0
oranges       7
weekday     Thu
Name: 2, dtype: object

In [73]:
df[df["apples"] >= 2] #фильтр на значение столбца: ищем покупателей у которых 2 и более яблока

Unnamed: 0,names,apples,oranges,weekday
0,Jane,3,0,Mon
1,Robert,2,3,Wed
4,Alexander,3,4,Fri


In [74]:
newdf = df[df["apples"] >= 2]
newdf

Unnamed: 0,names,apples,oranges,weekday
0,Jane,3,0,Mon
1,Robert,2,3,Wed
4,Alexander,3,4,Fri


In [75]:
df[(df["apples"] >= 0) | (df["oranges"] > 0)] #ищем, кто купил хотя бы одно яблоко или апельсин

Unnamed: 0,names,apples,oranges,weekday
0,Jane,3,0,Mon
1,Robert,2,3,Wed
2,Lily,0,7,Thu
3,David,1,2,Sat
4,Alexander,3,4,Fri


больше про логические операторы в выражениях: [тут](https://stackoverflow.com/questions/36921951/truth-value-of-a-series-is-ambiguous-use-a-empty-a-bool-a-item-a-any-o)

Над значениями в ячейках можно производить различные операции:
* например, арифметические:

In [77]:
print("apples:", df["apples"].sum(), "oranges:", df["oranges"].sum())

apples: 9 oranges: 16


In [79]:
df["fruits"] = df["apples"]+df["oranges"]

In [85]:
display(df)

Unnamed: 0,names,apples,oranges,weekday,fruits
0,Jane,3,0,Mon,3
1,Robert,2,3,Wed,5
2,Lily,0,7,Thu,7
3,David,1,2,Sat,3
4,Alexander,3,4,Fri,7



 25  фруктов было куплено всего


In [101]:
display(df.loc[:,["names", "fruits"]]) 
# первый аргумент (двоеточие без индексов слева и справа) означает "все строки".
#Второй аргумент -- нужные колонки

print("\n",df["fruits"].sum()," фруктов было куплено всего")

Unnamed: 0,names,fruits
0,Jane,3
1,Robert,5
2,Lily,7
3,David,3
4,Alexander,7



 25  фруктов было куплено всего


можно искать что-то по подстроке (найдем с помощью рег.выражения всех покупателей с буквой R/r в имени)

In [94]:
df[df["names"].str.match(r"(R|.+r)")]

Unnamed: 0,names,apples,oranges,weekday,fruits
1,Robert,2,3,Wed,5
4,Alexander,3,4,Fri,7


усложненный поиск по индексу

In [102]:
newdf = df.loc[0:2, ["apples", "oranges"]]
# первый аргумент задает интервал индексов, второй -- нужные колонки
display(newdf)

Unnamed: 0,apples,oranges
0,3,0
1,2,3
2,0,7


In [96]:
df.loc[0:2, ["apples", "fruits"]]

Unnamed: 0,apples,fruits
0,3,3
1,2,5
2,0,7


### ДЗ

давайте поизвлекаем текст из датасетов и поисследуем его

In [103]:
df = pd.read_csv('elonmusk.csv', encoding="utf-8")

In [105]:
df.head(3) # этот метод позволяет визуально оценить датафрейм

Unnamed: 0,id,conversation_id,created_at,date,time,timezone,user_id,username,name,place,...,geo,source,user_rt_id,user_rt,retweet_id,reply_to,retweet_date,translate,trans_src,trans_dest
0,1282939902531796993,1282933079431151618,1594711683000,2020-07-14,07:28:03,UTC,44196397,elonmusk,Elon Musk,,...,,,,,,"[{'user_id': '44196397', 'username': 'elonmusk...",,,,
1,1282844872571904000,1282801938111791104,1594689026000,2020-07-14,01:10:26,UTC,44196397,elonmusk,Elon Musk,,...,,,,,,"[{'user_id': '44196397', 'username': 'elonmusk...",,,,
2,1282805559834492929,1282758532312584193,1594679653000,2020-07-13,22:34:13,UTC,44196397,elonmusk,Elon Musk,,...,,,,,,"[{'user_id': '44196397', 'username': 'elonmusk...",,,,


In [107]:
df.info() # вся информация о датафрейме

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9286 entries, 0 to 9285
Data columns (total 34 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               9286 non-null   int64  
 1   conversation_id  9286 non-null   int64  
 2   created_at       9286 non-null   int64  
 3   date             9286 non-null   object 
 4   time             9286 non-null   object 
 5   timezone         9286 non-null   object 
 6   user_id          9286 non-null   int64  
 7   username         9286 non-null   object 
 8   name             9286 non-null   object 
 9   place            0 non-null      float64
 10  tweet            9286 non-null   object 
 11  mentions         9286 non-null   object 
 12  urls             9286 non-null   object 
 13  photos           9286 non-null   object 
 14  replies_count    9286 non-null   int64  
 15  retweets_count   9286 non-null   int64  
 16  likes_count      9286 non-null   int64  
 17  hashtags      

### подсказка: как достать текст из колонок датафрейма

In [108]:
df["tweet"] # конкретно в этом дф тексты хранятся в колонке "tweet"

0                                                    Cute
1                                                     Wow
2       Reusability is essential. A rocket that is sin...
3                                             Wild times!
4       We’re being extra paranoid. Maximizing probabi...
                              ...                        
9281    Prob good though. Will give us time to replace...
9282    Air Force tracking radar went down. Launch pos...
9283    Rocket reentry will be much tougher this time ...
9284    Launching our 1st deep space mission today. He...
9285    If you are curious about the P85D, you can sch...
Name: tweet, Length: 9286, dtype: object

In [110]:
df["tweet"].values

array(['Cute', 'Wow',
       'Reusability is essential. A rocket that is single use is just as absurd as a single use airplane. F9 engines already fire 3 times per flight.',
       ...,
       'Rocket reentry will be much tougher this time around due to deep space mission. Almost 2X force and 4X heat. Plenty of hydraulic fluid tho.',
       'Launching our 1st deep space mission today. Headed to Earth-Sun L1 gravity null point at 1M miles, 4X further than moon.',
       'If you are curious about the P85D, you can schedule a test drive here: http://ts.la/dE\xa0'],
      dtype=object)

In [111]:
tweets = list(df["tweet"].values) # сохраним в привычный питонский список

In [112]:
tweets[200:205] # посмотрим на какие-то выборочно

['Likely true',
 'Yes',
 'Starlink will provide global coverage',
 'Worth discussing at annual shareholders meeting',
 'Party on …']

Теперь текст сохранен в переменную в виде списка, с ним можно работать стандартным образом

In [2]:
import pandas as pd

In [3]:
# Подсчитаем кол-во уникальных слов в каждом тексте в файле dreams.csv:

In [4]:
df = pd.read_csv('dreams.csv', encoding="utf-8")

In [5]:
df

Unnamed: 0.1,Unnamed: 0,dreams_text
0,0,001 Nightmare in Cambodia. In the dream we are...
1,1,"002 The enemy is above, in the sky. We are not..."
2,2,003 We are on a firebase. It is night time. In...
3,3,004 We are on an LZ; I am. saying good bye to ...
4,4,"005 This time, it is not the popping of the tu..."
...,...,...
30794,30794,"Haunted by an ""evil"" presence."
30795,30795,Getting caught in my web of lies. By my boyfri...
30796,30796,Find myself walking around the yard and search...
30797,30797,eating my friends and family alive


In [6]:
text = [str(i) for i in df["dreams_text"].values]

In [7]:
import nltk

In [8]:
from nltk import word_tokenize

In [9]:
tokens = [nltk.word_tokenize(i.lower()) for i in text]

In [10]:
# Удалим апостроф с окончанием "-s", "-t" и т.д.:

In [11]:
import re

In [12]:
r = re.compile(r"(n't|n’t|’s|'s|'ll|’ll|'m|’m|'re|’re'|'ve|’ve'|'d|’d)")
clean_tokens = [[word for word in i if word not in filter(r.match, i)] for i in tokens]

In [13]:
# Разделим слова, соединенные слэшем:

In [14]:
clean_tokens = [[re.sub('(?<=[a-z])([/])(?=[a-z])', r' \1 ', word) for word in i] for i in clean_tokens]

In [15]:
clean_tokens = [[word for wordset in i for word in wordset.split(' ')] for i in clean_tokens]

In [16]:
import string
from string import punctuation

In [17]:
string.punctuation += "«»—…“”’/"

In [18]:
clean_tokens = [[word.strip(string.punctuation) for word in i] for i in clean_tokens]

In [19]:
r = re.compile("[a-zA-Z]")
clean_tokens = [[word for word in filter(r.match, i)] for i in clean_tokens]

In [20]:
clean_tokens[0]

['nightmare',
 'in',
 'cambodia',
 'in',
 'the',
 'dream',
 'we',
 'are',
 'being',
 'overrun',
 'by',
 'sappers',
 'who',
 'have',
 'got',
 'past',
 'the',
 'night',
 'defensive',
 'perimeter',
 'trips',
 'and',
 'claymores',
 'and',
 'now',
 'crawl',
 'forward',
 'i',
 'wake',
 'up',
 'and',
 'see',
 'a',
 'boot',
 'tread',
 'close',
 'to',
 'my',
 'face',
 'i',
 'slowly',
 'withdraw',
 'my',
 'from',
 'its',
 'holster',
 'pull',
 'the',
 'hammer',
 'back',
 'then',
 'aim',
 'it',
 'at',
 'the',
 'boot',
 'just',
 'then',
 'the',
 'cloud-obscured',
 'moon',
 'comes',
 'out',
 'and',
 'i',
 'realize',
 'the',
 'boot',
 'is',
 'american',
 'and',
 'that',
 'it',
 'is',
 'jerry',
 'bieck',
 'foot',
 'in',
 'the',
 'pitch',
 'stillness',
 'i',
 'point',
 'the',
 'straight',
 'up',
 'in',
 'the',
 'air',
 'pinching',
 'the',
 'hammer',
 'tightly',
 'i',
 'pull',
 'the',
 'trigger',
 'and',
 'settle',
 'the',
 'hammer',
 'back',
 'in',
 'place',
 'i',
 're-holster',
 'the',
 'pistol',
 'an

In [21]:
# Найдем начальную форму для каждого токена:

In [22]:
import nltk
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
from nltk.corpus import wordnet

In [23]:
def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [24]:
lemmas = [[lemmatizer.lemmatize(word, get_wordnet_pos(word)) for word in i] for i in clean_tokens]

In [25]:
# Удалим повторы слов:

In [26]:
set_lem = [set(i) for i in lemmas]

In [27]:
set_lem[0]

{'a',
 'after',
 'aim',
 'air',
 'all',
 'almost',
 'american',
 'and',
 'at',
 'back',
 'be',
 'bieck',
 'boot',
 'by',
 'cambodia',
 'claymore',
 'close',
 'cloud-obscured',
 'come',
 'crawl',
 'day',
 'defensive',
 'difficult',
 'dream',
 'face',
 'foot',
 'forward',
 'from',
 'get',
 'go',
 'hammer',
 'happen',
 'have',
 'holster',
 'i',
 'in',
 'it',
 'jerry',
 'just',
 'march',
 'men',
 'moon',
 'my',
 'next',
 'night',
 'nightmare',
 'no',
 'now',
 'of',
 'one',
 'out',
 'overjoyed',
 'overrun',
 'past',
 'perimeter',
 'pinch',
 'pistol',
 'pitch',
 'place',
 'point',
 'pull',
 're-holster',
 'realize',
 'sapper',
 'see',
 'settle',
 'sleep',
 'slowly',
 'stillness',
 'straight',
 'tell',
 'that',
 'the',
 'then',
 'tightly',
 'to',
 'tread',
 'trigger',
 'trip',
 'up',
 'very',
 'wake',
 'we',
 'what',
 'who',
 'withdraw'}

In [28]:
# Подсчитаем, сколько всего уникальных слов в каждом тексте (слова с дефисом будем считать как целое новое слово (re-holster)):

In [29]:
count_unique_words = [len(i) for i in set_lem]

In [30]:
count_unique_words

[86,
 87,
 86,
 206,
 65,
 99,
 186,
 134,
 149,
 103,
 240,
 72,
 95,
 67,
 61,
 130,
 116,
 79,
 98,
 111,
 60,
 112,
 134,
 155,
 52,
 205,
 111,
 130,
 65,
 146,
 290,
 111,
 160,
 61,
 168,
 107,
 107,
 77,
 88,
 34,
 193,
 169,
 180,
 59,
 53,
 93,
 58,
 49,
 144,
 100,
 36,
 92,
 100,
 72,
 208,
 36,
 95,
 32,
 38,
 56,
 96,
 67,
 92,
 48,
 29,
 77,
 105,
 112,
 76,
 84,
 72,
 112,
 84,
 145,
 99,
 54,
 102,
 148,
 165,
 88,
 92,
 85,
 113,
 108,
 62,
 41,
 34,
 57,
 44,
 35,
 144,
 151,
 116,
 172,
 51,
 139,
 115,
 123,
 121,
 130,
 60,
 41,
 108,
 57,
 121,
 84,
 85,
 38,
 135,
 89,
 117,
 92,
 112,
 117,
 58,
 140,
 75,
 112,
 151,
 102,
 158,
 109,
 76,
 239,
 113,
 131,
 186,
 37,
 50,
 57,
 260,
 95,
 98,
 118,
 159,
 116,
 56,
 141,
 164,
 93,
 99,
 119,
 43,
 70,
 247,
 97,
 119,
 82,
 82,
 175,
 171,
 88,
 100,
 51,
 183,
 82,
 90,
 67,
 50,
 53,
 106,
 179,
 145,
 72,
 116,
 87,
 91,
 43,
 126,
 153,
 65,
 123,
 201,
 101,
 55,
 105,
 145,
 165,
 136,
 118,
 100,
 49,

In [31]:
df['Words_count'] = count_unique_words

In [32]:
df

Unnamed: 0.1,Unnamed: 0,dreams_text,Words_count
0,0,001 Nightmare in Cambodia. In the dream we are...,86
1,1,"002 The enemy is above, in the sky. We are not...",87
2,2,003 We are on a firebase. It is night time. In...,86
3,3,004 We are on an LZ; I am. saying good bye to ...,206
4,4,"005 This time, it is not the popping of the tu...",65
...,...,...,...
30794,30794,"Haunted by an ""evil"" presence.",5
30795,30795,Getting caught in my web of lies. By my boyfri...,34
30796,30796,Find myself walking around the yard and search...,82
30797,30797,eating my friends and family alive,6


In [33]:
# Найдем текст с максимальным количеством уникальных слов:

In [34]:
max(df['Words_count'])

552

In [35]:
df[df['Words_count'] == 552]

Unnamed: 0.1,Unnamed: 0,dreams_text,Words_count
2303,2303,"It was a holiday, and to celebrate I entered a...",552


In [36]:
# С минимальным количеством уникальных слов:

In [37]:
min(df['Words_count'])

0

In [38]:
df[df['Words_count'] == 0]

Unnamed: 0.1,Unnamed: 0,dreams_text,Words_count
3663,3663,????,0
4019,4019,??,0
4279,4279,.,0
4340,4340,",",0
5063,5063,',0
5081,5081,\r\n,0
6585,6585,?,0
6621,6621,????????????,0
6829,6829,--,0
7069,7069,...,0


In [39]:
# Найдем тексты с 3-мя уникальными словами:

In [40]:
df[df['Words_count'] == 3]

Unnamed: 0.1,Unnamed: 0,dreams_text,Words_count
3574,3574,i was fired,3
3580,3580,got a promotion,3
3670,3670,Don't care to,3
3684,3684,i don't remember,3
3706,3706,No. Not really,3
...,...,...,...
30425,30425,none/don't remember,3
30431,30431,CANT REMEMBER ONE,3
30432,30432,I don't recall,3
30471,30471,don't recall dreams,3


In [41]:
# Найдем самые частотные слова в корпусе:

In [42]:
# Удалим стоп-слова:

In [43]:
from nltk.corpus import stopwords
stop_words = stopwords.words("english")

In [44]:
stop_words.append("would")

In [45]:
stop_words.append("could")

In [46]:
stop_words.append("us")

In [47]:
clean_tokens_stop_remove = [[word for word in i if word not in stop_words] for i in clean_tokens]

In [48]:
import itertools
united_list=list(itertools.chain.from_iterable(clean_tokens_stop_remove))

In [49]:
# Лемматизируем слова:

In [50]:
lemmas_stop_remove = [lemmatizer.lemmatize(word, get_wordnet_pos(word)) for word in united_list]

In [51]:
from nltk import FreqDist

In [52]:
fdist = FreqDist(lemmas_stop_remove)

In [53]:
fdist.most_common(30)

[('go', 22274),
 ('dream', 18837),
 ('get', 16203),
 ('like', 13677),
 ('one', 10724),
 ('say', 9423),
 ('come', 9061),
 ('see', 8851),
 ('remember', 8287),
 ('look', 8156),
 ('people', 8030),
 ('back', 7633),
 ('try', 7402),
 ('house', 6991),
 ('take', 6243),
 ('think', 5917),
 ('something', 5754),
 ('want', 5748),
 ('know', 5634),
 ('walk', 5590),
 ('around', 5438),
 ('time', 5384),
 ('room', 5372),
 ('start', 5244),
 ('make', 5180),
 ('friend', 4873),
 ('thing', 4869),
 ('really', 4599),
 ('car', 4487),
 ('talk', 4183)]