# Обработка файлов
* csv [comma separated values] - формат, в котором данные отделены запятыми
* pd.read_csv('file', sep='разделитель', index_col='название'/номер столбца) - чтение файла и создание датафрейма, где index_col - то, что мы хотим, чтобы оно выступало в кач-ве индекса в датафрейме
* pd.to_csv('file', sep='разделитель', index_label='название'/номер столбца) - запись датафрейма в файл, где sep - новый разделитель, index_label - столбец с индексом

#### Дата
* в pandas даты стандартизированы: год-месяц-день. так легче анализировать и сравнивать
* pandas может сам найти год в дате, но день и месяц нужно определить самому (посмотрев на данные)
* если первым идет день, то задаем параметр (в read_csv) dayfirst, который равен True, иначе False (если первым идет месяц)
* чтобы определить столбец с датами, нужно в read_csv указать метод parse_dates=['столбец с датой']
* можно определить день недели методом df['Week_day'] = df['Date'].dt.day_name()

#### XLXS
* файлики, не читабельные в блокноте, но читабельные в экселе
* pd.read_excel('file', sep=, sheet_name='название листа', parse_dates=[''], dayfirst=) - чтение
* df.to_excel('file', index_label=, sep=) - запись

#### JSON
* для работы с json нужна библиотека с соотв. названием
* name = json.dump(dict) - перевод объекта типа словарь в текстовую строку
* name = json.loads(str) - перевод объекта типа строка в словарь

#### Pickle
* это бинарный формат хранения данных
* import pickle
* работа с pickle:

In [None]:
# открытие файла на запись
import pickle

dic = {'Haha': 45}
with open('/file.pkl', 'wb') as f: # wb - на бинарную запись
    pickle.dump(dic, f)

# открытие файла на чтение и сохранение в словарь
with open('/file.pkl', 'rb') as f1:
    dic1 = pickle.load(f1)

#### HDF5 (Иерархический формат данных)
* улучшенная версия модуля pickle
* этот формат позволяет читать данные по кускам и не загружать всё
* pandas работает с этим форматом
* этот формат спроектирован для хранения многомерных массивов

# Выгрузка из БД

#### SQLite3
* библиотека для работы с БД
* soed = sqlite3.connect('file.db') - подключение к БД (к файлу, который представляет БД)
* c = name.cursor() - обхект, служащий для доступа к таблицам
* c.execute('''запрос''') - выполнение запроса на sql
* soed.commit() - сохранение изменений
* soed.close() - закрытие соединения
* c.executemany('''запрос''', dataset) - запрос на добавление данных datasetа в таблицу?

# выгрузка с postgresа дольше, тк мы запрашиваем данные с сервера, а не с файла, как в sqlite3

#### PostgreSQL
* import psycopg2
* pg_connection = { 'host': '',
                    'port': int,
                    'dbname': '',
                    'user': '',
                    'password': ''} - подключение как словарь
* con = psycopg2.connect(**pg_connection)
* c = con.cursor()
* c.execute('запрос')
* c.fetchall() - метод курсора, возвращающий все строки из запроса

# Вот тут и ответ на мой вопрос, как выгружать данные
#### pandas
* сначала нужно создать соединение с помощью sclite3, затем использовать это соединение так:
* df = pd.read_sql_query('запрос', con) - тупо взятие того, что вышло после запроса в df
* pandas выгружает только небольшое количество данных, поэтому его не всегда удобно использовать

# Нереляц. БД

#### MongoDB
* import pymongo
* pg_connection = { 'host': '',
                    'port': int,
                    'dbname': '',
                    'user': '',
                    'password': '',
                    'authSource': ''} - последнее - это таблица (коллекция)
* само подключение:
mongo = MongoClient('mongodb://user:password@host:port/?authSource=authSource')
* db = mongo['name'] - явный вид
* db.list_collection_names() - посмотреть доступные коллекции
* coll = db['name'] - коллекция
* coll.estimated_document_count() - посмотреть количество документов
* c = coll.find().limit(num) - создание курсора. в данном примере берутся 5 строк
* selector = {'' : T / F} - словарь, который нужен, чтобы в find(projection=selector) выводить только то, что нам нужно
* find(filter={'name': 'toy'}) - хотим оставить только фильмы, содержащие тэг toy


# Работа со строками
* import string - библиотека для работы со строками
* из датасета элемент можно взять и так: df.column_name.value[num]
* text.lower() - приведение к нижнему регистру
* string.punctuation - элементы пунктуации, то есть строка состоящая из непрерывно идущих знаков !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

In [43]:
import string
text = 'Я хотела бы, чтобы был мир world@ya.ru во всем мире.'
print(string.punctuation)
print(" ".join('kaka'))
print(", ".join(['ab', 'cd', 'ef']))

# убираем знаки препинания везде
print("".join([i for i in text if i not in string.punctuation]))

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
k a k a
ab, cd, ef
Я хотела бы чтобы был мир worldyaru во всем мире


#### Регулярные выражения
* позволяют извлекать из текста сложную информацию
* как на методах трансляции, РВ - правила записи / извлечения этой инфы из всего текста
* для анализа РВ применяются, чтобы извлечь из текста email, номера телефонов, например, и тп и тд

In [44]:
import re

reg_expr = r'\w+@\w+.\w+' # обязательно ставить r, чтобы дать питону понять, что это не просто строка, а РВ
reg_expr_compiled = re.compile(reg_expr)
print(type(reg_expr_compiled))

# проверяем исходный текст по созданному нами шаблону РВ
res = reg_expr_compiled.findall(text)
print(res)

<class 're.Pattern'>
['world@ya.ru']


#### Выражения
* . - любой символ
* \w - любая буква
* \W - все, что не входит в \w
* \d - любая цифра
* \D
* \b - граница слова
* [...] - любой из перечисленных символов

#### Квантификаторы - указание на кол-во
* '+' - одно или более вхождений
* '*' - 0 или более вхождений
* {m,n} - от m до n вх
* {n} - ровно n вх
* \s - пробельный символ (таб, например)
* ^ - начало вх
* $ - конец вх
* () - группирующие скобки, позволяющие искать подстроки

In [48]:
# телефоны
tels = ['79999999999', '9999999-999', '89132504956']
for el in tels:
    if re.match(r'[7-8]{1}[0-9]{9}', el) and len(el) == 11:
        print('ok')
    else:
        print('not ok')

ok
not ok
ok


#### match и findall
* match возвращает да или нет
* findall возваращает элементы списка

#### Нормализация слов (приведение к начальной форме слова)
* здесь потребуется библиотека pymorphy2, которая создана для работы с морфемами языка
* она помогает приводить слово к начальной форме

In [59]:
import pymorphy3

normal = []
token_list = ['Я', 'хочу', 'покушать', 'ягод', 'сильней', 'чем', 'питон', 'хочет']
morph = pymorphy3.MorphAnalyzer()
for word in token_list:
    parsed_token = morph.parse(word)
    normal_form = parsed_token[0].normal_form
    normal.append(normal_form)
print(normal)

['я', 'хотеть', 'покушать', 'ягода', 'сильный', 'чем', 'питон', 'хотеть']


#### Статистики текста (с pandas)
* оценим количество наиболее часто встречаемых слов в тексте

In [75]:
import pandas as pd

# приводим текст к нормальному виду, изначально разделив его на слова
text = 'Отгадайте, как называется старый советский фильм, в котором главный герой претендует на повышение по службе, но очень боится своего босса, а босс даже не помнит его имени. На помощь герою приходит его коллега, который советует использовать такую карьерную компетенцию как мужское обаяние.'
reg_expr = r'\w+'
reg_expr_compiled = re.compile(reg_expr)
res = reg_expr_compiled.findall(text)

normal = []
morph = pymorphy3.MorphAnalyzer()
for word in res:
    parsed_token = morph.parse(word)
    normal_form = parsed_token[0].normal_form
    normal.append(normal_form)

# создаем датафрейм и добавляем единички для счетчика
df = pd.DataFrame(normal)
df.columns = ['Word']
df['co'] = 1
df.head()

# подсчитываем количество слов и выбираем 10 самых частых
word_c = df.groupby('Word')['co'].count().reset_index()
#word_c.head()
word_c.sort_values(['co'], ascending=False).head(10)

Unnamed: 0,Word,co
20,он,2
1,босс,2
4,герой,2
15,на,2
9,как,2
13,который,2
26,помощь,1
22,очень,1
23,по,1
24,повышение,1
