### Работа с файлами

Файл - именованная облась постоянной памяти в компьютере, которой управляет ОС

Чтобы создать объект файла, необходимо вызвать встроенную функцию open, передав ей имя внешнего файла и строку режима доступа к файлу 

In [1]:
fl = open('text.txt', 'w') #открываем файл на запись; режим w
fl.write('Hello world!') #возвращается колличество записаных байтов
fl.close() 

In [2]:
fl = open('text.txt', 'r') #открываем файл для чтения; режим r (этот режим устанавливается по умолчанию)
text = fl.read() #читаем файл и возвращаем прочитанный текст
fl.close()

print(text)

Hello world!


In [3]:
fl = open('text.txt') 
text = fl.read(5) #читаем 5 символов
fl.close()

print(text)

Hello


In [4]:
fl = open('text.txt', 'a') #открываем на запись вконце файла
fl.write('\nIt\'s my first file!')
fl.close()

In [5]:
fl = open('text.txt')
fl.readline() #чтение следующей текстовой строки (включая символ конца строки) в строку

'Hello world!\n'

In [6]:
fl.readline()

"It's my first file!"

In [7]:
fl.close()

In [8]:
fl = open('text.txt')
text_lines = fl.readlines() #чтение файла целиком в список строк
fl.close()

print(text_lines)

['Hello world!\n', "It's my first file!"]


In [9]:
fl = open('text.txt', 'w') #если мы повторно открываем файл на запись, то он перезаписывается 
fl.writelines(text_lines) #запись всех строк из списка в файл
fl.close()

In [10]:
#если необходимо просмотреть содержимое файла строку за строкой, лучшим выбором будет итератор файла
for line in open('text.txt'):
    print(line)
#Почему есть пропуск строки?

Hello world!

It's my first file!


In [11]:
#что бы не закрывать каждый раз файл вручную можно делать так
with open('text.txt') as fl:
    text = fl.read()
    
print(text)

Hello world!
It's my first file!


### Задача 1

Создайте и запишите в файл матрицу, а затем считайте её из файла

In [21]:
matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]


assert matrix == read_matrix

### Регулярные выражения

Регулярные выражения — формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов

In [2]:
import re

Метасимволы ^ . $  * + ? { }[ ] \ | ( )

Рассмотрим далее значение всех метасимволов

[ ] - используются для определения класса символов, являющегося набором символов, с которыми вы ищите совпадение. 
Перечисление допустимо как ввиде отдельных символов [acbd], так и ввиде диапазона [a-d].

In [4]:
re.sub(r'[a-c]', ' SUB ', 'Alphabet Inc.')

'Alph SUB  SUB et In SUB .'

Добавляем перед классом символ ^ для того, что бы искать совпадение вне класса

In [5]:
re.sub(r'[^a-c]', ' SUB ', 'Alphabet Inc.')

' SUB  SUB  SUB  SUB ab SUB  SUB  SUB  SUB  SUB c SUB '

\ - служит для экранирование метасимволов

In [6]:
re.sub(r'[\[\]]', '|', '[Hello] [World] [!]')

'|Hello| |World| |!|'

Так же с \ начинаются некоторые специальные последовательности

Такие как

\d - любая цифра

\D - любой нечисловой символ

\s - любой символ whitespace

\S - любой не-whitespace символ

\w - любая буква или цифра или знак подчеркивания

\W -  любой символ отличный от буквы, цифры, знака подчеркивания

Последовательности могут быть включены в классы символов, например [\s,.]

In [8]:
re.findall(r'\w', 'Hello World!')

['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd']

Метасимвол . соответсвует любому символу, кроме символа новой строки

In [12]:
re.findall(r'\w....', 'Hello World!')

['Hello', 'World']

Можем указывать какое число раз должна повторятся часть регулярного выражения. Для этого используются следующие метосимволы:

\* - указывает, что предыдущий символ может быть сопоставлен ноль и более раз, вместо одного сравнения

\+ - повторяющий последовательность сравнения один или более раз

? - проверяющий наличие совпадения ноль или один раз

{m, n} - определитель означает, что здесь должно быть не менее m и не более n повторений

In [15]:
for r in [r'\w*', r'\w+', r'\w?', r'\w{1,4}']:
    print(r, ' -- ', re.findall(r, 'a aa aaa aaaa aaaaa'))

\w*  --  ['a', '', 'aa', '', 'aaa', '', 'aaaa', '', 'aaaaa', '']
\w+  --  ['a', 'aa', 'aaa', 'aaaa', 'aaaaa']
\w?  --  ['a', '', 'a', 'a', '', 'a', 'a', 'a', '', 'a', 'a', 'a', 'a', '', 'a', 'a', 'a', 'a', 'a', '']
\w{1,4}  --  ['a', 'aa', 'aaa', 'aaaa', 'aaaa', 'a']


Ещё некоторые методы

re.search(pattern, string) - сканировать всю строку в поисках всех мест совпадений с регулярным выражением

re.match(pattern, string) - определить, начинается ли совпадение регулярного выражения с начала строки

re.finditer(pattern, string) - найти все подстроки совпадений с регулярным выражением и вернуть их в виде итератора

Более подробно о модуле re можно почитать тут https://docs.python.org/3/library/re.html

### Задача 2

Прочитайте содержимое файла story.txt, выделите множество слов с помощью регулярных выражений и составте словарь, где ключь - слово, а значение - число его вхождений в файл. Вывести на экран 10 наиболее частотных слов.

### Задача 3

Написать функцию, которая определяет является строка email-ом 

In [23]:
strings = ['mail@mail.ru', 'bug@@@com.ru', 'bug@@@com.ru', '@val.ru', 'valid@megapochta.com', 'Just Text2',
           'val@val', 'aa@aa.info', 'bug@@@com.ru', 'val@val.a.a.a.a', '12323123@111[]][] ']

### Pandas, Numpy, Matplotlib

In [40]:
import pandas as pd

data = pd.read_csv('spam.csv', encoding = 'ISO-8859-1')[['v1','v2']]
data

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
5,spam,FreeMsg Hey there darling it's been 3 week's n...
6,ham,Even my brother is not like to speak with me. ...
7,ham,As per your request 'Melle Melle (Oru Minnamin...
8,spam,WINNER!! As a valued network customer you have...
9,spam,Had your mobile 11 months or more? U R entitle...


In [50]:
hams = list(data[data['v1'] == 'ham']['v2'].values)