### Строки



Мы уже рассматривали строки как простой тип данных наряду с целыми и вещественными числами и знаем, что строка – это последовательность символов, заключенных в одинарные или двойные кавычки.

В Python нет символьного типа, т. е. типа данных, объектами которого являются одиночные символы. Однако язык позволяет рассматривать строки как объекты, состоящие из подстрок длинной в один и более символов. При этом, в отличие от списков, строки не принято относить к структурам данных. Видимо потому, что структуры данных состоят из более простых типов данных, а для строк в Python нет более простого (символьного) типа.

С другой стороны, строка, как и список, – это упорядоченная последовательность элементов. Следовательно, из нее можно извлекать отдельные символы и срезы.

### Как создать строку

Строки всегда создаются одним из трех способов. Вы можете использовать одинарные, двойные и тройные скобки. Давайте посмотрим

In [68]:
my_string = "Добро пожаловать в Python!"
another_string = 'Я новый текст тут...'
 
a_long_string = '''А это у нас
новая строка
в троичных скобках'''

In [71]:
my_string = "I'm a Python programmer!"
otherString = 'Слово "Python" обычно подразумевает змею'
tripleString = """В такой "строке" мы можем 'использовать' все."""
strInt = str(123)


В Python, начиная с версии 3, все строки являются юникодом.

In [46]:
s = "Hello, World!"
print(s[0])
print(s[7:])
print(s[::2])


H
World!
Hlo ol!


#### Важным отличием от списков является неизменяемость строк в Python. Нельзя перезаписать какой-то отдельный символ или срез в строке

In [47]:
s[-1] = '.'

TypeError: 'str' object does not support item assignment

In [48]:
print(id(s))

140468451196656


In [50]:
s = s[0:-1] + '.'
print(id(s))
s


140468451967920


'Hello, World.'

### Методы строк

In [52]:
#конкатенация
S1 = 'spam'
S2 = 'eggs'
print(S1 + S2)

spameggs


In [53]:
#Дублирование
print('spam' * 3)

spamspamspam


In [67]:
#наличие подстроки в строке
print('hello' in 'hello world')
print('hello' in 'fasfasdfsf')

True
False


In [54]:
#длина строки
len('spam')

4

In [55]:
phrase = 'ягоды желуди носорог'.split()
phrase

['ягоды', 'желуди', 'носорог']

In [57]:
phrase = input().split(', ') # функция split принимает в качестве аргумента разделитель
phrase

fsdfsdf, sdfsf, ertt


['fsdfsdf', 'sdfsf', 'ertt']

In [65]:
' ? '.join(phrase)

'fsdfsdf ? sdfsf ? ertt'

### Список методов строк
https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html

Или help(str)

### Методы find() и replace()
Метод find() ищет подстроку в строке и возвращает индекс первого элемента найденной подстроки. Если подстрока не найдена, то возвращает -1.
Метод replace() заменяет одну подстроку на другую

In [75]:
s = 'red blue orange white'
s.find('blue')

4

In [76]:
s.find('green')

-1

In [77]:
'DA KTO ETOT VASH REPLACE?'.replace('DA', 'NET')

'NET KTO ETOT VASH REPLACE?'

### Метод format 
Метод позволяет подставлять значения в строку. Причем можно дополнительно указывать порядок подстановки а также использовать передачу по слову-ключу

In [78]:
print("This is a {0}. It's {1}.".format("ball", "red"))

This is a ball. It's red.


In [79]:
size2 = "height - {2}, length - {0}, width - {1}"
size2.format(3, 6, 2.3)

'height - 2.3, length - 3, width - 6'

In [80]:
info = "This is a {subj}. It's {prop}."
info.format(subj="table", prop="small")
"This is a table. It's small."

"This is a table. It's small."

### Регулярные выражения

Регулярные выражения - язык описания шаблонов (patterns) для извлечения информации из текста.
Так что по смыслу  правильнее было бы говорить «шаблонные выражения». Регулярное выражение, или коротко «регулярка», состоит из обычных символов и специальных командных последовательностей.

In [6]:
def isPhoneNumber(text):
    if len(text) != 9:
        return False  # not phone number-sized
    for i in range(0, 3):
        if not text[i].isdecimal():
            return False  # not an area code
    if text[3] != '-':
        return False  # does not have first hyphen
    for i in range(4, 6):
        if not text[i].isdecimal():
            return False  # does not have first 3 digits
    if text[6] != '-':
        return False  # does not have second hyphen
    for i in range(7, 8):
        if not text[i].isdecimal():
            return False  # does not have last 4 digits
    return True  # "text" is a phone number!

print('321-66-13 is a phone number:')
print(isPhoneNumber('321-66-13'))
print('Moshi moshi is a phone number:')
print(isPhoneNumber('Moshi moshi'))

321-66-13 is a phone number:
True
Moshi moshi is a phone number:
False


In [15]:
import re
phoneNumRegex = re.compile(r'\d{3}-\d{2}-\d{2}')
mo = phoneNumRegex.search('321-66-13 is a phone number:')
xo = phoneNumRegex.search('Moshi moshi is a phone number:')
print(mo.group())


321-66-13


* Импортируем модуль regex с помощью инструкции **import re**
* Создаем объект regex с помощью функции re.compile(). При этом используем сырую строку, чтобы избежать экранирования символов 
* Передаем строку, в которой хотим произвести поиск методу re.search объекта Regex. В случае успеха этот метод вернет объект Мatch 
* Вызовите метод group() объекта Match, который вернет строку, содержащую фактически найденный текст, соответствующий данному регулярному выражению 



Основы синтаксиса (воспринимать аккуратно, чтобы не запутаться)


Любая строка (в которой нет символов .^$*+?{}[]\|()) сама по себе является регулярным выражением. 

Так, выражению Хаха будет соответствовать строка “Хаха” и только она.
Регулярные выражения являются регистрозависимыми, поэтому строка “хаха” (с маленькой буквы) уже не будет соответствовать выражению выше. 

Подобно строкам в языке Python, регулярные выражения имеют спецсимволы .^$*+?{}[]\|(), которые в регулярках являются управляющими конструкциями. 
Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \. Так же, как и в питоне, в регулярных выражениях выражение \n соответствует концу строки, а \t — табуляции. 

|||
|--- |--- |
|.|Соответствует любому единичному символу.|
|[ ]|Соответствует любому единичному символу из числа заключённых в скобки. Символ «-» интерпретируется буквально только в том случае, если он расположен непосредственно после открывающей или перед закрывающей скобкой: [abc-] или [-abc]. В противном случае, он обозначает интервал символов. Например, [abc] соответствует «a», «b» или «c». [a-z] соответствует буквам нижнего регистра латинского алфавита. Эти обозначения могут и сочетаться: [abcq-z] соответствует a, b, c, q, r, s, t, u, v, w, x, y, z.
| |Чтобы установить соответствие символам «[» или «]», достаточно, чтобы закрывающая скобка была первым символом после открывающей: [][ab] соответствует «]», «[», «a» или «b».|
|[^ ]|Соответствует единичному символу из числа тех, которых нет в скобках. Например, [^abc] соответствует любому символу, кроме «a», «b» или «c». [^a-z] соответствует любому символу, кроме символов нижнего регистра в латинском алфавите.|
|^|Соответствует началу текста (или началу любой строки в мультистроковом режиме). Ищет с начала текста.|
|$|Соответствует концу текста (или концу любой строки в мультистроковом режиме).|
|\(\)|Объявляет «отмеченное подвыражение» (иногда называется «захват»), которое может быть использовано позже (см. следующий элемент: \n). «Отмеченное подвыражение» также является «блоком».  В отличие от других операторов, этот (в традиционном синтаксисе) требует бэкслеша.|
|\n | Где n — это цифра от 1 до 9; соответствует n-му отмеченному подвыражению. Эта конструкция теоретически нерегулярна, она не была принята в расширенном синтаксисе регулярных выражений.|
|*|Звёздочка после выражения, соответствующего единичному символу, соответствует нулю или более копий этого выражения. Например, «[xyz]*» соответствует пустой строке, «x», «y», «zx», «zyx», и т. д.
|\{x,y\}|Соответствует последнему блоку, встречающемуся не менее x и не более y раз. Например, «a\{3,5\}» соответствует «aaa», «aaaa» или «aaaaa».  В отличие от других операторов, этот (в традиционном синтаксисе) требует бэкслеша.|


## Квантификация
    Квантификатор после символа или группы определяет, сколько раз предшествующее выражение может встречаться.

    {n,m}        общее выражение, повторений может быть от n до m включительно.
    {n,}        общее выражение, n и более повторений.
    {,m}        общее выражение, не более m повторений.
    {n}        общее выражение, ровно n повторений
     ?        Знак вопроса означает 0 или 1 раз, то же самое, что и {0,1}. Например, «colou?r» соответствует и color, и colour.
    *        Звёздочка означает 0, 1 или любое число раз ({0,}). Например, «go*gle» соответствует gogle, google, gooogle, ggle, и др.
    +        Плюс означает хотя бы 1 раз ({1,}). Например, «go+gle» соответствует gogle, google и т. д. (но не ggle).

Экранирование строк в python

In [7]:
s = 'C:\newt.txt'
S = r'C:\newt.txt'
print(s, S)

C:
ewt.txt C:\newt.txt


In [35]:
russian_num = re.compile(r'(\(\d{3}\))\s?(\d{3}-\d{2}-\d{2})')
mo = russian_num.search('(812) 321-66-13 is a phone number:')
xo = russian_num.search('Moshi moshi is a phone number:')
print(mo)

<re.Match object; span=(0, 15), match='(812) 321-66-13'>


### Наборы в регулярных выражениях
набор задается внутри квадратных скобок

In [86]:
pattern = r'р[еу]ка' # запись означает, что вторым символов может быть a b c 
string = 'река'
match_obj = re.search(pattern, string)
print(match_obj)



<re.Match object; span=(0, 4), match='река'>


In [88]:
#ignorecase - и регистр нас уже не волнует
pattern = r'р[еу]ка' # запись означает, что вторым символов может быть a b c 
string = 'Рука'
match_obj = re.search(pattern, string, re.IGNORECASE)
print(match_obj)


<re.Match object; span=(0, 4), match='Рука'>


### Условия в регулярных выражениях 

оператор | (канал) позволяет создавать условные конструкции в регулярных выражениях

In [39]:
phrase = 'Володя кинул Мише мяч, Миша его отбил'
reg = re.compile(r'Володя|Миша')
mo = reg.search(phrase)
mo.group()

'Володя'

### Нахождение всех совпадений

In [40]:
fa = reg.findall(phrase)
fa

['Володя', 'Миша']

### Указание необязательной группы символов с помощью вопросительного знака

In [43]:
russian_num = re.compile(r'(\(\d{3}\))?(\d{3}-\d{2}-\d{2})')
mo = russian_num.search('(812)321-66-13 is a phone number:')
xo = russian_num.search('321-66-13 is a phone number:')
print(xo)

<re.Match object; span=(0, 9), match='321-66-13'>


### Разделение по паттерну

In [45]:
result = re.split(r'\d', 'Analytics 21 Vidhya')
result

['Analytics ', ' Vidhya']

Подробнее о регулярных выажениях
https://habr.com/ru/post/349860/

Подробнее о регулярных выражениях https://ru.wikibooks.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%B2%D1%8B%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F

*Некоторые люди, когда сталкиваются с проблемой, думают «Я знаю, я решу её с помощью регулярных выражений.» Теперь у них две проблемы.*

### Файлы 

Файл — именованная область данных на носителе информации.


Python поддерживает множество различных типов файлов, но условно их можно разделить на два виде: текстовые и бинарные.

Текстовые файлы - это к примеру файлы с расширением cvs, txt, html, в общем любые файлы, которые сохраняют информацию в текстовом виде.

Бинарные файлы - это изображения, аудио и видеофайлы и т.д. В зависимости от типа файла работа с ним может немного отличаться.

<code> with open(file, mode) as file_obj:
    инструкции </code>
    
Эта конструкция определяет для открытого файла переменную file_obj и выполняет набор инструкций. После их выполнения файл автоматически закрывается. Даже если при выполнении инструкций в блоке with возникнут какие-либо исключения, то файл все равно закрывается.

In [90]:
#Запись в файл
with open("hello.txt", "w") as somefile:
    somefile.write("hello world")

In [91]:
#добавим ещё одну строку
with open("hello.txt", "a") as file:
    file.write("\ngood bye, world")

In [94]:
#читаем файл построчно
with open("hello.txt", "r") as file:
    for line in file:
        print(line, end="")

['hello world\n', 'good bye, world']


In [95]:
#читаем файл целиком
with open("hello.txt", "r") as file:
    content = file.read()
    print(content)

hello world
good bye, world


In [96]:
# имя файла
FILENAME = "messages.txt"
# определяем пустой список
messages = list()
 
for i in range(4):
    message = input("Введите строку " + str(i+1) + ": ")
    messages.append(message + "\n")
 
# запись списка в файл
with open(FILENAME, "a") as file:
    for message in messages:
        file.write(message)
 
# считываем сообщения из файла
print("Считанные сообщения")
with open(FILENAME, "r") as file:
    for message in file:
        print(message, end="")

Введите строку 1: ываываы
Введите строку 2: ываываыва
Введите строку 3: ваываыва
Введите строку 4: уукук
Считанные сообщения
ываываы
ываываыва
ваываыва
уукук


Для того чтобы работать с файлами в Питоне следует также понимать принципы работы path
Рабочая библиотека **os**

In [98]:
import os
os.getcwd()

'/home/politlen/Documents'

In [99]:
os.listdir()

['EXAMINATION.ipynb',
 '3три.txt',
 'keys.txt',
 'proxys.csv',
 'testfig.png',
 'result.txt',
 'async_courts_fin.ipynb',
 'df.csv',
 'test2.png',
 'NKO_clusters_by_name.ipynb',
 'opengo.ipynb',
 'вводный урок (3).ipynb',
 'парсинг сайтов.ipynb',
 '1раз.txt',
 'hello.txt',
 'вводный урок.ipynb',
 'Строки, файлы и регулярные выражения.ipynb',
 'Analyze this.ipynb',
 'f1040sb.pdf',
 'results.xlsx',
 'salary.png',
 'Очистка_данных_и_создание_новых.ipynb',
 'proxys.ods',
 'saratov_map.html',
 'links.csv',
 'plotly_graphs.ipynb',
 'study_scrappy',
 'output.csv',
 'result.xlsx',
 '2два.txt',
 'messages.txt',
 'аналитичекий_ноутбук.ipynb',
 'output.png',
 'index.html',
 'anon_text',
 'Знакомство с pandas (3).ipynb',
 'функции в python.ipynb',
 'Введение_в_программирование_циклы.ipynb',
 'Списки и словари.ipynb',
 'f1040a.pdf',
 'f1040ez.pdf',
 '2008_swing_states.csv',
 'test.csv',
 'Знакомство с pandas.ipynb',
 'oop',
 'data.csv',
 'Api vk.ipynb',
 'token.txt',
 'geo.csv',
 '.ipynb_checkpoints

In [100]:
os.chdir('../')
os.getcwd()

'/home/politlen'

Подробнее про модуль os https://python-scripts.com/import-os-example

In [148]:
#Задача на файлы и строки
var = """ЭтОТ текст ИМЕЕЕТ явнЫе проБЛЕМы с РЕГИСТРОМ. ЕГО писал нездоровый коллега, 
КОТОРЫЙ то ли УШЕЛ в отпуск то ли на больничный, и теперь он недоступен.Однако в этом тексте содержится ключевая информация по поставкам, 
которая срочно должна оказаться на столе у начальника. 
Дальше идет долгое и подробное описание деталей поставок, характеристик товаров и прочее прочее. Страниц на 100
Нам нужно вычленить оТсюда ключевую информацию  записать её в файл:
Ford Focus, colour: grey, transmission: automate, price: 1,1 kk rub,  tel: 8(880)456-65-78
Ford Mondeo, colour: blue; transmission: automate, price: 1,6 kk rub, tel: 8(880)546-55-79
"""

#Хотим чтобы каждое предложение начиналось  с большой буквы, а остальные были с маленькой


In [149]:
#Запись в файл. В жизни этот этап был бы пропущен
with open("hello.txt", "w") as file:
    file.write(var)
    
with open("hello.txt", "r") as file:
    data = file.read()
    

text, info = data.split('файл:')
textLower = text.lower() + 'файл: '
textUpdated =  print(". ".join(i.capitalize() for i in  re.split(r'\.\s+', textLower)))
textUpdated

Этот текст имееет явные проблемы с регистром. Его писал нездоровый коллега, 
который то ли ушел в отпуск то ли на больничный, и теперь он недоступен.однако в этом тексте содержится ключевая информация по поставкам, 
которая срочно должна оказаться на столе у начальника. Дальше идет долгое и подробное описание деталей поставок, характеристик товаров и прочее прочее. Страниц на 100
нам нужно вычленить отсюда ключевую информацию  записать её в файл: 


Как видите, "нам" не вернулось обратно в исходную форму, потому что не подходит по паттерну. 

Мы можем изменить наше регулярное выражение, но все человеческие ошибки предугатать невозможно.