# Основы программирования в Python

*Алла Тамбовцева*

## Семинар 8

1.Загрузите таблицу из файла `contacts.csv` (все данные *вымышленные*). Обратите внимание, что разделителем столбцов является точка с запятой.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("contacts.csv", sep = ";") # разделитель ;
df

Unnamed: 0,name,contacts
0,Иванов И.И.,iviv@mail.ru 8(903)033-33-33
1,"Петров, И.В.",905-555-55-55 petroviv85@ya.ru
2,Селигеров М.В.,"seliger200@gmail.com, +7(985)1232323"
3,А.А. Петухова,petuhova.aa@gmail.com Тел 3232323
4,"Заяц, О.В.","Mail: zayatsolga56@mail.ru, , 8-916-000-00-01"
5,А.Китов,kitkit@rambler.ru. нет
6,Ш.Ш.Шаблонов,shabshab13@ya.ru 9958967


2.Используя регулярные выражения и циклы, создайте на основе столбцов в этой базе данных списки:

    * список инициалов (*inic*)
    * список фамилий (*surnames*)
    * список email'ов (*mails*)
    * список телефонов (*tels*)

In [3]:
import re

Начнем с инициалов. Сначала для удобства сохраним столбец с ФИО в виде списка.

In [5]:
names = list(df.name)

Теперь в цикле будем обращаться к элементам `names` и искать в них подстроки, соответствующие инициалам. Какое регулярное выражение написать? Нужно учесть, что инициалы здесь ‒ всегда заглавные русские буквы, после которых стоит точка. Обратите внимание: инициал может быть один!

In [6]:
for n in names:
    print(re.findall("[А-Я]\.+", n)) 

['И.', 'И.']
['И.', 'В.']
['М.', 'В.']
['А.', 'А.']
['О.', 'В.']
['А.']
['Ш.', 'Ш.']


В регулярном выражении в `findall` мы экранировали точку: поставили перед ней обратный слэш, чтобы Python понимал, что это знак препинания, а не служебный знак, соответствующий одному любому символу. После нее мы написали плюс, так как он означает, что последовательность слева от него может встречаться один и более раз. Если бы мы его не использовали, а просто задали два раза заглавные буквы, мы бы потеряли А.Китова с одним инициалом: 

In [7]:
# не надо так
for n in names:
    print(re.findall("[А-Я]\.[А-Я]\.", n)) 

['И.И.']
['И.В.']
['М.В.']
['А.А.']
['О.В.']
[]
['Ш.Ш.']


Теперь осталось создать пустой список `inic` и добавлять в него найденные совпадения. Результаты применения `findall()` являются списками (из одного или двух элементов), их можно склеить с помощью метода `.join()`, чтобы получить "целые" инициалы.

In [12]:
inic = []

for n in names:
    r = re.findall("[А-Я]\.+",n)
    inic.append("".join(r))

inic    

['И.И.', 'И.В.', 'М.В.', 'А.А.', 'О.В.', 'А.', 'Ш.Ш.']

Теперь перейдем к фамилиям. Фамилия ‒ это последовательность символов, где первая буква заглавная, а остальные ‒строчные. Заглавная буква одна, и она стоит на первом месте (у нас нет опечаток), а за ней может идти сколько угодно строчных.

In [9]:
for n in names:
    print(re.findall("[А-Я][а-я]+", n))

['Иванов']
['Петров']
['Селигеров']
['Петухова']
['Заяц']
['Китов']
['Шаблонов']


Создадим список. Обратите внимание: мы добавили 0 в квадратных скобках. Это индекс элемента в списке, который выдает `findall()`. Если мы этот элемент не извлечем, `surnames` у нас будет списком списков.

In [11]:
surnames = []

for n in names:
    r = re.findall("[А-Я][а-я]+", n)[0]
    surnames.append(r)
    
surnames

['Иванов', 'Петров', 'Селигеров', 'Петухова', 'Заяц', 'Китов', 'Шаблонов']

Перейдем к email'ам. Сначала сохраним столбец с контактами в виде списка.

In [13]:
conts = list(df.contacts)

Адрес электронной почты имеет свои особенности. Он состоит из латинских букв и цифр, там есть "собака" и точка. У нас здесь все буквы строчные, после них могут встретиться цифры (а могут не встретиться).

In [16]:
for c in conts:
    print(re.findall("[a-z]+[0-9]*@[a-z]+\.[a-z]+", c))

['iviv@mail.ru']
['petroviv85@ya.ru']
['seliger200@gmail.com']
['aa@gmail.com']
['zayatsolga56@mail.ru']
['kitkit@rambler.ru']
['shabshab13@ya.ru']


Плюс после `[a-z]` означает, что у нас может быть одна латинская буква и более, звездочка после `[0-9]` означает, что цифры могу быть (сколько угодно) или не быть (ноль цифр). Далее мы ставим знак `@`, он у нас всегда один, и экранировать его не нужно, прописываем комбинацию с плюсом для любого количества букв, ставим точку (и обязательно экранируем, так как нас интересует конкретный знак препинания) и указываем, что после точки может быть любое число букв больше 0. Добавим результаты в список.

In [18]:
mails = []

for c in conts:
    r = re.findall("[a-z]+[0-9]*@[a-z]+\.[a-z]+", c)[0]
    mails.append(r)
mails

['iviv@mail.ru',
 'petroviv85@ya.ru',
 'seliger200@gmail.com',
 'aa@gmail.com',
 'zayatsolga56@mail.ru',
 'kitkit@rambler.ru',
 'shabshab13@ya.ru']

Осталось самое сложное: разобраться с телефонами. Телефоны здесь представлены в самом разном формате, и все это нужно учитывать. Скобки, дефисы, плюсы, и, что важно, их возможное отсутствие. Тут проще сначала записать само выражение, а потом по частям его разобрать. 

**NB:** данное выражение не является компактным и оптимальным (можно написать умнее и красивее, но оставим такое для максимальной наглядности).

In [20]:
for c in conts:
    print(re.findall("\+?\d?\(?\d+[\)|-]?\d+-?\d+-?\d+", c))

['8(903)033-33-33']
['905-555-55-55']
['+7(985)1232323']
['3232323']
['8-916-000-00']
[]
['9958967']


Перед разбором выражения сразу отметим, что один пустой список выше ‒ это нормально, поскольку у одного человека (А.Китов) телефон не указан. 

1. Сначала мы экранируем плюс, чтобы Python знал, что мы имеем в виду сам знак, а не служебный символ, принятый в регулярных выражениях. Потом после него мы ставим знак вопроса, который означает, что плюса в начале строки может не быть (`?` - либо 0, либо 1 символ).
2. Потом мы пишем `\d` ‒ принятое сокращение для цифр (*digits*), то же самое, что `[0-9]`. И опять говорим, что цифра может быть (одна, 8 или 7) или не быть ‒ ставим знак вопроса.
3. Далее ставим открывающую скобку и экранируем ее (в регулярных выражениях скобки являются специальным символом для ограничения групп). И опять указываем, что число таких скобок либо 0, либо 1.
4. Затем опять цифры (сколько угодно, больше 0).
5. Теперь скажем, что после цифр идет либо закрывающая скобка (если была открывающая), либо дефис: указываем эти символы в квадратных скобках через `|` (*или*). И после закрывающей квадратной скобки фиксируем, что скобок и дефисов вообще могло не быть ‒ снова знак вопроса.
6. Далее неколько раз мы повторяем одно и то же: несколько цифр и (возможно) дефис, несколько цифр и опять дефис...

Создадим список телефонов. Так как у нас есть случай, когда список-результат `findall()` пустой, и чтобы не столкнуться с ошибкой при вызове элемента с индексом `0`, учтем эту особенность в условии ‒ добавим развилку.

In [23]:
tels = []
for c in conts:
    r = re.findall("\+?\d?\(?\d+[\)|-]?\d+-?\d+-?\d+", c)
    if len(r) == 0:
        tels.append('')
    else:
        tels.append(r[0])

tels

['8(903)033-33-33',
 '905-555-55-55',
 '+7(985)1232323',
 '3232323',
 '8-916-000-00',
 '',
 '9958967']

3.Приведите все элементы в списках к единому виду (удалите лишние пробелы) и создайте из этих списков новую базу данных.

In [26]:
# лишние пробелы могут быть только в inic

inic = [i.strip() for i in inic]
inic

['И.И.', 'И.В.', 'М.В.', 'А.А.', 'О.В.', 'А.', 'Ш.Ш.']

In [30]:
import pandas as pd

In [35]:
d = pd.DataFrame({'surname': surnames, 'inic': inic, 'mail': mails,'tel': tels})

In [36]:
d

Unnamed: 0,inic,mail,surname,tel
0,И.И.,iviv@mail.ru,Иванов,8(903)033-33-33
1,И.В.,petroviv85@ya.ru,Петров,905-555-55-55
2,М.В.,seliger200@gmail.com,Селигеров,+7(985)1232323
3,А.А.,aa@gmail.com,Петухова,3232323
4,О.В.,zayatsolga56@mail.ru,Заяц,8-916-000-00
5,А.,kitkit@rambler.ru,Китов,
6,Ш.Ш.,shabshab13@ya.ru,Шаблонов,9958967


4.Сохраните полученнную базу в csv-файл.

In [37]:
d.to_csv("new-contacts.csv")