# «Python для сбора данных» 
*Автор: Анастасия Паршина, НИУ ВШЭ* 

E-mail: a.a.parshina@ya.ru

## Регулярные выражения. Сбор данных с помощью регулярных выражений.

Чтобы использовать регулярные выражения, необходимо импортировать модуль `re`.

In [2]:
import re

В основном регулярные выражения используются для поиска и замены текста, да и в целом обработки текстовых данных. Например, чтобы вытащить из текста все даты или изменить их формат. Предположим, у нас есть следующая информация, и мы хотим вытащить дату рождения и дату смерти правителя. 

In [2]:
text = 'Александр Невский. \
Родился: 13 мая 1221 г., Переславль-Залесский, Великое княжество Владимирское. \
Умер: 14 ноября 1263 г. (42 года), Городец, Великое княжество Владимирское'

print(text)

Александр Невский. Родился: 13 мая 1221 г., Переславль-Залесский, Великое княжество Владимирское. Умер: 14 ноября 1263 г. (42 года), Городец, Великое княжество Владимирское


Воспользуемся для этого методом `.findall()`. Попробуем сначала вытащить просто все числа из строки.

In [3]:
print(re.findall(r'\d', text))  # d = digit, т.е. заберем только цифры
print(re.findall(r'\d+', text)) # d+ заберем одно или более вхождение символа
print(re.findall(r'\D', text))  # D  показывает отрицание, т.е. вытащим все, кроме цифр
print(re.findall(r'\D+', text)) # D+ заберем одно или более вхождение символа

['1', '3', '1', '2', '2', '1', '1', '4', '1', '2', '6', '3', '4', '2']
['13', '1221', '14', '1263', '42']
['А', 'л', 'е', 'к', 'с', 'а', 'н', 'д', 'р', ' ', 'Н', 'е', 'в', 'с', 'к', 'и', 'й', '.', ' ', 'Р', 'о', 'д', 'и', 'л', 'с', 'я', ':', ' ', ' ', 'м', 'а', 'я', ' ', ' ', 'г', '.', ',', ' ', 'П', 'е', 'р', 'е', 'с', 'л', 'а', 'в', 'л', 'ь', '-', 'З', 'а', 'л', 'е', 'с', 'с', 'к', 'и', 'й', ',', ' ', 'В', 'е', 'л', 'и', 'к', 'о', 'е', ' ', 'к', 'н', 'я', 'ж', 'е', 'с', 'т', 'в', 'о', ' ', 'В', 'л', 'а', 'д', 'и', 'м', 'и', 'р', 'с', 'к', 'о', 'е', '.', ' ', 'У', 'м', 'е', 'р', ':', ' ', ' ', 'н', 'о', 'я', 'б', 'р', 'я', ' ', ' ', 'г', '.', ' ', '(', ' ', 'г', 'о', 'д', 'а', ')', ',', ' ', 'Г', 'о', 'р', 'о', 'д', 'е', 'ц', ',', ' ', 'В', 'е', 'л', 'и', 'к', 'о', 'е', ' ', 'к', 'н', 'я', 'ж', 'е', 'с', 'т', 'в', 'о', ' ', 'В', 'л', 'а', 'д', 'и', 'м', 'и', 'р', 'с', 'к', 'о', 'е']
['Александр Невский. Родился: ', ' мая ', ' г., Переславль-Залесский, Великое княжество Владимирское. У

Отлично! Но это не совсем то, что мы хотели. Работаем дальше! Пока ближе всего нам `re.findall(r'\d+', text)`, продолжим работать с ним. Укажем, что нас интересуют только числа из одной или двух цифр. 

In [4]:
re.findall(r'\d{1,2}', text) # от 1 до 2 включительно

['13', '12', '21', '14', '12', '63', '42']

Замечательно, но вытащилось много лишнего. Продолжаем совершенствовать шаблон! Укажем, что после обязательно стоит пробел и затем идет название месяца (т.е. слово).

In [5]:
print(re.findall(r'\d{1,2}\s', text)) # s = space (пробел) 
print(re.findall(r'\d{1,2}\S', text)) # S - все, что не пробелы

['13 ', '21 ', '14 ', '63 ', '42 ']
['13', '122', '14', '126', '42']


In [6]:
print(re.findall(r'\d{1,2}\s\w', text))  # w = word (одна буква, цифра или знак нижнего подчеркивания _)
print(re.findall(r'\d{1,2}\s\w+', text)) # w+ заберем одно или более вхождение символа
print(re.findall(r'\d{1,2}\s\W', text))  # W отрицание w (все, что не буква, не цифра и не _)
print(re.findall(r'\d{1,2}\s\W+', text)) # W+ заберем одно или более вхождение символа

['13 м', '21 г', '14 н', '63 г', '42 г']
['13 мая', '21 г', '14 ноября', '63 г', '42 года']
[]
[]


В первом случае забираются числа, и буква, которая следует после них. Далее похоже, но не совсем — забираются буквы (в том числе необходимый нам месяц), но при этом захватывается `21 г`, `63 г` и `42 года`. Нужно их убрать и тогда все будет замечательно. 

Но почему два последних действия выдали пустые списки? Если внимательно изучить строку, то можно заметить, что в ней просто нет вхождений, для которых бы соблюдался наш шаблон — чтобы шли одна или две цифры, а потом не буква, не цифра и не знак нижнего подчеркивания. 

Модифицируем `re.findall(r'\d{1,2}\s\w+', text)` дальше. Попробуем сказать, что после набора букв должен идти пробел. 

In [7]:
re.findall(r'\d{1,2}\s\w+\s', text)

['13 мая ', '14 ноября ']

Ура! Мы близко к цели! Осталось вытащить год, т.е. четыре последовательно идущих цифры. 

In [8]:
re.findall(r'\d{1,2}\s\w+\s\d{4}', text)

['13 мая 1221', '14 ноября 1263']

Великолепно! Все получилось) Можно было сделать это другим способом? Да! 

In [9]:
re.findall(r'[0-9]{1,2} [а-я]+ [0-9]{4}', text)

['13 мая 1221', '14 ноября 1263']

Немного длиннее, но работает аналогично. Мы заменили `d` на конкретный набор цифр от 0 до 9 `[0-9]`, сказали, что месяц может быть написан строчной кириллицей, и проставили пробелы. Вроде бы просто, однако нужно помнить, что так мы сузили наш шаблон только до кириллицы, и если название месяца будет написано латиницей, то наш код не будет работать так, как задумано. 

In [10]:
re.findall(r'[0-9]{1,2} [а-я]+ [0-9]{4}', '1 May 1234')

[]

Более того, следует помнить, что регулярные выражения чувствительны к регистру!

In [11]:
print(re.findall(r'[0-9]{1,2} [a-z]+ [0-9]{4}', '1 May 1234'))    # только строчные буквы
print(re.findall(r'[0-9]{1,2} [A-Z]+ [0-9]{4}', '1 May 1234'))    # только заглавные буквы
print(re.findall(r'[0-9]{1,2} [A-Za-z]+ [0-9]{4}', '1 May 1234')) # и те, и те
print(re.findall(r'[0-9]{1,2} \w+ [0-9]{4}', '1 May 1234'))

[]
[]
['1 May 1234']
['1 May 1234']


Пойдем немного дальше и усложним себе задачу. Предположим, у нас есть список, включающий строки типа `<ФИО сотрудника>, <e-mail>`.

In [12]:
employees = ['Вронский Алексей Кириллович, vronsak@count.ru', 
             'Лёвин Константин Дмитриевич, 4kostya-32@kd.ru',
             'Облонская Дарья Александровна, OblonskayD@dolly.ru',
             'Тверская Елизавета Фёдоровна, BetsyDuchess@tversk.ru'
            ]

Мы хотим заменить в нем все, что идет после знака `@` на корпоративный адрес `roman.com`. Но для начала нам нужно просто в самой строке найти адрес почты. Проделаем все для одного элемента списка. 

In [13]:
re.findall(r'\w+', employees[1])

['Лёвин', 'Константин', 'Дмитриевич', '4kostya', '32', 'kd', 'ru']

Нужно уточнить шаблон. Например, добавить, что он может содержать любые символы, а также только латинские буквы. 

In [14]:
re.findall(r'[0-9A-Za-z].+', employees[1])

['4kostya-32@kd.ru']

У нас получилось вытащить адрес! Осталось забрать часть до `@`.

In [15]:
print(re.findall(r'[0-9A-Za-z].+@', employees[1]))
print(re.findall(r'([0-9A-Za-z].+)@', employees[1]))

['4kostya-32@']
['4kostya-32']


Обратите внимание, что шаблон можно сделать очень сложным, чтобы точно вытаскивать данные, которые нам нужны, однако, круглые скобки позволяют вытащить из него только то, что необходимо. Что-то мы увлеклись, ведь нужно было вытащить все после знака `@`.

In [16]:
re.findall(r'@(.+)', employees[1])

['kd.ru']

Отлично! Мы можем использовать уже знакомый нам метод строк `.replace()`, чтобы заменить найденную подстроку на `roman.com`. При этом наш исходный список никак не поменяется. 

In [17]:
employees[1].replace(re.findall(r'@(.+)', employees[1])[0], 'roman.com')

'Лёвин Константин Дмитриевич, 4kostya-32@roman.com'

In [18]:
employees

['Вронский Алексей Кириллович, vronsak@count.ru',
 'Лёвин Константин Дмитриевич, 4kostya-32@kd.ru',
 'Облонская Дарья Александровна, OblonskayD@dolly.ru',
 'Тверская Елизавета Фёдоровна, BetsyDuchess@tversk.ru']

Но! Раз уж мы проходим регулярные выражения, то попробуем использовать их. Для замены одного шаблона на что-то другое существует метод `.sub()`.

In [19]:
re.sub(r'@(.+)', '@roman.com', employees[1]) # добавим @

'Лёвин Константин Дмитриевич, 4kostya-32@roman.com'

In [20]:
employees

['Вронский Алексей Кириллович, vronsak@count.ru',
 'Лёвин Константин Дмитриевич, 4kostya-32@kd.ru',
 'Облонская Дарья Александровна, OblonskayD@dolly.ru',
 'Тверская Елизавета Фёдоровна, BetsyDuchess@tversk.ru']

Используем списковые включения и заменим все подстроки в нашем исходном списке строк. 

In [21]:
[re.sub(r'@(.+)', '@roman.com', i) for i in employees]

['Вронский Алексей Кириллович, vronsak@roman.com',
 'Лёвин Константин Дмитриевич, 4kostya-32@roman.com',
 'Облонская Дарья Александровна, OblonskayD@roman.com',
 'Тверская Елизавета Фёдоровна, BetsyDuchess@roman.com']

Мы великолепны! Попробуем еще усложнить задачу. И потом закончим повторение и перейдем к теме сегодняшнего занятия. 

Предположим, что у нас есть список персонажей, и мы хотим создать новую переменную — пол. 

In [22]:
characters = ['Ростов Илья Андреевич', 'Болконский Андрей Николаевич', 
              'Мейнен Елизавета Карловна', 'Курагин Василий Сергеевич', 
              'Курагин Анатолий Васильевич', 'Безухов Пётр Кириллович',
              'Друбецкая Анна Михайловна', 'Дохолов Федор Иванович']

Как узнать пол? Можно это сделать по отчеству — если оно оканчивается на `ич`, то перед нами мужской персонаж, а если это не так, то женский. Сначала разберем все для одного элемента списка.

In [23]:
re.findall(r'[А-Яа-я]+', characters[0])

['Ростов', 'Илья', 'Андреевич']

Отлично! Уточним шаблон, добавив, что в конце обязательно идет `ич`.

In [24]:
re.findall(r'[А-Яа-я]+ич', characters[0])

['Андреевич']

Вытащили отчество, но что дальше? Давайте проверим, как наш код будет работать на ФИО женского персонажа: 

In [25]:
re.findall(r'[А-Яа-я]+ич', characters[2])

[]

Получили пустой список! Следовательно, мы можем задать условие, используя информацию о длине полученного списка. Если она больше нуля, то персонаж — мужчина (закодируем как 0), а во всех остальных случаях — женщина (закодируем как 1).

In [26]:
[0 if len(re.findall(r'\s[А-Яа-я]+ич', i)) > 0 else 1 for i in characters]

[0, 0, 1, 0, 0, 0, 1, 0]

Если бы у нас был большой набор данных, то регулярные выражения сильно бы упростили нам жизнь. Поработаем еще немного с нашим списком `characters`. Предположим, что мы хотим вытащить из списка всех мужских персонажей, чье имя начинается на букву А. 

In [27]:
re.findall(r'А[а-я]+\s[А-Яа-я]+ич', characters[1])

['Андрей Николаевич']

In [28]:
[i for i in characters if len(re.findall(r'А[а-я]+\s[А-Яа-я]+ич', i)) > 0 ]

['Болконский Андрей Николаевич', 'Курагин Анатолий Васильевич']

Обращаясь к последнему методу, который может нам пригодиться, проделаем тоже самое, но немного другим способом. 

In [29]:
regex = re.compile(r'А[а-я]+\s[А-Яа-я]+ич') # наше выражение

regex.findall(characters[1]) # применим к строке 

['Андрей Николаевич']

Фактически `.compile()` создает объект регулярного выражения, который мы потом используем. 

In [30]:
[i for i in characters if len(regex.findall(i)) > 0]

['Болконский Андрей Николаевич', 'Курагин Анатолий Васильевич']

Конечно, это не весь набор символов и методов, используемых в регулярных выражениях. Более подробно о них можно почитать в [документации](https://docs.python.org/3/library/re.html).

### Сбор данных с помощью регулярных выражений из текстового файла

Сначала посмотрим на имеющиеся данные файла `russian_emperors.txt`

In [31]:
data = []
with open('russian_emperors.txt', 'r', encoding = 'utf-8') as file:
    for line in file:
        if len(line.strip()) != 0:
            data.append(line.strip())
        
data

['Пётр I Алексеевич (Великий), (1672 - 1725). Последний царь всея Руси (с 1682 года) и первый Император Всероссийский (с 1721 года). Представитель династии Романовых. Был провозглашён царём в 10-летнем возрасте, стал править самостоятельно с 1689 года. С юных лет проявляя интерес к наукам и заграничному образу жизни, Пётр первым из русских царей совершил длительное путешествие в страны Западной Европы.  Начало правления - 22 октября 1721 (2 ноября 1721), конец - 28 января 1725 (8 февраля 1725). В официальной российской историографии Петра было принято считать одним из наиболее выдающихся государственных деятелей, определившим направление развития России в XVIII веке.',
 'Екатерина I Алексеевна (1684 - 1727). Императрица всероссийская с 1721 года (как супруга царствующего императора), с 1725 года как правящая государыня; вторая жена Петра I, мать императрицы Елизаветы Петровны. В её честь Петром I учреждён орден Святой Екатерины (1713) и назван город Екатеринбург на Урале (1723). Имя Ек

Хотим сделать таблицу со следующими столбцами — имя, пол, год рожения, год смерти, возраст, даты начала и конца правления (по новому и по старому стилю) и прозвище (если есть, записывается в тексте сразу после имени). Часть этого нам позволят выполнить регулярные выражения!

In [32]:
data[0]

'Пётр I Алексеевич (Великий), (1672 - 1725). Последний царь всея Руси (с 1682 года) и первый Император Всероссийский (с 1721 года). Представитель династии Романовых. Был провозглашён царём в 10-летнем возрасте, стал править самостоятельно с 1689 года. С юных лет проявляя интерес к наукам и заграничному образу жизни, Пётр первым из русских царей совершил длительное путешествие в страны Западной Европы.  Начало правления - 22 октября 1721 (2 ноября 1721), конец - 28 января 1725 (8 февраля 1725). В официальной российской историографии Петра было принято считать одним из наиболее выдающихся государственных деятелей, определившим направление развития России в XVIII веке.'

In [33]:
# имя
print(re.findall(r'\(', data[0]))
print(re.findall(r'\w+\(', data[0]))
print(re.findall(r'[\w\s]+', data[0]))
print(re.findall(r'[\w\s]+\b', data[0])[0])

['(', '(', '(', '(', '(', '(']
[]
['Пётр I Алексеевич ', 'Великий', ' ', '1672 ', ' 1725', ' Последний царь всея Руси ', 'с 1682 года', ' и первый Император Всероссийский ', 'с 1721 года', ' Представитель династии Романовых', ' Был провозглашён царём в 10', 'летнем возрасте', ' стал править самостоятельно с 1689 года', ' С юных лет проявляя интерес к наукам и заграничному образу жизни', ' Пётр первым из русских царей совершил длительное путешествие в страны Западной Европы', '  Начало правления ', ' 22 октября 1721 ', '2 ноября 1721', ' конец ', ' 28 января 1725 ', '8 февраля 1725', ' В официальной российской историографии Петра было принято считать одним из наиболее выдающихся государственных деятелей', ' определившим направление развития России в XVIII веке']
Пётр I Алексеевич


In [34]:
print(re.findall(r'\w+\s[A-Z]+\s\w+\b', data[0]))
print(re.findall(r'[А-Яа-яЁё]+\s[A-Z]+\s[А-Яа-яЁё]+\b', data[0]))

['Пётр I Алексеевич', 'в XVIII веке']
['Пётр I Алексеевич', 'в XVIII веке']


In [35]:
# прозвище
print(re.findall(r'.+\)', data[0]))     # слишком много, так не пойдет!
print(re.findall(r'.+\), \(', data[0])) # ограничили слева
print(re.findall(r'.+\(.+\), \(', data[0])) # добавили шаблон прозвища 
print(re.findall(r'.+\((.+)\), \(', data[0])[0]) # уточнили, что нужно только прозвище

['Пётр I Алексеевич (Великий), (1672 - 1725). Последний царь всея Руси (с 1682 года) и первый Император Всероссийский (с 1721 года). Представитель династии Романовых. Был провозглашён царём в 10-летнем возрасте, стал править самостоятельно с 1689 года. С юных лет проявляя интерес к наукам и заграничному образу жизни, Пётр первым из русских царей совершил длительное путешествие в страны Западной Европы.  Начало правления - 22 октября 1721 (2 ноября 1721), конец - 28 января 1725 (8 февраля 1725)']
['Пётр I Алексеевич (Великий), (']
['Пётр I Алексеевич (Великий), (']
Великий


In [36]:
# а если прозвища нет?
re.findall(r'.+\((.+)\), \(', data[1])

[]

In [37]:
nickname_re = re.findall(r'.+\((.+)\), \(', data[1])
['Нет прозвища' if len(nickname_re) == 0 else nickname_re[0]][0]

'Нет прозвища'

In [38]:
print(re.findall(r'\d{4} - \d{4}', data[0]))   # тут все проще
print(re.findall(r'(\d{4}) - \d{4}', data[0])) # год рождения
print(re.findall(r'\d{4} - (\d{4})', data[0])) # год смерти

['1672 - 1725']
['1672']
['1725']


In [39]:
print(re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', data[0])) # мы знаем, как находить даты, но их слишком много...
# уточним шаблон так, чтобы сразу забирать даты нового и старого стиля
print(re.findall(r'\d{1,2}\s[а-я]+\s\d{4}\s\(\d{1,2}\s[а-я]+\s\d{4}\)', data[0])) 

['22 октября 1721', '2 ноября 1721', '28 января 1725', '8 февраля 1725']
['22 октября 1721 (2 ноября 1721)', '28 января 1725 (8 февраля 1725)']


In [40]:
starts = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}\s\(\d{1,2}\s[а-я]+\s\d{4}\)', data[0])[0]
starts

'22 октября 1721 (2 ноября 1721)'

In [41]:
starts_old = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', starts)[0]
print(starts_old)
starts_new = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', starts)[1]
print(starts_new)

22 октября 1721
2 ноября 1721


In [42]:
ends = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}\s\(\d{1,2}\s[а-я]+\s\d{4}\)', data[0])[1]
ends

'28 января 1725 (8 февраля 1725)'

In [43]:
ends_old = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', ends)[0]
print(ends_old)
ends_new = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', ends)[1]
print(ends_new)

28 января 1725
8 февраля 1725


Попробуем проделать тоже самое, но для всех данных. Это можно делать сразу при открытии файла. Создадим словарь `russian_emperors = {}`, где ключом будет имя императора, а значением — список с необходимым нам данными.  

In [44]:
russian_emperors = {}

with open('russian_emperors.txt', 'r', encoding = 'utf-8') as file:
    for line in file:
        if len(line.strip()) != 0:   # по сути data [0] это и есть line.strip()
            line = line.strip()
            name = re.findall(r'[\w\s]+\b', line)[0]
            
            nickname_re = re.findall(r'.+\((.+)\), \(', line)
            nickname = ['Нет прозвища' if len(nickname_re) == 0 else nickname_re[0]][0]
            
            birth = int(re.findall(r'(\d{4}) - \d{4}', line)[0])
            death = int(re.findall(r'\d{4} - (\d{4})', line)[0])
            age = death - birth
            
            starts = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}\s\(\d{1,2}\s[а-я]+\s\d{4}\)', line)[0]
            starts_old = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', starts)[0]
            starts_new = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', starts)[1]
            
            ends = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}\s\(\d{1,2}\s[а-я]+\s\d{4}\)', line)[1]
            ends_old = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', ends)[0]
            ends_new = re.findall(r'\d{1,2}\s[а-я]+\s\d{4}', ends)[1]
            
            russian_emperors[name] = [nickname, birth, death, age, 
                                      starts_old, starts_new, ends_old, ends_new]

In [45]:
russian_emperors

{'Пётр I Алексеевич': ['Великий',
  1672,
  1725,
  53,
  '22 октября 1721',
  '2 ноября 1721',
  '28 января 1725',
  '8 февраля 1725'],
 'Екатерина I Алексеевна': ['Нет прозвища',
  1684,
  1727,
  43,
  '28 января 1725',
  '8 февраля 1725',
  '6 мая 1727',
  '17 мая 1727'],
 'Пётр II Алексеевич': ['Нет прозвища',
  1715,
  1730,
  15,
  '6 мая 1727',
  '17 мая 1727',
  '19 января 1730',
  '30 января 1730'],
 'Анна I Иоанновна': ['Кровавая',
  1693,
  1740,
  47,
  '15 февраля 1730',
  '26 февраля 1730',
  '17 октября 1740',
  '28 октября 1740'],
 'Иван VI Антонович': ['Нет прозвища',
  1740,
  1764,
  24,
  '17 октября 1740',
  '28 октября 1740',
  '25 ноября 1741',
  '6 декабря 1741'],
 'Елизавета Петровна': ['Веселая царица',
  1709,
  1761,
  52,
  '25 ноября 1741',
  '6 декабря 1741',
  '25 декабря 1761',
  '5 января 1762'],
 'Пётр III Фёдорович': ['Нет прозвища',
  1728,
  1762,
  34,
  '25 декабря 1761',
  '5 января 1762',
  '28 июня 1762',
  '9 июля 1762'],
 'Екатерина II Алек

In [46]:
import pandas as pd

In [47]:
data_emperors = pd.DataFrame.from_dict(russian_emperors).transpose()
data_emperors

Unnamed: 0,0,1,2,3,4,5,6,7
Пётр I Алексеевич,Великий,1672,1725,53,22 октября 1721,2 ноября 1721,28 января 1725,8 февраля 1725
Екатерина I Алексеевна,Нет прозвища,1684,1727,43,28 января 1725,8 февраля 1725,6 мая 1727,17 мая 1727
Пётр II Алексеевич,Нет прозвища,1715,1730,15,6 мая 1727,17 мая 1727,19 января 1730,30 января 1730
Анна I Иоанновна,Кровавая,1693,1740,47,15 февраля 1730,26 февраля 1730,17 октября 1740,28 октября 1740
Иван VI Антонович,Нет прозвища,1740,1764,24,17 октября 1740,28 октября 1740,25 ноября 1741,6 декабря 1741
Елизавета Петровна,Веселая царица,1709,1761,52,25 ноября 1741,6 декабря 1741,25 декабря 1761,5 января 1762
Пётр III Фёдорович,Нет прозвища,1728,1762,34,25 декабря 1761,5 января 1762,28 июня 1762,9 июля 1762
Екатерина II Алексеевна,Великая,1729,1796,67,28 июня 1762,9 июля 1762,6 ноября 1796,17 ноября 1796
Павел I Петрович,русский Гамлет,1754,1801,47,6 ноября 1796,17 ноября 1796,12 марта 1801,24 марта 1801


In [48]:
data_emperors.columns = ['Прозвище', 'Год рождения', 'Год смерти', 'Возраст',
                         'Начало правления (старый стиль)', 'Начало правления (новый стиль)',
                         'Конец правления (старый стиль)', 'Конец правления (новый стиль)']

In [49]:
data_emperors

Unnamed: 0,Прозвище,Год рождения,Год смерти,Возраст,Начало правления (старый стиль),Начало правления (новый стиль),Конец правления (старый стиль),Конец правления (новый стиль)
Пётр I Алексеевич,Великий,1672,1725,53,22 октября 1721,2 ноября 1721,28 января 1725,8 февраля 1725
Екатерина I Алексеевна,Нет прозвища,1684,1727,43,28 января 1725,8 февраля 1725,6 мая 1727,17 мая 1727
Пётр II Алексеевич,Нет прозвища,1715,1730,15,6 мая 1727,17 мая 1727,19 января 1730,30 января 1730
Анна I Иоанновна,Кровавая,1693,1740,47,15 февраля 1730,26 февраля 1730,17 октября 1740,28 октября 1740
Иван VI Антонович,Нет прозвища,1740,1764,24,17 октября 1740,28 октября 1740,25 ноября 1741,6 декабря 1741
Елизавета Петровна,Веселая царица,1709,1761,52,25 ноября 1741,6 декабря 1741,25 декабря 1761,5 января 1762
Пётр III Фёдорович,Нет прозвища,1728,1762,34,25 декабря 1761,5 января 1762,28 июня 1762,9 июля 1762
Екатерина II Алексеевна,Великая,1729,1796,67,28 июня 1762,9 июля 1762,6 ноября 1796,17 ноября 1796
Павел I Петрович,русский Гамлет,1754,1801,47,6 ноября 1796,17 ноября 1796,12 марта 1801,24 марта 1801


In [50]:
# осталось проставить пол

def sex(name): # name - строка!
    if len(re.findall(r'\w+ич', name)) > 0:
        return 0
    else:
        return 1

In [51]:
n = 'Павел I Петрович'
sex(name)

0

In [52]:
data_emperors['Пол'] = data_emperors.index.to_series().apply(sex) # применяем созданную нами функцию

In [53]:
data_emperors

Unnamed: 0,Прозвище,Год рождения,Год смерти,Возраст,Начало правления (старый стиль),Начало правления (новый стиль),Конец правления (старый стиль),Конец правления (новый стиль),Пол
Пётр I Алексеевич,Великий,1672,1725,53,22 октября 1721,2 ноября 1721,28 января 1725,8 февраля 1725,0
Екатерина I Алексеевна,Нет прозвища,1684,1727,43,28 января 1725,8 февраля 1725,6 мая 1727,17 мая 1727,1
Пётр II Алексеевич,Нет прозвища,1715,1730,15,6 мая 1727,17 мая 1727,19 января 1730,30 января 1730,0
Анна I Иоанновна,Кровавая,1693,1740,47,15 февраля 1730,26 февраля 1730,17 октября 1740,28 октября 1740,1
Иван VI Антонович,Нет прозвища,1740,1764,24,17 октября 1740,28 октября 1740,25 ноября 1741,6 декабря 1741,0
Елизавета Петровна,Веселая царица,1709,1761,52,25 ноября 1741,6 декабря 1741,25 декабря 1761,5 января 1762,1
Пётр III Фёдорович,Нет прозвища,1728,1762,34,25 декабря 1761,5 января 1762,28 июня 1762,9 июля 1762,0
Екатерина II Алексеевна,Великая,1729,1796,67,28 июня 1762,9 июля 1762,6 ноября 1796,17 ноября 1796,1
Павел I Петрович,русский Гамлет,1754,1801,47,6 ноября 1796,17 ноября 1796,12 марта 1801,24 марта 1801,0


In [54]:
data_emperors.to_csv('data_emperors.csv')