#### Python для анализа данных (социальные науки)

## Регулярные выражения

Задачи

*Авторы: Ян Пиле, Татьяна Рогович*

### 1. Задачка про аббревиатуры
Владимир устроился на работу в одно очень важное место. И в первом же документе он ничего не понял, 
там были сплошные ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК и т.п. Тогда он решил собрать все аббревиатуры, чтобы потом найти их расшифровки на http://sokr.ru/. Помогите ему.
Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они 
считаются одной аббревиатурой.

**Ввод**: Это курс информатики соответствует ФГОС и ПООП, это подтверждено ФГУ ФНЦ НИИСИ РАН   
**Вывод**: ФГОС, ПООП, ФГУ, ФНЦ, НИИСИ, РАН

In [1]:
import re
x = 'Это курс информатики соответствует ФГОС и ПООП, это подтверждено ФГУ ФНЦ НИИСИ РАН'

print(', '.join(re.findall(r'[А-Я]{2,}', x)))

ФГОС, ПООП, ФГУ, ФНЦ, НИИСИ, РАН


### 2. Задачка про аббревиатуры 2
Акростих — осмысленный текст, сложенный из начальных букв каждой строки стихотворения.
Акроним — вид аббревиатуры, образованной начальными звуками (напр. НАТО, вуз, НАСА, ТАСС), которое можно произнести слитно (в отличие от аббревиатуры, которую произносят «по буквам», например: КГБ — «ка-гэ-бэ»).
На вход даётся текст. Выведите слитно первые буквы каждого слова. Буквы необходимо выводить заглавными. 
Эту задачу можно решить в одну строчку.

In [2]:
import re
x = 'Комитет государственной Безопасности'

print(''.join(s.upper() for s in re.findall(r'\b[А-Яа-я]', x)))

КГБ


### 3. Задачка про перевод из camel_case'a в snake_case

Мы уже довольно много говорили про то, что в компаниях могут быть конвенции по обозначению переменных. Что, если вы написали код, а в нем переменные названы в Camel Case а вам требуется snake case? Пожалуй, стоит автоматизировать этот процесс. Попробуем написать функцию, которая этот функционал реализует.

**Ввод:**
camelCaseVar

**Вывод:**
camel_case_var

In [3]:
import re

def camel_case_transform(name: str) -> str:
    return '_'.join(s.lower() for s in re.findall(r'[A-Za-z][a-z_]*', name))

print(camel_case_transform("camelCaseVar"))

camel_case_var


### 4. Задачка про подсчет количества слов

Слова у нас могут состоять из букв или букв, стоящих вокруг дефиса (во-первых, чуть-чуть, давай-ка). Попробуем это описать регулярным выражением и посчитаем все слова в тексте.

In [4]:
text = '''
                    - Дельный, что и говорить,
                      Был старик тот самый,
                      Что придумал суп варить
                      На колесах прямо.
                      Суп - во-первых. Во-вторых,
                      Кашу в норме прочной.
                      Нет, старик он был старик
                      Чуткий - это точно.
'''

print('\n'.join(re.findall(r'\b[А-Яа-я]+-[А-Яа-я]+|\b[А-Яа-я]+', text)))


Дельный
что
и
говорить
Был
старик
тот
самый
Что
придумал
суп
варить
На
колесах
прямо
Суп
во-первых
Во-вторых
Кашу
в
норме
прочной
Нет
старик
он
был
старик
Чуткий
это
точно


### 5. Задачка про поиск слов на а и на е

Найдите в тексте слова, начинающиеся на а и на е

In [5]:
import re
text = "The following example creates an ArrayList with a capacity of 50 elements.\
        Four elements are then added to the ArrayList and the ArrayList is trimmed accordingly."

re.findall(r'\b[A,E,a,e]\w+', text)

['example',
 'an',
 'ArrayList',
 'elements',
 'elements',
 'are',
 'added',
 'ArrayList',
 'and',
 'ArrayList',
 'accordingly']

Пример 2

In [6]:
import re
text = '''
        Ihr naht euch wieder, schwankende Gestalten,
        Die früh sich einst dem trüben Blick gezeigt.
        Versuch’ ich wohl, euch diesmal festzuhalten?
        Fühl’ ich mein Herz noch jenem Wahn geneigt?
        '''

re.findall(r'\b[A,E,a,e]\w+', text)

['euch', 'einst', 'euch']

### 6. Задачка про деление текста на предложения 

Для простоты будем считать, что: 
* каждое предложение начинается с заглавной русской или латинской буквы;
* каждое предложение заканчивается одним из знаков препинания .;!?;
* между предложениями может быть любой непустой набор пробельных символов;
* внутри предложений нет заглавных и точек (нет пакостей в духе «Мы любим творчество А. С. Пушкина)».

Разделите текст на предложения так, чтобы каждое предложение занимало одну строку. 
Пустых строк в выводе быть не должно.

In [7]:
import re
s = """Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it! \
Did he mind? Adam Jones Jr. thinks he didn't. In any case, this isn't true... \
Well, with a probability of .9 it isn't."""

print('\n'.join(re.findall(r'\w.*?[.?!](?= |$)', s)))

Mr.
Smith bought cheapsite.com for 1.5 million dollars, i.e.
he paid a lot for it!
Did he mind?
Adam Jones Jr.
thinks he didn't.
In any case, this isn't true...
Well, with a probability of .9 it isn't.


### 7. И реальный пример

Возьмем перевод книги Идиот, вытащим оттуда текст первой главы, после чего посчитаем количество вхождений слова the. Ссылка 
https://www.gutenberg.org/files/2638/2638-0.txt

In [8]:
import re
import requests

idiot = requests.get('https://www.gutenberg.org/files/2638/2638-0.txt').text

print(len(re.findall(r'^The\s+|\s+[T|t]he\s+', idiot)))

10597
