### re

Центральные объекты модуля re - это классы re.Pattern и re.Match. Любая функция модуля, прежде чем искать по регулярному выражению, должна его *скомпилировать*. Регулярное выражение в питоне - это всегда строка, которую модуль re превращает в свой собственный объект. Функции re умеют компилировать регулярки сами, но можно скомпилировать строку с рв заранее:

In [1]:
import re

pattern = re.compile(r'\d+')

Обратите внимание, что рекомендуется всегда ставить буковку r перед строкой с регуляркой, потому что там есть специальные последовательности, которые могут начать конфликтовать со стандартными питоньими. 

Класс Match - это класс того, что нашлось на ваше регулярное выражение. Он содержит несколько вещей:

1. Само найденное выражение + отдельно содержимое групп рв, если они там были. 
2. Индексы найденного выражения в исходной строке. 

Чтобы в классе Match найти все выражение целиком, нужно использовать метод group:

In [None]:
m.group()  # можно указать 0, а можно не указывать - 0 по умолчанию.

Если нужно достать только содержимое какой-то из групп, то можно просто передать ее номер:

In [None]:
m.group(1)

Также у объектов класса Match есть три метода:

In [None]:
m.start()  # возвращает индекс исходной строки, с которого вхождение начинается
m.end()  # то же, только для конца
n.span()  # возвращает кортеж из этих индексов

Ну и теперь какие у нас есть функции. 

1. Поиска:

        re.search(pattern, text, flags) - ищет до первого вхождения, полностью аналогично find, только с рв. 
        re.findall(pattern, text, flags) - ищет все вхождения. Возвращает списком строк. Если в рв были группы, вернет список кортежей с содержимым групп!
        re.finditer(pattern, text, flags) - то же, что findall, только возвращает итератор из объектов класса match. Можно превратить в список, а можно сразу итерироваться.
        
2. Проверок:

        re.match(pattern, text, flags) - проверяет, что строчка text начинается с pattern. 
        re.fullmatch(pattern, text, flags) - проверяет, что строчка text полностью подходит под pattern.
        
3. Замены:

        re.sub(pattern, sub, text, flags) - заменяет все вхождения pattern на строку sub (вместо строки можно передать функцию, которая принимает объект класса match и возвращает строку). 

flags в каждой из этих функций - необязательный параметр. Вы можете передать флаги, если хотите. Какие бывают флаги? 

re.DOTALL (= re.S) - точка обозначает и \\n

re.MULTILINE (= re.M) - ^ и $ ищут внутри строки

re.IGNORECASE (= re.I) - игнорируется регистр

Флаги можно также указывать внутри регулярного выражения с помощью (?): r'(?i)...' - так передается флаг ignorecase. 

### PANDAS

Pandas - сокращение от panel data (табличные данные). Это библиотека, которая используется в основном для анализа данных и машинного обучения, но в ней также удобно, например, обрабатывать выдачу из корпуса типа ГИКРЯ и любые другие текстовые данные, которые содержатся в табличках. 

Pandas - очень быстрая библиотека, потому что основывается на библиотеке numpy для работы с матрицами (таблицами чисел), а та написана внутри себя на языке С. Все, что написано в С - очень быстро работает. :) 

Pandas **гораздо** быстрее обрабатывает данные, чем стандартные методы питона, в частности циклы. Если вы пишете код, в котором используете циклы в pandas, очень возможно, что это плохой код. 

Еще pandas заточен под использование в тетрадках .ipynb и умеет красиво отображать данные. 

Библиотеку необходимо сперва установить:

    pip install pandas
    
Если командная строка у вас ругается, что не знает, что такое pip, вероятно, вам нужно переустановить питон и при установке поставить галочку "add to PATH". 

Когда библиотека установлена, ее можно импортировать:

In [1]:
import pandas as pd  
# это настолько устоявшееся сокращение, что все так делают, хотя, конечно "as pd" писать необязательно - но тогда придется каждый раз прописывать полностью pandas.

Два основных класса, которые есть в модуле - это класс DataFrame (собственно таблица) и класс Series (колонка или строка в таблице). 

Создать DataFrame можно из списка списков, списка словарей, словаря списков или словаря словарей. 

In [3]:
df1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [4]:
df2 = pd.DataFrame([{'col1': 1, 'col2': 2}, {'col1': 3, 'col2': 4}])
df2

Unnamed: 0,col1,col2
0,1,2
1,3,4


In [5]:
df3 = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
df3

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [8]:
df4 = pd.DataFrame({'col1': {'l1': 1, 'l2': 2}, 'col2': {'l1': 3, 'l2': 4}})
df4

Unnamed: 0,col1,col2
l1,1,3
l2,2,4


Также pandas отлично работает с csv, json, excel-файлами. Для excel, правда, нужно дополнительно установить openpyxl. Интерфейс очень простой: достаточно написать функцию для чтения этого формата и передать только путь к файлу. 

In [None]:
data = pd.read_json(path)
data = pd.read_csv(path)
data = pd.read_excel(path)

Внутри себя табличка pandas устроена очень похоже именно на помесь словаря и списка, поэтому можно обращаться к ее частям, как к ключам в словаре или индексам в списке:

In [9]:
df3['col1']

0    1
1    2
2    3
Name: col1, dtype: int64

Когда мы так делаем, нам показывается формат Series - та самая колонка (или строчка) таблицы. Помимо имени колонки (или индекса строки), pandas еще указывает тип данных, которые содержатся в ячейках. Поскольку внутри себя pandas работает в С, а у С другие типы данных (там различаются int и float по размерам), pandas тоже указывает немного непривычные int64, float32 и подобное. 

К колонке таблицы, если в ее имени нет каких-нибудь пробелов и нестандартных символов, можно обращаться через точку от имени таблицы:

In [10]:
df3.col1

0    1
1    2
2    3
Name: col1, dtype: int64

Строки мы смотрим с помощью loc:

In [11]:
df4.loc['l2']

col1    2
col2    4
Name: l2, dtype: int64

Если у нас вместо индексов у строчек названия, то пишем прямо названия, как в ячейке выше. Если индексы - числа, то можно писать числа. Можно вообще всегда писать числа, если использовать iloc:

In [12]:
df4.iloc[1]

col1    2
col2    4
Name: l2, dtype: int64

К отдельной ячейке можно обратиться, если сперва указать ее колонку, а потом строку:

In [13]:
df4['col2']['l1']

3

Также можно воспользоваться iloc:

In [16]:
df4.iloc[0, 1]  # 0 - номер колонки, 1 - номер строки

3

Наконец, pandas умеет показывать отдельно начало, отдельно конец таблицы и выбирать случайные строки для показа. 

In [17]:
titanic = pd.read_csv('titanic.csv')
titanic.head() # по умолчанию показывает первые 5 строк; можно в скобочках указать другое число

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [18]:
titanic.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [19]:
titanic.sample(3)  # по умолчанию показывает одну случайную строку

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
417,418,1,2,"Silven, Miss. Lyyli Karoliina",female,18.0,0,2,250652,13.0,,S
104,105,0,3,"Gustafsson, Mr. Anders Vilhelm",male,37.0,2,0,3101276,7.925,,S
45,46,0,3,"Rogers, Mr. William John",male,,0,0,S.C./A.4. 23567,8.05,,S


Также можно посмотреть отдельно индексы и отдельно список имен колонок для таблицы:

In [20]:
titanic.index

RangeIndex(start=0, stop=891, step=1)

In [21]:
df4.index

Index(['l1', 'l2'], dtype='object')

In [22]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Можно сразу попросить pandas описать загруженную табличку, а то еще и немного проанализировать ее за нас:

In [23]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Метод info() выведет список всех колонок, посчитает, сколько в них непустых значений, и укажет, какого типа данные в них лежат. object - это обычно строка. 

In [24]:
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Метод describe() выведет для каждой из цифровых колонок таблички число непустых значений, их среднее арифметическое, [стандартное отклонение](https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5), самое маленькое значение, [квартили](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D1%8C#%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_%D0%B8_%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B8%D0%BB%D0%B8) и максимальное значение. 

Таблички в pandas особенно хороши тем, что можно брать только какие-то их части, как в excel с фильтром, при этом сама библиотека очень экономит оперативную память; можно с помощью условий заставить pandas показать только те строчки, значения в которых удовлетворяют нашему условию. Например, хотим получить только тех пассажиров, которые выжили (Survived = 1) и при этом плыли третьим классом (Pclass):

In [25]:
titanic[(titanic.Survived == 1) & (titanic.Pclass == 3)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C
22,23,1,3,"McGowan, Miss. Anna ""Annie""",female,15.0,0,0,330923,8.0292,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
838,839,1,3,"Chip, Mr. Chang",male,32.0,0,0,1601,56.4958,,S
855,856,1,3,"Aks, Mrs. Sam (Leah Rosen)",female,18.0,0,1,392091,9.3500,,S
858,859,1,3,"Baclini, Mrs. Solomon (Latifa Qurban)",female,24.0,0,3,2666,19.2583,,C
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S


Получим в результате такую же табличку, которую можно будет сохранить в отдельную переменную при желании и работать с ней как хотим. Кстати, у любой таблички pandas можно посмотреть количество ее строк с помощью самой обычной функции len(). 

В табличках могут быть пропущенные значения ячеек: когда в ячейке ничего не заполнено. Можно проверить, есть ли в нашей таблице такие значения, если использовать следующую комбинацию:

In [26]:
titanic.isna().any()

PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

Метод isna() возвращает True, если есть пропуск, а any() возвращает True, если хотя бы одна ячейка при проверке isna() дала True. Видим, что не у всех указаны возраст, кабина и какое-то значение посадки. 

Можно также посмотреть уникальные значения для любого столбца таблицы, двумя способами:

In [27]:
print(set(titanic.Sex))
print(titanic['Sex'].unique())

{'male', 'female'}
['male' 'female']


Также можно отдельно посчитать среднее арифметическое и сумму:

In [29]:
titanic.Age.mean()

29.69911764705882

In [30]:
titanic.Survived.sum()

342

Эти методы можно применять ко всей таблице, но если в ней есть не только числовые данные, лучше не надо, используйте тогда describe().

Как можно изменять таблички?

Во-первых, можно чистить табличку от пропусков:

In [31]:
titanic.dropna() # такая чистка вернет новую таблицу, а старая останется неизменной

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [32]:
titanic.dropna(inplace=True)  # многие методы pandas имеют такой параметр: это заставит pandas вносить изменения прямо в текущую табличку

Можно удалить и вообще любую произвольную строчку:

In [33]:
titanic.drop(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0000,D56,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


С методом drop() то же самое: можно сохранять изменения в текущей табличке, а можно создавать новую. 

Если хотим удалить целый столбец, нужно указать ось (строчки у нас - это как бы х на графике, а столбцы = это y)

In [35]:
titanic.drop('SibSp', axis=1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,112053,30.0000,B42,S


Если хотим что-то добавить в табличку, для строк можно воспользоваться loc:

In [36]:
df3

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [38]:
df3.loc[3] = [7, 8]

In [39]:
df3

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6
3,7,8


Обратите внимание, iloc здесь пользоваться нельзя - он умеет только перезаписывать уже существующие строки. 

Можно добавить и столбец:

In [40]:
df3['col3'] = pd.Series(['x', 'y', 'z', 'w'])

In [41]:
df3

Unnamed: 0,col1,col2,col3
0,1,4,x
1,2,5,y
2,3,6,z
3,7,8,w


Можно добавлять столбцы на основе уже существующих, а также изменять существующие с помощью какой-то функции, которая будет применяться к каждой ячейке столбца. 

In [42]:
df3['col1'].apply(lambda x: x + 1)  # увеличим все числа в столбце 1 на 1

0    2
1    3
2    4
3    8
Name: col1, dtype: int64

In [43]:
df3.apply(lambda x: x * 2)

Unnamed: 0,col1,col2,col3
0,2,8,xx
1,4,10,yy
2,6,12,zz
3,14,16,ww


In [44]:
df3['col4'] = df3.col3.apply(len)

In [45]:
df3

Unnamed: 0,col1,col2,col3,col4
0,1,4,x,1
1,2,5,y,1
2,3,6,z,1
3,7,8,w,1


Как видим, метод apply() может применяться как ко всей таблице, так и к отдельным колонкам. Чаще применяется к колонкам, потому что в таблице не всегда бывают колонки, которые содержат один тип данных. Необязательно писать и лямбда-функцию: главное понимать, что эта функция должна принимать и возвращать (здесь все точно так же, как с параметром key в сортировках). 

Последнее, о чем мы поговорили - это метод groupby(), который позволяет группировать данные в табличке по значениям какого-то одного столбца. Обычно сразу к groupby применяется еще какой-нибудь метод, например, вот мы хотим посчитать среднее арифметическое для значений нашей таблицы с пассажирами Титаника в зависимости от их пола:

In [46]:
titanic.groupby('Sex').mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,461.818182,0.931818,1.215909,32.676136,0.534091,0.545455,89.0009
male,449.389474,0.431579,1.168421,38.451789,0.4,0.410526,69.124343


На основании этих цифр можно строить всякие интересные предположения. 