In [1]:
import numpy as np
import pandas as pd

# Извлечение данных с помощью строковых методов

План урока

1. Поиск точного совпадения == isin()
2. Метод str.contains()
3. Regex (Регулярные выражения)
4. Параметры na и case в методе str.contains()
5. Метод str.startswith()
6. Метод str.endswith()
7. Метод str.match()

In [2]:
df = pd.read_csv('files/sample_1.csv')
df

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [3]:
df[df['name'].isin(['Alice', 'Ellen'])]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
4,Ellen,24,CA,88


In [4]:
df[(df['name']=='Alice')|(df['name']=='Ellen')]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
4,Ellen,24,CA,88


# Метод str.contains()

In [5]:
# метод str.contains возвращает булеву серию
df['name'].str.contains('l')

0     True
1    False
2     True
3    False
4     True
5    False
Name: name, dtype: bool

In [6]:
# Получаем три строчки датафрейма df с именами, содержащими букву l в имени
df[df['name'].str.contains('l')]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
4,Ellen,24,CA,88


# Regex (Регулярные выражения)

    Простому шаблону регулярного выражения 'еда' может соответсвовать много различных строк - 'еда', 'беда', 'победа'

    Проверка надежности пароля:
    ^(?=.*[A-Z].*[A-Z])(?=.*[!@#$&*])(?=.*[0-9].*[0-9])(?=.*[a-z].*[a-z].*[a-z]).{8}$ 

    Для проверки российских телефонных номеров может быть использовано следующее регулярное выражение:
    ^((\+?7|8)[ \-] ?)?((\(\d{3}\))|(\d{3}))?([ \-])?(\d{3}[\- ]?\d{2}[\- ]?\d{2})$

#### Задача: нужно найти все строки, в которых имя соотвествует следующему шаблону: после буквы 'i' идет ноль или более символов, после которых стоит буква 'e'
     Шаблон: i.*e
    . - метасимвол, обозначающий "один любой символ" (кроме символа новой строки \n)
    * - квантификатор (указывает количество повторений), обозначающий "ноль или более" символов

In [7]:
# создаем булеву серию для поиска строк по шаблону регулярного выражения 
df['name'].str.contains('i.*e')

0     True
1    False
2     True
3    False
4    False
5    False
Name: name, dtype: bool

In [8]:
# находим две строчки по заданному шаблону регулярного выражения
df[df['name'].str.contains('i.*e')]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70


In [9]:
# с помощью метода loc добавляем 6-ю строчку с данными Elizabeth
df.loc[6]=['Elizabeth', 40, 'NY', 95]
df

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57
6,Elizabeth,40,NY,95


In [10]:
# повторно используем шаблон регулярного выражения
df[df['name'].str.contains('i.*e')]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
6,Elizabeth,40,NY,95


### Отключение параметра regex (regex=False)

In [11]:
df['name'].str.contains('i.*e', regex=False)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
Name: name, dtype: bool

In [12]:
df[df['name'].str.contains('i.*e', regex=False)]

Unnamed: 0,name,age,state,point


### Экранирование символа с помощью  знака \ 

In [13]:
df.loc[7]=['Ann.+', 28, 'TX', 87]
df

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57
6,Elizabeth,40,NY,95
7,Ann.+,28,TX,87


In [14]:
# если экранируем символы . и +
df[df['name'].str.contains('n\.\+')]

Unnamed: 0,name,age,state,point
7,Ann.+,28,TX,87


In [15]:
# если не экранируем символы . и +
df[df['name'].str.contains('n.+')]

Unnamed: 0,name,age,state,point
5,Frank,30,NY,57
7,Ann.+,28,TX,87


In [16]:
# имя Ellen не соответсвует шаблону 'n.+'
df

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57
6,Elizabeth,40,NY,95
7,Ann.+,28,TX,87


# Параметры na, case метода str.contains()

### Отсутствующие значения и параметр na метода str.contains()

In [17]:
df_nan = df.copy()
df_nan.iloc[2, 0] = float('nan')
# другой вариант перезаписи строчки датафрейма df_nan: df_nan.iloc[2, 0] = [np.nan]

In [18]:
# мы получили датафрейм с отсутсвующим значением NaN в столбце name.
df_nan

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57
6,Elizabeth,40,NY,95
7,Ann.+,28,TX,87


In [19]:
# по умолчанию параметр na=None
df_nan['name'].str.contains('li')

0     True
1    False
2      NaN
3    False
4    False
5    False
6     True
7    False
Name: name, dtype: object

In [20]:
# - такой код вернет ошибку (ValueError: Cannot mask with non-boolean array containing NA / NaN values): 
# df_nan[df_nan['name'].str.contains('li')]

ValueError: Cannot mask with non-boolean array containing NA / NaN values

In [21]:
# na=False
df_nan['name'].str.contains('li', na=False)

0     True
1    False
2    False
3    False
4    False
5    False
6     True
7    False
Name: name, dtype: bool

In [22]:
# na=True
df_nan['name'].str.contains('li', na=True)

0     True
1    False
2     True
3    False
4    False
5    False
6     True
7    False
Name: name, dtype: bool

### Чувствительность регистра - Case

In [23]:
# по умолчанию case=True
df['name'].str.contains('LI')

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
Name: name, dtype: bool

In [24]:
# игнорируем регистр, выставив параметр case равным False
df['name'].str.contains('LI', case=False)

0     True
1    False
2     True
3    False
4    False
5    False
6     True
7    False
Name: name, dtype: bool

In [25]:
df[df['name'].str.contains('LI', case=False)]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
6,Elizabeth,40,NY,95


# str.startswith() - строка начинается с ...

In [26]:
df['name'].str.startswith('B')

0    False
1     True
2    False
3    False
4    False
5    False
6    False
7    False
Name: name, dtype: bool

In [27]:
df[df['name'].str.startswith('B')]

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92


# str.endswith() -  строка заканчивается ...

In [28]:
df['name'].str.endswith('e')

0     True
1    False
2     True
3     True
4    False
5    False
6    False
7    False
Name: name, dtype: bool

In [29]:
df[df['name'].str.endswith('e')]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
3,Dave,68,TX,70


# str.match() - поиск совпадения с начала строки

In [30]:
df[df['name'].str.match('E.*e')]

Unnamed: 0,name,age,state,point
4,Ellen,24,CA,88
6,Elizabeth,40,NY,95


In [31]:
df[df['name'].str.match('.+a')]

Unnamed: 0,name,age,state,point
2,Charlie,18,CA,70
3,Dave,68,TX,70
5,Frank,30,NY,57
6,Elizabeth,40,NY,95


In [32]:
df['name'].str.match('i.*e')

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
Name: name, dtype: bool

In [33]:
df['name'].str.contains('i.*e')

0     True
1    False
2     True
3    False
4    False
5    False
6     True
7    False
Name: name, dtype: bool

In [34]:
print('Количество совпадений (метод str.contains):', sum(df['name'].str.contains('i.*e')))
print('Количество совпадений (метод str.match):', sum(df['name'].str.match('i.*e')))

Количество совпадений (метод str.contains): 3
Количество совпадений (метод str.match): 0


### Модуль re

https://docs.python.org/3/library/re.html

    str.contains() соответсвует re.search()
    str.match() соответсвует re.match()