## Установка pandas

Установим библиотеку pandas:

In [None]:
!pip install pandas

и импортируем ее:

In [1]:
import pandas as pd

## 1. Объекты Series и DataFrame

Объект `Series` – одномерные массив, состоящий из элементов и их индексов:

In [None]:
series_example = pd.Series(['a', 48, 'd', 'hello115'])
series_example

Здесь:  
`0`, `1`, `2`, `3` – индексы.  
`a`, `48`, `d`, `hello115` – элементы.

Объект `DataFrame` – многомерный массив, как таблица в Excel.

In [None]:
df = pd.DataFrame({
     'telephone number': [123456789, 123679, 15645445, 564645546],
     'name': ['John', 'Jim', 'Kotowski', 'Lebowski'],
})

df

Здесь:  
`telephone number`, `name` – названия столбцов с соответствующими значениями `123456789 ...`, `John ...`.

## 2. Импорт файлов и просмотр содержимого

Импортируем датасет ([оригинал](https://www.kaggle.com/dhruvildave/google-trends-dataset)) с популярными поисковыми запросами Google с 2000 по 2020 год. При импорте csv-файла все данные сохраняются в датафрейм `df`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')

Аналогично есть команды для импорта других файлов:  

`read_excel()` – импорт excel-файла.  
`read_sql()` – импорт базы данных SQL.  
`read_json(json_string)` – импорт json-файла.  
`read_html(url)` – создает из HTML-таблицы список объектов DataFrame.  

Выведем содержимое датафрейма на экран:

In [None]:
print(df)

Отображаются первые и последние пять строчек.

Чаще всего значения в датасетах разделяются запятой (рис.). Чтобы задать другой разделитель добавим параметр `sep=""`. По умолчанию разделитель между столбцами – запятая.
В нашем случае получаем:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv', sep=",")
df

Посмотрим первые пять строчек датафрейма с помощью `df.head(5)`:

In [None]:
df.head(5)

последние 5 строчек:

In [None]:
df.tail(5)

и пять случайных строчек:

In [None]:
df.sample(5)

Узнаем количество строчек и столбцов:

In [None]:
df.shape

Здесь:  
26955 – количество строчек.  
5 – количество столбцов.

Выведем на экран содержимое датафрейма:

In [None]:
df.info

и использованной памяти:

In [None]:
df.info(memory_usage=True)

Иногда при импорте данных числа принимают тип `объект` и при обработке данных возникает ошибка. Поэтому проверим какие типы данных находятся в каждом столбце:

In [None]:
df.dtypes

Здесь:  
`object` – строчка.  
`int64` – целое число.  

Часто встречаемые типы данных:  
`float64` – вещественное число.  
`datetime64` – дата и время.  
`bool` – значения `True` или `False`.  


Узнаем названия всех столбцов:

In [None]:
df.columns

Выведем значения только столбца `query`:

In [None]:
df['query']

и значения нескольких столбцов:

In [None]:
df[['location', 'category']]

Через срез отобразим первые двадцать значений столбца `query`:

In [None]:
df['query'][0:20]

В нашем датасете индексы являются числами. Это не очень удобно для понимания, как работает `loc` и `iloc`, поэтому создадим небольшой датафрейм с элементами типа `str` в виде индексов:

In [None]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])
df

`loc` выдает строки и/или столбцы по нечисловому значению индекса:

In [None]:
df.loc['phone']

`iloc` получает строки и/или столбцы по числовому индексу:

In [None]:
df.iloc[0]

Вернемся к основному датафрейму:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')

Выведем первые пять строчек с помощью `iloc`:

In [None]:
df.iloc[0:5]

Узнаем какой элемент записан в третьей строчке и пятом столбце:

In [None]:
df.iloc[2,4]

Выведем значения всех строчек с помощью метода `iterrows()`:

In [None]:
for index, row in df.iterrows():
    print(row)

 и с помощью `iloc()`:

In [None]:
for i in range(len(df.index)):
    print(df.iloc[i])

Отобразим все элементы столбца `query`:

In [None]:
for index, row in df.iterrows():
    print(row['query'])

иначе:

In [None]:
for i in range(len(df.index)):
    print(df.iloc[i]['query'])

Выведем строчки со значением `Consumer Brands` в столбце `Сategory`

In [None]:
df.loc[df['category'] == "Consumer Brands"]

## 3. Операции над строчками и столбцами

### 3.1. Объединение датафреймов

Создадим два датафрейма `df1` и `df2` и добавим столбцы из второго датафрейма в первый с помощью `concat()`. При этом индексы должны совпадать, иначе мы получим `NaN`:

In [None]:
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])

df2 = pd.DataFrame([[7, 8], [9, 10], [11, 12]],
     index=['phone', 'telegram', 'letter'],
     columns=['average speed', 'min_speed'])

df1 = pd.concat([df1, df2], axis=1)
df1

Здесь:  
`df1` и `df2` – первый и второй датафрейм соответственно.

Добавим строчки датафрейма `df2` к `df1`. Названия столбцов должны совпадать, иначе получим `NaN`:

In [None]:
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])

df2 = pd.DataFrame([[7, 8], [9, 10], [11, 12]],
     index=['smartphone', 'birdmail', 'email'],
     columns=['max_speed', 'cost'])

df1 = pd.concat([df1, df2], axis=0)
df1

Добавим строчки методом `append()`:

In [None]:
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])

df2 = pd.DataFrame([[7, 8], [9, 10], [11, 12]],
     index=['smartphone', 'birdmail', 'email'],
     columns=['max_speed', 'cost'])

df1 = df1.append(df2)
df1

### 3.2. Добавление строчек и столбцов

Для добавления строчки создадим словарь `new_row` с названиям столбцов ввиде ключей:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row = {'location': 'Russia', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': 'Artist Name'}
df = df.append(new_row, ignore_index=True)
df.tail(5)

Чтобы добавить строчку в определенную позицию используем метод `loc`:

In [None]:
df.loc[2] = ['Russia', 2021, 'Music', 1, 'Artist Name']
df.head(5)

Здесь:  
`loc[2]` – вставляем строчку на место третьей строчки.

Следующая запись добавит новый столбец `new_column` справа и установит все строки на значение `new`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['new_column'] = 'new'
df.tail(5)

Можно использовать метод `insert()`, чтобы указать, где должен быть новый столбец. У первого столбца индекс `0`:

In [None]:
df.insert(0, 'new_qwerty_column', 'qwerty')
df.head(5)

### 3.3. Удаление строчек и столбцов

Удалим последнюю строчку под номером `26954` c помощью `drop()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.tail(7)

In [None]:
df = df.drop(26954, 0)
df.tail(7)

Здесь:  
`year` – название столбца  
`0` – в датафрейме строчка имеет `ось = 0`, столбец – `1`.  

Удалим столбец `year`:

In [None]:
df = df.drop('year', 1)
df.tail(5)

### 3.4. Переименование столбцов

Чтобы переименовать столбец используем `rename()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.tail(3)

In [None]:
df = df.rename(columns={'location': 'new_location'})
df.tail(3)

Здесь:  
`location` – текущее название столбца.  
`new_location` – новое название столбца.

### 3.5. Замена символов в строке

С помощью `replace()` заменим в столбце `year` значения c 2020 на 2021:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.tail(10)

In [None]:
df['year'] = df['year'].replace(to_replace=2020, value=2021)

# сокращенная запись без to_replace и value: 
# df['year'] = df['year'].replace(2020, 2021)

df['category'] = df['category'].replace(to_replace='Là Gì?', value='Hello, World.')
df.tail(10)

Здесь:  
`replace()` – заменяет значения.

`to_replace=2020` – значение, подлежащее замене.  
`value=2021` – то, на что меняем.  

Метод `replace()` выполнит замену в результате полного совпадения значения, то есть знак вопроса `?` просто так не удалить – нужно писать регулярное выражение (regex).
Быстрее воспользоваться методом `str.replace()`, который выполняет замену подстроки без regex. Заменим знак вопроса обоими методами.

Замена с помощью метода `replace()` и регулярных выражений:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['category'] = df['category'].replace(r'[?]', '', regex=True)
df.tail(5)

Здесь:  
`r''` – обозначение регулярного выражения.   
`[]` – поиск только символа в скобках.  
`?` – поиск знака вопроса.  

Замена, используя метод `str.replace()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['category'] = df['category'].str.replace('?', '', regex=False)
df.tail(5)

Здесь:  
`regex=False` – знак вопроса `?` используется в регулярных выражениях, поэтому их нужно отключить, присвоив параметру regex значение `False`. По умолчанию `True`.

Также можно заменить значения, используя метод `mask()`:

In [None]:
df['year'] = df['year'].mask(df['year'] == 2001, 2051)
df.head(3)

### 3.6. Суммирование элементов

Просуммируем элементы в столбце `year` с помощью `sum()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['year'].sum()

### 3.7. Копирование датафрейма

Создадим глубокую копию (изменение в оригинале не влияют на копию и наоборот) датафрейма с помощью `copy()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df2 = df.copy

Здесь:  
`df.copy` – создает независимую копию датафрейма. Если нужна зависимая копия, то параметру `deep` присвоим значение `False`: `df.copy(deep=False)`. По умолчанию `True`.

## 4. Сортировка

Сейчас массив отсортирован по году, давайте отсортируем его по стране (`location`) в прямом алфавитном порядке с помощью `sort_values()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.sort_values('location')

и в обратном алфавитном порядке:

In [None]:
df.sort_values('location', ascending=False)

Здесь:  
`ascending=False` – сортировка в обратном алфавитном порядке. По умолчанию `True`.

Отсортируем по двум столбцам: `rank` и `category`:

In [None]:
df.sort_values(['rank', 'category'])

В этом случаем приоритет отдается столбцу `rank`, так как он записан первым.

In [None]:
df.sort_values(['rank', 'category'], ascending=[False, False])

Здесь:  
`ascending=[False, False]` – сортировка в обратном порядке по обоим столбцам.

## 5. Очистка данных

### 5.1. Изменение типа данных

Чтобы изменить тип данных воспользуемся методом `astype()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.year.dtype

In [None]:
df['year'] = df['year'].astype(str)
df.year.dtype

In [None]:
df['year'] = df['year'].astype(float)
df.year.dtype

In [None]:
df['year'] = df['year'].astype('int32')
df.year.dtype

In [None]:
df['year'] = df['year'].astype('int64')
df.year.dtype

In [None]:
df['year'] = pd.to_numeric(df['year'])
df.year.dtype

Здесь:  
`astype()` – меняет тип переменной на строчный `O`; на число с плавающей точкой `float`; на целые числа `int32` и `int64`.  
  
`to_numeric()` – меняет типа переменной на `int64`.

### 5.2. Удаление и замена NaN-значений

Добавим в начало датафрейма строчку с отсутствующими значениями `NaN`:

In [None]:
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')

df.loc[0] = ['Russia', np.nan, 'Music', np.nan, 'Artist Name']
df = df.append(new_row, ignore_index=True)
df.head(5)

Узнаем, какие элементы имеют значение `NaN` с помощью метода `isnull()`:

In [None]:
df.isnull().head(3)

и наоборот методом `notnull()`:

In [None]:
df.notnull().head(3)

Удалим строчки с отсутствующими значениями, используя `dropna()`:

In [None]:
df.dropna().head(3)

Удалим столбцы с отсутствующими значениями:

In [None]:
df = df.append(new_row, ignore_index=True)
df.dropna(axis=1).head(3)

Заменим `NaN` на `abcd` методом `fillna()`:

In [None]:
df = df.append(new_row, ignore_index=True)
df.fillna('abcd').head(5)

### 5.3. Удаление лишних пробелов

Добавим строчку, в которой есть дефектные элементы с лишними пробелами в конце и в начале:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row = {'location': '  Russia     ', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': ' Artist Name  '}

df = df.append(new_row, ignore_index=True)
print(df.tail(2))

Применим метод `strip()`, который удаляет символы (по умолчанию – пробел) с левого и правого края строки.

In [None]:
df['location'] = df['location'].map(str.strip)
df['query'] = df['query'].map(str.strip)
print(df.tail(2))

Здесь:  
`map()` – применяет к каждому элементу столбцов `location` и `query` метод `strip()`.

Напишем цикл, который проходится по всем элементам датафрейма и удаляет у строчек лишние пробелы слева и справа:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row1 = {'location': '  Russia     ', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': ' Artist Name  '}
new_row2 = {'location': ' Russia       ', 'year': 2021, 'category': 'Music  ', 'rank': 1, 'query': ' Artist Name '}

df = df.append(new_row1, ignore_index=True)
df = df.append(new_row2, ignore_index=True)
print(df.tail(3))

In [None]:
for column in df.columns:
    if df[column].dtype == object:
        df[column] = df[column].map(str.strip)

print(df.tail(3))

Здесь:  
`new_row1` и `new_row2` – добавляемые строчки.
`if df[column].dtype == object` – проверяем, является ли переменная объектом.

Проверить тип можно также через модуль `is_string_dtype`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row1 = {'location': '  Russia     ', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': ' Artist Name  '}
new_row2 = {'location': ' Russia       ', 'year': 2021, 'category': 'Music  ', 'rank': 1, 'query': ' Artist Name '}

df = df.append(new_row1, ignore_index=True)
df = df.append(new_row2, ignore_index=True)
print(df.tail(3))

In [None]:
from pandas.api.types import is_string_dtype

for column in df.columns:
    if is_string_dtype(df[column].dtype):
        df[column] = df[column].map(str.strip)

print(df.tail(3))

Здесь:  
`is_string_dtype()` – проверяет, является ли элемент строкой и возвращает `True` или `False`.  
Проверить на наличие числа можно через `is_numeric_dtype()`.

### 5.4. Обработка дат

Откроем сокращенный датасет ([оригинал](https://www.kaggle.com/jsphyg/weather-dataset-rattle-package)) c данными о погоде в Австралии:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/weatherAUS.csv')
df

Узнаем типы данных:

In [None]:
df.dtypes

Как видно, элементы столбца `Date` – строчки. Поменяем их тип на дату методом `to_datetime()`:

In [None]:
df['Date'] = pd.to_datetime(df['Date'])
df.dtypes

Добавим отдельно столбцы год, месяц, день из столбца `Date` методом `DatetimeIndex()`:

In [None]:
df['Year'] = pd.DatetimeIndex(df['Date']).year
df['Month'] = pd.DatetimeIndex(df['Date']).month
df['Day'] = pd.DatetimeIndex(df['Date']).weekday
df.head(10)

Обратим внимание, что `DatetimeIndex.weekday` записывает не дату а индексы дней от `0` до `6`: понедельник имеет значение `0`, воскресенье – `6`.

Другой способ записи:

In [None]:
df['Year2'] = df['Date'].dt.year
df['Month2'] = df['Date'].dt.month
df['Day2'] = df['Date'].dt.day
df.head(10)

## 6. Фильтрация и поиск

С помощью оператора сравнения `>=` получим все поисковые запросы c 2018 года включительно до 2020 года:

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df[df['year'] >= 2018 ]

Более сложные выражения записываются с битовыми операторами. В данном случае с оператором `&` (`И`, `AND`):

In [None]:
df.loc[(df['year'] >= 2015) & (df['year'] < 2017) & (df['location'] == 'Global')]

### 6.1. Метод startswith()


Проверим, совпадает ли начало каждого элемента строки с шаблоном `G`, используя метод `startwith()`:

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['location_startswith'] = df['location'].str.startswith('G')
df.head(3)

### 6.2. Метод endswith()

Метод `endswith()` проверяет совпадает ли конец каждого элемента строки с шаблоном `a`:

In [None]:
df['location_endswith'] = df['location'].str.endswith('a')
df.head(3)

Методы `startwith()` и `endswith()` не поддерживают регулярные выражения. Для более точного поиска рассмотрим следующие методы.

### 6.3. Метод match()

Метод `match()` определяет, начинается ли каждая строка с шаблона, возвращая булево значение. Выведем все запросы о моделях `Nokia`:

In [32]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].str.match('Nokia', case=True)

0         True
1        False
2        False
3        False
4        False
         ...  
26950    False
26951    False
26952    False
26953    False
26954    False
Name: query, Length: 26955, dtype: bool

Чтобы вывести больше информации заключим предыдущую запись в `df[]`:

In [33]:
df[df['query'].str.match('Nokia', case=True)]

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
29,Global,2001,New Products,5,Nokia 5510
67,Global,2002,Consumer Brands,3,Nokia
265,Italy,2003,Popular Brands,1,Nokia
999,Finland,2008,Top Companies,5,Nokia
1062,Hong Kong,2008,數碼產品,3,Nokia
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97
1957,Global,2010,Consumer Electronics,3,Nokia 5530
1959,Global,2010,Consumer Electronics,5,Nokia N900
3031,Argentina,2012,Shopping,2,Nokia 500


В запросах попадается название компании `Nokia` без модели, например, `Nokia 8`. Уточним запрос, воспользовавшись регулярным выражением:

In [34]:
import re
df[df['query'].str.match(r'\b..[k][i][a]\s.', case=True)]

Unnamed: 0,location,year,category,rank,query
29,Global,2001,New Products,5,Nokia 5510
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97
1957,Global,2010,Consumer Electronics,3,Nokia 5530
1959,Global,2010,Consumer Electronics,5,Nokia N900
3031,Argentina,2012,Shopping,2,Nokia 500
3032,Argentina,2012,Shopping,3,Nokia lumia 900
3489,Finland,2012,Mobile Devices,5,Nokia 500
3583,Germany,2012,Gadgets,4,Nokia Lumia 920
4524,South Africa,2012,Gadgets & Phones,5,Nokia n9
4774,Uganda,2012,Gadgets & Phones,5,Nokia Asha 303


Здесь:  
`import re` – импорт библиотеки решулярных выражений.  
`match()` – ищет совпадение в начале строки.  
`\b` – обозначает границу слова. В нашем случае: слева – ничего, справа – буква..  
`.` – любой один символ, кроме символа переноса строки.    
`[k][i][a]` – только символы `k`, `i` и `a` соответственно.  
`\s` – любой пробельный символ.  
`case=True` – чувствителен к регистру.  

### 6.4. Метод findall()

Метод `findall` возвращает совпадения шаблонов:

In [36]:
df['findall'] = df['query'].str.findall(r'\b..[k][i][a]\s.', flags=re.IGNORECASE).transform(''.join)
df.loc[df['findall'] != '']

Unnamed: 0,location,year,category,rank,query,findall
29,Global,2001,New Products,5,Nokia 5510,Nokia 5
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97,Nokia N
1957,Global,2010,Consumer Electronics,3,Nokia 5530,Nokia 5
1959,Global,2010,Consumer Electronics,5,Nokia N900,Nokia N
3031,Argentina,2012,Shopping,2,Nokia 500,Nokia 5
3032,Argentina,2012,Shopping,3,Nokia lumia 900,Nokia l
3489,Finland,2012,Mobile Devices,5,Nokia 500,Nokia 5
3583,Germany,2012,Gadgets,4,Nokia Lumia 920,Nokia L
4524,South Africa,2012,Gadgets & Phones,5,Nokia n9,Nokia n
4774,Uganda,2012,Gadgets & Phones,5,Nokia Asha 303,Nokia A


Здесь:  
`df['findall'] != '']` – отбирает все значения, за исключением пустой строчки.  
`flags=re.IGNORECASE` – игнорирует регистр при поиске.  
`transform(''.join)` – по умолчанию `findall()` заключает все запросы в квадратные скобки `[]`, что не очень удобно для последующей обработки. Поэтому мы заменили скобки на пустое место `''`.

Напишем цикл, который выводит отфильтрованные запросы:

In [37]:
for index, value in df['findall'].items():
    if value != '':
        print(f"Индекс: {index}, Значение: {df.iloc[index].query}")

Индекс: 29, Значение: Nokia 5510
Индекс: 1553, Значение: Nokia N97
Индекс: 1957, Значение: Nokia 5530
Индекс: 1959, Значение: Nokia N900
Индекс: 3031, Значение: Nokia 500
Индекс: 3032, Значение: Nokia lumia 900
Индекс: 3489, Значение: Nokia 500
Индекс: 3583, Значение: Nokia Lumia 920
Индекс: 4524, Значение: Nokia n9
Индекс: 4774, Значение: Nokia Asha 303
Индекс: 5261, Значение: Nokia Asha 311
Индекс: 5262, Значение: Nokia Lumia 620
Индекс: 7996, Значение: Nokia Lumia 520
Индекс: 8821, Значение: Nokia XL
Индекс: 8823, Значение: Nokia X
Индекс: 8961, Значение: Nokia X
Индекс: 9351, Значение: Nokia X
Индекс: 9999, Значение: Nokia X
Индекс: 10367, Значение: Nokia X
Индекс: 17103, Значение: Nokia 8
Индекс: 17104, Значение: Nokia 6


### 6.5. Метод str.contains()

Метод `str.contains()` в результате поиска возвращает булево значение:

In [39]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].str.contains(r'\b..[k][i][a]\s.', regex=True)

0        False
1        False
2        False
3        False
4        False
         ...  
26950    False
26951    False
26952    False
26953    False
26954    False
Name: query, Length: 26955, dtype: bool

In [40]:
df[df['query'].str.contains(r'\b..[k][i][a]\s.', regex=True)]

Unnamed: 0,location,year,category,rank,query
29,Global,2001,New Products,5,Nokia 5510
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97
1957,Global,2010,Consumer Electronics,3,Nokia 5530
1959,Global,2010,Consumer Electronics,5,Nokia N900
3031,Argentina,2012,Shopping,2,Nokia 500
3032,Argentina,2012,Shopping,3,Nokia lumia 900
3489,Finland,2012,Mobile Devices,5,Nokia 500
3583,Germany,2012,Gadgets,4,Nokia Lumia 920
4524,South Africa,2012,Gadgets & Phones,5,Nokia n9
4774,Uganda,2012,Gadgets & Phones,5,Nokia Asha 303


### 6.6. Метод extractall()

Метод `extraclall()` вернет столбец с поисковым шаблоном. Результаты, не имеющие совпадений, отображаться не будут:

In [24]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].str.extractall(r"(\b..[k][i][a]\s.)")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
29,0,Nokia 5
1553,0,Nokia N
1957,0,Nokia 5
1959,0,Nokia N
3031,0,Nokia 5
3032,0,Nokia l
3489,0,Nokia 5
3583,0,Nokia L
4524,0,Nokia n
4774,0,Nokia A


Присвоить название столбцу с результатами можно через следующую запись: `?P<название столбца>`. 

In [None]:
df['query'].str.extractall(r'(?P<model>\b..[k][i][a]\s.)')

Несколько фильтров в одном запросе:

In [None]:
df['query'].str.extractall(r'(?P<model>\b..[k][i][a]\s.)(?P<number>[5])')

### 6.7. Метод isin()

Узнаем, содержатся ли искомые значения в столбце методом `isin()` :

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].isin(['Agar.io', 'Paris'])

In [None]:
df.loc[df['query'].isin(['Agar.io', 'Paris'])]

## 7. Фильтрация по языку

### 7.1. Декодер

В датасете могут оказаться кракозябры: `ЧЎЧЁЧЧ™Чќ`. Для борьбы с ними есть отличная библиотека `ftfy` (англ. fixes text for you – исправляет текст для тебя), которая также имеет [веб-реализацию](https://ftfy.now.sh/). Установим `ftfty`:

In [None]:
!pip install ftfy

In [None]:
from ftfy import fix_encoding
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/decode.csv')
df['decode'] = df['encode'].apply(fix_encoding)
df

Здесь:  
`apply(fix_encoding)` – метод `apply()` применяет к каждому элементу столбца `encode` функцию `fix_encoding`.

## 7.2. Определение языка

Библиотека `google_trans` оказалась с багами, поэтому воспользуемся ее работоспособным форком – `google_trans_new`. Установим `google_trans_new`:

In [None]:
!pip install google_trans_new
!pip install requests

In [None]:
from google_trans_new import google_translator
import requests

df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends_lang.csv')
df['category']= df['category'].apply(fix_encoding)

detector = google_translator()  

for index, row in df['category'].items():
    try:
        df.loc[index, 'category language'] = detector.detect(row)[1]
        print(detector.detect(row)[1])
    except:
        df.loc[index, 'category language'] = 'Error'
        print('Error')

Здесь:  
`for index, row ...` – цикл по индексу и значению в столбце `category`.  

`try .... detector.detect(row)[1]` – определение языка. `0` – сокращенный вариант `en`, `1` – полный вариант `english`.  

`except ... 'Error'` – если по какой-то причине нам не удастся определить язык, в ячейку запишется значение `Error`.

In [None]:
df

Получим строки, содержащие язык `russian`:

In [None]:
df.loc[df['category language'] == "russian"]

### 8. Статистические данные

### 8.1. Метод desribe()

Для просмотра статистической сводки столбцов, содержащих численные значения, введем `df.describe()`.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.describe()

Здесь:  
`count` – считает количество записей в столбце без значения `NaN`. Отдельно можно вызвать через `df.count()`.  

`mean` – среднее значение `df.mean()`.  

`std` – стандартное отклонение `df.std()`.  

`min` – минимальное число в столбце `df.min()`.  

`25%`	– 25-й процентиль.  
`50%`	– 50-й процентиль.  
`75%`	– 75-й процентиль.  

`max` – максимальное число в столбце `df.max()`.

## 8.2. Подсчет повторяющихся значений

Подсчитаем количество элементов в столбце `query` методом `count()`:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].count()

С помощью метода `value_counts` узнаем сколько раз значения повторяются в столбце:

In [None]:
df['query'].value_counts()

По умолчанию из результата исключаются NaN-значения. Чтобы отобразить их, поставим параметру `dropna` значение `False`.

In [None]:
df['query'].value_counts(dropna=False)

Создадим столбец `query_count`, в который запишем количество упоминаний элемента:

In [None]:
df['query_count'] = df.groupby('query')['query'].transform('count')
df.sample(5)

Здесь:  
`groupby()` – используется для разделения данных на группы по критериям. Подробнее [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html).  

`transform('count')` – считает сколько раз повторяется значение в столбце `query`.

Выведем уникальные значения в столбце `location` через метод `unique()`:

In [None]:
df['location'].unique()

### 9. Сохранение датафрейма

Сохраним датафрейм в csv-файл:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
save_file = df[['location', 'year', 'category', 'rank', 'query']]
save_file.to_csv('trends_saved.csv', encoding='utf8')

Здесь:  
`save_file` – столбцы датафрейма.  
`to_csv()` – сохранить датафрейм в файл формата `.csv`.

Откроем сохраненный файл:

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends_saved.csv')
df.head(3)

После сохранения файла у нас повявился столбец `Unnamed: 0`. Он нам не нужен, потому удалим его:

In [None]:
df = df.drop('Unnamed: 0', 1)
df.head(3)