# О красоте и удобстве

Мы все помним про отдельную кнвенцию о том, как надо писать код – **[PEP-8](https://www.python.org/dev/peps/pep-0008/)**. В PyCharm есть встроенная функция проверки и справа от кода есть полоса, где можно найти советы и исправления. Плюс к этому есть подчеркивания, при наведении на которые вы тоже можете найти полезные советы.

Для Jupyter есть расширения для проверки PEP-8:

In [1]:
!pip3 install pycodestyle flake8 pycodestyle_magic --q

Импортируем и активируем модуль проверки

In [4]:
%load_ext pycodestyle_magic
%pycodestyle_on

In [5]:
name = 'this is very very very very very very very very very very very very very very very very very long line'

1:80: E501 line too long (111 > 79 characters)


In [6]:
t=5+3

1:2: E225 missing whitespace around operator


In [7]:
t = 5 + 3

# **Pandas**

Pandas – это библиотека для удобной работы с данными, в основном – с таблицами. В библиотеке есть много методов, которые нужны для чтения данных в разном формате, взаимодействия с базами данных и для разных манипуляций, которые часто нужны в процессе работы.

Документация есть [здесь по-английски](https://pandas.pydata.org/docs/index.html) и [pдесь по-русски](http://pandas.geekwriter.ru/getting_started/index.html).

Чтобы сократить число символов, часто при импорте `pandas` заменяют просто на `pd`.

In [9]:
import pandas as pd

## *Создание массивов*
В библиотеке pandas определены два класса объектов для работы с данными:
* `Series` — одномерный массив, который может хранить значения любого типа данных;
* `DataFrame` — двумерный массив (таблица), в котором столбцами являются объекты класса `Series`.

Создать объект класса `Series` можно следующим образом:



```python
s = pd.Series(data, index=index)
```

В качестве `data` могут выступать: массивы, словари, числа. В аргумент `index` передаётся список меток осей. Метка может быть числом, но чаще используются метки-строки.

Если `data` является массивом, то `index` должен иметь такую же длину, как и `data`. Если аргумент `index` не передаётся, то по умолчанию для `index` автоматически назначается список `[0, ..., len(data) - 1]`:

In [17]:
s_1 = pd.Series(range(5), index=['a', 'b', 'c', 'd', 'e'])
print(s_1, end='\n\n')
s_2 = pd.Series(range(1, 10, 2))
print(s_2)

a    0
b    1
c    2
d    3
e    4
dtype: int64

0    1
1    3
2    5
3    7
4    9
dtype: int64


`Series` фактически является аналогом словаря, так как вместо числовых индексов может использовать метки в виде строк.

Если `data` задаётся словарём, а `index` не передаётся, то в качестве индекса используются ключи-словари. Если `index` передаётся, то его длина может не совпадать с длиной словаря `data`. В таком случае по индексам, для которых нет ключа с соответствующим значением в словаре, будут храниться значения `NaN` — стандартное обозначение отсутствия данных в библиотеке pandas.

In [22]:
d_1 = pd.Series({'a': 10, 'b': 20, 'c': 30, 'd': 40})
print(d_1, end='\n\n')

d_2 = pd.Series(
    {'a': 10, 'b': 20, 'c': 30, 'd': 40},
    index=['a', 'b', 'c', 'd', 'e']
    )
print(d_2)

a    10
b    20
c    30
d    40
dtype: int64

a    10.0
b    20.0
c    30.0
d    40.0
e     NaN
dtype: float64


### Создание таблиц

Теперь посмотрим, как выглядят таблицы (объекты) в pandas на примере небольших таблиц, созданных вручную.

Есть специальный объект типа `DataFrame` и мы туда передаем информацию о данных, которые у нас есть. Это может быть разный вид, например:

1. Словарь, где ключ - название будущего столбца, а значение - это список значений.
2. Список словарей, где одна запись - это отдельная строка таблицы, где ключи - это параметры (название столбца).
3. Список списков (или кортежей), где каждый элемент - это одна строка таблицы. В этом случае названия стобцов задаются отдельно.

In [26]:
data = {
    'name': ['Mary', 'Jane', 'Ivan', 'Mark'],
    'age': [25, 14, 34, 78],
    'height': [175, 168, 185, 170]
    }

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,height
0,Mary,25,175
1,Jane,14,168
2,Ivan,34,185
3,Mark,78,170


In [28]:
data = [
    {'name': 'Mary', 'age': 25, 'height': 175},
    {'name': 'Jane', 'age': 14, 'height': 168},
    {'name': 'Ivan', 'age': 34, 'height': 185},
    {'name': 'Mark', 'age': 78, 'height': 170}
    ]

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,height
0,Mary,25,175
1,Jane,14,168
2,Ivan,34,185
3,Mark,78,170


In [30]:
data = [
    ['Mary', 25, 175],
    ['Jane', 14, 168],
    ['Ivan', 34, 185],
    ['Mark', 78, 170]
    ]

df = pd.DataFrame(data, columns=['name', 'age', 'height'])
df

Unnamed: 0,name,age,height
0,Mary,25,175
1,Jane,14,168
2,Ivan,34,185
3,Mark,78,170


Метод `rename` позволяет переименовывать `indexes` и `columns`

In [33]:
df.rename(columns={'name': 'col_name', 'age': 'col_age'})

Unnamed: 0,col_name,col_age,height
0,Mary,25,175
1,Jane,14,168
2,Ivan,34,185
3,Mark,78,170


Метод `pd.concat` дает возможность объединить два или больше датафреймов вместе.

In [36]:
pd.concat([df, df], ignore_index=True)  # игнорируем индексы

Unnamed: 0,name,age,height
0,Mary,25,175
1,Jane,14,168
2,Ivan,34,185
3,Mark,78,170
4,Mary,25,175
5,Jane,14,168
6,Ivan,34,185
7,Mark,78,170


## Чтение данных

Обычно табличные данные хранятся в файлах. Такие наборы данных принято называть дата-сетами. Файлы с дата-сетом могут иметь различный формат. Pandas поддерживает операции чтения и записи для CSV, Excel 2007+, SQL, HTML, JSON, буфер обмена и др.

Несколько примеров, как получить дата-сет из файлов разных форматов:

* **CSV**. Используется функция `read_csv()`. Аргумент `file` является строкой, в которой записан путь до файла с дата-сетом. Для записи данных из `DataFrame` в CSV-файл используется метод `to_csv(file)`.
* **Excel**. Используется функция `read_excel()`. Для записи данных из `DataFrame` в Excel-файл используется метод `to_excel()`.
* **JSON**. Используется функция `read_json()`. Для записи данных из DataFrame в JSON используется метод `to_json()`.
* **Онлайн-таблицы** (на страницах сайта). Используется функция `read_ html()`.

Рассмотрим эти несколько основных способов прочитать данные.

In [45]:
!pip install wget --q

In [49]:
import wget


wget.download('https://raw.githubusercontent.com/KatiaKozlova/files/main/57-10/pandas/example.csv')

'example.csv'

4:80: E501 line too long (99 > 79 characters)


In [51]:
df = pd.read_csv('example.csv', sep='\t')  # разделитель табуляция
df

Unnamed: 0,name,age
0,Mary,25
1,Ivan,34


In [55]:
wget.download('https://github.com/KatiaKozlova/files/raw/main/57-10/pandas/example.xlsx')

'example.xlsx'

1:80: E501 line too long (89 > 79 characters)


In [56]:
df = pd.read_excel("example.xlsx", sheet_name="example")
df

Unnamed: 0,name,age
0,Mary,25
1,Ivan,34


In [59]:
site = 'https://en.wikipedia.org/wiki/List_of_glossing_abbreviations'
df = pd.read_html(site)[1]
df

Unnamed: 0,Conventional Gloss,Variants,Meaning,Reference
0,,-A,"athematic (TAMA athematic tense-aspect-mood, A...",[43]
1,,A-,associating (prefix on case abbreviation),[24]
2,,AA,addressee authority (cf. SA),[21]
3,,AB,from. May be equivalent to ABESS or ABL. Compo...,[citation needed]
4,,"AB, ABV[citation needed]",above deictic center,[44]
...,...,...,...,...
1040,,"WP, WPST",witnessed past,[81][101]
1041,X,?,(unidentified morpheme),[32][31]
1042,,"YNQ, PQ, P.INT, PI","yes–no question, polar question/interrogative ...",[136][16][19][1]
1043,,-Z,"-(al)izer (e.g. ADJZ adjectivizer, NZ nominali...",


In [180]:
site = 'https://raw.githubusercontent.com/cldf-datasets/wals/master/raw/country.csv'
df = pd.read_csv(site)

1:80: E501 line too long (84 > 79 characters)


Верхушка датафрейма (по умолчанию 5):

In [182]:
df.head(3)

Unnamed: 0,pk,jsondata,id,name,description,markup_description,continent
0,1,,AF,Afghanistan,,,Asia
1,2,,AL,Albania,,,Europe
2,3,,DZ,Algeria,,,Africa


Конец:

In [185]:
df.tail(3)

Unnamed: 0,pk,jsondata,id,name,description,markup_description,continent
189,190,,ZM,Zambia,,,Africa
190,191,,ZW,Zimbabwe,,,Africa
191,192,,SS,South Sudan,,,Africa


С помощью property `shape` -  можно получить размеры `DataFrame`.

In [196]:
df.shape

(192, 7)

## Сохранение данных

Сохраняем данные в текстовом формате (`csv`):

In [199]:
df.to_csv("wals_country.csv", index=None)

Сохраняем данные в бинарном формате Excel (`xlsx`):

In [202]:
df.to_excel("wals_country.xlsx", index=None)

Данные можно сохраняться в разных форматах

Текстовые формат `csv` и бинарные форматы: `pickle`, `hdf5`, `feather`, `parquet`, `excel` (не оптимизированный формат)

Достоинства бинарных форматов:

- быстрота сохранения\загрузки дынных,
- небольшой размер данных на диске

[Здесь](https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d) можно посмотреть сравнение разных форматов сохранение

## Манипуляции с данными

**Фильтрация данных**

Можно удалять отдельные строки или столбцы

In [207]:
df = df.drop(["jsondata", "description"], axis=1)  # убираем столбцы

# проверяем
df.head(2)

Unnamed: 0,pk,id,name,markup_description,continent
0,1,AF,Afghanistan,,Asia
1,2,AL,Albania,,Europe


Можно удалять те, где есть пропуски

In [210]:
df.dropna()

Unnamed: 0,pk,id,name,markup_description,continent


Здесь во всех строчка в столбца markup_description ничего нет и все удаляется

In [213]:
df.shape, df.dropna().shape

((192, 5), (0, 5))

Удалим столбцы, где все значения пустые

In [216]:
df.dropna(how="all", axis=1).head()

Unnamed: 0,pk,id,name,continent
0,1,AF,Afghanistan,Asia
1,2,AL,Albania,Europe
2,3,DZ,Algeria,Africa
3,4,AS,American Samoa,Australia & Oceania
4,5,AO,Angola,Africa


Можно выбрать нужные столбцы:

In [219]:
df[["pk", "id", "name"]].head()

Unnamed: 0,pk,id,name
0,1,AF,Afghanistan
1,2,AL,Albania
2,3,DZ,Algeria
3,4,AS,American Samoa
4,5,AO,Angola


Или столбец:

In [222]:
df["name"].head()

0       Afghanistan
1           Albania
2           Algeria
3    American Samoa
4            Angola
Name: name, dtype: object

In [224]:
df.name.head()

0       Afghanistan
1           Albania
2           Algeria
3    American Samoa
4            Angola
Name: name, dtype: object

Фильтруем, где pk < 4

Или строки (срезами):

In [228]:
df[2:7]

Unnamed: 0,pk,id,name,markup_description,continent
2,3,DZ,Algeria,,Africa
3,4,AS,American Samoa,,Australia & Oceania
4,5,AO,Angola,,Africa
5,6,AR,Argentina,,South America
6,7,AM,Armenia,,Asia


In [230]:
df[df["pk"] < 4]

Unnamed: 0,pk,id,name,markup_description,continent
0,1,AF,Afghanistan,,Asia
1,2,AL,Albania,,Europe
2,3,DZ,Algeria,,Africa


In [232]:
df[df["name"].str.startswith('B')]

Unnamed: 0,pk,id,name,markup_description,continent
10,11,BH,Bahrain,,Asia
11,12,BD,Bangladesh,,Asia
12,13,BY,Belarus,,Europe
13,14,BE,Belgium,,Europe
14,15,BZ,Belize,,North America
15,16,BJ,Benin,,Africa
16,17,BT,Bhutan,,Asia
17,18,BO,Bolivia,,South America
18,19,BA,Bosnia-Herzegovina,,Europe
19,20,BW,Botswana,,Africa


Посмотрим, какие вообще есть континенты:

In [235]:
df["continent"].value_counts()

continent
Africa                 54
Asia                   46
Europe                 38
Australia & Oceania    22
North America          17
South America          13
Eurasia                 2
Name: count, dtype: int64

In [237]:
df[df["continent"] == "North America"][['id', 'name']]

Unnamed: 0,id,name
14,BZ,Belize
26,CA,Canada
34,CR,Costa Rica
42,DM,Dominica
46,SV,El Salvador
63,GD,Grenada
66,GT,Guatemala
70,HT,Haiti
71,HN,Honduras
81,JM,Jamaica


Отсортируем эти страны по алфавиту в обратную сторону по ID:

In [255]:
df[df["continent"] == "North America"].sort_values(by="id", ascending=False)

Unnamed: 0,pk,id,name,markup_description,continent
182,183,US,United States,,North America
173,174,TT,Trinidad and Tobago,,North America
46,47,SV,El Salvador,,North America
123,124,NI,Nicaragua,,North America
109,110,MX,Mexico,,North America
105,106,MQ,Martinique,,North America
158,159,LC,St. Lucia,,North America
81,82,JM,Jamaica,,North America
70,71,HT,Haiti,,North America
71,72,HN,Honduras,,North America


Cоздадим ещё один столбец `new_id` из ID и PK:

In [259]:
df['new_id'] = df['pk'].apply(str) + '_' + df['id']

In [261]:
df.head()

Unnamed: 0,pk,id,name,markup_description,continent,new_id
0,1,AF,Afghanistan,,Asia,1_AF
1,2,AL,Albania,,Europe,2_AL
2,3,DZ,Algeria,,Africa,3_DZ
3,4,AS,American Samoa,,Australia & Oceania,4_AS
4,5,AO,Angola,,Africa,5_AO


Чтобы в таблицу добавить колонку, подойдёт метод `assign()`. Данный метод даёт возможность создавать колонки при помощи лямбда-функции. Обратите внимание: данный метод возвращает новую таблицу, а не меняет исходную.

Допустим, мы хотим получить список стран по континентам

1. Группируем по континенту
2. Из имен составляем списки

In [265]:
df.groupby("continent").agg({"name": list})

Unnamed: 0_level_0,name
continent,Unnamed: 1_level_1
Africa,"[Algeria, Angola, Benin, Botswana, Burkina Fas..."
Asia,"[Afghanistan, Armenia, Azerbaijan, Bahrain, Ba..."
Australia & Oceania,"[American Samoa, Australia, Fiji, French Polyn..."
Eurasia,"[Russia, Turkey]"
Europe,"[Albania, Austria, Belarus, Belgium, Bosnia-He..."
North America,"[Belize, Canada, Costa Rica, Dominica, El Salv..."
South America,"[Argentina, Bolivia, Brazil, Chile, Colombia, ..."


Посчитаем среднее по pk (**это не имеет смысла, просто пример**)

In [268]:
df.groupby("continent").agg({"pk": "mean"})

Unnamed: 0_level_0,pk
continent,Unnamed: 1_level_1
Africa,94.703704
Asia,104.195652
Australia & Oceania,113.909091
Eurasia,159.5
Europe,85.921053
North America,88.235294
South America,79.307692


Можно применять функции к столбцам. Например, есть функция, которая принимает один аргумент и возвращает один аргумент. Ее можно применить к столбцу и преобраховать его содержимое.

In [271]:
def change_id(text):
    if type(text) == str:
        text = text.lower() * 2
    return text

In [133]:
df["id"].apply(change_id)

0      afaf
1      alal
2      dzdz
3      asas
4      aoao
       ... 
187    wfwf
188    yeye
189    zmzm
190    zwzw
191    ssss
Name: id, Length: 192, dtype: object

## Практика

Скачаем данные по кинопрокату [тут](https://opendata.mkrf.ru/opendata/7705851331-register_movies)

Считаем таблицу (можно прямо из zip), замените путь на путь к вашему файлу

In [None]:
your_zip = "data-7-structure-4.csv.zip"
df = pd.read_csv(your_zip)

  exec(code_obj, self.user_global_ns, self.user_ns)


Описательная статистика по числовым значениям (минимум, максимум, перцентили)

In [None]:
df.describe()

Unnamed: 0,Идентификатор записи реестра,Язык оригинала,Количество серий,"Продолжительность демонстрации, часы","Продолжительность демонстрации, минуты",Запись удалена,Не показывать на сайте mkrf.ru
count,93827.0,4.0,36259.0,77278.0,91308.0,0.0,0.0
mean,2471519.0,44.75,4.103643,1.815704,32.214373,,
std,914531.5,6.70199,12.083681,4.846307,26.854649,,
min,2157027.0,38.0,0.0,0.0,0.0,,
25%,2181938.0,39.5,1.0,1.0,20.0,,
50%,2207024.0,45.0,1.0,1.0,31.0,,
75%,2231976.0,50.25,2.0,2.0,44.0,,
max,6750280.0,51.0,532.0,288.0,5454.0,,


Покажите верхушку датафрейма

Покажите, какие есть столбцы в датафрейме (атрибут df.columns)

Выберите столбцы ```["Название фильма", "Год производства", "Вид Фильма", "Продолжительность демонстрации, минуты", "Страна производства"]```

Сколько фильмов каждого типа в наборе данных?

Какая проблема есть в данных? Как можно ее исправить с помощью ```apply```?

In [275]:
def fix_film_type(text):

    # ваш код

    return new_text

In [None]:
# тестируем

text = ""

fix_film_type(text)

In [None]:
# применяем



In [None]:
# повторим запрос по количеству фильмов



Заменим длинные названия столбцов на более короткие на латинице

Какова средняя или медианная продолжительность фильмов по странам? И сколько фильмов?