# <center> Библиотека Collections и NumPy <center/> 

#### COUNTER

In [1]:
from collections import Counter
c = Counter()
color = ['red', 'blue', 'black', 'black', 'black', 'red', 'blue', 'red', 'white']
c = Counter(color)
print(c)
print(c['black'])  # Узнаём, сколько раз встретился конкретный элемент
print(c['purple'])  # Обращаемся к счётчику по несуществующему ключу
print(sum(c.values()))  # Узнаём сумму всех значений в объекте
print(c.values())  # Узнаем число раз, когда встретился ключ 
# + можно узнавать разницу и складывать разные счётчики. 
print(*c.elements())  # Получаем список вссех элементов, которые содержатся в Counter. Эл-ты возвращаются в алфавитном порядке!
print(list(c))  # Получаем список уникальных элементов с помощью list()
print(dict(c))  # С помощью функции dict() превращаем Counter в обычный словарь
print(c.most_common())  # Получаем список из кортежей элементов в порядке убывания их встречаемости
print(c.most_common(2))  # Задаём желаемое число первых наиболее частых элементов, например, 2
c.clear()  # функция clear() позволяет полностью обнулить счётчик
print(c)

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})
3
0
9
dict_values([3, 2, 3, 1])
red red red blue blue black black black white
['red', 'blue', 'black', 'white']
{'red': 3, 'blue': 2, 'black': 3, 'white': 1}
[('red', 3), ('black', 3), ('blue', 2), ('white', 1)]
[('red', 3), ('black', 3)]
Counter()


#### DEFAULTDICT

In [14]:
students = [('Ivanov',1),('Smirnov',4),('Petrov',3),('Kuznetsova',1),
            ('Nikitina',2),('Markov',3),('Pavlov',2)]

from collections import defaultdict
groups = defaultdict(list) # также можно было бы применить set, dict
for student, group in students:
    groups[group].append(student)
    
print(groups)
print(groups[3])  # получаем элемент по ключу
print(groups[2021])  # если запрашиваемого ключа нет в словаре, KeyError не возникнет, но он добавится при последующем запросе

# Используя list в качестве default_factory, легко сгруппировать последовательность пар ключ-значение в словарь списков

s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)

print(sorted(d.items()))

# Установка default_factory int делает defaultdict полезным для подсчета
s = 'mississippi'
d = defaultdict(int)
for k in s:
    d[k] += 1

print(sorted(d.items()))

# # Установка default_factory setделает defaultdict полезным для построения словаря множеств
s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
d = defaultdict(set)
for k, v in s:
    d[k].add(v)

print(sorted(d.items()))

# Более быстрым и гибким способом создания константных функций является использование лямбда-функции, 
# которая может предоставить любое постоянное значение (а не только ноль)
def constant_factory(value):
    return lambda: value
d = defaultdict(constant_factory('<missing>'))
d.update(name='John', action='ran')
'%(name)s %(action)s to %(object)s' % d




defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']})
['Petrov', 'Markov']
[]
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]
[('i', 4), ('m', 1), ('p', 2), ('s', 4)]
[('blue', {2, 4}), ('red', {1, 3})]


'John ran to <missing>'

#### ORDEREDDICT

In [15]:
from collections import OrderedDict
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]
ordered_client_ages = OrderedDict(data)
print(ordered_client_ages)
# Сортируем по второму значению из кортежа, то есть по возрасту
ordered_client_ages = OrderedDict(sorted(data, key=lambda x: x[1]))
print(ordered_client_ages)
# Если теперь добавить нового человека в словарь
ordered_client_ages['Nikita'] = 18
print(ordered_client_ages)
# Если удалить элемент, а затем добавить его снова, он также окажется в конце
del ordered_client_ages['Andrey']
print(ordered_client_ages)
ordered_client_ages['Andrey'] = 23
print(ordered_client_ages)

OrderedDict([('Ivan', 19), ('Mark', 25), ('Andrey', 23), ('Maria', 20)])
OrderedDict([('Ivan', 19), ('Maria', 20), ('Andrey', 23), ('Mark', 25)])
OrderedDict([('Ivan', 19), ('Maria', 20), ('Andrey', 23), ('Mark', 25), ('Nikita', 18)])
OrderedDict([('Ivan', 19), ('Maria', 20), ('Mark', 25), ('Nikita', 18)])
OrderedDict([('Ivan', 19), ('Maria', 20), ('Mark', 25), ('Nikita', 18), ('Andrey', 23)])


#### DEQUE

In [18]:
# Для создания пустого дэка(deque), необходимо импортировать его из библиотеи collections:
from collections import deque
dq = deque() # задаем название пустого дэка
# append  - добавление элемента в конец дэка
# appendleft - добавление элемента в начало дэка
dq.append('last element')
dq.appendleft('first element')
print(dq)
# Объект deque поддерживает индексацию элементов
print(dq[1])
# exted - добавить несколько элементов из итерируемого объекта в конец дэка
# extedleft - добавить несколько элементов из итерируемого объекта в начало дэка
dq.extend([1, 2, 3, 4, 5, 6, 7])
dq.extendleft([8, 9, 10, 11, 12, 13, 14])
print(dq)
# pop - удалить и вернуть элемент из конца дэка
# popleft - удалить и вернуть элемент из начала дэка
del_first = dq.popleft()
print(del_first)
# del - удалить конкретный элемент по индексу
del dq[0]
print(dq)
# Необходимость создания очереди с ограниченной максимальной длинной 
dq_new = deque(maxlen=3)
print(dq_new)
dq_new_limited = deque([1, 2, 3, 4, 5, 6, 7], maxlen=3)
print(dq_new_limited)
dq_new_limited.append(8)
# Отметка 1: в очередях с ограниченной длиной сохраняются только последние элементы, а первые исчезают из памяти.
print(dq_new_limited)
# Отметка 2: удаляемый элемент не возвращается, а просто исчезает
# меняем порядок элементов в очереди на обратный
dq_two = deque(['q', 'w', 'e', 'r', 't'])
dq_two.reverse()
print(dq_two)
# переносим n заданных элементов из конца очереди в начало
dq_two.rotate(2)
print(dq_two)
# или из начала в конец
dq_two.rotate(-2)
print(dq_two)
print (dq_two.index('e'))  # поиск первого идекса искомого элемента
print (dq_two.count('r'))  # посчитать сколько раз элемент встретился в очереди
dq_two.clear()  # очистить очередь
print(dq_two)

deque(['first element', 'last element'])
last element
deque([14, 13, 12, 11, 10, 9, 8, 'first element', 'last element', 1, 2, 3, 4, 5, 6, 7])
14
deque([12, 11, 10, 9, 8, 'first element', 'last element', 1, 2, 3, 4, 5, 6, 7])
deque([], maxlen=3)
deque([5, 6, 7], maxlen=3)
deque([6, 7, 8], maxlen=3)
deque(['t', 'r', 'e', 'w', 'q'])
deque(['w', 'q', 't', 'r', 'e'])
deque(['t', 'r', 'e', 'w', 'q'])
2
1
deque([])


#### NUMPY

In [19]:
import numpy as np
a = np.int8(25)
print(a)
print(type(a)) # проверка типа данных
print(np.iinfo(np.int16)) # узнаем границы int
print(np.iinfo(a)) # # узнаем границы int у операнда "а"
b = np.uint8(124)
print(b)
print(type(b))
print(np.iinfo(b))


25
<class 'numpy.int8'>
Machine parameters for int16
---------------------------------------------------------------
min = -32768
max = 32767
---------------------------------------------------------------

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------

124
<class 'numpy.uint8'>
Machine parameters for uint8
---------------------------------------------------------------
min = 0
max = 255
---------------------------------------------------------------



# <center> Библиотека Pandas <center/>

In [1]:
import pandas as pd

#### SERIES

In [23]:
pd.Series()
# Рассмотрим два способа создания Series
# Функция display() является аналогом функции print() в файлах формата.ipynb
print('Способ 1 - из списка с использованием параметров функции pd.Series():')
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)
print('Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно')
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

print('Пример .loc')
print(countries.loc['US'])  # Один индекс
print()
print(countries.loc[['US', 'RU', 'UK']])  # Список
print()
print('Пример .iloc')
print(countries.iloc[6])  # Один индекс
print()
print(countries.iloc[1:4])  # Диапазон

Способ 1 - из списка с использованием параметров функции pd.Series():


  pd.Series()


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Пример .loc
США

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object

Пример .iloc
Казахстан

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


#### DATAFRAME

In [26]:
pd.DataFrame() # создание функции DataFrame
print('Способ 1.') 
print('Cоздания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов')
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)
print()
print('Способ 2.')
print('Создание DataFrame - из вложенного списка, внутренние списки которого будут являться строками новой таблицы')
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

display('Считаем среднее по строкам(axis = 0) в каждом столбце:')
display(countries_df.mean(axis=0))
display()
display('Считаем среднее по столбцам(axis = 1) в каждой строке')
display(countries_df.mean(axis=1))
display()
display('Обращаемся к DataFrame по имени столбца через точку:')
display(countries_df.population)

print('Обращаемся к DataFrame по индексу и указанием имени столбца:')
print(countries_df['population'])
print()
print('Несколько примеров использования loc и iloc:')
display(countries_df.loc['UK', 'square'])
print()
display(countries_df.loc['RU', ['population', 'square']])
print()
display(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
print()
display(countries_df.iloc[4:8, 1:3])

Способ 1.
Cоздания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902



Способ 2.
Создание DataFrame - из вложенного списка, внутренние списки которого будут являться строками новой таблицы


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


'Считаем среднее по строкам(axis = 0) в каждом столбце:'

  display(countries_df.mean(axis=0))


population    9.070000e+01
square        5.800860e+06
dtype: float64

'Считаем среднее по столбцам(axis = 1) в каждой строке'

  display(countries_df.mean(axis=1))


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

'Обращаемся к DataFrame по имени столбца через точку:'

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Обращаемся к DataFrame по индексу и указанием имени столбца:
UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Несколько примеров использования loc и iloc:


133396




population      146.24
square        17125191
Name: RU, dtype: object




Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902





Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


# <center> Работа с DataFrame <center/>
#### **read_csv**              

- C диска:

`(pd.read_csv('C:\\Users\\admin\\countries.csv', sep=';'))`

- По ссылке

`pd.read_csv('https://raw.githubusercontent.com/esabunor/melb_data.csv')`


```python
- filepath_or_buffer — путь до файла, который мы читаем;
- sep — разделитель данных (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- names — список с названиями столбцов для чтения;
- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).
```

- Методы для записи таблиц **в файлы отличных** от csv форматов:

```python
- to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
- to_json() — запись DataFrame в формат JSON (.json);
- to_xml() — запись DataFrame в формат XML-документа (.xml);
- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
```

- Методы для чтения таблиц **из файлов в отличных** от csv форматах:

```python
- read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
- read_json() — чтение из формата JSON (.json) в DataFrame;
- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).
```

##### **Основные комманды исследования структуры данных DataFrame:**


```python
- df.head(5) - вывод первых 5 строк таблицы;
- df.tail(5) -  вывод последних 5 строк таблицы;
- df.shape - узнаем размерность таблицы (df.shape[0] - строки; df.shape[1] - столбцы);
- df.info() - информация по наименованию колонок, количеству, типу, весу;
- astype('название типа') - меняем тип столбца (df['Car'] = df['Car'].astype('int64')).
```

##### **Описательная статистика структуры данных DataFrame:**

```python
- df.describe() - выдает по столбцу (count, mean, std, min, 25%, 50%, 75%, max)
- df['column'].value_counts() - сколько раз в столбце повторяется каждый из вариантов значений
- df['column']value_counts().index.tolist() - преобразовываем список столбцов, которые были показаны в результате вызова метода `.value_counts()`
- df.columns - выписать в качестве все колонки, чтобы в качестве списка то так `list(df_hh.columns)`
- df_new = df[['A', 'C']] - выписать несколько колонок из dataframe
```

##### **Статистические параметры:**

```python
- .count()	Количество непустых значений;
- .mean()	Среднее значение;
- .min()	Минимальное значение;
- .max()	Максимальное значение;
- .var()	Дисперсия;
- .std()	Стандартное отклонение;
- .sum()	Сумма;
- .quantile(x)	Квантиль уровня x;
- .nunique()	Число уникальных значений;
- .median()  Медиана;
- .mode()  Модальное значение.
```

- Дополнительные параметры:

```python
- axis  — определяет, подсчитывать параметр по строкам или по столбцам;
- numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).
```

##### **Фильтрация данных (примеры):**



```python
# Cкольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
melb_data[melb_data['Bathroom'] == 0].shape[0]

# Cколько в таблице melb_data объектов недвижимости, которые были проданы риелторской компанией Nelson.
# И стоимость которых составила больше 3 миллионов?
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)].shape[0]

# Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

# Интересуемся домами с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

# В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

# Найдём максимальное количество комнат в таунхаусах.
melb_data[melb_data['Type'] == 'taunhouse']['Rooms'].max()

# Найдём медианную площадь здания у объектов, чья цена выше средней.
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()
```


##### **Базовые приёмы работы с DataFrame:**

```python
- df.copy() - создаём копию DataFrame;
- df.drop(['column_1, column_2', labels - номер или имя стобца], axis -  ось[0 - строка, 1- столбец], inplace - True - замена DataFrame на новый or False - возврат копии DataFrame) - удаляем столбцы / строки в DataFrame;
- df['Address'].loc[153] - узнаем что в данном столбце под строкой № 153; 
- .nlargest(n) - возвращает n наибольших значений, пример (car = df.value_counts().nlargest(10).index);
```

##### **Признаки даты и времени:**

`- pd.to_datetime(df['Date'], dayfirst = True) - изменяем на тип данных datetime64`

- Выделение атрибутов Datetime


```python
- df['Date'].dt.date — дата;
- df['Date'].dt.year, month, day — год, месяц, день;
- df['Date'].dt.time — время;
- df['Date'].dt.hour, minute, second — час, минута, секунда;
- df['Date'].dt.dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
- df['Date'].dt.day_name — название дня недели;
- df['Date'].dt.dayofyear — порядковый день года;
- df['Date'].dt.quarter — квартал (интервал в три месяца).
```

Например, обратившись по атрибуту dt.year в столбце Date, мы можем «достать» год продажи и понять, за какой интервал времени (в годах) представлены наши данные, а также на какой год приходится наибольшее число продаж:


```python
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])
```


#### **Категорийные данные CATEGORY в примерах:**

- Сделаем преобразование столбцов к типу данных category:

```python
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # Список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам стобцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())
```

- Разберём код подробнее:

1. Задаём список столбцов, которые мы не берём в рассмотрение (cols_to_exclude), а также условленный нами ранее порог уникальных значений столбца max_unique_count.

2. В цикле перебираем имена столбцов, и, если число уникальных категорий меньше заданного порога и имён столбцов нет в списке cols_to_exclude, то с помощью метода astype() приводим столбец к типу данных category.

3. Итоговый объём памяти — 1.9 Мб. В результате такого преобразования объём памяти, занимаемый таблицей, уменьшился почти в 1.5 раза. Это впечатляет!

- C помощью атрибута этого аксессора categories мы можем получить список уникальных категорий в столбце Regionname:


```python
print(melb_df['Type'].cat.categories, melb_df['Regionname'].cat.categories, sep = '\n \n')

# Index(['h', 't', 'u'], dtype='object')
 
# Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
#       'Northern Victoria', 'South-Eastern Metropolitan',
#       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
#      dtype='object')
```

- С помощью метода аксессора rename_categories() можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

Рассмотрим на примере: переименуем категории признака типа постройки Type — заменим их на полные названия (напомним, u — unit, h — house, t — townhouse).


```python
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])
```


In [None]:
####