## Автоматизированные информационно-управляющие системы

### Лекция 1. Введение в науку о данных

<hr>

### Версия Python

In [1]:
!python --version

Python 3.8.3


<hr>

### Импорт необходимых инструментов

In [2]:
import numpy as np              # Научные вычисления
import pandas as pd             # Обработка и анализ данных
import matplotlib as mpl        # Визуализация графиков
import matplotlib.pyplot as plt # MATLAB-подобный способ построения графиков
import seaborn as sns           # Визуализация графиков (надстройка над matplotlib)

### Настройки необходимых инструментов

In [3]:
pd.set_option('display.max_columns', None) # Максимальное количество отображаемых столбцов
pd.set_option('display.max_rows', None)    # Максимальное количество отображаемых строк

### Версии необходимых библиотек

In [4]:
pkgs = {
    'Package': [
        'NumPy', 'Pandas', 'Matplotlib', 'Seaborn'],
    'Version': [i.__version__ for i in [np, pd, mpl, sns]]}

df_pkgs = pd.DataFrame(data = pkgs)   # Версии используемых библиотек
df_pkgs.head(None).style.hide_index() # Отображение первых N строк или все если указать None

Package,Version
NumPy,1.18.5
Pandas,1.0.5
Matplotlib,3.2.2
Seaborn,0.10.1


### Пример динамической типизации

In [7]:
a = 10 # Пример объявления переменной
print(a) # Вывод значения переменной

a = 'Тестовая строка' # Переопределение переменной
print(a)

10
Тестовая строка


### Основные типы данных

In [41]:
s = 'Это строка'     # Строка
i = 10               # Целое число
f = 3.0              # Число с плавающей точкой
t = (1, 'a', 2, 'b') # Кортеж — последовательность неизменяемых объектов
l = [1, 'a', 2, 'b'] # Список — последовательность изменяемых объектов
d = { # Словарь — структура для хранения произвольных объектов с доступом по ключу
    'price' : 3.14,
    'num'   : 10,
    'Person': 'Ivanov'
}
n = None             # Пусто
b = True             # Логический тип

# Вывод типа переменной
print(
    type(d) # Получение типа переменной
)

<class 'dict'>


### Операции над основными типами данных

In [43]:
# ##############################################
# Числа
# ##############################################
a = 11
b = 3

add = a + b # Сложение
sub = a - b # Вычитание
mul = a * b # Умножение
div = a / b # Деление
rem = a % b # Остаток от деления

print(rem) # Вывод остатка от деления

# ##############################################
# Строки
# ##############################################
a = 'Это'
b = ' строка'

concat = a + b # Конкатенация строк
sl1 = concat[0:3] # Часть строки (вариант 1)
sl2 = concat[-6:10] # Часть строки (вариант 2)

print(concat) # Вывод канкатенации строк

# Вывод части строки
print(sl1) # Вариант 1
print(sl2) # Вариант 2

# Результат поиска подстроки в строке
print('стр' in concat)

l = concat.split(' ') # Получение списка всех слов в строке
print(l[0]) # Вывод первого элемента списка (первое слово в строке)

# ##############################################
# Списки
# ##############################################
t = (1, 'a', 2, 'b') # Кортеж
l = [3, 'c', 4, 'd'] # Список

print(t[2]) # Вывод первого элемента из кортежа

l.append('5e') # Добавление элемента в список
print(l[-1]) # Вывод последнего элемента из списка

# ##############################################
# Словарь
# ##############################################
d = { # Словарь
    'price' : 3.14,
    'num'   : 10,
    'Person': 'Ivanov'
}

print(d['Person']) # Вывод значения из словаря по ключу

d['ID'] = 42 # # Добавление элемента в словарь
print(d['ID']) # Вывод значения из словаря по ключу

2
Это строка
Это
строка
True
Это
2
5e
Ivanov
42


### Управляющие конструкции

> if, for

In [50]:
my_list = [] # Создание пустого списка

# Циклический проход по заданному диапазону
for number in range(0, 11):
    # Текущее число делится на 2 без остатка
    if number % 2 == 0:
        # Добавление числа в список
        my_list.append(number)

print(my_list) # Вывод списка

# Сокращенный вариант
short_my_list = [number for number in range(10, 20) if number % 2 != 0]
print(short_my_list) # Вывод списка
print(len(short_my_list)) # Вывод количества элементов в списке

[0, 2, 4, 6, 8, 10]
[11, 13, 15, 17, 19]
5


### Функции

In [57]:
def add_numbers(x, y):
    """
    Сложение двух чисел

    (int, int) -> int | None

    Аргументы:
        x - Первое число
        y - Второе число

    Возвращает: сумма двух чисел или None
    """
    
    # Проверка аргументов
    if type(x) is not int or type(y) is not int:
        # Вывод сообщения
        print('Ошибка! Переданы неверные аргументы ...')

        return None
    
    # Результат
    return x + y

res = add_numbers(1, 2) # Результат сложения двух чисел
print(res) # Вывод результата

print() # Пустая строка

res = add_numbers(1, '2') # Результат сложения двух чисел
print(res) # Вывод результата

3

Ошибка! Переданы неверные аргументы ...
None


### Лямбда-выражение

In [63]:
# Лямбда-выражение, которое перемножает первые 2 аргумента и результат делит на 3 аргумент
res = lambda x, y, z = 10: x * y / z
print(res(2, 30)) # Вывод результата лямбда-выражения (вариант 1)

(lambda x, y, z = 10: x * y / z)(3, 40) # Вывод результата лямбда-выражения (вариант 2)

6.0


12.0

### Генераторы

In [78]:
def numbers(start, finish):
    """
    Генератор списка в указанном диапазоне и определенным условием

    (int, int) -> generator

    Аргументы:
        start - Начальный порог
        finish - Конечный порог

    Возвращает: generator или None
    """
    
    # Проверка аргументов
    if type(start) is not int or type(finish) is not int:
        # Вывод сообщения
        print('Ошибка! Переданы неверные аргументы ...')

        return None
    
    # Циклический проход по заданному диапазону
    while start < finish:
        # Текущее число делится на 2 без остатка
        if start % 2 == 0:
            yield start # Возвращение объекта-генератора, а не выполнение кода сразу
        
        start += 1 # Увеличение начального порога

res = numbers(0, 11) # Результат генерации списка

print(res) # Вывод результата
print(list(res)) # Конвертация результата в список и вывод результата

<generator object numbers at 0x7f96354b1ac0>
[0, 2, 4, 6, 8, 10]


### Декораторы

In [94]:
def param_transfer(fn):
    """
    Декоратор

    (function) -> function

    Аргументы:
        fn - Функция, которую нужно декорировать

    Возвращает: новая функция
    """
    
    def wrapper(arg):
        print('Запуск функции: ' + str(fn.__name__) + '(), с параметром: ' + str(arg))
        fn(arg)
    
    return wrapper

@param_transfer
def print_sqrt(num):
    """
    Вычисление квадратного корня

    (float) -> float

    Аргументы:
        num - Число

    Возвращает: квадратный корень
    """
    
    # Вывод округленного результата
    print(
        round(num ** 0.5, 3)
    )
    
print_sqrt(4.5)

Запуск функции: print_sqrt(), с параметром: 4.5
2.121


### Принципы загрузки и чтения данных

In [113]:
import csv # Чтение и запись CSV файлов

%precision 2 # Магическая команда (Округление чисел до 2 знаков после запятой)

# Чтение CSV файла 
with open('../CSV/Hyper_Cars_2019.csv') as csvfile:
    # Список словарей
    HC = list(csv.DictReader(csvfile))

# Примечание! Ключами словарей являются имена столбцов CSV файла
HC[:3] # Чтение первых трех словарей из списка

[{'Car Name': 'McLaren F1',
  'Displacement': '6.100000345',
  'Enginee': 'V12',
  'hp': '618',
  'Transmission': '6',
  'Toppp-speeed': '243',
  'Cost': '25000000'},
 {'Car Name': 'Bugatti Chiron',
  'Displacement': '8',
  'Enginee': 'W16',
  'hp': '1479',
  'Transmission': '7',
  'Toppp-speeed': '250',
  'Cost': '3000000'},
 {'Car Name': 'Mercedes-AMG ONE',
  'Displacement': '1.6',
  'Enginee': 'V6',
  'hp': '748',
  'Transmission': '8',
  'Toppp-speeed': '217',
  'Cost': '2653000'}]

In [114]:
len(HC) # Длина списка = количеству записей в CSV файле

12

In [115]:
HC[0].keys() # Имена столбцов

dict_keys(['Car Name', 'Displacement', 'Enginee', 'hp', 'Transmission', 'Toppp-speeed', 'Cost'])

In [116]:
# Средняя цена всех автомобилей
sum(float(d['Cost']) for d in HC) / len(HC)

4188000.00

In [121]:
# Список из всех уникальных названий автомобилей
car_name = set(d['Car Name'] for d in HC)
car_name

{'Aston Martin Valkyrie',
 'Bugatti Chiron',
 'Bugatti Veyronre',
 'Ferrari LaFerrari',
 'Koenigseeeggg Agera',
 'McLaren F1',
 'McLaren Sennaaaa',
 'Mercedes-AMG ONE',
 'Pagaaani Huayra BC',
 'Porsche 918 Spyder'}

In [123]:
# #############################################################
# Список из средней цены автомобилей сгрупированных по названию
# #############################################################
aver_cost = [] # Пуской список для будущих цен

# Проход по всем уникальным названиям машин
for c in car_name:
    sum_cost = 0 # Сумма всех цен, которые группируются по названиям машин
    cnt = 0 # Счетчик названий сгруппированных названий машин
    
    # Проход по всем записям CSV файла
    for d in HC:
        # Название уникальной машины соответствует названию из общего CSV файла
        if d['Car Name'] == c:
            sum_cost += float(d['Cost']) # Сумма цен сгруппированных машин
            cnt += 1 # Увеличение счетчика

    # Кортеж из марки машины и средней цены
    aver_cost.append((c, sum_cost / cnt))

# Сортировка от максимального значения до минимальной
aver_cost.sort(key = lambda x: x[0])
aver_cost

[('Aston Martin Valkyrie', 3200000.00),
 ('Bugatti Chiron', 3000000.00),
 ('Bugatti Veyronre', 2050000.00),
 ('Ferrari LaFerrari', 2000000.00),
 ('Koenigseeeggg Agera', 2500000.00),
 ('McLaren F1', 25000000.00),
 ('McLaren Sennaaaa', 1500000.00),
 ('Mercedes-AMG ONE', 2753000.00),
 ('Pagaaani Huayra BC', 2550000.00),
 ('Porsche 918 Spyder', 900000.00)]

### Работа с датой и временем

In [127]:
# Работа со временем
import datetime as dt
import time as tm

tm.time() # Временная метка начиная с 1 января 1970 г.

1599306235.95

In [129]:
# Конвертация временной метки в читаемый вид
dtnow = dt.datetime.fromtimestamp(tm.time())
dtnow # Год, месяц, денб, часы, минуты, секунты, миллисекунды

datetime.datetime(2020, 9, 5, 14, 45, 40, 624382)

In [130]:
# Год, месяц, денб, часы, минуты, секунты, миллисекунды
dtnow.year, dtnow.month, dtnow.day, dtnow.hour, dtnow.minute, dtnow.second, dtnow.microsecond

(2020, 9, 5, 14, 45, 40, 624382)

In [134]:
# Текущая дата
today = dt.date.today()
today

datetime.date(2020, 9, 5)

In [136]:
# Минус 100 дней от текущего
today - dt.timedelta(days = 100)

datetime.date(2020, 5, 28)

### Применение функции к каждому элементу указанной последовательности/последовательностей

In [142]:
# Списки
store_1 = [15.00, 12.00, 54.64, 12.34]
store_2 = [23.00, 11.10, 54.64, 12.01]

# Попарный поиск минимального значения из последовательностей
cheapest = map(min, store_1, store_2)

# Проход по всем минимальным значениям
for item in cheapest:
    print(item) # Вывод минимальных значений


15.0
11.1
54.64
12.01


### Выбор подмножеств данных

In [147]:
people = ['Покупатель А. Б.', 'Покупатель В. М.', 'Покупатель Д. Е.', 'Покупатель И. К.']

def split_name(person):
    title = person.split()[0]
    lastname = person.split()[-1]
    return '{} {}'.format(title, lastname)

list(map(split_title_and_name, people))

['Покупатель Б.', 'Покупатель М.', 'Покупатель Е.', 'Покупатель К.']

### Работа с матрицами

#### Объединение информации

In [153]:
import numpy as np # Научные вычисления

# Создание списка и преобразование его в вектор (вариант 1)
l = [1, 2, 3]
vec = np.array(l)
print(vec)

# Вариант 2
vec = np.array([1, 2, 3])
print(vec)

# Вариант 3 (Массив)
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)

print(arr.shape) # Размер массива (строки, столбцы)

[1 2 3]
[1 2 3]
[[1 2 3]
 [4 5 6]]
(2, 3)


In [157]:
print(arr + np.array([[7, 8, 9]])) # Сложение массивов
# Объединение массивов
print(
    np.concatenate(
        (arr, np.array([[7, 8, 9]]))
    )
)

[[ 8 10 12]
 [11 13 15]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [177]:
# Выбор подмножеств данных - строка, столбец (вариант 1)
np.array([
    [1, 2, 3],
    [4, 5, 6]
])[:2,:2]

array([[1, 2],
       [4, 5]])

In [178]:
# Выбор подмножеств данных (вариант 2)
np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [179]:
# Выбор подмножеств данных (вариант 3)
np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])[:-1]

array([[1, 2, 3],
       [4, 5, 6]])

In [180]:
# Выбор подмножеств данных (вариант 4)
np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])[1:, 1:]

array([[5, 6],
       [8, 9]])

In [181]:
# Селекция
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr[arr > 5]

array([6, 7, 8, 9])

In [184]:
[x**2 for x in range(10)]


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

### Фильтрация данных

In [192]:
import pandas as pd # Обработка и анализ данных

!head -n 20 ../CSV/Hyper_Cars_2019.csv # Просмотр первых 20 записей из CSV файла

Car Name,Displacement,Enginee,hp,Transmission,Toppp-speeed,Cost
McLaren F1,6.100000345,V12,618,6,243,"25000000"
Bugatti Chiron,8,W16,1479,7,250,"3000000"
Mercedes-AMG ONE,1.6,V6,748,8,217,"2653000"
Mercedes-AMG ONE,1.6,V6,748,8,217,"2853000"
McLaren Sennaaaa,4,V8987654,789,NaN,211,"1500000"
Koenigseeeggg Agera,5,V8,1016,NaN,249,"2500000"
Porsche 918 Spyder,Hello,V8,NaN,7,211,"900000"
Ferrari LaFerrari,6.3,V12,949,7,NaN,"2000000"
Pagaaani Huayra BC,6,__,745,7,230,"2550000"
Aston Martin Valkyrie,6.590987865,V12,NaN,NaN,250,"3200000"
Bugatti Veyronre,8,W16,987,7,267.856,"2000000"
Bugatti Veyronre,8,W16,987,7,267.856,"2100000"


In [213]:
# Считать первые 5 записей из CSV файла и отобразить их
df = pd.read_csv('../CSV/Hyper_Cars_2019.csv')
df.head(5)

Unnamed: 0,Car Name,Displacement,Enginee,hp,Transmission,Toppp-speeed,Cost
0,McLaren F1,6.100000345,V12,618.0,6.0,243.0,25000000
1,Bugatti Chiron,8.0,W16,1479.0,7.0,250.0,3000000
2,Mercedes-AMG ONE,1.6,V6,748.0,8.0,217.0,2653000
3,Mercedes-AMG ONE,1.6,V6,748.0,8.0,217.0,2853000
4,McLaren Sennaaaa,4.0,V8987654,789.0,,211.0,1500000


In [214]:
# Заполнить пустые значения нулями
df = pd.read_csv('../CSV/Hyper_Cars_2019.csv').fillna(0)
df.head(5)

Unnamed: 0,Car Name,Displacement,Enginee,hp,Transmission,Toppp-speeed,Cost
0,McLaren F1,6.100000345,V12,618.0,6.0,243.0,25000000
1,Bugatti Chiron,8.0,W16,1479.0,7.0,250.0,3000000
2,Mercedes-AMG ONE,1.6,V6,748.0,8.0,217.0,2653000
3,Mercedes-AMG ONE,1.6,V6,748.0,8.0,217.0,2853000
4,McLaren Sennaaaa,4.0,V8987654,789.0,0.0,211.0,1500000


In [234]:
# Заполнить пустые значения нулями
df = pd.read_csv(
    '../CSV/Hyper_Cars_2019.csv',
    index_col = 0 # Номер столбца который будет индексом
).fillna(0)

df.head(None) # Отображение всех записей

Unnamed: 0_level_0,Displacement,Enginee,hp,Transmission,Toppp-speeed,Cost
Car Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
McLaren F1,6.100000345,V12,618.0,6.0,243.0,25000000
Bugatti Chiron,8,W16,1479.0,7.0,250.0,3000000
Mercedes-AMG ONE,1.6,V6,748.0,8.0,217.0,2653000
Mercedes-AMG ONE,1.6,V6,748.0,8.0,217.0,2853000
McLaren Sennaaaa,4,V8987654,789.0,0.0,211.0,1500000
Koenigseeeggg Agera,5,V8,1016.0,0.0,249.0,2500000
Porsche 918 Spyder,Hello,V8,0.0,7.0,211.0,900000
Ferrari LaFerrari,6.3,V12,949.0,7.0,0.0,2000000
Pagaaani Huayra BC,6,__,745.0,7.0,230.0,2550000
Aston Martin Valkyrie,6.590987865,V12,0.0,0.0,250.0,3200000


In [245]:
# Выбрать только те строки, где Enginee = V12
enginee = df.where(df['Enginee'] == 'V12').dropna()

enginee.head(None)

Unnamed: 0_level_0,Displacement,Enginee,hp,Transmission,Toppp-speeed,Cost
Car Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
McLaren F1,6.100000345,V12,618.0,6.0,243.0,25000000.0
Ferrari LaFerrari,6.3,V12,949.0,7.0,0.0,2000000.0
Aston Martin Valkyrie,6.590987865,V12,0.0,0.0,250.0,3200000.0


In [246]:
# Подсчет количества строк с указанными параметрами
len(df[(df['Enginee'] == 'V6') & (df['Cost'] > 2700000)])

1