### Различные библиотеки

In [None]:
import math  # Библиотека алгебраических функций
from random import randint  # Выдает рандомные числа типа int

### SumPy

Символьные вычисления различных формул

In [None]:
from sympy import * 
init_printing()  # Печать символов обрабатываемых SumPy

In [None]:
x = Symbol('x')  # Передаем символ
f = 1/((x**2)+x-2) # Вводим формулу с введееым символом
f  # Обязательно без print() иначе не сработает

### PypLot (plt)
Анализ и визуализация данных включает в себя возможности NumPy

In [None]:
from matplotlib import pyplot as plt 
%matplotlib inline  # Необходим для вывода граффика сразу под кодом, но он нужен только в Jupiter? в Google Colaboreatory этим можно принебречь
%config InlineBackend.figure_format = 'svg'  # Векторный формат вывода графиков, предположительно им также можно принебречь в GC

In [None]:
plt.subplot(1, 2, 1)  # разделение окна граффиков на 1 строку и 2 столбца и выбор 1 ячейки
plt.subplot(1, 2, 2)  # выбор 2 ячейки. осуществлять после определения всех граффиков
# или
fig, ax = plt.subplots(nrows=1, ncols=2)  # fig необходим для работы непосредственно с функцией (размеры и т.д.), ax - это список ячеек.
# для работы с ячейками пишется следующий код:
ax[0].plot([1, 2, 3], [3, 4, 5], label ='text')  # построение линейного графика. добавление подписи 
# если применяется матрица граффиков, а не строки или столбцы, то:
ax1, ax2, ax3, ax4 = ax.flatten()  # переносит матрицу в режим линейный или можно непосредственно переменным передать места

plt.scatter([1, 2, 3], [3, 4, 5], c='black')  # построение точек на плоскости. добавление черного цвета точкам
plt.plot([1, 2, 3], [3, 4, 5], '-o')  # построение линейного граффика с точками
x.plot(kind='bar')  #  создает горизонтальную гистограмму у 'x' наобора данных 
#или
plt.hist(x,  # набор данных 
         bins = 20,  # колличество значений сумма которых будет заключена в столбец
         alpha = 0.5,  # прозрачность столбца
         color = 'grey',  # цвет столбца 
         label = 'Class 0',   # подпись столбца
         density = 1)    # 1/True - плотность распределения, 0/False - число наблюдений

fig.set_size_inches(10, 2)  # установка размера фигуры в дюймах
fig.subplots_adjust(wspace=1,  # ширина отступов между фигурами
                    hspace=1)  # высота отступов между фигурами
plt.axis([x_min, x_max, y_min, y_max])  # установка ограничений непосредственно граффика по оси x - первые два значения, y - последние два.
plt.title('text')  # установка названия граффика
ax1.set_title('text')  # если граффиков больше одного 
plt.xlabel('text')  # установка названия горизонтальной оси
plt.ylabel('text')  # установка названия вертикальной оси
plt.style.use('fivethirtyeight')  # задание стиля граффикам, есть некоторое колличество уже заданных, можно создавать свой
plt.legend()  # отображение наименований граффиков (легенда)
plt.grid()  # отображение сетки
plt.show(None)  # отображение граффиков без вывода различной несущественной информации

### NumPy (np)
создание и работа с большими массивами данных включая матрицы



In [None]:
import numpy as np

In [None]:
x = np.array([1, 2, 3, 4, 5]) # создание массива данных NumPy 
x_ = np.linspace(50, 5000, 10) # создания массива данных с равномерно распределенными 10-ю значениями от 50 до 5000

x.sort()  # сортировка полученных данных по возрастанию 

### Pandas (pd)
Библиотека для работы и анализа огромных объемов данных

In [None]:
import pandas as pd

In [None]:
name = pd.read_csv('creditcard.csv')  # читает файл но для начала его нужно загрузить
class_value = name['Class'].value_counts()  # считает колличество значений в определенном столбце
class_0 = name.loc[name['Class'] == 0, ['V1']]  # получает значений по нескольким параметрам
# чтобы отобразить первые 5 и последние 5 элементов всей базы просто пишем переменную которой мы передали базу
name.head()  # отображение первых, по-умолчанию 5 значений
name.tail()  # отображение последних, по-умолчанию 5 значений
df1 = pd.DataFrame([1, 2, 3],  # получить срез с такими значениями
                   index=list('abcdef'),  # и чтобы они входили в эти строчки
                   columns=list('ABCD'))  # и в эти колонки

### scikit-learn
Для решения задач машинного обучения

In [None]:
from sklearn.datasets import load_boston  # тренировочный датасет, цены на недвижимость в Бостоне различные характеристики этой недвижимости.

In [None]:
from sklearn.model_selection import train_test_split  # Разбиение данных на тренировочную и тестовую выборку
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
df = reduce_mem_usage(df)  # для уменьшения размеров дата фрейма
df.dtypes  # чтобы посмотреть какие типы данных входят в таблицу
.mean()  # вычисляет среднее
.median()  # вычисляет медиану
.mode()  # вычисляет моду
.value_counts  # считает колличество значений
.describe  # позволяет смотреть статистику по отдельно взятому значению
seaborn.joinplot  # показывает граффики с распределением всех значений и зависимость между двумя показателями
# если у признаков есть линейная зависимость, то признаки сильно друг от друга зависят (получается прямой график, прямая линия)
seaborn.joinplot(kind = 'kde')  # вобщем то показывает точки концентрации данных, выглядит интересно, как будто бы карта
seaborn.boxplot  # показывает медиану и крайние квантили, все что выходит за них это выбросы
df.loc[df['name'] > value, 'name'] = df['name'].median()  # замена выявленных выбросов медианой
# можно еще написать код матрицы корреляций Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn 5 урок 1:04:43
.keys  # ключи базы данных
.shape  # сколько значений в ключе
.info  # информация о таблице
X["Embarked"].fillna("S", inplace=True)  # Заполнение пустых значений
X["Sex"] = X["Sex"].map(sex_map)  # замена двух значений признака на числа 1 или 0
X = pd.get_dummies(X)  # разбивает признак на несколько колонок