# Курс "Название"

---
# Семинар 5. Введение в библиотеки Python, Matplotlib

<html>
  <head>
    <meta charset='utf-8'>
  </head>
  <body>
    <ul>
      <li><strong>1. Введение в анализ данных и разработку на языке Python</strong>
      <ul>
        <li>1.1 Преимущества и недостатки языка Python. Python как инструмент для анализа данных</li>
      </ul>
    </ul>
    <ul>
      <li><strong>2. Библиотека NumPy для решения задач анализа данных и машинного обучения</strong>
      <ul>
        <li>2.1 Математические дисциплины в анализе данных и машинном обучении</li>
      </ul>
      <ul>
        <li>2.2 Введение в NumPy</li>
      </ul>
    </ul>
    <ul>
      <li><strong>3. Графическое представление данных с помощью Matplotlib</strong>
      <ul>
        <li>3.1 Базовые объекты. Конфигурирование Matplotlib</li>
      </ul>
      <ul>
        <li>3.2 Примеры использования бибилиотеки Matplotlib</li>
      </ul>
    </ul>
  </body>
</html>


Прочитайте про Google Colab [здесь](https://colab.research.google.com/notebooks/intro.ipynb#scrollTo=GJBs_flRovLc)

**Дополнительная литература **

Уэс Маккинли, Python и анализ данных/ Пер. с англ. Слинкин А. А. - М.: ДМК Пресс, 2015. - 482 с.: ил. C. 93

На что ссылались [Открытые материалы по Python](https://github.com/capitanov/py-tutorial)

**Загрузим библиотеки в проект**

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# **1. Введение в анализ данных и разработку на языке Python**

В настоящий момент Python является наиболее популярным языком в анализе данных и машинном обучении. 

Обзор на языки программирования дополнительно можно почитать [здесь](https://habr.com/ru/post/337330/)

**Основные преимущества языка Python**



*   Скорость разработки (количество времени, затраченное программитом на постановку эксперимента)
*   Многочисленное сообщество (поддержка по многим возникающим вопросам)
*   Большое количество открытых библиотек для анализа данных и машинного обучения:
    *   ```numpy``` - работа с массивами данных
    *   ```scipy``` - работа с научными вычислениями и статистикой
    *   ```pandas``` - работа с массивами структуированных данных
    *   ```matplotlib``` - визуализация
    *   ```scikit-learn``` - методы машинного обучения
    *   ```keras``` - методы глубокого обучения
    *   ```tensorflow``` - работа с тензорами и глубокое машинное обучение
    *   ```torch``` - работа с тензорами и глубокое машинное обучение
*   Оптимизация с использованием низкоуровневых языков программирования (C++)
*   Интеграция с кодом низкоуровневых языков программирования (C++)
*   Универсальность языка - решение широкого круга задач


**Основные недостатки языка Python**



*   Относительно низкая скорость работы по сравнению с компилируемыми языками программирования (C++ и Java)
*   Отсутствие строгой типизации - подверженность ошибкам



Python отлично подходит для решения задач, в которых время разработки программы гораздо "дороже", чем время её исполнения. 

В рамках задач анализа данных, где большое количество времени затрачивается аналитиком для проверки гипотез о закономерностях в даннх и настройке алгоритмов машинного обучения, Python, как правило, сильно экономит время и бюджет.

Для задач, требующих быстроту исполнения (например, получения отклика от высоконагруженнного сервера или обработки потокового видео), будет оправдано переложить исследовательской код программы, написанной на Python, на комплилируемый язык программирования.

# **2. Библиотека NumPy для решения задач анализа данных и машинного обучения**

## 2.1 Математические дисциплины в анализе данных и машинном обучении

**Математические дисциплины в анализе данных и машинном обучении:**


*   Линейная алгебра
    
    *  Одномерные векторы и двумерные матрицы
    *  Операции над одномерными векторами
    *  Операции над матрицами
    *  Транспонирование матриц, обратные матрицы

*   Математический анализ 
    *  Одномерные функции
    *  Многомерные функции и поверхности
    *  Локальные и глобальные минимумы и максимумы
    *  Производные
    *  Интерполяция и экстраполяция функций   

*   Теория вероятностей и математическая статистика
    *  Случайные величины
    *  Вероятности событий
    *  Распределения случайных величин
    *  Квантили и персентили
    *  Визуализация случайных распределений  
    *  Ковариация и корреляция

Некоторые дополнительные тематики:
*   Метрические пространства. Расстояния и меры близости 

Дорожная карта по изучению математических дисциплин в анализе данных и машинном обучении (подробнее в [статье](https://habr.com/ru/post/432670/)):

![alt text](https://hsto.org/webt/ip/me/rw/ipmerwtq9xzslux320ojsbdur_k.png)

**Библиотеки языка Python в решении задач анализа данных и машинного обучения**

### Numpy

Основные инструменты и возможности библиотеки NumPy:

*    ndarray, быстрый и потребляющий мало памяти многомерный массив,
предоставляющий векторные арифметические операции
*    стандартные математические функции для выполнения быстрых опера­ций над целыми массивами без явного выписывания циклов
*    средства для чтения массива данных с диска и записи его на диск
*    алгоритмы линейной алгебры, генерация случайных чисел и преобразова­ние Фурье
*    средства для интеграции с кодом, написанным на С, С++ или Fortran

Наиболее значимые возможности библиотеки NumPy в решении задач анализа данных:
*    быстрые векторные операции для переформатирования и очистки данных,
выборки подмножеств и фильтрации, преобразований и других видов вы­числений
*    стандартные алгоритмы работы с массивами, например: фильтрация, уда­ление дубликатов и теоретико-множественные операции
*    эффективная описательная статистика, агрегирование и обобщение данных
*    выравнивание данных и реляционные операции объединения и соединения разнородных наборов данных
*    описание условной логики в виде выражений-массивов вместо циклов с ветвлением ```if-elif-else```
*    групповые операции с данными (агрегирование, преобразование, примене­ние функции)

### SciPy

SciPy организовано в подпакеты, охватывающих различные научные вычислительные области. Они приведены в следующей таблице:

![alt text](https://drive.google.com/uc?id=1c5rGwvXOqsFhMVGE2XdXXE5OnEZ6CZYC)