<a href="https://colab.research.google.com/github/Vakhranev/MGIMO/blob/main/7%20%D1%84%D0%B5%D0%B2%D1%80%D0%B0%D0%BB%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Введение в анализ данных
**Анализ данных с использованием Python**

Язык программирования **Python** в последнее время все чаще используется для анализа данных, как в науке, так и коммерческой сфере.
В этой статье разберем простой пример исследования и классификации данных с использованием некоторых библиотек на **Python**. Для исследования, нам понадобится выбрать интересующий нас набор данных (**DataSet**). Разнообразные наборы Dataset'ы можно [скачать с сайта](https://www.kaggle.com/).

Для демонстрации возможностей исследуем простой набор данных с [информацией о наблюдениях НЛО](https://www.kaggle.com/NUFORC/ufo-sightings).

Итак, таблица с наблюдениями имеет следующие столбцы:


*   datetime — дата появления объекта
*   city — город в котором появился объект
*   state — штат
*   country — страна
*   duration (seconds) — время на которое появился объект в секундах
*   duration (hours/min) — время на которое появился объект в часах/минутах
*   shape — форма объекта
*   comments — коментарий
*   date posted — дата публикации
*   latitude — широта
*   longitude — долгота

Для начала нужно установить сам интерпретатор **Python3** с библиотеками. В Ubuntu-подобном дистрибутиве это будет:

In [None]:
 sudo apt-get install python3
 sudo apt-get install python3-pip

**pip** — это система управления пакетами, которая используется для установки и управления программными пакетами, написанными на Python.  С её помощью устанавливаем библиотеки, которые будем использовать:


*   **sklearn** — библиотека, алгоритмов машинного обучения, она понадобится нам в дальнейшем для классификации исследуемых данных,

*   **matplotlib** — библиотека для построения графиков,

*   **pandas** — библиотека для обработки и анализа данных. Будем использовать для первичной обработки данных,

*   **numpy** — математическая библиотека с поддержкой многомерных массивов,

*   **yandex-translate** — библиотека для перевода текста, через yandex API (для использования нужно получить API ключ в яндексе),

*   **pycountry** — библиотека, которую будем использовать для преобразования кода страны в полное название страны,


Используя **pip** пакеты ставятся просто:

In [1]:
!pip install yandex-translate
!pip install pycountry



Файл DataSet — **scrubbed.csv** должен лежать в рабочей директории, где создается файл программы.

Модуль подключается с помощью инструкции:

In [None]:
 import <название модуля>

Если название модуля слишком длинное, и/или не нравится по соображениям удобства или политическим убеждениямм, то с помощью ключевого слова **as** для него можно создать псевдоним:

In [None]:
 import <название модуля> as <псевдоним>

Тогда, чтобы обратиться к определенному атрибуту, который определен в модуле:

In [None]:
<название модуля>.<Атрибут>

или:

In [None]:
<псевдоним>.<Атрибут>

Для подключения определенных атрибутов модуля используется инструкция **from**. Для удобства, чтобы не писать названия модуля, при обращении к атрибуту, можно подключить нужный атрибут отдельно.

In [None]:
 from <Название модуля> import <Атрибут>

Подключение нужных нам модулей:

In [2]:
import pandas as pd
import numpy as np
import pycountry
import matplotlib.pyplot as plt
from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D
from yandex_translate import YandexTranslate # Используем класс YandexTranslate из модуля yandex_translate
from yandex_translate import YandexTranslateException # Используем класс YandexTranslateException из модуля yandex_translate

Функция возвращает связный список с цветами.

In [3]:
# Размер надписей на графиках
PLOT_LABEL_FONT_SIZE = 14
# Генерация цветовой схемы
# Возвращает список цветов
def getColors(n):
    COLORS = []
    cm = plt.cm.get_cmap('hsv', n)
    for i in np.arange(n):
        COLORS.append(cm(i))
    return COLORS

Для перевода некоторых названий с англиского на русский язык создадим функцию **translate**. И да, нам понадобится интернет, чтобы воспользоваться API переводчика от [Яндекс](https://yandex.cloud/ru/services/translate).

Функция принимает на вход аргументы:


*   **string** — строка, которую нужно перевести,
*   **translator_obj** — объект в котором реализован переводчик, если равен None, то строка не переводится.

и возвращает переведенную на русский язык строку.