In [None]:
# preinstall libs
!pip3 install --upgrade pip
!pip3 install pandas==1.5.2
!pip3 install scikit-learn==1.2.0

### Типы данных, часто используемых в наборах данных 

**Массив numpy.ndarray**

Большинство наборов данных для машинного обучения задаются этим типом массива (вектор, матрица, многомерный тензор)

Рассмотрим в качестве примера набора данных "Ирисы"

In [None]:
from sklearn.datasets import load_iris
from pprint import pprint
iris = load_iris()
pprint(iris)

Пока оставим тип самой всей структуры iris и способ доступа к её полям. Рассмотрим это позже

In [None]:
# type(iris.data)
print("Тип объекта, содержащего таблицу с данными: ", type(iris["data"]))

Таким образом, данные заданны с помощью массива **numpy.ndarray**

В синтаксисе языка Python существует тип данных "список" (list), который часто принимается за массив

In [None]:
import numpy as np

In [None]:
#
#список в Python
#непосредственная инициализация вручную
#
python_list = [1,2,3,5,8,13,21,34,55]
print(python_list)

Тип диапазона (**range**) позволяет порождать список в виде последовательности

In [None]:
print( range(10) )
range_list = list( range(10) )
print( range_list )
range_list = list( range(1, 5) )
print( range_list )
range_list = list( range(1, 10, 2) )
print( range_list )

Инициализация списка в цикле (возможность вычисления и использования функций)

In [None]:
list_from_loop = [2 * i for i in range(1, 11)]
print( list_from_loop )

Массив **numpy.ndarray** обычно создается из списка Python:

In [None]:
#
#массив numpy.array
#
np_array = np.array(python_list)
print(np_array)

np_array_direct = np.array( [10, 20, 30, 40] )
print(np_array_direct)

Узнать тип переменной можно встроенной Python функцией **type()** :

In [None]:
print( "Тип \"массива\" pythonList: ", type(python_list) )
print( "Тип масссива npArray: ", type(np_array) )

Доступ к элементам массива:

In [None]:
print( "Длина массива:", len(np_array) )
print( np_array[0] )
print( np_array[-1] )
print( np_array[len(np_array) - 1] )
print( np_array[:4] )
print( np_array[2:4])
print( np_array[3:] )


Функции создания массива **numpy.ndarray** с одинаковыми значениями

In [None]:
#
#заполнить массив единицами
#
np_array = np.ones(5)
print( np_array )

#
#заполнить массив нулями
#
np_array = np.zeros(10)
print( np_array )

#
#заполнить массив определенным числом
#
np_array = np.full(5, 3.14)
print( np_array )



Свойства конфигурации массивов **numpy.ndarray**:

In [None]:
print("Массив: ", np_array)
print("Свойство ndim: ", np_array.ndim)
print("Свойство shape: ", np_array.shape) 
print("Свойство dtype: ", np_array.dtype) 
 

Многомерные массивы:

In [None]:

np_array_2d = np.array([
                        [1,2,3],
                        [4,5,6]
                    ])
print("Матрица, построеннаяя из Python list of lists:")
print(np_array_2d)
#
#заполнить двумерный массив numpy.ndarray определенным числом (или списком)
#
np_array_2d = np.full( (2,2), 2.7 )
print("Матрица, построенная функцией full():")
print( np_array_2d )

print( "Форма 2-мерного массива: ", np_array_2d.shape )
print( "Размерность 2-мерного массива: ", np_array_2d.ndim )


np_array_3d = np.array( [
                        [
                            [11,12,13],
                            [21,22,23],
                            [31,32,33]
                        ]
                      ] )
print("3D массив: ")
print(np_array_3d)
print( "Форма трехмерного массива:", np_array_3d.shape )
print( "Размерность трехмерного массива:", np_array_3d.ndim )

Понятие оси (**axis**) в многомерных массивах

Понятие осей используется в операциях типа суммирования, min, max в многомерных массивах

In [None]:
arr = np.array([[1,2,3],[3,2,1]])
#
#выполним суммирование строк матрицы (по первому измерению, указывающему на вложенный массив)
#
row_sum = np.sum(arr, axis = 0)
row_sum

По умолчанию обычно axis = 0 (однако лучше это уточнять в документации)

In [None]:
#
#выполним суммирование по столбцам
#
col_sum = np.sum(arr, axis = 1)
col_sum

Посмотрим работу с осями в трехмерной матрице

In [None]:
arr = np.array([[[111,112,113,114],[121,122,123,124],[131,132,133,134]],
                [[211,212,213,214],[221,222,223,224],[231,232,233,234]]
               ])
print( "arr.shape = ", arr.shape )
print( "Сумма элементов (матриц) по первому измерению axis = 0\n", np.sum(arr, axis = 0))
print( "Максимум элементов в направлении первого измерения axis = 0\n", np.max(arr, axis = 0))
print( "-----------------------------------------------------------" )
print( "Максимум элементов в направлении второго измерения axis = 1\n", np.max(arr, axis = 1))
print( "Максимум элементов в направлении второго измерения axis = 1\n", np.max(arr, axis = 1))
print( "-----------------------------------------------------------" )
print( "Максимум элементов в направлении третьего измерения axis = 2\n", np.max(arr, axis = 2))
print( "Максимум элементов в направлении третьего измерения axis = 2\n", np.max(arr, axis = 2))

Генерация случайных последовательностей в **numpy**

In [None]:
#
#равномерное распределение (uniform): random.uniform(low=0.0, high=1.0, size=None)
#одномерный массив
#
uniform_arr = np.random.uniform(1, 100, 10)
print("Вектор равномерно распределенных чисел от 1 до 100 :\n", uniform_arr)
print("----------------------------------------------------")
uniform_mat = np.random.uniform(0, 1, (3,3))
print("Матрица 3x3 равномерно распределенных чисел от 0 до 1 :\n", uniform_mat)
print("----------------------------------------------------")
#
#нормальное распределение (normal) random.normal(loc=0.0, scale=1.0, size=None)
#
normal_arr = np.random.normal(5.0, 2.7, 10)
print("Вектор 10 нормально распределенных чисел с мат.ожиданием 5 и дисперсией 2.7 :\n", normal_arr)

Обеспечение повторяемости псевдослучайных чисел (**numpy.random.seed**)

*! функция seed() считается устаревшей и рекомендуется использовать* ***numpy.random.Generator***

In [None]:
def test_rand_no_seed():
    print( np.random.uniform(0, 1, 5) )

def test_rand_with_seed(s: int):
    np.random.seed(s)
    print( np.random.uniform(0, 1, 5) )

print("Генерируем случайный вектор: ")    
test_rand_no_seed()
print("Еще раз генерируем случайный вектор: ")  
test_rand_no_seed()
print("-----------------------------------")
print("Генерируем случайный вектор с параметром генератора: ")    
test_rand_with_seed(44)
print("Еще раз генерируем случайный вектор с параметром генератора:: ")  
test_rand_with_seed(44)


Еще одна структура данных в Pyhhon, к которой обещали вернуться в самом начале - **Словарь (Dictionary)** 

Посмотрим на структуру данных набора **sklearn.datasets.iris**

In [None]:
iris

In [None]:
type(iris)

В языке Python есть структура данных - словарь (именованный массив, Map, ...):

In [None]:
the_dict = {"FirstName": "John", "LastName": "Smith", "Age": 25}
print( the_dict["FirstName"] )
print( the_dict.get("LastName") )
print( the_dict["Age"] )

print( "----------------------" )
print( "Итерирование по набору: " )
for entry in the_dict:
    print( entry )
    
print( "----------------------" )
print( "Ключи (keys) словаря: " )
print( the_dict.keys() )
print( "Количество ключей:", len(the_dict.keys()))

print( "----------------------" )
print( "Значения (values) словаря: " )
print( the_dict.values() )

print( "-----------------------------------" )
print("Итерирование по парам ключ-значение:")
for k, v in the_dict.items():
    print(k, ":::", v)
    
print( "-----------------------------------" )
print( "Внесение изменений в словарь:" )
#
#добавление нового поля (новой пары ключ-значение) или изменение существующего:
#
the_dict["height"] = 1.8
the_dict.update({"email": "jsmith@example.com"})

for k, v in the_dict.items():
    print(k, ":::", v)

Одной из особенностей **sklearn.utils.Bunch** является возможность доступа к полям как к членам класса:

In [None]:
print( iris["target"] )
print( "--------------")
print( iris.target )
print( "--------------")
print( iris.target_names )

## Pandas

[Pandas](https://pandas.pydata.org/docs/index.html) - библиотека для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.

Библиотека **Pandas** позволяет загружать наборы данных из различных форматов:

* CSV
* JSON
* Microsoft Excel (+ xlsx)
* XML
* Создавать вручную из массивов numpy
* [...и некоторые другие](https://pandas.pydata.org/docs/user_guide/io.html)


In [None]:
import pandas as pd

Простое создание набора данных из python списка

In [None]:
df = pd.DataFrame([[11,12,13],[21,22,23],[31,32,33]], columns = ["ccol1", "col2", "col3"])
df

Создание **DataFrame** из словаря:

In [None]:
df = pd.DataFrame({"Name": ["Max", "Jane", "Alice", "Tom"], 
                   "Age":[18, 19, 20, 19], 
                   "Books Taken": [1, 3, 2, 2],})
df

Загрузка набора данных из CSV-файла

Источник данных: https://www.kaggle.com/datasets/aklimarimi/qs-world-ranked-universities-20182022

In [None]:
univ_df = pd.read_csv( "lec01_data.csv" ) #read_csv( "lec01_data.csv", sep = ",", encoding = "utf-8", decimal = "." )

In [None]:
univ_df

Транспонированная форма

In [None]:
univ_df.head(5).T

### Функции предварительного ознакомления с набором данных:

In [None]:
univ_df.shape

In [None]:
univ_df.columns

In [None]:
univ_df.head() #можно параметром задать кол-во строк. По умолчанию - 5

In [None]:
univ_df.tail()

Техническая информация по набору данных (**Pandas.DataFrame.info()**):

In [None]:
univ_df.info()

Сводка по содержимому набора данных [(**Pandas.DataFrame.describe()**)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html):

In [None]:
univ_df.describe()

Как можно видеть, функция **describe()** по умолчанию не влючает в описание нечисловые столбцы. 

Их можно включить установкой параметра *include = "all"*, но это не столько информативно, сколько громоздко

In [None]:
univ_df.describe(include = "all") #["object", "boolean"]

Номинальные и категоримальные признаки удобно смотреть по отдельности

**Pandas.DataFrame** так же, как и **sklearn.utils.Bunch** позволяет обращаться к элементам колонок как к членам класса: *univDf["Name"] == univDf.Name*

Каждая колонка имеет тип **Pandas.Series**, представляющий собой обертку **numpy.ndarray** с огромным набором дополнительных аналитических и прочих полезных функций 

In [None]:
univ_df.Country.unique()

In [None]:
univ_df.Name.value_counts()

In [None]:
univ_df.City.value_counts(normalize = True)

Про записи, содержащие **NaN**, **None**, рассмотрим далее

### Индексация и извлечение данных

In [None]:
#
#извлечение определенных столбцов
#
univ_df[ ["Rank","Name","City"] ]

In [None]:
#
#получить вектор булевых значений, в каждой позиции которого - факт совпадения свойства с заданным значением
#"характеристический вектор"
#
univ_df["City"] == "London"

In [None]:
#
#если записей много, то узнать количество совпадений/несовпадений можно применением Series.value_counts()
#
(univ_df.City == "London").value_counts()

In [None]:
#
#такой вектор обычно используется в составе выборки строк по значению
#
univ_df[ univ_df.City == "London" ]

In [None]:
#
#выборка записей по множеству (списку) значений Series.isin() 
#
univ_df[ univ_df.City.isin(["Cambridge", "Oxford", "Vladivostok"]) ]

In [None]:
#
#названия университетов Лондона
#
univ_df[ univ_df.City == "London" ]["Name"]

In [None]:
#
# вычислим средний балл университета Nottingham за 2022 год
#
univ_df[ (univ_df.Name == "University of Nottingham") & (univ_df.Year == 2022) ]["Point"].mean()

Использование неравенств в условиях отбора:

In [None]:
univ_df[ (univ_df.Year == 2022) & (univ_df.Rank <= 10) ]

#### Сортировка наборов данных

In [None]:
univ_df[ univ_df.Country == " United Kingdom" ].sort_values( by = ["Year", "Rank", "Point"], ascending = [True, False, False] )

### Выборка по конкретным строкам и столбцам (срезы - slice)

In [None]:
univ_df.columns

Выборка фрагмента с помощью функции **loc[ диапазон_по_строкам , диапазон_по_столбцам ]**

In [None]:
#
# выборка всех строк для столбцов от "City" до последнего
#
univ_df.loc[:, "City":]

In [None]:
#
# выборка строк с 10 по 20 для полей от начала до Name
#
univ_df.loc[10:20, :"Name"]

Выборка фрагмента набора данных по номерам (zero-based) строк и столбцов с помощью функции **iloc[rows, columns]**

Диапазоны индексов задаются в формате *начало : конец - 1*

Индексация строк и столбцов начинается с нуля

In [None]:
univ_df.iloc[0:10, 1:4]

In [None]:
#
#применение лябда-функции для выбора строк по вычисляемым индексам
#
univ_df.iloc[lambda x: x.index % 2 == 0, [False, True, True, True, False, False]]

### Группировка записей (GroupBy)

Структура **[Pandas.DataFrame.groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)(by = [столбцы_группировки])[[столбцы_отображения]].function()**

- К набору применяется метод groupby, который разделяет данные по grouping_columns – признаку или набору признаков. 
- Индексируем по нужным нам столбцам (columns_to_show). 
- К полученным группам применяется функция или аггрегирование нескольких функций.

Создание групп по одинаковым свойствам записей

In [None]:
groups = univ_df.groupby(["Country"])
print(groups)

In [None]:
#
# функция size() возвращает список размеров полученных групп типа pandas.Series
#
groups.size()

Для объектов Pandas.Series определены встроенные статистические функции min, max, mean, median,...

In [None]:
groups.min()

Ко всем группам могут применены функции методом **apply()**

In [None]:
groups.apply(lambda g: 
                    display(g)
            )

Выделение отдельных свойств по группам (сгруппировали университеты по странам, смотрим среднее занимаемое место в рейтинге)

In [None]:
univ_df.groupby(["Country"])[["Rank"]].mean()

Применим сортровку по полученным данным (по колонке со средним)

In [None]:
univ_df.groupby(["Country"])[["Rank"]].mean().sort_values(by=["Rank"], ascending = [True])

Группировка по нескольким свойствам. На примере группировки университетов по стране и городу расположения

In [None]:
univ_df.groupby(["Country", "City"]).count()

Аггрегация разных свойств для каждой группы (функция **agg()**)

In [None]:
#
#групируем университеты по странам, отобразив базовые стат.данные по занимаемому месту и кол-ву баллов
#
univ_df.groupby(["Country"])[["Rank","Point"]].agg( [np.mean, np.std, np.min, np.max] )

### Сводные таблицы Pivot table

Параметры функции [**pivot_table()**](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html) :
* values=None, 
* index=None, 
* columns=None, 
* aggfunc='mean', 
* fill_value=None, 
* margins=False, 
* dropna=True, 
* margins_name='All', 
* observed=False, 
* sort=True

In [None]:
univ_df.pivot_table( values = ["Name"], index = ["Country","City"], aggfunc="count" )

### Объединение наборов данных - Merge

In [None]:
user_df = pd.DataFrame([["Саша", 20, "sasha@example.com"],
                       ["Петя", 21, "pete_xyz@themail.com"],
                       ["Катя", 20, "kate1234@example.com"],
                       ["Маша", 19, "mary_ya@somemail.com"]], columns=["Имя", "Возраст", "e-mail"])
user_df

In [None]:
study_df = pd.DataFrame([["Саша", "ВВГУ"],
                        ["Петя", "ВВГУ"],
                        ["Вася", "ДВФУ"],
                        ["Антон", "ДВФУ"],
                        ["Катя", "ТГМУ"],
                        ["Сергей"]], columns=["Имя", "Вуз"])
study_df


Будем считать, что поле "Имя" однозначно идентифицирует человека

Выполним слияние таблиц по полю "имя"

Способы присоединения (**how**):
* left, 
* right, 
* outer, 
* inner, 
* cross

default: ‘inner’

In [None]:
full_df = user_df.merge(study_df, how = "inner", left_on = "Имя", right_on="Имя")
full_df

In [None]:
user_df.merge(study_df, how = "left", left_on = "Имя", right_on="Имя")

In [None]:
user_df.merge(study_df, how = "right", left_on = "Имя", right_on="Имя")

In [None]:
merge_out = user_df.merge(study_df, how = "outer", left_on = "Имя", right_on="Имя")
merge_out

### Борьба с NaN 




Поиск записей с отсутствующими значениями

In [None]:
#
# Pandas.DataFrame.isna() и Pandas.DataFrame.isnull() - одно и то же!
#
merge_out.Вуз.isnull()

In [None]:
merge_out.Вуз.isnull().value_counts()

In [None]:
merge_out[ merge_out.Вуз.isnull() ]

Борьба с *NaN* часто носит "индивидуальный" характер, но есть общие подходы. Подробно о них позже...

Самый радикальный - **Pandas.DataFrame.dropna()**

In [None]:
clear_df = merge_out.dropna(axis = 0)
clear_df