<a href="https://colab.research.google.com/github/nastenkass/homeworkMachineLearning/blob/main/%D0%94%D0%97_%D0%9C%D0%9E_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотека Pandas

Библиотека Pandas - это модуль для первичной работы с данными, с помощью которого можно проводить простой анализ данных и предобработку данных.

Основные возможности:
* удобное чтение и запись данных из csv, txt, xls, SQL databases
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

Импорт библиотеки:

In [None]:
import pandas as pd

### Загрузка данных и создание датафреймов

__Наиболее популярные форматы данных (при скачивании датасета из интернета)__:
* _csv_ (comma separated file), _tsv_ (tab separated file) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas позволяет считывать эти данные именно в формате таблицы.
* _xls_ (eXceL Spreadsheet $-$ таблицы Microsoft)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений.

В pandas есть функции для считывания во всех этих форматах.

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)
У функции несколько параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ для кавычек, все что внутри считается за строку (используется для экранирования или обрамления текстовых данных внутри файла CSV). По умолчанию двойные кавычки.
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными. Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html)


Считывание данных:

In [None]:
data = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv",
                   sep=",")

Мы будем работать с набор данных Titanic, который часто используется в задачах машинного обучения и анализа данных. Набор данных Titanic содержит информацию о пассажирах, которые находились на борту корабля "Титаник", включая информацию о выживаемости, классе каюты, возрасте, поле и другие характеристики.

Посмотреть данные таблицы:

In [None]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Посмотреть первые 10 строк:

In [None]:
data.head(10)

Другие полезные функции:
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* метод df.iloc() - индексация по позиции
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* метод df.copy() $-$ копировать датафрейм

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Примеры:

In [None]:
data.iloc[7:10]

In [None]:
data.iloc[7:10].T

Тип объекта, предоставляемого библиотекой Pandas для представления двумерных таблиц данных, называются DataFrame.

In [None]:
type(data)

In [None]:
data.info()

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную с помощью словарей python:

In [None]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
          {'a': 10, 'b': 20, 'c': 30, 'd': 40},
          {'a': 100, 'b': 200, 'c': 300, 'd': 400}]
df = pd.DataFrame(mydict)
df

или

In [None]:
mydict2 = {'a': [1, 10, 100],
          'b': [2, 20, 200],
          'c': [3, 30, 300],
          'd': [4, 40, 400]}
df2 = pd.DataFrame(mydict2)
df2

### Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [None]:
data.index

RangeIndex(start=0, stop=891, step=1)

Названия столбов:

In [None]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df["asd"], как указано выше, должен выдать колонку, имеющую название asd (если она существует в датафрейме).


In [None]:
data.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [None]:
data.describe()

Выбор нескольких столбцов:

In [None]:
data[["Age", "Sex", "Cabin"]].head(5)

Unnamed: 0,Age,Sex,Cabin
0,22.0,male,
1,38.0,female,C85
2,26.0,female,
3,35.0,female,C123
4,35.0,male,


Подсчет уникальных значений в столбце

In [None]:
data["Sex"].value_counts()

male      577
female    314
Name: Sex, dtype: int64

В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная. В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [None]:
data.drop("Survived", axis=1).head()  # axis='columns'

Unnamed: 0_level_0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
"Allen, Mr. William Henry",5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Обратите внимание, что столбец не удалился из датафрейма навсегда. Наоборот, результат нашей операции записан в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

Индексация по строкам:

In [None]:
data2 = data.iloc[data.index % 2 == 0].head(5)

data2

Пассажиры первого класса:

In [None]:
data.loc[data["Pclass"] == 1].head()

Использовать столбец Ticket для задания названий строк (index):


In [None]:
data.set_index(data["Ticket"], inplace=False).head()

Теперь строки индексируются с помощью Name (выделено жирным в начале каждой строки).



Считывание данных без названий колонок и придумывание своих названий колонкам:

In [None]:
data_m = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
                     header=None)

In [None]:
data_m.head()

In [None]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [None]:
data_m.head()

### Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [None]:
data.describe()

По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [None]:
data["Sex"].unique()

Уникальные значения в столбце с числом строк с таким значением:

In [None]:
data["Sex"].value_counts()

male      577
female    314
Name: Sex, dtype: int64

Перекодирование столбца с помощью функции map:

In [None]:
data.set_index(data["Name"], inplace=True)

sex = data["Sex"]
sex.map({"male":0, "female":1}).head()

Name
Braund, Mr. Owen Harris                                0
Cumings, Mrs. John Bradley (Florence Briggs Thayer)    1
Heikkinen, Miss. Laina                                 1
Futrelle, Mrs. Jacques Heath (Lily May Peel)           1
Allen, Mr. William Henry                               0
Name: Sex, dtype: int64

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

In [None]:
data["NewAge"] = data["Age"].apply(lambda x: x+100)

In [None]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
"Braund, Mr. Owen Harris",1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,122.0
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,138.0
"Heikkinen, Miss. Laina",3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,135.0
"Allen, Mr. William Henry",5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,135.0


Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [None]:
data.groupby("Sex")['Age'].apply(lambda x: x.mean())

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

Создаем столбец с фамилией:

In [None]:
data["Last Name"] = data["Name"].apply(lambda s: s.split(",")[0])

In [None]:
data.head(5)

Сколько человек с одинаковой фамилией?

In [None]:
data.groupby("Last Name")["Ticket"].count().iloc[15:20]

In [None]:
grouped_family = data.groupby("Last Name")["Age"]

In [None]:
grouped_family.mean()

Сколько семей, в которых больше трех человек?

In [None]:
(data.groupby("Last Name")["Ticket"].count() > 3).sum()

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [None]:
data[(data.Age > 10) & (data.Sex=="male")].head()

### Задания для самостоятельного решения

1. Рассчитайте общее количество выживших и погибших пассажиров.

In [None]:
import pandas as pd

In [None]:
list1 = data["Survived"].value_counts()
print(f' Количество погибших - {list1[0]}')
print(f' Количество выживших - {list1[1]}')
print(f' Общее количество - {list1[1] + list1[0]}')

 Количество погибших - 549
 Количество выживших - 342
 Общее количество - 891


2. Какова доля выживших пассажиров из каждого класса (1, 2, 3)?

In [None]:
data.groupby('Pclass').size() / len(data)

Pclass
1    0.242424
2    0.206510
3    0.551066
dtype: float64

3. Рассчитайте средний возраст выживших и погибших пассажиров. Исключите из рассмотрения пассажиров с неизвестным возрастом.

In [None]:
data.groupby("Survived")['Age'].apply(lambda x: x.mean())

Survived
0    30.626179
1    28.343690
Name: Age, dtype: float64

4. Создайте столбец "Deck", представляющий букву палубы, на которой располагалась каюта пассажира (используйте информацию из столбца "Cabin"). Рассчитайте долю выживших для каждой палубы.

In [None]:
data['Deck'] = data['Cabin'].str[0]
data.groupby('Deck')['Survived'].mean()

Deck
A    0.466667
B    0.744681
C    0.593220
D    0.757576
E    0.750000
F    0.615385
G    0.500000
T    0.000000
Name: Survived, dtype: float64

5. Сравните средний возраст выживших мужчин и выживших женщин. В каком поле средний возраст оказался выше?

In [None]:
list2 = data[data['Survived'] == 1].groupby('Sex')['Age'].mean()
if list2['female'] > list2['male']:
  print('Средний возраст выживших девушек выше, чем мужской')
else:
  print('Средний возраст выживших мужской выше, чем девушек')

Средний возраст выживших девушек выше, чем мужской


# Библиотека Numpy
Библиотека Numpy (Numerical Python) - это библиотека для языка программирования Python, предоставляющая поддержку больших, многомерных массивов и матриц, вместе с высокоуровневыми математическими функциями для операций с этими массивами.

Импорт библиотеки:

In [None]:
import numpy as np

In [None]:
arr = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

In [None]:
arr

In [None]:
print(arr)

С чем мы работаем?

In [None]:
arr.dtype

In [None]:
type(arr)

Размер массива:

In [None]:
arr.shape

Число осей:

In [None]:
arr.ndim

У некоторых функций бывает параметр axis, который позволяет применить эту функцию по разным осям - в данном случае, по строкам или столбцам:

In [None]:
np.sum(arr)

In [None]:
np.sum(arr, axis=0)

In [None]:
np.sum(arr, axis=1)

In [None]:
arr.sum()

Транспонируем массив:

In [None]:
arr.T

In [None]:
arr.transpose()

Обратите внимание, что переменная arr не поменялась!

In [None]:
arr

Булевы массивы:

In [None]:
is_even = arr % 2 == 0
print(is_even)

In [None]:
np.sum(is_even)

Булевы массивы позволяют вытаскивать элементы с True из массива того-же размера

In [None]:
arr[arr % 2 == 0]

Иногда бывает полезно создавать специфичные массивы. Массив из нулей:

In [None]:
np.zeros((2, 3))

Массив из единиц:

In [None]:
np.ones((3, 2))

Единичная матрица:

In [None]:
np.identity(5)

In [None]:
np.eye(5)

Массивы можно объединять:

In [None]:
arr

In [None]:
np.hstack((arr, np.zeros(arr.shape)))

In [None]:
np.vstack((arr, np.zeros(arr.shape)))

Арифметические операции

In [None]:
arr

In [None]:
arr + 1

In [None]:
arr * 2

In [None]:
arr ** 2

In [None]:
arr + arr ** 2

In [None]:
arr * arr ** 2

In [None]:
np.sin(arr)

Матричное умножение:

In [None]:
arr.dot(arr ** 2)

In [None]:
arr.dot((arr ** 2).T)

In [None]:
arr @ (arr ** 2).T

Генерация случайных чисел:

In [None]:
np.arange(6)

In [None]:
np.random.rand(2, 3)

In [None]:
np.random.seed(242)
np.random.rand(2, 3)

In [None]:
np.random.randn(3, 2)

In [None]:
np.random.normal(2, 1, size=3)

In [None]:
np.random.randint(5, 10, size=3)

Почему вообще используют numpy?

In [None]:
n = 300
A = np.random.rand(n, n)
B = np.random.rand(n, n)

In [None]:
%%time
C = np.zeros((n, n))
for i in range(n):
    for j in range(n):
        for k in range(n):
            C[i, j] += A[i, k] * B[k, j]

In [None]:
%%time
C = A @ B

### Задания для самостоятельного решения

1. Развернуть одномерный массив (сделать так, чтобы его элементы шли в обратном порядке).

In [None]:
import numpy as np
arr = np.random.randint(1, 1000, size=10)
arr

array([840, 905, 556, 896, 374, 325,  93, 367, 942, 641])

In [None]:
np.flip(arr)

array([641, 942, 367,  93, 325, 374, 896, 556, 905, 840])

2. Найти максимальный нечетный элемент в массиве.

In [None]:
np.max(arr[arr % 2 != 0])

905

3. Замените все нечетные элементы массива на ваше любимое число.

In [None]:
arr[arr % 2 != 0] = 5
arr

array([840,   5, 556, 896, 374,   5,   5,   5, 942,   5])

4. Создайте массив первых n нечетных чисел, записанных в порядке убывания. Например, если n=5, то ответом будет array([9, 7, 5, 3, 1]). Функции, которые могут пригодиться при решении: .arange()

In [None]:
def descending_odd_numbers(n):
    odd_numbers = np.arange(2*n-1, 0, -2)
    return odd_numbers

n = int(input())
print(descending_odd_numbers(n))

3
[5 3 1]


5. Вычислите самое близкое и самое дальнее числа к данному в рассматриваемом массиве чисел. Например, если на вход поступают массив array([0, 1, 2, 3, 4]) и число 1.33, то ответом будет (1, 4). Функции, которые могут пригодиться при решении: .abs(), .argmax(), .argmin()

In [None]:
def find_closest_and_farthest(list_num, target):

    closest_index = np.abs(list_num - target).argmin()
    farthest_index = np.abs(list_num - target).argmax()

    closest_number = list_num[closest_index]
    farthest_number = list_num[farthest_index]

    return closest_number, farthest_number

arr = np.array([0, 1, 2, 3, 4])
target = 1.33
closest, farthest = find_closest_and_farthest(arr, target)
print("Самое близкое число:", closest)
print("Самое дальнее число:", farthest)

Самое близкое число: 1
Самое дальнее число: 4
