## 📌О задании

В этом домашнем задании вы попрактикуетесь в работе с библиотеками **Pandas и NumPy**.

- Библиотека Pandas удобная для работы с табличными данными в Python. Наличие готовых методов позволяет не реализовывать самостоятельно поэлементную обработку данных и оперировать сразу целыми таблицами данных. Основной объект в pandas — это DataFrame, представляющий собой таблицу с именованными колонками различных типов, индексом. DataFrame можно создавать, считывая таблицу из файла или задавая вручную из других объектов. Подробнее с основными возможностями библиотеки можно ознакомиться здесь: https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html


- Библиотека NumPy позволяет сравнительно легко и удобно выполнять разнообразные вычисления, избегая самостоятельной реализации поэлементной обработки. При выполнении заданий из данной части необходимо написать код решения внутри функции и убедиться, что она работает, с помощью assert на выражение с использованием этой функции для данных из условия. Также постарайтесь (настоятельно рекомендуется!) не использовать циклы и условный оператор. Подробнее с основными возможностями библиотеки можно ознакомиться здесь: https://numpy.org/doc/stable/reference/index.html

### 😘 Напутствие:
- Помните, что data scientist профессия креативная, поэтому не существуют единственно верного ответа, на прдложенные ниже задачи.
- Старайтесь максимально задействовать арсенал библиотек.
- Пишите читаемый понятный код.
- Если задача не получается - не сдавайтесь. Гугл и stackoverflow вам в помощь!

### 🐼Pandas

Начнем погружение в data science с классики. В данной части домашней работы вы будете исследовать данные о пассажирах Титаника.

https://www.kaggle.com/c/titanic/data

Вам требуется скачать данные и выполнить задания.

In [2]:
import pandas as pd
import numpy as np

✅ 1. Откройте в ноутбуке файл с данными ("train.csv") и выведите первые и последние 5 строк датафрейма

In [3]:
df = pd.read_csv('titanic_train.csv')

In [4]:
df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
df.tail(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


✅ 2. Какой размер имеет датафрейм?

In [6]:
df.shape

(891, 12)

✅ 3. Для каждого из признаков укажите его тип (вещественный, категориальный, порядковый, другое). Придумайте три задачи, которые можно было бы решать для данного датасета — задачу регрессии, задачу классификации и задачу кластеризации.

In [7]:
# PassengerId - вещественный
# Survived - вещественный
# Pclass - порядковый
# Name - категориальный
# Sex - категориальный
# Age - порядковый
# SibSp - порядковый
# Parch - порядковый
# Ticket - вещественный
# Fare - порядковый
# Cabin - категориальный
# Embarked - категориальный

# задача Регрессии - предсказать стоимость билета
# задача Классификации - предсказать выживет ли человек
# задача Кластеризации - разделить пассажиров на группы по классу билета

✅ 4. Какова доля выживших после крушения:
    - всех пассажиров
    - мужчин
    - женщин?

In [8]:
# доля всех пассажиров
df['Survived'].mean()

np.float64(0.3838383838383838)

In [9]:
df.groupby('Sex')['Survived'].mean()

Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

✅ 5. Сколько пассажиров ехало в каждом классе?

In [10]:
df['Pclass'].value_counts()

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

✅ 6. Сколько в среднем пассажиры заплатили за проезд?

In [11]:
df['Fare'].mean()

np.float64(32.204207968574636)

✅ 7. Все ли признаки несут в себе полезную информацию?
    - Избавьтесь от ненужных столбцов, опишите почему вы решили от них избавиться

In [12]:
# df.drop(columns=['PassengerId', 'Name', 'Ticket'], inplace=True)
# не несут статистической значимости для анализа

✅ 8. Есть ли в данных пропуски? В каких столбцах: сколько пропусков в каждом из них?

In [13]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

✅ 9. Предположите каким значением стоит заполнить пропуски в каждом столбце в зависимости от его типа. Заполните пропуски и проверьте, что пропусков больше нет.

In [14]:
# заполнить средним значением
df['Age'].fillna(df['Age'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)


In [15]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

✅ 10. Правда ли, что чаще выживали пассажиры с более дорогими билетами?

In [16]:
df.groupby('Pclass')['Survived'].mean()

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

✅ 11. Создание новых признаков (feature engineering) является одним из основных средств улучшения качества работы алгоритмов машинного обучения на этапе обработки данных. 
 - Добавьте в таблицу столбец, который будет показывать, сколько родных плыло вместе с пассажиром на корабле, включая его самого.
 - Придумайте свой признак, который может быть полезен, и добавьте его в таблицу.

In [17]:
df['Family'] = df['SibSp'] + df['Parch'] + 1
df.sample(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family
296,297,0,3,"Hanna, Mr. Mansour",male,23.5,0,0,2693,7.2292,,C,1
788,789,1,3,"Dean, Master. Bertram Vere",male,1.0,1,2,C.A. 2315,20.575,,S,4
856,857,1,1,"Wick, Mrs. George Dennick (Mary Hitchcock)",female,45.0,1,1,36928,164.8667,,S,3
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2
312,313,0,2,"Lahtinen, Mrs. William (Anna Sylfven)",female,26.0,1,1,250651,26.0,,S,3
619,620,0,2,"Gavey, Mr. Lawrence",male,26.0,0,0,31028,10.5,,S,1
276,277,0,3,"Lindblom, Miss. Augusta Charlotta",female,45.0,0,0,347073,7.75,,S,1
555,556,0,1,"Wright, Mr. George",male,62.0,0,0,113807,26.55,,S,1
756,757,0,3,"Carlsson, Mr. August Sigfrid",male,28.0,0,0,350042,7.7958,,S,1
799,800,0,3,"Van Impe, Mrs. Jean Baptiste (Rosalie Paula Go...",female,30.0,1,1,345773,24.15,,S,3


In [18]:
df['IsAlone'] = (df['Family'] == 1).astype(int)

In [19]:
df.sample(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,IsAlone
357,358,0,2,"Funk, Miss. Annie Clemmer",female,38.0,0,0,237671,13.0,,S,1,1
270,271,0,1,"Cairns, Mr. Alexander",male,29.699118,0,0,113798,31.0,,S,1,1
394,395,1,3,"Sandstrom, Mrs. Hjalmar (Agnes Charlotta Bengt...",female,24.0,0,2,PP 9549,16.7,G6,S,3,0
167,168,0,3,"Skoog, Mrs. William (Anna Bernhardina Karlsson)",female,45.0,1,4,347088,27.9,,S,6,0
204,205,1,3,"Cohen, Mr. Gurshon ""Gus""",male,18.0,0,0,A/5 3540,8.05,,S,1,1
483,484,1,3,"Turkula, Mrs. (Hedwig)",female,63.0,0,0,4134,9.5875,,S,1,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,1
602,603,0,1,"Harrington, Mr. Charles H",male,29.699118,0,0,113796,42.4,,S,1,1
193,194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S,3,0
318,319,1,1,"Wick, Miss. Mary Natalie",female,31.0,0,2,36928,164.8667,C7,S,3,0


✅ 12. Есть ли в данных пропуски? В каких столбцах: сколько пропусков в каждом из них?

In [20]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
Family           0
IsAlone          0
dtype: int64

✅ 13. Какая фамилия была самой популярной на корабле?)

In [21]:
df['Surname'] = df['Name'].apply(lambda x: x.split(',')[0])
df["Surname"].value_counts().idxmax()

'Andersson'

### 📈Numpy 

✅ 1. Напишите функцию, возвращающую округленную взвешенную сумму чисел по данным числам и весам к ним. 

In [22]:
def weighted_size_numbers(weights: np.array, marks: np.array) -> int:
    return round(np.sum(weights * marks))

In [23]:
weights = np.array([0.3, 0.4, 0.2, 0.1])
marks = np.array([7, 10, 8, 6])

assert weighted_size_numbers(weights, marks) == 8

In [24]:
weights = np.array([0.3, 0.4, 0.2, 0.1])
marks = np.array([7, 0, 8, 6])

assert weighted_size_numbers(weights, marks) == 4

✅ 2. Напишите функцию, выдающую индексы «близких» элементов заданных массивов, а именно тех пар элементов, чей модуль разницы не превосходит заданного значения. Например, если на вход поступают массив array([1.5, 0.5, 2, -4.1, -3, 6, -1]), массив array([1.2, 0.5, 1, -4, 3, 0, -1.2]) и число 0.5, то на выходе должен получиться массив array([0, 1, 3, 6]).

In [25]:
def find_close(array1: np.array, array2: np.array, precision: float) -> np.array:
    return np.where(np.abs(array1 - array2) <= precision)[0] # where возвращает индексы элементов, которые True, внутренние условие как раз и создает логический массив


In [26]:
array1 = np.array([1.5, 0.5, 2, -4.1, -3, 6, -1])
array2 = np.array([1.2, 0.5, 1, -4.0,  3, 0, -1.2])
precision = 0.5
res = find_close(array1, array2, precision)

assert res.ndim == 1
assert np.allclose(res, np.array([0, 1, 3, 6]))

In [27]:
array1 = np.array([3.1415, 2.7182, 1.6180, 6.6261])
array2 = np.array([6.6730, 1.3807, -1,     6.0222])
precision = 1.7
res = find_close(array1, array2, precision)

assert res.ndim == 1
assert np.allclose(res, np.array([1, 3]))

✅ 3. Напишите функцию, вычисляющую произведение всех ненулевых диагональных элементов на диагонали данной квадратной матрицы. Например, если на вход поступает матрица
$$
\begin{pmatrix}
0 & 1 & 2\\
3 & 4 & 5\\
6 & 7 & 8\\
\end{pmatrix},
$$
то ответом будет 32.

Элементы матрицы считать целочисленными.

In [28]:
def diag_prod(matrix: np.array) -> int:
    diag = np.diag(matrix)
    return np.prod(diag[diag != 0])

In [29]:
%%time
matrix = np.array([[0, 1, 2, 3],
                   [4, 5, 6, 7],
                   [8, 9, 10, 11],
                   [12, 13, 14, 15]])

assert diag_prod(matrix) == 750

CPU times: user 94 μs, sys: 11 μs, total: 105 μs
Wall time: 109 μs


✅ 4. Для улучшения качества работы некоторых алгоритмов машинного обучения может быть полезно использовать [нормализацию данных](https://vk.cc/8xmfQk), чтобы привести признаки в выборке к одному масштабу — а именно, из каждого столбца вычесть среднее его значений и поделить на их стандартное отклонение. Напишите функцию, нормализующую входящую матрицу (по столбцам). Помните, что в вашем матрице не должно получаться пустых значений nan. 

4* Подумайте, почему могли бы возникнуть пустые значения?)

In [37]:
def normalize(matrix: np.array) -> np.array:
    mean = np.mean(matrix, axis=0) # среднее значение по всем столбцам
    std = np.std(matrix, axis=0) # стандартное отклонение по всем столбцам
    std[std == 0] = 1
    return (matrix - mean) / std

In [38]:
matrix = np.array([[1, 4, 4200], [0, 10, 5000], [1, 2, 1000]])

assert np.allclose(
    normalize(matrix),
    np.array([[ 0.7071, -0.39223,  0.46291],
              [-1.4142,  1.37281,  0.92582],
              [ 0.7071, -0.98058, -1.38873]])
)

In [39]:
matrix = np.array([[-7, 2, 42], [2, 10, 50], [5, 4, 10]])

assert np.allclose(
    normalize(matrix),
    np.array([[-1.37281, -0.98058,  0.46291],
              [ 0.39223,  1.37281,  0.92582],
              [ 0.98058, -0.39223, -1.38873]])
)

✅ 5. Напишите функцию, вычисляющую косинусную близость двух векторов. Например, если на вход поступают вектора array([-2, 1, 0, -5, 4, 3, -3]) и array([0, 2, -2, 10, 6, 0, 0]), ответом будет -0.25.

In [40]:
def cosine_similarity(vec1: np.array, vec2: np.array) -> float:
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)) # скалярное произведение векторов деленное на произведение их длин (норм)

In [41]:
vec1 = np.array([-2, 1,  0, -5, 4, 3, -3])
vec2 = np.array([ 0, 2, -2, 10, 6, 0,  0])

assert np.allclose(cosine_similarity(vec1, vec2), -0.25)

In [42]:
vec1 = np.array([-4, 2,  9, -8, 9, 0, -2])
vec2 = np.array([ 3, 2, -4, -1, 3, 2,  2])

assert np.allclose(cosine_similarity(vec1, vec2), -0.119929)