<a href="https://colab.research.google.com/github/murpunk/Programming_2023/blob/main/ML_Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Введение в машинное обучение

### I часть: краткий рассказ о возможностях ML

*1. Источник: **Рашка Себастьян, Мирджалили Вахид** Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и 
TensorFlow 2, 3-е изд.: Пер. с англ. СПб. : ООО "Диалектика", 2020. 848 с.*

#### Общие понятия машинного обучения.






*   ML возник полвека назад как подобласть ИИ, чтобы делать прогнозы с помощью самообучающихся алгоритмов.
*   Этому способствовало огромное количество структурированных и неструктурированных данных, на которых можно обучаться.

*   Возрастает роль ML в повседневной жизни: оно используется для чат-ботов, генерации изображений и видео, распознавания и синтеза речи, в биологии и медицине, математике, для беспилотных автомобилей.




#### Три типа обучения и основная терминология

Существует три типа обучения:


*   обучение с учителем (supervised learning);
*   обучение без учителя (unsupervised learning);
*   обучение с подкреплением (reinforcement learning).





Обучение с учителем:


*   помеченные данные;
*   непосредственная обратная связь;
*   прогнозирование исхода/будущего;
*   главная цель: обучить на помеченных данных, для того, чтобы строить прогнозы новых непомеченных входных данных;
*   задачи классификации и регрессии.



Обучение без учителя:


*   метки отсутствуют;
*   обратная связь отсутствует;
*   поиск скрытой структуры в данных с помощью классификации;
*   понижение размерности.



Обучение с подкреплением:
*   процесс принятия решений;
*   система вознаграждений;
*   изучение последовательности действий;
*   агент (то есть система) учится при взаимодействии со средой. Пример: игра в шахматы.

*2. Источник: ***Андреас Мюллер, Сара Гвидо*** Введение в машинное обучение с помощью  Python. Руководство для специалистов по работе с данными. 393 с.*

ML находится на пересечениии статистики, ИИ и Data Science. Его можно назвать также прогнозной аналитикой или статистическим обучением.

Примеры зачач машинного обучения с учителем:
*   определение почтового индекса по рукописным цифрам на конверте;
*   определение доброкачественности опухоли на основе медицинских изображений;
*   обнаружение мошеннической деятельности в сделках по кредитным картам.

Примеры задач ML без учителя:
*   определение тематики постов;
*   сегментирование клиентов на группы с похожими предпочтениями;
*   обнаружение паттернов аномального поведения на сайте.

### II часть: "Титаник"

In [1]:
import pandas as pd
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Загрузка датасета

In [3]:
data = pd.read_csv("drive/My Drive/Программирование/titanic.csv")

In [4]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
data.set_index("PassengerId")

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


**1. Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.**

In [None]:
data["Sex"].unique()

array(['male', 'female'], dtype=object)

In [None]:
men = data[data["Sex"] == "male"].shape[0]
men

577

In [None]:
women = data[data["Sex"] == "female"].shape[0]
women

314

In [None]:
male_female = [men, women]
with open("drive/My Drive/Программирование/1.txt", "w") as output:
    output.write(str(male_female))

2. Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

In [None]:
data["Survived"].unique()

array([0, 1])

In [None]:
total_number_of_passengers = data["Survived"].count()

In [None]:
alive = data[data["Survived"] == 1].shape[0]
alive

342

In [None]:
proportion_of_survived = alive / total_number_of_passengers
proportion_of_survived

0.3838383838383838

In [None]:
procent_proportion_of_survived = round(proportion_of_survived * 100, 2)
procent_proportion_of_survived

38.38

In [None]:
with open("drive/My Drive/Программирование/2.txt", "w") as output:
    output.write(str(procent_proportion_of_survived))

**3. Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.**

In [None]:
data["Pclass"].unique()

array([3, 1, 2])

In [None]:
total_number_of_passengers = data.shape[0]
total_number_of_passengers

891

In [None]:
class_1 = data[data["Pclass"] == 1].shape[0]
class_1

216

In [None]:
proportion_of_1_class = class_1 / total_number_of_passengers
proportion_of_1_class

0.24242424242424243

In [None]:
procent_proportion_of_1_class = round(proportion_of_1_class * 100, 2)
procent_proportion_of_1_class

24.24

In [None]:
with open("drive/My Drive/Программирование/3.txt", "w") as output:
    output.write(str(procent_proportion_of_1_class))

**4. Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.**

In [None]:
mean_age = data["Age"].mean()
mean_age = round(mean_age, 2)
mean_age

29.7

In [None]:
median_age = data["Age"].median()
median_age

28.0

In [None]:
age = [mean_age, median_age]
age

[29.7, 28.0]

In [None]:
with open("drive/My Drive/Программирование/4.txt", "w") as output:
    output.write(str(age))

**5. Коррелируют ли число братьев/сестер с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch.**

Коэффициент корреляции Пирсона (r-Пирсона) применяется для исследования взаимосвязи двух переменных, измеренных в метрических шкалах на одной и той же выборке. Он позволяет определить, насколько пропорциональная изменчивость двух переменных.

In [None]:
correlation = df['SibSp'].corr(df['Parch'])
pierson_corr = "{:0.2f}".format(correlation)
pierson_corr

In [None]:
with open("drive/My Drive/Программирование/5.txt", "w") as output:
    output.write(str(pierson_corr))

**6. Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name).**


In [7]:
data[["Name", "Sex"]]

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
4,"Allen, Mr. William Henry",male
...,...,...
886,"Montvila, Rev. Juozas",male
887,"Graham, Miss. Margaret Edith",female
888,"Johnston, Miss. Catherine Helen ""Carrie""",female
889,"Behr, Mr. Karl Howell",male


In [8]:
from copy import deepcopy
df = deepcopy(data)

In [10]:
df = df[["Name", "Sex"]]
df

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
4,"Allen, Mr. William Henry",male


In [33]:
female_df = df[df["Sex"] == "female"]
female_df.head()

Unnamed: 0,Name,Sex
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female
9,"Nasser, Mrs. Nicholas (Adele Achem)",female


In [16]:
import re

In [36]:
female_names = []
name_in_braces = re.compile('(?<=\()\w+')
female_names.append(name_in_braces.findall(str(female_df["Name"])))
female_names

[['Florence', 'Lily', 'Elisabeth', 'Adele', 'Imanita', 'Margaret']]

In [38]:
name_after_fullstop = re.compile("(?<=Miss\.)\w+")
female_names.append(name_after_fullstop.findall(str(female_df["Name"])))
female_names

[['Florence', 'Lily', 'Elisabeth', 'Adele', 'Imanita', 'Margaret'], [], []]