Titanic Survivors Data Research

Основное содержание проекта (статья) находится в файле Paper.md.

Предисловие

Данный проект представляет собой научную работу по анализу данных и построению предиктивной модели. Главная и основная форма этой работы - статья, которая приложена в виде .md файла. Статья также опубликована на Хабре.

В ходе этой работы был проведен анализ данных о пассажирах, с использованием таких библиотек, как pandas, numpy, matplotlib, seaborn. Была проведена обширная работа с источниками, касающихся исследования катастрофы Титаника, а также исследующих те же самые данные.

Исходные данные были взяты из соревнования на сайте Kaggle.com.

Для создания предиктивной модели была создана нейронная сеть на базе фреймворка pyTorch, её структура также описана в статье.

В соревновании Kaggle на тестовых данных удалось получить точность 78.7% (ссылка на профиль с результатом).

Summary

15 апреля 1912 года произошло крушение парохода «Титаник», став одной из самых значимых катастроф в истории человечества. В данной статье исследованы данные пассажиров Титаника (предоставленные в рамках ML-соревнования на kaggle.com), сделаны и проверены предположения о влиянии определённых факторов на вероятность человека выжить в той катастрофе. Анализ данных сопровождается примерами кода на Python, с использованием пакета Pandas. Построена и обучена модель нейронной сети, предсказывающая вероятность человека выжить в катастрофе с точностью 0.78 на тестовых данных. Модель построена на базе фреймворка pyTorch.

Содержание

Статья полностью

Код (ссылки на файлы проекта):

Личные впечатления

Для меня это стало первой серьезной работой по анализу данных. Пришлось поработать с большим колчиством источников, много вечеров просидеть, составляя разумный текст и картинки. В ходе работы по необходимости и случайно пришлось узнать много нового. Причем, не все в итоге удалось применить в статье. Где-то многострочный код можно было заменить парой строк из pandas, но переписывать его уже не было смысла, т.к. всё необходимое от этого кода я уже получил. Однако, в дальнейшем этот опыт мне точно пригодится для получения нового. Это соревнование на kaggle не зря предлагается как первое для вхождения в их среду, здесь есть над чем подумать, о чем почитать. Всегда можно поэкспериментировать с разными моделями из sci-kit learn и получить интересные результаты.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
pictures		pictures
Data_Investigation.ipynb		Data_Investigation.ipynb
Paper.md		Paper.md
ReadMe.md		ReadMe.md
data_functions.py		data_functions.py
learning.py		learning.py
metrics_functions.py		metrics_functions.py
networks.py		networks.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

pictures

pictures

Data_Investigation.ipynb

Data_Investigation.ipynb

Paper.md

Paper.md

ReadMe.md

ReadMe.md

data_functions.py

data_functions.py

learning.py

learning.py

metrics_functions.py

metrics_functions.py

networks.py

networks.py

Repository files navigation

Titanic Survivors Data Research

Предисловие

Summary

Содержание

Личные впечатления

About

Releases

Packages

Languages

pas-zhukov/Titanic-Survivors-Data-Research

Folders and files

Latest commit

History

Repository files navigation

Titanic Survivors Data Research

Предисловие

Summary

Содержание

Личные впечатления

About

Resources

Stars

Watchers

Forks

Languages