# Аналитик данных

### Первые шаги в Data Science - используем самые популярные инструменты аналитики - SQL, Python, Jupyter.

* почему SQL
* почему Python
* почему Jupyter

In [1]:
# импорт библиотек
import pandas as pd
import pandasql as ps


In [2]:
# Создаем микро-датасет с альбомами
albums = pd.DataFrame({
    "Название": ["Хиты про любовь", "Мода", "Вне зоны доступа", "Новая музыка"],
    "Группа": ["Браво","Браво", "Город 312", "Город 312"],
    "Год": [1998,2011,2006,2010],
    "Число_композиций": [13,12,16,18],
})
albums

Unnamed: 0,Название,Группа,Год,Число_композиций
0,Хиты про любовь,Браво,1998,13
1,Мода,Браво,2011,12
2,Вне зоны доступа,Город 312,2006,16
3,Новая музыка,Город 312,2010,18


## Выберем все группы

In [3]:
ps.sqldf("select Группа from albums")

Unnamed: 0,Группа
0,Браво
1,Браво
2,Город 312
3,Город 312


## Тоже, но убираем дубликаты

In [4]:
ps.sqldf("select distinct Группа from albums")

Unnamed: 0,Группа
0,Браво
1,Город 312


## Выборка с условием

In [5]:
ps.sqldf("select Название, Группа FROM albums WHERE Год<2007")

Unnamed: 0,Название,Группа
0,Хиты про любовь,Браво
1,Вне зоны доступа,Город 312


## Выборка с аггрегированием

In [6]:
ps.sqldf("select Группа, COUNT(Группа) FROM albums GROUP BY Группа")


Unnamed: 0,Группа,COUNT(Группа)
0,Браво,2
1,Город 312,2


# Анализ датасета титаник

Давайте проанализируем данные пассажирова Титаника!
Может быть найдем что-то интересное.

Интерактив - что за история с титаником - кто расскажет? Кто смотрел фильм?

In [7]:
df = pd.read_csv("titanic-train.csv")
df.head(15)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


### Значения колонок:

| Колонка | Значение      | Прмечание                      |
----------|---------------|---------------------------------
| survival |	выжил или нет |	0 = No, 1 = Yes|
| pclass |	Класс билета |	1 = 1st, 2 = 2nd, 3 = 3rd|
| sex |	Пол 	
| Age |	Возраст 	
| sibsp | число братьев или сестер на том же рейсе | 	
| parch |	число родителей или детей на том же рейсе |	
| ticket |	номмер билета 	|
| fare |	цена билета 	|
| cabin |	номер каюты 	|
| embarked | 	В каком порту сел |	C = Cherbourg, Q = Queenstown, S = Southampton

### Разведочный анализ 

Использую SQL, попробуйте применить технику "разведочного анализа" к этому датасету, то есть сделать запросы и вывести что-то интересное.

Например:
* сколько пассажиров было на борту
 * воспользуйтесь COUNT()
* сколько женщин и мужчин было на борту
 * воспользуйтесь COUNT() и GROUP BY по колонке Sex
* сумма всех проданных билетов
 * воспользуйтесь функцией SUM()
* средний возраст пассажира
 * воспользуйтесь функцией AVG()
* процент выживших - отнощение выживших ко всем пассажирам, умноженное на 100
 * тоже для первого класса
 * тоже для всех трех классов
 * процент выживших женщин и мужчин по классам

## Решения

In [8]:
# сколько пассажиров было на борту
ps.sqldf("select COUNT(PassengerId) from df")

Unnamed: 0,COUNT(PassengerId)
0,891


In [9]:
# сколько женщин и мужчин было на борту
ps.sqldf("select Sex,COUNT(Sex) from df GROUP BY Sex")

Unnamed: 0,Sex,COUNT(Sex)
0,female,314
1,male,577


In [10]:
# сумма всех проданных билетов
ps.sqldf("select SUM(Fare) from df")

Unnamed: 0,SUM(Fare)
0,28693.9493


In [11]:
# средний возраст пассажира
ps.sqldf("select AVG(Age) from df")

Unnamed: 0,AVG(Age)
0,29.699118


In [12]:
# средний возраст пассажира для обоих полов
ps.sqldf("select Sex,AVG(Age) from df GROUP BY Sex")

Unnamed: 0,Sex,AVG(Age)
0,female,27.915709
1,male,30.726645


In [13]:
# доля выживших ко всем пассажирам 
ps.sqldf("select 100.0*SUM(Survived)/COUNT(PassengerId) from df")

Unnamed: 0,100.0*SUM(Survived)/COUNT(PassengerId)
0,38.383838


In [14]:
# доля выживших ко всем пассажирам первого класса
ps.sqldf("select 100.0*SUM(Survived)/COUNT(PassengerId) from df where Pclass==1")

Unnamed: 0,100.0*SUM(Survived)/COUNT(PassengerId)
0,62.962963


In [15]:
## тоже для всех трех классов
ps.sqldf("select Pclass,100.0*SUM(Survived)/COUNT(PassengerId) from df GROUP BY Pclass")

Unnamed: 0,Pclass,100.0*SUM(Survived)/COUNT(PassengerId)
0,1,62.962963
1,2,47.282609
2,3,24.236253


In [16]:
## Женщины - мужчины

## Заключение

* Интересная работа у аналитика?
* Интересно программировать?
* Кто хочет работать в ИТ?
* где учиться?
* какие требования - математика етс
