## Аналитик данных

### Первые шаги с SQL

In [14]:
# импорт библиотек
import pandas as pd
import pandasql as ps


In [9]:
# создаем микро датасет
data = pd.DataFrame({
   "height":[162,180,170,155],
   "weight":[54.5,90, 50.1, 45.8],
   "sex":[1,0, 1, 0]
})

#выводим его
data

Unnamed: 0,height,weight,sex
0,162,54.5,1
1,180,90.0,0
2,170,50.1,1
3,155,45.8,0


In [12]:
albums = pd.DataFrame({
    "Название": ["Хиты про любовь", "Мода", "Вне зоны доступа", "новая музыка"],
    "Группа": ["Браво","Браво", "Город 312", "Город 312"],
    "Год": [1998,2011,2006,2010],
    "Число композиций": [13,12,16,18],
})
albums

Unnamed: 0,Название,Группа,Год,Число композиций
0,Хиты про любовь,Браво,1998,13
1,Мода,Браво,2011,12
2,Вне зоны доступа,Город 312,2006,16
3,новая музыка,Город 312,2010,18


In [13]:
## Выберем все группы

In [15]:
ps.sqldf("select Группа from albums")

Unnamed: 0,Группа
0,Браво
1,Браво
2,Город 312
3,Город 312


In [16]:
## Тоже, но убираем дупликаты

In [17]:
ps.sqldf("select distinct Группа from albums")

Unnamed: 0,Группа
0,Браво
1,Город 312


In [18]:
## Выборка с условием

In [20]:
ps.sqldf("select Название, Группа FROM albums WHERE Год<2007")

Unnamed: 0,Название,Группа
0,Хиты про любовь,Браво
1,Вне зоны доступа,Город 312


In [21]:
## Выборка с аггрегированием

In [22]:
ps.sqldf("select Группа, COUNT(Группа) FROM albums GROUP BY Группа")


Unnamed: 0,Группа,COUNT(Группа)
0,Браво,2
1,Город 312,2


## Анализ датасета титаник

Давайте проанализируем данные пассажирова Титаника!
Может быть найдем что-то интересное.

In [24]:
df = pd.read_csv("titanic-train.csv")
df.head(15)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


### Значения колонок:

| Колонка | Значение      | Прмечание                      |
----------|---------------|---------------------------------
| survival |	выжил или нет |	0 = No, 1 = Yes|
| pclass |	Класс билета |	1 = 1st, 2 = 2nd, 3 = 3rd|
| sex |	Пол 	
| Age |	Возраст 	
| sibsp | число братьев или сестер на том же рейсе | 	
| parch |	число родителей или детей на том же рейсе |	
| ticket |	номмер билета 	|
| fare |	цена билета 	|
| cabin |	номер каюты 	|
| embarked | 	В каком порту сел |	C = Cherbourg, Q = Queenstown, S = Southampton

### Разведочный анализ 

Использую SQL, попробуйте применить технику "разведочного анализа" к этому датасету, то есть сделать запросы и вывести что-то интересное.

Например:

* сумма всех проданных билетов
 * воспользуйтесь функцией SUM()
* средний возраст пассажира
 * воспользуйтесь функцией AVG()
* сколько женщин и мужчин было на борту
 * воспользуйтесь COUNT() и GROUP BY
* отношение выживших ко всем пассажирам первого класса.
* тоже для всех трех классов

## Решения

In [26]:
# сумма всех проданных билетов
ps.sqldf("select SUM(Fare) from df")

Unnamed: 0,SUM(Fare)
0,28693.9493


In [29]:
# средний возраст пассажира
ps.sqldf("select AVG(Age) from df")

Unnamed: 0,AVG(Age)
0,29.699118


In [40]:
# средний возраст пассажира для обоих полов
ps.sqldf("select Sex,AVG(Age) from df GROUP BY Sex")

Unnamed: 0,Sex,AVG(Age)
0,female,27.915709
1,male,30.726645


In [41]:
# сколько женщин и мужчин было на борту
ps.sqldf("select Sex,COUNT(Age) from df GROUP BY Sex")

Unnamed: 0,Sex,COUNT(Age)
0,female,261
1,male,453


In [44]:
# отношение выживших ко всем пассажирам для первого класса.
ps.sqldf("select 1.0*SUM(Survived)/COUNT(Survived) from df where Pclass==1")

Unnamed: 0,1.0*SUM(Survived)/COUNT(Survived)
0,0.62963


In [46]:
## тоже для всех трех классов
ps.sqldf("select Pclass,1.0*SUM(Survived)/COUNT(Survived) from df GROUP BY Pclass")

Unnamed: 0,Pclass,1.0*SUM(Survived)/COUNT(Survived)
0,1,0.62963
1,2,0.472826
2,3,0.242363
