![](https://nerdist.com/wp-content/uploads/2018/03/Monty-Pythons-Flying-Circus.jpg)

# Python
> Python - это свободный интерпретируемый объектно-ориентированный расширяемый встраиваемый язык программирования очень высокого уровня 

>*(Г.Россум, Ф.Л.Дж.Дрейк, Д.С.Откидач "Язык программирования Python").*

А если без цитат, то питон - это просто очень крутой язык, созданный в 1991 году [Великодушным пожизненным диктатором](https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BB%D0%B8%D0%BA%D0%BE%D0%B4%D1%83%D1%88%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B6%D0%B8%D0%B7%D0%BD%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B4%D0%B8%D0%BA%D1%82%D0%B0%D1%82%D0%BE%D1%80) Гвидо ван Россумом и называнный в честь любимого им шоу [Monty Python's Flying Circus](https://en.wikipedia.org/wiki/Monty_Python%27s_Flying_Circus)

# Где мы сейчас?
Jupyter Notebook - интерактивная среда для запуска программного кода в браузере. Удобный инструмент для анализа данных, который используется многими специалистами по data science. Позволяет выполнять отдельные ячейки с кодом, а не всю программу сразу, что очень удобно при исследованиях и последовательных манипуляциях с данными.

# Знакомство с Python

In [None]:
print("Hello world!")

Для сравнения - та же самая программа, но на `Java`
```java
class HelloWorld {
    public static void main(String[] args) {
        System.out.println("Hello World!");
    }
}
```

In [None]:
# Так записываются комментарии
# Чтобы посмотреть на документацию функции в Jupyter достаточно нажать на shift + Tab
print()

In [None]:
# Второй вариант - встроенная функция help
help(print)

## Переменные (variables)
Переменная - это объект, которому соответствует некоторое значение.

```python
my_variable = 2
```

Назвали нашу переменную `my_variable`, присвоили ей значение 2, при этом в питоне используется динамическая типизация, то есть тип вашей переменной определяется значением, которое ей соответствует, и тип переменной может изменяться вслед за изменением значения.

In [None]:
my_varibale = 2

type(my_varibale)

In [None]:
my_varibale = "hi"

type(my_varibale)

## Переопределение типа

In [None]:
number = "2"
print(number)
type(number)

In [None]:
number = int(number)
print(number)
type(number)

In [None]:
number = float(number)
print(number)
type(number)

In [None]:
print("The number is " + number)

In [None]:
print("The number is " + str(number))

## Арифметические операции

- Сложение: +
- Вычитание: -
- Умножение: *
- Деление: /
- Целочисленное деление: //
- Остаток от деления: %

In [None]:
print('Работаем с числами', 5, 'и', 2)
print('Cложение:', 5 + 2)
print('Вычитание:', 5 - 2)
print('Умножение:', 5 * 2)
print('Деление:', 5 / 2)
print('Целочисленное деление:', 5 // 2)
print('Остаток от деления:', 5 % 2)
print('Возведение в степень:', 5**2)

## Основные типы данных

Строка - string

In [None]:
print("Hello", "1")

Числа - int, float, ...

In [None]:
print(1, 2.45)

Булевы переменные - bool

In [None]:
print(5 > 2, 6 > 9)

Списки - `list`

In [None]:
["hello", 1, [2, 2]]

Кортежи - tuple, похожи на списки, но неизменяемые

In [None]:
("hi", 1, 5)

Словари - dict

In [None]:
{"key_1": [1, 2], 3: "value_2"}

Множества - set

In [None]:
set([1, 1, 1, 2, 3])

## Условный оператор


```python
if condition_1:
    do_something
elif condition_2:
    do_something_else
elif condition_3:
    do_that_thing_now
else:
    our_last_hope
```

In [None]:
if 2 > 1:
    print("Yeee")

## Цикл while

Цикл, который выполняет действие, пока истинно условие. Очень легко улететь в бесконечное число выполнений, если вовремя не остановиться

```python
while condition:
    do_that
```

In [None]:
x = 0
while x < 10:
    print(x)
    x += 1

## Цикл for
Цикл, который выполняет действия, пока не заканчиваются элементы в чем-нибудь итерируемом

```python
for i in iterable_object:
    do_something
```

In [None]:
for element in [1, 4, 7, 1, "hello", 89]:
    print(element)

In [None]:
print(range(5))
print(list(range(5)))
print(list(range(2, 5)))
print(list(range(2, 10, 2)))

In [None]:
for i in range(10):
    print("This is iteration number " + str(i))

## Функции

Можно написать и свои, а не только использовать встроенные

```python
def myFunction(argument_1, argument_2, ...):
    do_stuff_with_arguments
    return result
```

In [None]:
def power(number, p):
    return number ** 2 

In [None]:
power(4, 2)

# Библиотека Pandas

![](http://tripkendall.com/wp-content/uploads/2018/01/pandas_logo-1080x675.jpg)

[Pandas](http://pandas.pydata.org/) - библиотека для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.

In [None]:
import pandas as pd

## Загрузка и запись данных
Функции типа .read_формат и .to_формат считывают и записывают данные соответственно. Полный список можно найти в документации:
http://pandas.pydata.org/pandas-docs/stable/io.html

Научимся считывать данные в формате csv (comma separated value) функцией:

- [pd.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv): 

Аргументов у нее очень много, критически важные:
 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - названия строк

![](https://i.pinimg.com/originals/54/62/bd/5462bd4d6ec6150ce91fbc70ac46d5f7.jpg)

In [None]:
train = pd.read_csv('02_titanic_train.csv')

In [None]:
train

## Описание данных

| Variable | Definition | Key |
|----------|------------|-----|
|survival | Survival | 0 = No <br> 1 = Yes|
|pclass | Ticket class | 1 = 1st = Upper <br> 2 = 2nd = Middle <br> 3 = 3rd = Lower |
|sex | Sex | |
|Age | Age in years |  |
|sibsp | # of siblings <br> spouses aboard the Titanic | |
|parch | # of parents <br> children aboard the Titanic | |
|ticket | Ticket number | |
|fare | Passenger fare | |
|cabin | Cabin number | |
|embarked | Port of Embarkation | C = Cherbourg <br> Q = Queenstown <br> S = Southampton|

<b>age</b><br>
    Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

<b>sibsp</b><br>
    The dataset defines family relations in this way...<br>
    Sibling = brother, sister, stepbrother, stepsister<br>
    Spouse = husband, wife (mistresses and fiancés were ignored)

<b>parch</b><br>
    The dataset defines family relations in this way...<br>
    Parent = mother, father<br>
    Child = daughter, son, stepdaughter, stepson<br>
    Some children travelled only with a nanny, therefore parch=0 for them.

## pandas: head, tail

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html
    
```python
DataFrame.head(n=5)
```
Return the first n rows.

In [None]:
train.head()

In [None]:
train.head(2)

In [None]:
train.tail(2)

---
## pandas: shape

In [None]:
train.shape

---
## pandas: columns, index


In [None]:
train.columns

In [None]:
train.index

## pandas: T/transpose()

In [None]:
train.head(4).T

In [None]:
train.head(4).transpose()

In [None]:
transpose_train = train.T

In [None]:
transpose_train.index

---
## pandas: info

In [None]:
train.info()

---
## pandas: describe

In [None]:
train.describe()

In [None]:
train.describe(percentiles=[0.9, 0.99])

---
## pandas: Series

In [None]:
train['Name']

In [None]:
type(train['Name'])

In [None]:
## как пройти циклом for по всем именам? и вывести например всех 'John'
for i in train['Name']:
    if ('John ' in i) or (i.endswith('John')):
        print(i)

---

## pandas: map

In [None]:
'skillfactory'

In [None]:
len('skillfactory')

In [None]:
train['Name'].map(len)

In [None]:
def is_Mr(s):
    return 'Mr.' in s

In [None]:
is_Mr('Mr. machine learning')

In [None]:
train['Name'].map(lambda s: 'Mr. ' in s)

In [None]:
train['is_Mr'] = train['Name'].map(lambda s: 'Mr.' in s)
train.head()

In [None]:
# тот же результат, но уже без лямбды и map
train['Name'].str.contains('Mr. ')

In [None]:
train['Name'].is_unique

In [None]:
train['PassengerId'].is_unique

In [None]:
train['Age'].is_unique

---
## pandas: select columns

In [None]:
train.head()

In [None]:
train[['PassengerId', 'Embarked', 'Pclass']]

---
## pandas: select rows

In [None]:
train[train['Sex'] == 'male'].head()

In [None]:
train[train['PassengerId'] == 666]

In [None]:
train[train['Age'].isnull()].head()

In [None]:
train[~train['Age'].isnull()].head()

In [None]:
train[
    train['Embarked'].isin(['Q', 'C']) & (train['Age'] > 40)
].head()

In [None]:
train[
    train['Embarked'].isin(['Q', 'C']) | (train['Age'] > 40)
].head()

---
## pandas: loc, iloc

In [None]:
tmp = train[
    train['Embarked'].isin(['Q', 'C']) & (train['Age'] > 40)
].head()

In [None]:
tmp

In [None]:
tmp.loc[54:116, 'Pclass':'Parch']

In [None]:
tmp.iloc[1:4, 2:8]

---
## pandas: sort

In [None]:
train.sort_values('Name')

In [None]:
train.sort_values('Fare', ascending=False)

---
## pandas: create from list

In [None]:
pd.DataFrame(
    [[1,2,3], [6,None, 7]]
)

In [None]:
df_embarked = pd.DataFrame(
    [
        ['C', 'Cherbourg'],
        ['Q', 'Queenstown'],
        ['S', 'Southampton']
    ],
    columns=['id', 'City']
)

In [None]:
df_embarked

---
## pandas: merge
https://pandas.pydata.org/pandas-docs/stable/merging.html

In [None]:
pd.merge(
    train,
    df_embarked,
    left_on='Embarked',
    right_on='id'
)

---
## pandas: groupby

In [None]:
train[['PassengerId', 'Sex']].groupby('Sex').count()

In [None]:
train[['Age', 'Sex']].groupby('Sex').median()

---
## pandas: pivot_table

In [None]:
d = train.pivot_table(
    'PassengerId', 'Pclass', 'Survived', 'count')

In [None]:
d.sum(1)

In [None]:
# процент выживших/погибших по классам
d.div(d.sum(1), axis='rows')

# Visualization

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
import seaborn as sns

In [None]:
sns.factorplot('Sex',data=train,kind='count');

In [None]:
sns.factorplot('Pclass',data=train,kind='count');

In [None]:
_, ax = plt.subplots(figsize=(20,8))

train.pivot_table(values='PassengerId', index='Pclass', columns='Survived', aggfunc='count').plot(
    kind='bar', stacked=True, ax=ax
)
plt.show()

In [None]:
sns.factorplot('Pclass','Survived',data=train,hue='Sex');

In [None]:
train['Age'].hist(bins=25)
plt.title("Распределение возраста  пассажиров");

In [None]:
train['Age'].hist(bins=25, normed=True)
train['Age'].plot(kind='kde')

plt.xlim(0, 80)
plt.title("Распределение возраста  пассажиров");

In [None]:
train['Age'][train.Sex=="male"].hist(alpha=0.6, label="Male")
train['Age'][train.Sex=="female"].hist(alpha=0.6, label="Female")
plt.legend()
plt.title("Распределение возраста  пассажиров");

In [None]:
train['Age'][train.Sex=="male"].hist(alpha=0.6, label="Male", normed=True)
train['Age'][train.Sex=="female"].hist(alpha=0.6, label="Female", normed=True)
plt.legend()
plt.title("Распределение возраста  пассажиров");

In [None]:
train[train.Sex=='male']

In [None]:
_, axes = plt.subplots(2, 2, sharey=True, figsize=(15,12))

sns.boxplot(x='Survived', y='Age', data=train[train.Sex=='male'], ax=axes[0, 0]);
sns.boxplot(x='Survived', y='Age', data=train[train.Sex=='female'], ax=axes[0, 1]);

sns.violinplot(x='Survived', y='Age', data=train[train.Sex=='male'], ax=axes[1, 0]);
sns.violinplot(x='Survived', y='Age', data=train[train.Sex=='female'], ax=axes[1, 1]);

In [None]:
df_numeric = train.drop(['Name', 'Ticket', 'Cabin'], axis=1)

In [None]:
df_numeric['Age'] = df_numeric['Age'].fillna(-1)

In [None]:
plt.figure(figsize=(12, 10))
sns.heatmap(df_numeric.corr('kendall'), annot=True);

In [None]:
df_numeric.hist(figsize=(20, 12));

In [None]:
sns.pairplot(df_numeric, hue='Survived');