Импортируем библиотеку Pandas - библиотеку для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.

In [4]:
import pandas as pd

## Загрузка и запись данных
Функции типа .read_формат и .to_формат считывают и записывают данные соответственно. Полный список можно найти в документации:
http://pandas.pydata.org/pandas-docs/stable/io.html

Научимся считывать данные в формате csv (comma separated value) функцией:

- [pd.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv): 

Аргументов у нее очень много, критически важные:
 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - названия строк

In [5]:
train = pd.read_csv('00_titanic_train.csv') #данный файл должен быть размещен в той же папке, что и этот notebook

In [6]:
train #вывод датафрейма.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## Описание данных

| Variable | Definition | Key |
|----------|------------|-----|
|survival | Survival | 0 = No <br> 1 = Yes|
|pclass | Ticket class | 1 = 1st = Upper <br> 2 = 2nd = Middle <br> 3 = 3rd = Lower |
|sex | Sex | |
|Age | Age in years |  |
|sibsp | # of siblings <br> spouses aboard the Titanic | |
|parch | # of parents <br> children aboard the Titanic | |
|ticket | Ticket number | |
|fare | Passenger fare | |
|cabin | Cabin number | |
|embarked | Port of Embarkation | C = Cherbourg <br> Q = Queenstown <br> S = Southampton|

<b>age</b><br>
    Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

<b>sibsp</b><br>
    The dataset defines family relations in this way...<br>
    Sibling = brother, sister, stepbrother, stepsister<br>
    Spouse = husband, wife (mistresses and fiancés were ignored)

<b>parch</b><br>
    The dataset defines family relations in this way...<br>
    Parent = mother, father<br>
    Child = daughter, son, stepdaughter, stepson<br>
    Some children travelled only with a nanny, therefore parch=0 for them.

## pandas: head, tail

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html
    
```python
DataFrame.head(n=5)
```
Возвращает первые n строк.

In [7]:
type(train)

pandas.core.frame.DataFrame

In [8]:
train.head() #возвращает первые 5 строк

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [9]:
train.head(2) #возвращает первые две строки

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [10]:
train.tail(2) #возвращает последние две строки

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


---
## pandas: shape

In [11]:
train.shape #возвращает количество строк и столбцов в датафрейме

(891, 12)

---
## pandas: columns, index


In [12]:
train.columns #возвращает список всех столбцов

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [13]:
for i in train.columns: #возвращает список всех столбцов (в виде столбца)
    print (i)

PassengerId
Survived
Pclass
Name
Sex
Age
SibSp
Parch
Ticket
Fare
Cabin
Embarked


In [14]:
train.index

RangeIndex(start=0, stop=891, step=1)

## pandas: T/transpose()

In [15]:
train.head(4).T #транспонирует матрицу, не меняет исходную

Unnamed: 0,0,1,2,3
PassengerId,1,2,3,4
Survived,0,1,1,1
Pclass,3,1,3,1
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th...","Heikkinen, Miss. Laina","Futrelle, Mrs. Jacques Heath (Lily May Peel)"
Sex,male,female,female,female
Age,22,38,26,35
SibSp,1,1,0,1
Parch,0,0,0,0
Ticket,A/5 21171,PC 17599,STON/O2. 3101282,113803
Fare,7.25,71.2833,7.925,53.1


In [16]:
train.head(4).transpose()

Unnamed: 0,0,1,2,3
PassengerId,1,2,3,4
Survived,0,1,1,1
Pclass,3,1,3,1
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th...","Heikkinen, Miss. Laina","Futrelle, Mrs. Jacques Heath (Lily May Peel)"
Sex,male,female,female,female
Age,22,38,26,35
SibSp,1,1,0,1
Parch,0,0,0,0
Ticket,A/5 21171,PC 17599,STON/O2. 3101282,113803
Fare,7.25,71.2833,7.925,53.1


In [17]:
transpose_train = train.T

In [18]:
transpose_train.index

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [19]:
transpose_train.columns

RangeIndex(start=0, stop=891, step=1)

---
## pandas: info

In [20]:
train.info() #дает нам справку по конкретному датафрейму

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [21]:
df = pd.DataFrame([[1, [1,2]], [2, [3,4]]], columns=['int', 'list']) #задаем датафрейм

In [22]:
df.info() #получем информацию о датафрейме

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   int     2 non-null      int64 
 1   list    2 non-null      object
dtypes: int64(1), object(1)
memory usage: 160.0+ bytes


In [23]:
df['list'] #обращаемся к конкретному столбцу датафрейма

0    [1, 2]
1    [3, 4]
Name: list, dtype: object

In [24]:
df['list'].map(len) #пояснения см. далее

0    2
1    2
Name: list, dtype: int64

---
## pandas: describe

In [25]:
train.describe() #описательная статистика

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [26]:
train.describe(percentiles=[0.9, 0.99])

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
90%,802.0,1.0,3.0,50.0,1.0,2.0,77.9583
99%,882.1,1.0,3.0,65.87,5.0,4.0,249.00622
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


---
## pandas: Series

In [27]:
train['Name'] #обращение к конкретному столбцу датафрейма

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [28]:
type(train['Name'])

pandas.core.series.Series

In [29]:
## как пройти циклом for по всем именам? и вывести например всех 'John'
for i in train['Name']:
    if ('John ' in i) or (i.endswith('John')): #Джон написан с пробелом ('John ') чтобы искать только полное имя Джон.
        print(i)

Cumings, Mrs. John Bradley (Florence Briggs Thayer)
Turpin, Mrs. William John Robert (Dorothy Ann Wonnacott)
Rogers, Mr. William John
Doling, Mrs. John T (Ada Julia Bone)
Barton, Mr. David John
Turpin, Mr. William John Robert
Cribb, Mr. John Hatfield
Bengtsson, Mr. John Viktor
Goldsmith, Master. Frank John William "Frankie"
Baumann, Mr. John D
Bourke, Mr. John
Perkin, Mr. John Henry
Mellors, Mr. William John
Lovell, Mr. John Hall ("Henry")
Sage, Mr. George John Jr
Goldsmith, Mrs. Frank John (Emily Alice Brown)
Adams, Mr. John
Matthews, Mr. William John
Smart, Mr. John Montgomery
Farthing, Mr. John
Goldsmith, Mr. Frank John
Davies, Master. John Morgan Jr
Thayer, Mr. John Borland Jr
Simmons, Mr. John
Flynn, Mr. John Irwin ("Irving")
Rush, Mr. Alfred George John
Thayer, Mrs. John Borland (Marian Longstreth Morris)
Ross, Mr. John Hugo
Jarvis, Mr. John Denzil
Chapman, Mr. John Henry
Horgan, Mr. John
Bowen, Mr. David John "Dai"
Bourke, Mrs. John (Catherine)
Weir, Col. John
Thayer, Mr. John B

---

## pandas: map

Для объяснения работы данного метода cоздадим два объекта Series:

In [30]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b", 3: "c"})
x

one      1
two      2
three    3
dtype: int64

In [31]:
y

1    a
2    b
3    c
dtype: object

Сопоставляем значения серии x значениям серии y

In [32]:
x.map(y)

one      a
two      b
three    c
dtype: object

Если между значением серии y и индексной меткой серии x не будет найдено соответствие, будет выдано значение NaN

In [33]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b"})

In [34]:
x

one      1
two      2
three    3
dtype: int64

In [35]:
y

1    a
2    b
dtype: object

In [36]:
x.map(y)

one        a
two        b
three    NaN
dtype: object

In [37]:
'питон'

'питон'

In [38]:
len('питон')

5

In [39]:
train['Name'].map(len) #для каждого элемента столбца Name примени функцию len - так работает map - возвращает новый столбец.

0      23
1      51
2      22
3      44
4      24
       ..
886    21
887    28
888    40
889    21
890    19
Name: Name, Length: 891, dtype: int64

# Функции

Функции в Python это объекты, принимающие аргументы и возвращающие значение. Функции определяются с помощью инструкции def:

In [40]:
def sum(x, y):
    return x + y

Функции позволяют упаковывать часть кода для его последующего повторного вызова. В примере выше определена функция с именем sum, которая принимает два параметра x и y, и возвращает результат их суммы. Обратившись к этой функции по имени и задав параметры, мы можем получить результат:

In [41]:
sum(34, 12)

46

Инструкция return позволяет вернуть значение, которое нам необходимо. Это необходимо для того, чтобы получить определенный результат и затем дальше использовать его в программе.
Функция может быть любой сложности, внутри конструкции def -> return, мы можем написать любой код. Смысл в функциях заключается в том, чтобы не писать один и тот же код повторно, а просто, в нужный момент, вызывать заранее написанную функцию. Так же функция может быть без параметров или может не возвращать какое-то конкретное значение или не заканчиваться инструкцией return вовсе:


In [42]:
def fun():
    var = 'Python'
    if len(var) >= 6:
        print(var)
    return                       # В этом случае функция вернет значение None

Код под инструкцией def будет относиться к функции до тех пор, пока он вложен в эту инструкцию, то есть отступает от def.

Функции бывают разных типов:
- Глобальные функции - такие функции доступны из любой части кода файла, в котором они написаны.
- Локальные функции - функции, объявленные внутри других функций. Вызвать их можно только внутри функции, в которой они объявлены. Их удобно использовать, если необходима небольшая вспомогательная функция, которая больше нигде не используется.
- Лямбда-функции - особые, анонимные функции, имеющие ряд ограничений, по сравнению с обычными функциями. Они локально решают единственную задачу. Применение такой функции выглядит, как выражение, давайте посмотрим на примере:


In [43]:
# Обычная функция
def search_len(arg_1):
    return len(arg_1)

# Лямбда-функция
result = lambda x: len(x)

Обычно, лямбда-функции применяют при вызове функций, которые в качестве аргументов содержат функции. Проблема использования лямбда-функций состоит в том, что иногда усложняется читаемость кода.

In [44]:
func = lambda x, y: x + y
func(1, 2)


3

In [45]:
def is_Mr(s): #определяем функцию, которая определяет есть ли вхождения Mr. в строке s.
    return 'Mr.' in s

In [46]:
is_Mr('Mr. machine learning')

True

In [47]:
train['Name'].map(is_Mr) #применяем функцию is_Mr к столбцу датафрейма.

0       True
1      False
2      False
3      False
4       True
       ...  
886    False
887    False
888    False
889     True
890     True
Name: Name, Length: 891, dtype: bool

In [48]:
train['Name'].map(lambda s: 'Mr. ' in s) #лямбда функция позволяет прописать свою функцию в одну строку не 
                                         #используя иструмент def, что считается более удобным вариантом.

0       True
1      False
2      False
3      False
4       True
       ...  
886    False
887    False
888    False
889     True
890     True
Name: Name, Length: 891, dtype: bool

In [49]:
train['is_Mr'] = train['Name'].map(lambda s: 'Mr.' in s) #чтобы результат выполнения функции куда-то сохранялся, мы создаем
train.head()                                             #дополнительный столбец, в который и запишется результат ф-ции лябда

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,False
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,False
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,True


In [50]:
#Если мы хотим создать еще один датафрейм, причем, не связанный со своим прородителем (тут понимается что 
#новый датафрейм не будет изменяться когда меняется его прародитель) нужно использовать инструмент copy
#в противном случае мы получим два датафрейма, которые по сути один и тот же и все изменения отражаются в обоих.
new_train = train.copy()
train.head()
new_train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,False
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,False
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,True


In [51]:
# тот же результат, но уже без лямбды и map
train['Name'].str.contains('Mr. ')

0       True
1      False
2      False
3      False
4       True
       ...  
886    False
887    False
888    False
889     True
890     True
Name: Name, Length: 891, dtype: bool

In [52]:
train['Name'].is_unique #проверка столбца на уникальность, то есть присутствуют ли повторяющиеся значения или нет.

True

In [53]:
train['PassengerId'].is_unique

True

In [54]:
train['Age'].is_unique

False

---
## pandas: select columns

In [55]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,False
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,False
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,True


In [56]:
train[['PassengerId', 'Embarked', 'Pclass']] #допустим нам не нужен весь датафрейм, точнее все его столбцы, можно мануально 
                                            #задать только те стобцы, с которыми нам нужно работать.

Unnamed: 0,PassengerId,Embarked,Pclass
0,1,S,3
1,2,C,1
2,3,S,3
3,4,S,1
4,5,S,3
...,...,...,...
886,887,S,2
887,888,S,1
888,889,S,3
889,890,C,1


---
## pandas: select rows

In [57]:
train[train['Sex'] == 'male'].head() #задание фильтров в датафрейме

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,True
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,True
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,True
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,True
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,False


In [58]:
train[train['PassengerId'] == 72]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
71,72,0,3,"Goodwin, Miss. Lillian Amy",female,16.0,5,2,CA 2144,46.9,,S,False


In [59]:
train[train['Age'].isnull()].head() #выведи только те строки для которых возраст пустое значение

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,True
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,True
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,False
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,True
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,False


In [60]:
train[~train['Age'].isnull()].head() #здесь наоборот выводятся только те строки, для которых в поле Возраст не стоит пустота.
                                     #для этого достаточно поставить тильду, по своей сути она является отрицанием.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,False
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,False
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,True


In [61]:
train[
    train['Embarked'].isin(['Q', 'C']) & (train['Age'] > 40) #составной фильтр по порту посадки и возрасту, логическое и
].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C,False
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,True
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,True
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,True
155,156,0,1,"Williams, Mr. Charles Duane",male,51.0,0,1,PC 17597,61.3792,,C,True


In [62]:
train[
    train['Embarked'].isin(['Q', 'C']) | (train['Age'] > 40) #составной фильтр по порту посадки и возрасту, логическое или
].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,False
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,True
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,True
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,False
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,False


---
## pandas: loc, iloc

Значения объекта Series можно отбирать с помощью меток индекса, воспользовавшись свойством .loc. В случае отсутствия метки в индексе вызывается исключение. Для датафрейма метод .loc позволят выбрать строки. При выборе одной строки, результат - это объект Series. А при выборе нескольких строк, результат отбора - объект DataFrame. Второй подход к отбору значений Series и строк DataFrame - это использование номера позиции в индексе. Данную задачу решает свойство .iloc.

In [63]:
tmp = train[
    train['Embarked'].isin(['Q', 'C']) & (train['Age'] > 40)
].head()

In [64]:
tmp

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C,False
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,True
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,True
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,True
155,156,0,1,"Williams, Mr. Charles Duane",male,51.0,0,1,PC 17597,61.3792,,C,True


In [65]:
tmp.loc[52] #возвращает значения всех полей в 52 строке (здесь счет строк как в первоначальном датафрейме)

PassengerId                                          53
Survived                                              1
Pclass                                                1
Name           Harper, Mrs. Henry Sleeper (Myna Haxtun)
Sex                                              female
Age                                                  49
SibSp                                                 1
Parch                                                 0
Ticket                                         PC 17572
Fare                                            76.7292
Cabin                                               D33
Embarked                                              C
is_Mr                                             False
Name: 52, dtype: object

In [66]:
tmp.iloc[0] #возвращает значения всех полей в 0 строке (здесь счет строк уже с учетом примененного фильтра)

PassengerId                                          53
Survived                                              1
Pclass                                                1
Name           Harper, Mrs. Henry Sleeper (Myna Haxtun)
Sex                                              female
Age                                                  49
SibSp                                                 1
Parch                                                 0
Ticket                                         PC 17572
Fare                                            76.7292
Cabin                                               D33
Embarked                                              C
is_Mr                                             False
Name: 52, dtype: object

In [67]:
tmp.iloc[4]

PassengerId                            156
Survived                                 0
Pclass                                   1
Name           Williams, Mr. Charles Duane
Sex                                   male
Age                                     51
SibSp                                    0
Parch                                    1
Ticket                            PC 17597
Fare                               61.3792
Cabin                                  NaN
Embarked                                 C
is_Mr                                 True
Name: 155, dtype: object

In [68]:
tmp.loc[54:116, 'Pclass':'Parch']

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch
54,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1
96,1,"Goldschmidt, Mr. George B",male,71.0,0,0
116,3,"Connors, Mr. Patrick",male,70.5,0,0


In [69]:
tmp.iloc[1:4, 2:8]

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch
54,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1
96,1,"Goldschmidt, Mr. George B",male,71.0,0,0
116,3,"Connors, Mr. Patrick",male,70.5,0,0


---
## pandas: sort

Объект Dataframe можно сортировать по значениям в одном или нескольких столбцах. Для этого имена столбцов следует передать в качестве значения параметра "by" метода sort_values. По умолчанию данные сортируются в порядке возрастания, но можно отсортировать и в порядке убывания. Используем параметр ascending.

In [70]:
train.sort_values('Name')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.5500,,S,True
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.2500,,S,True
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.2500,,S,False
308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0000,,C,True
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
286,287,1,3,"de Mulder, Mr. Theodore",male,30.0,0,0,345774,9.5000,,S,True
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5000,,S,True
361,362,0,2,"del Carlo, Mr. Sebastiano",male,29.0,1,0,SC/PARIS 2167,27.7208,,C,True
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5000,,S,True


In [84]:
train.sort_values('Fare', ascending=False)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C,False
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C,True
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C,True
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0000,C23 C25 C27,S,False
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0000,C23 C25 C27,S,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
633,634,0,1,"Parr, Mr. William Henry Marsh",male,,0,0,112052,0.0000,,S,True
413,414,0,2,"Cunningham, Mr. Alfred Fleming",male,,0,0,239853,0.0000,,S,True
822,823,0,1,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.0000,,S,False
732,733,0,2,"Knight, Mr. Robert J",male,,0,0,239855,0.0000,,S,True


---
## pandas: create from list

In [72]:
pd.DataFrame( #задаем датафрейм
    [[1,2,3], [6,None, 7]]
)

Unnamed: 0,0,1,2
0,1,2.0,3
1,6,,7


In [73]:
df_embarked = pd.DataFrame( #новый датафрейм, который расшифровывает порты посадки
    [
        ['C', 'Cherbourg'],
        ['Q', 'Queenstown'],
        ['S', 'Southampton']
    ],
    columns=['id', 'City']
)

In [74]:
df_embarked

Unnamed: 0,id,City
0,C,Cherbourg
1,Q,Queenstown
2,S,Southampton


---
## pandas: merge
https://pandas.pydata.org/pandas-docs/stable/merging.html

**Аргументы функции merge**


| Аргумент        | Описание
| ------------- |:-------------:|
|left|Объект DataFrame в левой части операции слияния|
|right|Объект DataFrame в правой части операции слияния|
|how|Допустимые значения: 'inner', 'outer', 'left', 'right '|
|on|Имена столбцов, по которым производится соединение. Должны присутствовать в обоих объектах DataFrame. Если не заданы и не указаны никакие другие ключи соединения, то используются имена столбцов, общих для обоих объектов|
|left_on|Столбцы левого DataFrame, используемые как ключи соединения|
|right_on|Столбцы правого DataFrame, используемые как ключи соединения|
|left index|Использовать индекс строк левого DataFrame в качестве его ключа соединения (или нескольких ключей в случае мультииндекса)|
|right_index|То же, что left_index, но для правого DataFrame|
|sort|Сортировать слитые данные лексикографически по ключам соединения по умолчанию True. Иногда при работе с большими наборами данных лучше отключить
|suffixes|Кортеж строк, которые дописываются в конец совпадающих имен столбцов;
|сору|Если равен False, то в некоторых особых случаях разрешается не копировать данные в результирующую структуру.|

In [75]:
pd.merge( #данная функция merge соединяет два датафрейма в один по нами определенному правилу.
    train,
    df_embarked,
    left_on='Embarked',
    right_on='id'
)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr,id,City
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,True,S,Southampton
1,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,False,S,Southampton
2,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,False,S,Southampton
3,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,True,S,Southampton
4,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,True,S,Southampton
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
884,791,0,3,"Keane, Mr. Andrew ""Andy""",male,,0,0,12460,7.7500,,Q,True,Q,Queenstown
885,826,0,3,"Flynn, Mr. John",male,,0,0,368323,6.9500,,Q,True,Q,Queenstown
886,829,1,3,"McCormack, Mr. Thomas Joseph",male,,0,0,367228,7.7500,,Q,True,Q,Queenstown
887,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q,False,Q,Queenstown


In [76]:
pd.concat([train.head(), train.tail()]) #соединяем два датафрейма в один просто ставя один на другой, операция конкатенация.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_Mr
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,False
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,False
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,True
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S,False
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S,False
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S,False
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,True
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,True


---
## pandas: groupby

### Механизм GroupBy

![image.png](attachment:image.png)

In [77]:
train[['PassengerId', 'Sex']].groupby('Sex').count() #делаем группировку по ИД и полу и считаем количество каждого

Unnamed: 0_level_0,PassengerId
Sex,Unnamed: 1_level_1
female,314
male,577


In [78]:
train[['Age', 'Sex']].groupby('Sex').median() #делаем группировку по возрасту и полу и считаем медиану по возрасту

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,27.0
male,29.0


---
## pandas: pivot_table

In [79]:
d = train.pivot_table(
    'PassengerId', 'Pclass', 'Survived', 'count') #Создаем сводную таблицу из указанных столбцов

In [80]:
d

Survived,0,1
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80,136
2,97,87
3,372,119


In [81]:
d.sum(1)

Pclass
1    216
2    184
3    491
dtype: int64

In [82]:
# процент выживших/погибших по классам
f

Survived,0,1
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.37037,0.62963
2,0.527174,0.472826
3,0.757637,0.242363
