In [1]:
import numpy as np
import pandas as pd

Pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy.

Мы сейчас рассмотрим следующее: 
    - посмотрим два объекта из библиотеки pandas: Series и DataFrame.
    - пощупаем что это вообще такое.

In [2]:
a = pd.Series(data=['влад', 'миша', 'илья', 'зарина', 'антон'])

In [5]:
# мы можем создавать серии со своей индексацией
a = pd.Series(data=['амир', 'миша', 'илья', 'зарина', 'игорь'], 
              index=[101,102,103,104,105])

In [6]:
a

101      амир
102      миша
103      илья
104    зарина
105     игорь
dtype: object

In [7]:
# и обращаться по индексу
a[103]

'илья'

In [8]:
# внутри все хранится в виде np.array
a.values

array(['амир', 'миша', 'илья', 'зарина', 'игорь'], dtype=object)

In [9]:
a.index

Int64Index([101, 102, 103, 104, 105], dtype='int64')

In [10]:
# мы можем создать Series вот так:

a = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})

In [11]:
a

a    1
b    2
c    3
d    4
dtype: int64

In [12]:
# мы можем на лету поменять индекс

a.index=[1,2,3,4]

In [13]:
a

1    1
2    2
3    3
4    4
dtype: int64

In [14]:
# у Series есть поле name

a.name='fofoofof'

In [15]:
a

1    1
2    2
3    3
4    4
Name: fofoofof, dtype: int64

In [16]:
a.mean()

2.5

In [17]:
a.median()

2.5

In [18]:
a.quantile(q=0.7)

3.0999999999999996

In [19]:
np.sqrt(a)

1    1.000000
2    1.414214
3    1.732051
4    2.000000
Name: fofoofof, dtype: float64

In [20]:
a ** 2

1     1
2     4
3     9
4    16
Name: fofoofof, dtype: int64

___________

In [55]:
d = {'колонка_1': [1, 2, 3, 4, 5], 'колонка_2': ['амир', 'миша', 'илья', 'зарина', 'игорь']}
df = pd.DataFrame(data=d)

In [22]:
df

Unnamed: 0,колонка_1,колонка_2
0,1,амир
1,2,миша
2,3,илья
3,4,зарина
4,5,игорь


In [23]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
}, index=['KZ', 'RU', 'BY', 'UA'])

In [24]:
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


![](https://pbpython.com/images/pandas-dataframe-shadow.png)

In [29]:
# пандас умеет загружать данные из разных источников.
# TODO загрузите данные из tsv файла
titanik_csv = pd.read_csv("titanik.tsv", sep="|",index_col=0)

##### 1. посмотреть как выглядят данные

In [30]:
# вывести первые n элементов (по умолчанию n=5)
titanik_csv.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [32]:
# TODO вывести 10 последних элементов (по умолчанию 5)
titanik_csv.tail(10)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1299,3,0,"Yasbeck, Mr. Antoni",male,27.0,1,0,2659,14.4542,,C,C,,
1300,3,1,"Yasbeck, Mrs. Antoni (Selini Alexander)",female,15.0,1,0,2659,14.4542,,C,,,
1301,3,0,"Youseff, Mr. Gerious",male,45.5,0,0,2628,7.225,,C,,312.0,
1302,3,0,"Yousif, Mr. Wazli",male,,0,0,2647,7.225,,C,,,
1303,3,0,"Yousseff, Mr. Gerious",male,,0,0,2627,14.4583,,C,,,
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0,0,0,2670,7.225,,C,,,
1308,3,0,"Zimmerman, Mr. Leo",male,29.0,0,0,315082,7.875,,S,,,


In [33]:
# TODO вывести 10 случайных элементов (по умолчанию 5)
titanik_csv.sample(10)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
375,2,0,"Collander, Mr. Erik Gustaf",male,28.0,0,0,248740,13.0,,S,,,"Helsinki, Finland Ashtabula, Ohio"
198,1,1,"Marvin, Mrs. Daniel Warner (Mary Graham Carmic...",female,18.0,1,0,113773,53.1,D30,S,10,,"New York, NY"
1176,3,0,"Sage, Mr. Douglas Bullen",male,,8,2,CA. 2343,69.55,,S,,,
169,1,0,"Isham, Miss. Ann Elizabeth",female,50.0,0,0,PC 17595,28.7125,C49,C,,,"Paris, France New York, NY"
1275,3,0,"Vander Planke, Mr. Leo Edmondus",male,16.0,2,0,345764,18.0,,S,,,
428,2,1,"Hamalainen, Mrs. William (Anna)",female,24.0,0,2,250649,14.5,,S,4,,"Detroit, MI"
1256,3,1,"Touma, Master. Georges Youssef",male,7.0,1,1,2650,15.2458,,C,C,,
913,3,1,"Karlsson, Mr. Einar Gervasius",male,21.0,0,0,350053,7.7958,,S,13,,
387,2,1,"Davies, Mrs. John Morgan (Elizabeth Agnes Mary...",female,48.0,0,2,C.A. 33112,36.75,,S,14,,"St Ives, Cornwall / Hancock, MI"
996,3,0,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S,,,


In [34]:
# тк pandas сделан на основе numpy, то мы можем так же стандартно посмотреть размерность таблички через
# свойство shape

titanik_csv.shape

(1309, 14)

##### 2. начнем смотреть столбцы ближе.

Для того чтобы понять какой столбец (признак) что означает почитайте об этом в разделе Data
https://www.kaggle.com/c/titanic/data . 

Пока вы не запомните, может быть полезно выписать название всех столбцов и что они значат прямо в нотбук - сюда:

* Survived - 
* Pclass - 
* Name - 
* Sex - 
* Age - 
* SibSp - 
* Parch - 
* Ticket - 
* Fare - 
* Cabin - 
* Embarked -

несколько полезных методов которые помогут быстро посмотреть общие характеристики данных:

1. .describe() - Выведет количество, среднее, стандартное отклонение, квантили, минимум и максимум всех **числовых признаков** (столбцов)
2. .columns - это поле а не метод (в конце скобки не надо писать). Выведет название всех колонок.
3. .count() - выведет количесто **не пропущенных** значений в каждом столбце (not nan значений)
4. .nunique() - выведет количество уникальных значений в каждом столбце
5. .dtypes - это поле а не метод (в конце скобки не надо писать). Выведет тип переменной хранящейся в каждом столбце


In [35]:
titanik_csv.describe()

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479,160.809917
std,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668,97.696922
min,1.0,0.0,0.1667,0.0,0.0,0.0,1.0
25%,2.0,0.0,21.0,0.0,0.0,7.8958,72.0
50%,3.0,0.0,28.0,0.0,0.0,14.4542,155.0
75%,3.0,1.0,39.0,1.0,0.0,31.275,256.0
max,3.0,1.0,80.0,8.0,9.0,512.3292,328.0


In [36]:
titanik_csv.count()

pclass       1309
survived     1309
name         1309
sex          1309
age          1046
sibsp        1309
parch        1309
ticket       1309
fare         1308
cabin         295
embarked     1307
boat          486
body          121
home.dest     745
dtype: int64

In [37]:
titanik_csv.nunique()

pclass          3
survived        2
name         1307
sex             2
age            98
sibsp           7
parch           8
ticket        929
fare          281
cabin         186
embarked        3
boat           27
body          121
home.dest     369
dtype: int64

In [38]:
# там где строки пандас по умолчанию пишет object
# иногда полезно посмотреть что тут.

titanik_csv.dtypes

pclass         int64
survived       int64
name          object
sex           object
age          float64
sibsp          int64
parch          int64
ticket        object
fare         float64
cabin         object
embarked      object
boat          object
body         float64
home.dest     object
dtype: object

In [None]:
#ToDO посмотреть null values и типы колонок

мы можем напрямую обращаться к столбцу, столбцам, строке и строкам.

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

In [39]:
# самый простой способ обратиться к столбцу - это написать его название через точку
# давайте обратимся к полю sex
# нам вернется pd.Series - прямо вся колонка

titanik_csv.sex

0       female
1         male
2       female
3         male
4       female
5         male
6       female
7         male
8       female
9         male
10        male
11      female
12      female
13      female
14        male
15        male
16        male
17      female
18      female
19        male
20        male
21      female
22        male
23      female
24      female
25        male
26        male
27      female
28      female
29        male
         ...  
1279    female
1280      male
1281      male
1282      male
1283      male
1284      male
1285      male
1286    female
1287      male
1288      male
1289      male
1290    female
1291      male
1292      male
1293      male
1294      male
1295      male
1296      male
1297      male
1298      male
1299      male
1300    female
1301      male
1302      male
1303      male
1304    female
1305    female
1306      male
1307      male
1308      male
Name: sex, Length: 1309, dtype: object

In [40]:
# еще можно обратиться через квадратные скобки
# эффект будет совершенно таким же

titanik_csv["sex"]

0       female
1         male
2       female
3         male
4       female
5         male
6       female
7         male
8       female
9         male
10        male
11      female
12      female
13      female
14        male
15        male
16        male
17      female
18      female
19        male
20        male
21      female
22        male
23      female
24      female
25        male
26        male
27      female
28      female
29        male
         ...  
1279    female
1280      male
1281      male
1282      male
1283      male
1284      male
1285      male
1286    female
1287      male
1288      male
1289      male
1290    female
1291      male
1292      male
1293      male
1294      male
1295      male
1296      male
1297      male
1298      male
1299      male
1300    female
1301      male
1302      male
1303      male
1304    female
1305    female
1306      male
1307      male
1308      male
Name: sex, Length: 1309, dtype: object

In [41]:
# через values мы можем получить np.array который хранится в вернувшемся объекте pd.Series

titanik_csv.sex.values

array(['female', 'male', 'female', ..., 'male', 'male', 'male'],
      dtype=object)

In [42]:
# силами pandas мы можем посмотреть различные значения содержащиеся в объекте pd.Series
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html
# обратите внимание на доп параметры этой функции

titanik_csv.sex.value_counts()

male      843
female    466
Name: sex, dtype: int64

> Вопрос Кого больше мужчин или женщин?

> ответ:

> Вопрос - объект какого типа возвращается после вызова  функции value_counts() ?

> ответ:


в пандасе мы можем получить срез сразу по нескольким колонкам, тогда вернется новый DataFrame а не Series

In [43]:
titanik_csv[ ['sex', 'age'] ]

Unnamed: 0,sex,age
0,female,29.0000
1,male,0.9167
2,female,2.0000
3,male,30.0000
4,female,25.0000
5,male,48.0000
6,female,63.0000
7,male,39.0000
8,female,53.0000
9,male,71.0000


Самый каноничный способ обращения к полям - через loc или iloc

loc - позволяет обратиться по названию индексов, 

iloc - по нумерованному значению (то есть обращаемся через цифры, начиная с нуля)

In [45]:
titanik_csv.loc[:100, 'sex']

0      female
1        male
2      female
3        male
4      female
5        male
6      female
7        male
8      female
9        male
10       male
11     female
12     female
13     female
14       male
15       male
16       male
17     female
18     female
19       male
20       male
21     female
22       male
23     female
24     female
25       male
26       male
27     female
28     female
29       male
        ...  
71       male
72     female
73     female
74       male
75       male
76     female
77       male
78     female
79     female
80       male
81       male
82     female
83     female
84       male
85     female
86       male
87       male
88     female
89       male
90     female
91       male
92     female
93       male
94       male
95     female
96       male
97     female
98     female
99     female
100      male
Name: sex, Length: 101, dtype: object

чтобы в дальнейшем экономить место - будем смотреть только первые 5 записей

In [46]:
titanik_csv.loc[:, 'sex'].head()

0    female
1      male
2    female
3      male
4    female
Name: sex, dtype: object

In [47]:
titanik_csv.loc[:, ['sex', 'age']].head()

Unnamed: 0,sex,age
0,female,29.0
1,male,0.9167
2,female,2.0
3,male,30.0
4,female,25.0


In [49]:
#TODO выведите через loc 12,13,21,21,42 строчки
titanik_csv.loc[[12,13,21,21,42], ['sex', 'age']]

Unnamed: 0,sex,age
12,female,24.0
13,female,26.0
21,female,47.0
21,female,47.0
42,female,59.0


In [None]:
#TODO аналогично через iloc. Есть ли разница? Почему?

> копию или реальный объект возвращает лок?

https://stackoverflow.com/questions/47972633/in-pandas-does-iloc-method-give-a-copy-or-view

##### 3. мы можем работать с полями и изменять их как хотим.¶


In [50]:
titanik_csv.loc[0, 'name']

'Allen, Miss. Elisabeth Walton'

например, давайте выделим только первую часть имени.
как мы это делаем с одной строкой?

In [54]:
#TODO выделить только 1 часть имени пассажиров (Mrs и тд) apply :)
#TODO посчитать встречаемости каждого типа первой части имени 
titanik_csv.loc[0, 'name'].split(',')[0]


'Allen'

чтобы проделать этот финт со всеми строками - не нужно итерироваться в цикле.
достаточно применить некоторую функцию.

##### 4. мы можем удалять столбцы или строки

In [61]:
titanik_csv.drop(['only_name'], axis=1)

KeyError: "['only_name'] not found in axis"

In [None]:
titanik_csv[list(set(titanik_csv.columns)-{'only_name'})]

In [None]:
titanik_csv[['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest']]

# 4. Группировка

![](https://image.slidesharecdn.com/slides-151008060416-lva1-app6892/95/pandas-powerful-data-analysis-tools-for-python-19-638.jpg?cb=1444284343)

In [62]:
titanik_csv.groupby('sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000267A3E77BA8>

In [None]:
#TODO посчитать средний возвраст в разрезе по полу

In [None]:
#TODO правда ли, что мужчины из 1 класса в среднем старше всех на корабле?

In [None]:
#TODO Какой процент мужчин и женщин выжили?

##### Слияние двух датафреймов

In [56]:
a = titanik_csv.groupby(['sex', 'pclass']).age.mean().reset_index()
b = titanik_csv.groupby(['pclass']).fare.mean().reset_index()

In [57]:
pd.merge(a, b, on='pclass')

Unnamed: 0,sex,pclass,age,fare
0,female,1,37.037594,87.508992
1,male,1,41.02925,87.508992
2,female,2,27.499191,21.179196
3,male,2,30.815401,21.179196
4,female,3,22.185307,13.302889
5,male,3,25.962273,13.302889


In [60]:
c = pd.merge(a, b, on='pclass')
c

Unnamed: 0,sex,pclass,age,fare
0,female,1,37.037594,87.508992
1,male,1,41.02925,87.508992
2,female,2,27.499191,21.179196
3,male,2,30.815401,21.179196
4,female,3,22.185307,13.302889
5,male,3,25.962273,13.302889


In [None]:
## как удалить из c колонку age ? 

In [None]:
## как удалить из c строчки с индексами 2 и 4 ? 

##### Таблица сопряженности

Давайте построим **таблицу сопряженности** (Она же **cross tabulation** или **contigency table** она же **pivot table**). 

https://en.wikipedia.org/wiki/Contingency_table

Pandas позволяет сложные таблицы сопряженности со многими уровнями вложенности с использованием функции pandas .crosstab()

Нам потребуются 2 параметра этой функции:

1. index - список колонок которые будут расположены по вертикали (список может состоять из 1 элемента)
2. columns - список колонок которые будут расположены по горизонтали (список может состоять из 1 элемента)
Опционально (использовать отдельно друго от друга)
3. margins - значение True будет показывать сумму по столбцам и строкам
4. normalize - новый параметр позволят отнормировать значения на сумму по строке ('rows'), столбцу ('columns'), или на ту и другую ('all')

Обратите внимание что crosstab() это функция библиотеки Pandas, а не метод 
объекта pandas.DataFrame. 

Может быть не очень понятно как ее использовать, если не сможете разобраться, ответ можно найти тут  https://www.kaggle.com/dejavu23/titanic-eda-to-ml-beginner .
**Но сначала попробуйте погуглить.**

Документация на .crosstab()
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html

In [None]:
# TODO воспользуйтесь функцией crosstab() и построите таблицу сопряженности
# для колнок Sex (по вертикали) и Survived (по горизонтали)

pd.crosstab(...)

In [None]:
# воспользуйтесь функцией crosstab() и построите таблицу сопряженности 
# для колнок Sex и Survived (по вертикали) и Pclass (по горизонтали)
# установите параметр margins=True

pd.crosstab( ... )

#### Вопрос: 
Что вы можете сказать выживаемости пассижиров разного класса и пола?

.crosstab() позволяет не только считать количество внутри категорий,
у него есть специальный параметр:
1. values - можно передать сюда столбец для которого будет посчитана aggfunc внутри сложной категории задаваемой вашей таблице

In [None]:
# Построим предыдующую таблицу
# но теперь воспользуемся параметрами values (titanic['age']) и aggfunc ('mean')

pd.crosstab(index=[titanic.survived, titanic['sex']],
            columns=[titanic.pclass],
            values=titanic['age'],
            aggfunc='mean',
            margins=True)

In [None]:
pd.crosstab(titanic.survived,
            titanic.pclass)

In [None]:
pd.pivot_table(titanic, values='sex', index='survived', columns='pclass', aggfunc='count')

# Визуализация

кто любит поинтереснее - Seaborn for the Titanic 
https://gist.github.com/mwaskom/8224591

In [None]:
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
x = np.linspace(-1, 1, 100)

plt.plot(x, x**2, '-k')

In [None]:
plt.scatter(x, x**2, c=['r' if int(i * 10) % 2 == 1 else 'b' for i in x])

In [None]:
plt.scatter(x, np.random.randn(100), c=['r' if int(i * 10) % 2 == 1 else 'b' for i in x])

In [None]:
idx = [1,2,3,4]
vals = [100, 150, 200, 345]

plt.bar(idx, vals, tick_label=['a', 'b', 'g', 'dsd']);

In [None]:
plt.hist(np.random.randn(10000), bins=100);

In [None]:
plt.figure(figsize=(12, 4))

plt.hist(np.random.randn(10000), bins=100, label='norm_disr')

plt.legend(loc=[1.1, 0.8]) # try loc='best'

plt.title('my_title is beautiful');

# plt.xlim([-3, 3])
# plt.ylim([-100, 400])

plt.xlabel('my bins');
plt.ylabel('my counters');

# plt.xticks(np.arange(-3, 4, 1), list('abcdefg'))
# plt.yticks()

# plt.savefig('./path.png', dpi=300)

In [None]:
## TODO нарисуем несколько графиков на одном - квадратичную и кубическую зависимость
## Подпишем графики и выведем легенду чтобы было понятно какой график - какой.

x = np.linspace(-1, 1, 100)

plt. ...

##### Несколько графиков рядом

In [None]:
x = np.arange(0, 3 * np.pi, 0.1)
y_sin = np.sin(x)
y_cos = np.cos(x)

# subplot - сетка с высотой 2 и шириной 1, по дефолту сделать первый subplot активным
plt.subplot(2, 1, 1)

# построим что нибудь на первом
plt.plot(x, y_sin)
plt.title('Sine')

# Поменяем сабплот - теперь активен второй
plt.subplot(2, 1, 2)
plt.plot(x, y_cos)
plt.title('Cosine')

# отрисовать
plt.show()

# Посмотрим на титанике

In [None]:
import pandas as pd

In [None]:
titanic =  pd.read_csv('titanik.tsv', sep='|', index_col=0)

In [None]:
titanic["pclass"].value_counts()

Отрисуем pclass

In [None]:
plt.bar( titanic["pclass"].value_counts().index, 
         titanic["pclass"].value_counts().values,
         tick_label=titanic["pclass"].value_counts().index);

посмотрим на число погибших людей в каждом из pclass

In [None]:
titanic.loc[titanic.survived==0, "pclass"].value_counts()

In [None]:
pd.crosstab(titanic.survived, titanic.pclass)

In [None]:
died = pd.crosstab(titanic.survived, titanic.pclass).loc[0]
plt.bar(died.index, died.values);

Попробуем в зависимости от пола

In [None]:
male = titanic.sex=='male'

survived = pd.crosstab(titanic[male].survived, 
                       titanic[male].pclass
                      ).loc[1]
plt.bar(survived.index, survived.values, alpha=0.4, label='male');


survived = pd.crosstab(titanic[~male].survived, 
                       titanic[~male].pclass
                      ).loc[1]
plt.bar(survived.index, survived.values, alpha=0.4, label='female');

In [None]:
titanic.sex.value_counts()

In [None]:
titanic[titanic.survived==1].sex.value_counts()

In [None]:
male_age = titanic[titanic.sex=='male'].age.dropna()
female_age = titanic[titanic.sex!='male'].age.dropna()

bins = plt.hist(female_age, color='orange', alpha=0.5, label='female')
bins = plt.hist(male_age, bins=bins[1], color='blue', alpha=0.5, label='male')
plt.legend(loc='best')

plt.title('распределение возрастов мужчин и женщин');

In [None]:
male_age = titanic[(titanic.sex=='male').values * (titanic.survived==1).values].age.dropna()
female_age = titanic[(titanic.sex=='female').values * (titanic.survived==1).values].age.dropna()

bins = plt.hist(female_age, color='orange', alpha=0.5, label='female')
bins = plt.hist(male_age, bins=bins[1], color='blue', alpha=0.5, label='male')
plt.legend(loc='best')

plt.title('распределение возрастов мужчин и женщин среди выживших');

In [None]:
plt.scatter(titanic.age, titanic.fare, c=titanic.sex.apply(lambda x: 'r' if x=='female' else 'b'))

In [None]:
maps = {1:'r', 2:'b', 3:'y'}
plt.scatter(titanic[titanic.pclass==1].age, titanic[titanic.pclass==1].fare, c='r', label='first_class')
plt.scatter(titanic[titanic.pclass==2].age, titanic[titanic.pclass==2].fare, c='b', label='second_class')
plt.scatter(titanic[titanic.pclass==3].age, titanic[titanic.pclass==3].fare, c='y', label='third_class')

plt.xlabel('age')
plt.ylabel('fare')

plt.legend()

> все достаточно логично, однако если бы данные не были такими очевидными?

In [None]:
plt.scatter(titanic.index, titanic.fare)

In [None]:
#TODO попробуем pairplot из seaborn

https://khashtamov.com/ru/pandas-introduction/

https://seaborn.pydata.org/tutorial.html