# Анализ данных | Python 

## Введение в Pandas 

*Автор: Татьяна Рогович, НИУ ВШЭ*

*Дополнения: Анастасия Паршина, НИУ ВШЭ*

Pandas — библиотека для работы с табличными данными в питоне.

* Документация: https://pandas.pydata.org/
* 10 minutes intro: https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
* Pandas Cheat-Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Чтобы импортировать бибдиотеку, используем слово `import` и далее название самой библиотеки — `pandas`.

    import pandas
    
Часто библиотеки импортируют под псевдонимом, поэтому, чтобы не писать название библиотеки целиком каждый раз, когда понадобится ее использовать, принято сокращать название библиотеки и импортировать ее как "pd":

    import pandas as pd

In [2]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd 

В Pandas есть тип данных датафрейм (DataFrame), в котором удобно хранить таблицы с данными. Создадим небольшой датафрейм своими руками.

Помним, что если мы хотим использовать функцию из модуля, то сначала обращаемся к нему (`pd.`) и затем уже к самой функции `DataFrame()`: 

    pd.DataFrame()

In [3]:
df = pd.DataFrame() # создали пустой датафрейм с помощью метода DataFrame() библиотеки pandas (pd)
df['a'] = [10,20,30] # создаем колонку "а" и помещаем в нее столбец с данными - [10, 20, 30]
df

Unnamed: 0,a
0,10
1,20
2,30


В датафрейме автоматически создалась нумерация строк - по умолчанию она с 0.

In [4]:
df['b'] = ['one', 'two', 'three']
df

Unnamed: 0,a,b
0,10,one
1,20,two
2,30,three


Конечно, чаще всего приходится работать с уже готовыми наборами данных. Такие данные обычно хранятся в формтае `.xls(x)` — для работы в Excel, или (чаще) в формате `.csv` — comma-separated value. 

Попробуем импортировать `.csv` файл с данными о пассажирах Титаника. Они лежат в файле `'titanic.csv'` (попробуйте открыть его в текстовом редакторе и посмотрите, как он устроен внутри).

In [5]:
data = pd.read_csv('https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/titanic.csv')

Если файл с данными лежит в той же папке, в которой открыт блокнот, то достаточно написать так: 
    
    data = pd.read_csv('titanic.csv')

Функция `.read_csv()` читает данные из файла формата `.csv` данные и преобразует в `pandas.DataFrame`. Аналогичная функция `.read_excel()` может читать данные в офрмате `.xls(x)`.

Посмотрим на наши данные:

In [6]:
data.head() # функция head() показывает первые строки датафрейма, по умолчанию 5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
data.head(10) # можно передать аргументом количество строк, которые хотите увидеть

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [8]:
data.tail(10) # можно посмотреть последние записи

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


По столбцам идут признаки, по строкам - объекты (пассажиры).

In [9]:
data.shape # функция shape показывает размерность датафрейма (строк, столбцов)

(891, 12)

In [10]:
data.columns # список столбцов 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

<u>**Описание признаков:**</u>

`PassengerId` — id пассажира

`Survived` — бинарная переменная: выжил пассажирил (1) или нет (0)

`Pclass` — класс пассажира

`Name` — имя пассажира

`Sex` — пол пассажира

`Age` — возраст пассажира

`SibSp` — количество родственников (братьев, сестер, супругов) пассажира на борту

`Parch` — количество родственников (родителей / детей) пассажира на борту

`Ticket` — номер билета

`Fare` — тариф (стоимость билета)

`Cabin` — номер кабины

`Embarked` — порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

Так можно обратиться к столбцу:

In [11]:
data['Age'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [12]:
data.Age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Или к нескольким столбцам сразу:

In [13]:
data[['Age', 'Sex']].head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


A так - к строке по индексу:

In [14]:
data.loc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [15]:
data.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

`.loc[]` возвращает данные на основе индекса, а `.iloc[]` —  основываясь исключительно на позиции индекса, начиная с 0.

Пример:


In [16]:
df = pd.DataFrame()
df['Name'] =  ['Tom', 'Jack', 'Nick', 'Juli']
df['Mark'] = [99, 98, 95, 90]
df.index = [1,3,2,0]
df

Unnamed: 0,Name,Mark
1,Tom,99
3,Jack,98
2,Nick,95
0,Juli,90


In [17]:
df.loc[3] # если использовать .loc[], то получим информацию по "названию строки", точнее — индексу

Name    Jack
Mark      98
Name: 3, dtype: object

In [18]:
df.iloc[3] # если использовать .iloc[], то получим информацию по порядковому номеру строки (нумерация с нуля)

Name    Juli
Mark      90
Name: 0, dtype: object

In [19]:
df.loc[1:2]

Unnamed: 0,Name,Mark
1,Tom,99
3,Jack,98
2,Nick,95


In [20]:
df.iloc[1:2]

Unnamed: 0,Name,Mark
3,Jack,98


Можем сделать индексом даже колоноку с именем. И тоже сможем обращаться к объектам через `.loc`

In [21]:
df.index = df.Name # либо, если нам не нужна дополнительная колонка Name, 
                   # то можно сделать так df = df.set_index('Name')
df

Unnamed: 0_level_0,Name,Mark
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Tom,Tom,99
Jack,Jack,98
Nick,Nick,95
Juli,Juli,90


In [22]:
df.loc['Nick']['Mark']

95

In [23]:
df.loc['Jack':'Nick']

Unnamed: 0_level_0,Name,Mark
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Jack,Jack,98
Nick,Nick,95


Попробуем на наших данных!

In [24]:
data.loc[:3] # строки с 0 по 3 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [25]:
data.loc[1:3, 'Survived':'Sex'] # строки с 1 по 3, колонки от Survived до Sex

Unnamed: 0,Survived,Pclass,Name,Sex
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,1,3,"Heikkinen, Miss. Laina",female
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female


Попробуем выбирать объекты, удовлетворяющие каким-то свойствам, например, все пассажиры-женщины:

In [26]:
data[data.Sex == 'female'].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Пассажиры первого класса:

In [27]:
data[data.Pclass == 1].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S


Пассажиры первого или второго классов:

In [28]:
data[data.Pclass.isin([1,2])].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


Пассажиры младше 18:

In [29]:
data[data.Age < 18].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q


Девушки в возрасте от 18 до 25, путешествующие в одиночку (без каких-либо родственников):

In [30]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25) & (data.SibSp == 0) &(data.Parch == 0)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
44,45,1,3,"Devaney, Miss. Margaret Delia",female,19.0,0,0,330958,7.8792,,Q
56,57,1,2,"Rugg, Miss. Emily",female,21.0,0,0,C.A. 31026,10.5,,S
106,107,1,3,"Salkjelsvik, Miss. Anna Kristine",female,21.0,0,0,343120,7.65,,S
141,142,1,3,"Nysten, Miss. Anna Sofia",female,22.0,0,0,347081,7.75,,S
199,200,0,2,"Yrois, Miss. Henriette (""Mrs Harbeck"")",female,24.0,0,0,248747,13.0,,S
289,290,1,3,"Connolly, Miss. Kate",female,22.0,0,0,370373,7.75,,Q
293,294,0,3,"Haas, Miss. Aloisia",female,24.0,0,0,349236,8.85,,S
310,311,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,11767,83.1583,C54,C
345,346,1,2,"Brown, Miss. Amelia ""Mildred""",female,24.0,0,0,248733,13.0,F33,S
369,370,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3,B35,C


Сколько таких путещественниц?

In [31]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25) & (data.SibSp == 0) &(data.Parch == 0)].shape

(25, 12)

Иногда нужно создать новый признак из уже существующих, например, нам интересно, сколько всего родственников путешествовало с каждым пассажиром - просто сложим столбцы `SibSp` и `Parch` и поместим сумму в новый столбец `FamilySize`.

In [32]:
data['FamilySize'] = data['SibSp'] + data['Parch']
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,0
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,0
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,4
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,2
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,1


А теперь давайте создадим переменную, которая бы нам показывала, что пассажир ехал в одиночку. Такой пассажир путешествовал без родственников. Мы напишем условие с помощью анонимной функции (1, если `FamilySize` равно 0 и 0 во всех остальных случаях) и применим ее к столбцу `FamilySize` с помощью метода `.apply()`.

In [33]:
def size(FamilySize_i):
    if FamilySize_i == 0:
        return 1
    else:
        return 0

In [34]:
data['Alone'] = data['FamilySize'].apply(size)
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Alone
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,1
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,0,1
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,0,1
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,4,0
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,2,0
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,1,0


Это же можно реализовать короче с помощью анонимных функций.

Это особый вид функций, которые объявляются с помощью ключевого слова `lambda` вместо `def`:
Лямбда-функции принимают любое количество аргументов, но не могут содержать несколько выражений и всегда возвращают только одно значение.

В программировании на **Python** можно обойтись без анонимных функций, которые по сути являются обычными, но без имени и с ограничением в одно выражение. Однако их использование в нужных местах упрощает написание и восприятие кода. Пишется так:

    lambda arguments: expression

arguments - аргументы, expression - выражение, возвращающее значение.

Например, с Титаником можно было бы поступить так: 

    data['Alone'] = data['FamilySize'].apply(lambda x: 1 if x == 0 else 0)

Давайте вернемся к "Титанику", функция, которую применяем к столбцу, может быть и посложнее. Давайте из каждого имени пассажира достанем его титутл. Сначала потренируемся на одном пассажире.

In [35]:
data.loc[0]['Name']

'Braund, Mr. Owen Harris'

Ок, выбрали имя. Это строка. Давайте подумаем, как достать из нее титул. Вроде бы титул всегда после фамилии. Разобьем строку по запятой и достанем второй (первый по индексу) элемент. Потом разобьем по точке и возьмем первый (нулевой) элемент. И избавимся от пробела.

In [36]:
data.loc[0]['Name'].split(',')[1].split('.')[0].strip()

'Mr'

Ура! Теперь напишем функцию, которая будет забирать титул из имени, а потом применим ее к колонке `Name`.

In [37]:
def return_title(full_name):
    return(full_name.split(',')[1].split('.')[0].strip())

Теперь сформируем новый столбец `family_name` из столбца `Name` с помощью написанной нами функции:

In [38]:
data['Title'] = data.Name.apply(return_title)
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Alone,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,0,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,1,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,0,Mrs
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,1,Mr


Кстати, удалить колонку можно так. В нашем анализе мы не будем использовать колонку `Ticket`, давайте удалим ее.

In [39]:
del data['Ticket']
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.25,,S,1,0,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,71.2833,C85,C,1,0,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,7.925,,S,0,1,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.1,C123,S,1,0,Mrs
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.05,,S,0,1,Mr


Полезно посмотреть, какие значения содержатся в столбце. Для категориальных данных можно посчитать частоту встречаемости каждого значения с помошью функции `.value_counts()`:


In [40]:
data['Title'].value_counts()

Mr              517
Miss            182
Mrs             125
Master           40
Dr                7
Rev               6
Mlle              2
Major             2
Col               2
the Countess      1
Capt              1
Ms                1
Sir               1
Lady              1
Mme               1
Don               1
Jonkheer          1
Name: Title, dtype: int64

Очень много уникальных значений! Обычно это не очень хорошо для статистического анализа, давайте все такие титулы переиминуем в `Misc` (другие).

In [41]:
data['Title'] = data['Title'].apply(lambda x: 'Misc' if x not in ['Mr', 'Miss', 'Mrs', 'Master'] else x)
data['Title'].value_counts()

Mr        517
Miss      182
Mrs       125
Master     40
Misc       27
Name: Title, dtype: int64

In [42]:
data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [43]:
data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

Данные можно сортировать:

In [44]:
data.sort_values(by=['Age']).head() # сортируем по возрасту, по умолчанию сортирвка по возрастанию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,8.5167,,C,1,0,Master
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,14.5,,S,2,0,Master
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,19.2583,,C,3,0,Miss
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,19.2583,,C,3,0,Miss
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,29.0,,S,2,0,Master


In [45]:
data.sort_values(by=['Age'], ascending=False).head() # сортируем по возрасту, теперь по убыванию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,30.0,A23,S,0,1,Mr
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,7.775,,S,0,1,Mr
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,49.5042,,C,0,1,Mr
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,34.6542,A5,C,0,1,Mr
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,7.75,,Q,0,1,Mr


In [46]:
data.sort_values(by=['Age', 'Fare'], ascending=False).head() # сортируем сперва по возрасту (по убыванию),
                                                             # потом стоимости билета  (по убыванию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,30.0,A23,S,0,1,Mr
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,7.775,,S,0,1,Mr
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,49.5042,,C,0,1,Mr
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,34.6542,A5,C,0,1,Mr
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,7.75,,Q,0,1,Mr


In [47]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head() # сортируем сперва по возрасту (по убыванию),
                                                                     # потом стоимости билета  (по возрастанию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,30.0,A23,S,0,1,Mr
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,7.775,,S,0,1,Mr
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,34.6542,A5,C,0,1,Mr
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,49.5042,,C,0,1,Mr
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,7.75,,Q,0,1,Mr
