In [None]:
import pandas as pd

Документация по использованию всех функций и методов библиотеки: http://pandas.pydata.org/pandas-docs/stable/index.html

# Основные объекты Pandas

### Series

In [None]:
s = pd.Series(data = [1,2,3,4,5], index = 'one two three four five'.split())

In [None]:
# Обращаемся ко всей серии данных или к отдельному элементу 
s['five']

5

In [None]:
s.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

### DataFrame

In [None]:
df = pd.DataFrame({'name': 'Иванов Петров Сидоров'.split(), 
                   'age': [25, 41, 18]}, 
                  index = [12345, 24242, 56554])

In [None]:
df

Unnamed: 0,name,age
12345,Иванов,25
24242,Петров,41
56554,Сидоров,18


In [None]:
# Извлекаем весь столбец
df['age']

12345    25
24242    41
56554    18
Name: age, dtype: int64

In [None]:
df.name

12345     Иванов
24242     Петров
56554    Сидоров
Name: name, dtype: object

In [None]:
# Извлекаем отдельный элемент, способ 1 (используем значения индексов и названия столбцов)
df['age'][12345]

25

In [None]:
df.loc[12345]['age']

25

In [None]:
# Извлекаем отдельный элемент, способ 2 (используем номера строк и столбцов)
df.iloc[0][1]

25

In [None]:
# Объединяем два способа
df['age'].iloc[0]

25

In [None]:
df.loc[12345]

name    Иванов
age         25
Name: 12345, dtype: object

# Загружаем датасет и смотрим, что в нем есть

Для работы будем использовать известный датасет, содержащий информацию о пассажирах Титаника. Скачать датасет и посмотреть его описание можно по адресу: https://www.kaggle.com/c/titanic/data (требуется регистрация).  
Скачать без регистрации: https://yadi.sk/i/H0tNVU14R3K1qA

In [None]:
df = pd.read_csv('train.csv')

In [None]:
# Смотрим на содержимое первых строк датафрейма
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [None]:
# Получаем общую информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [None]:
# Получаем основные статистические данные о количественных показателях
#Будьте осторожны с этим методом при работе с большими датасетами!
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
# Поворачиваем таблицу
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PassengerId,891.0,446.0,257.353842,1.0,223.5,446.0,668.5,891.0
Survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
Pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
Age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
SibSp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
Parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
Fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [None]:
test = df.describe().T
test['50%']['Age']

28.0

Можно вывести на экран только определённые столбцы:

In [None]:
# Задание: вывести на экран имена, возраст и класс каюты первых десяти пассажиров
df[['Name', 'Age', 'Pclass']].head(10)

Unnamed: 0,Name,Age,Pclass
0,"Braund, Mr. Owen Harris",22.0,3
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1
2,"Heikkinen, Miss. Laina",26.0,3
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1
4,"Allen, Mr. William Henry",35.0,3
5,"Moran, Mr. James",,3
6,"McCarthy, Mr. Timothy J",54.0,1
7,"Palsson, Master. Gosta Leonard",2.0,3
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",27.0,3
9,"Nasser, Mrs. Nicholas (Adele Achem)",14.0,2


### Фильтрация данных

In [None]:
# Выведем данные только о пассажирах 1 класса (первые 10 строк):
df[(df['Pclass'] == 1) & (df['Survived'] == 1)].head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
55,56,1,1,"Woolner, Mr. Hugh",male,,0,0,19947,35.5,C52,S
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S
97,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C


Считаем дополнительные статистические показатели для определённого столбца:

In [None]:
# Найдем минимальную стоимость билета:
df['Fare'].min()

0.0

In [None]:
# Найдем минимальную стоимость билета отдельно для взрослого пассажира и для ребенка:
df[df['Age'] >= 18]['Fare'].min()

0.0

In [None]:
# Найдем возраст самого страшего пассажира, путешествовавшего по бесплатному билету
df[df['Fare'] == 0].Age.max()

49.0

In [None]:
# Найдем минимальную стоимость платных билетов для взрослых:
df[(df.Age >= 18) & (df.Fare != 0)].Fare.min()

4.0125

In [None]:
# Найдем среднюю стоимость билета в первом классе
df[df['Pclass'] == 1].Fare.mean()

84.15468749999992

In [None]:
# Найдем среднюю стоимость билета в первом классе без учета бесплатных билетов
df[(df['Pclass'] == 1) & (df['Fare'] > 0)].Fare.mean()

86.14887440758287

# Эксперименты с группировками

## value_counts()

In [None]:
# Посчитаем статистику выживших и погибших
df['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

In [None]:
# Посчитаем статистику выживших и погибших среди мужчин
df[df.Sex=='male'].Survived.value_counts()    

0    468
1    109
Name: Survived, dtype: int64

In [None]:
# Посчитаем статистику выживших и погибших среди женщин
df[df.Sex=='female'].Survived.value_counts()

1    233
0     81
Name: Survived, dtype: int64

In [None]:
# Организуем вывод обобщенных данных о погибших и выживших среди мужчин и женщин
for sex in df['Sex'].unique():
    if sex == 'male':
        print('Данные о мужчинах')
    else:
        print('Данные о женщинах')
    print(df[df['Sex']==sex]['Survived'].value_counts())
    print()

Данные о мужчинах
0    468
1    109
Name: Survived, dtype: int64

Данные о женщинах
1    233
0     81
Name: Survived, dtype: int64



In [None]:
# Посчитаем статистику выживших и погибших среди пассажиров 1 класса
df[df['Pclass'] == 1]['Survived'].value_counts()

1    136
0     80
Name: Survived, dtype: int64

In [None]:
# Посчитаем обобщенные данные по классам и полу
for cls in sorted(df['Pclass'].unique()):
    print('Класс', cls)   
    for sex in df['Sex'].unique():
        if sex == 'male':
            print('Данные о мужчинах')
        else:
            print('Данные о женщинах')
        print(df[(df['Sex']==sex)&(df['Pclass']==cls)]['Survived'].value_counts())
        print()

Класс 1
Данные о мужчинах
0    77
1    45
Name: Survived, dtype: int64

Данные о женщинах
1    91
0     3
Name: Survived, dtype: int64

Класс 2
Данные о мужчинах
0    91
1    17
Name: Survived, dtype: int64

Данные о женщинах
1    70
0     6
Name: Survived, dtype: int64

Класс 3
Данные о мужчинах
0    300
1     47
Name: Survived, dtype: int64

Данные о женщинах
1    72
0    72
Name: Survived, dtype: int64



## groupby()

In [None]:
# Считаем средний возраст выживших и погибших
# (сгруппируем пассажиров по столбцу 'Survived' и посчитаем средний возраст в каждой группе)
df.groupby(by = 'Survived')['Age'].mean()

Survived
0    30.626179
1    28.343690
Name: Age, dtype: float64

In [None]:
# Считаем средний возраст выживших и погибших по классам
# (сгруппируем пассажиров по столбцам 'Survived'и 'Pclass' и посчитаем средний возраст в каждой группе)
df.groupby(by = ['Survived','Pclass'])['Age'].mean()

Survived  Pclass
0         1         43.695312
          2         33.544444
          3         26.555556
1         1         35.368197
          2         25.901566
          3         20.646118
Name: Age, dtype: float64

In [None]:
# Считаем количество выживших и погибших в зависимости от класса и пола
df.groupby(by = ['Sex', 'Pclass'])['Survived'].value_counts()

Sex     Pclass  Survived
female  1       1            91
                0             3
        2       1            70
                0             6
        3       0            72
                1            72
male    1       0            77
                1            45
        2       0            91
                1            17
        3       0           300
                1            47
Name: Survived, dtype: int64

In [None]:
df.groupby(by = ["Sex", "Pclass", 'Survived'])['Name'].count()

Sex     Pclass  Survived
female  1       0             3
                1            91
        2       0             6
                1            70
        3       0            72
                1            72
male    1       0            77
                1            45
        2       0            91
                1            17
        3       0           300
                1            47
Name: Name, dtype: int64

In [None]:
# Считаем минимальную, среднюю и максимальную стоимость билетов по классам (исключая бесплатные билеты)
df[df['Fare'] >0].groupby(by = 'Pclass')['Fare'].agg(['min', 'mean', 'max'])

Unnamed: 0_level_0,min,mean,max
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,5.0,86.148874,512.3292
2,10.5,21.358661,73.5
3,4.0125,13.787875,69.55


In [None]:
# Считаем минимальные и максимальные возраст и сумму оплаты по классам для выживших и погибших пассажиров


In [None]:
# Считаем минимальную, среднюю и максимальную стоимость билета для пассажиров в зависимости от пола и класса


## pivot_table()

In [None]:
# Считаем средний возраст выживших и погибших пассажиров по классам
df.pivot_table(values = 'Age', index = 'Survived', columns = 'Pclass', aggfunc = 'mean')

Survived
0    33.544444
1    25.901566
Name: 2, dtype: float64

In [None]:
list(df.pivot_table(values = 'Age', index = 'Survived', columns = 'Pclass', aggfunc = 'mean').iloc[0])

[43.6953125, 33.544444444444444, 26.555555555555557]

In [None]:
# Считаем минимальную, максимальную и среднюю стоимость билета 
# для выживших и погибших пассажиров в зависимости от класса
df.pivot_table(values = 'Fare', index = 'Pclass', columns = 'Survived', aggfunc = ["min", 'mean', "max"])

Unnamed: 0_level_0,min,min,mean,mean,max,max
Survived,0,1,0,1,0,1
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,0.0,25.9292,64.684008,95.608029,263.0,512.3292
2,0.0,10.5,19.412328,22.0557,73.5,65.0
3,0.0,0.0,13.669364,13.694887,69.55,56.4958


Извлекаем из полученных данных информацию о конкретной категории пассажиров

In [None]:
# Помещаем сгруппированные данные в отдельный датафрейм:
test = df.pivot_table(values = 'Fare', index = 'Pclass', columns = 'Survived', aggfunc = ["min", 'mean', "max"])

In [None]:
# Извлекаем среднюю стоимость билета для погибших пассажиров 1 класса:
test['mean'][0][1]

22.0557

In [None]:
# Считаем среднее количесто братьев, сестер и супругов ('SibSp'), 
# которые путешествовали с выжившими и погибшими пассажирами разных классов


### Слияние таблиц

In [None]:
df2 = pd.read_csv('sexes.csv')

In [None]:
df2

Unnamed: 0,Sex,Russian_name
0,male,мужчина
1,female,женщина


In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
df3 = df.merge(df2, on = 'Sex')

In [None]:
df3.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Russian_name
886,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0,,S,женщина
887,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S,женщина
888,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q,женщина
889,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S,женщина
890,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S,женщина
