In [None]:
import pandas as pd

Документация по использованию всех функций и методов библиотеки: http://pandas.pydata.org/pandas-docs/stable/index.html

# Основные объекты Pandas

### Series

In [None]:
s = pd.Series(data = [1,2,3,4,5], index = 'one two three four five'.split())
s

In [None]:
# Обращаемся ко всей серии данных или к отдельному элементу 
s['five']

In [6]:
s.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

### DataFrame

In [None]:
df = pd.DataFrame({'name': 'Иванов Петров Сидоров'.split(), 
                   'age': [25, 41, 18]}, 
                  index = [12345, 24242, 56554])

In [None]:
df

In [None]:
# Извлекаем весь столбец
df['age']

In [None]:
df.name

In [None]:
# Извлекаем отдельный элемент, способ 1 (используем значения индексов и названия столбцов)
df['age'][12345]

In [None]:
df.loc[12345]['age']

In [None]:
# Извлекаем отдельный элемент, способ 2 (используем номера строк и столбцов)
df.iloc[0][1]

In [None]:
# Объединяем два способа
df['age'].iloc[0]

In [None]:
df.loc[12345]

# Загружаем датасет и смотрим, что в нем есть

Для работы будем использовать известный датасет, содержащий информацию о пассажирах Титаника. Скачать датасет и посмотреть его описание можно по адресу: https://www.kaggle.com/c/titanic/data (требуется регистрация).  
Скачать без регистрации: https://yadi.sk/i/H0tNVU14R3K1qA

In [7]:
df = pd.read_csv('train.csv')


In [None]:
# Смотрим на содержимое первых строк датафрейма
df.tail()

In [None]:
# Получаем общую информацию о датафрейме
df.info()

In [None]:
# Получаем основные статистические данные о количественных показателях
#Будьте осторожны с этим методом при работе с большими датасетами!
df.describe()

In [None]:
# Поворачиваем таблицу
df.describe().T

In [None]:
test = df.describe().T
test['50%']['Age']

Можно вывести на экран только определённые столбцы:

In [None]:
# Задание: вывести на экран имена, возраст и класс каюты первых десяти пассажиров
df[['Name', 'Age', 'Pclass']].head(10)

### Фильтрация данных

In [None]:
# Выведем данные только о пассажирах 1 класса (первые 10 строк):
df[(df['Pclass'] == 1) & (df['Survived'] == 1)].head(10)

Считаем дополнительные статистические показатели для определённого столбца:

In [None]:
# Найдем минимальную стоимость билета:
df['Fare'].min()

In [None]:
# Найдем минимальную стоимость билета отдельно для взрослого пассажира и для ребенка:
df[df['Age'] >= 18]['Fare'].min()

In [None]:
# Найдем возраст самого страшего пассажира, путешествовавшего по бесплатному билету
df[df['Fare'] == 0].Age.max()

In [None]:
# Найдем минимальную стоимость платных билетов для взрослых:
df[(df.Age >= 18) & (df.Fare != 0)].Fare.min()

In [None]:
# Найдем среднюю стоимость билета в первом классе
df[df['Pclass'] == 1].Fare.mean()

In [None]:
# Найдем среднюю стоимость билета в первом классе без учета бесплатных билетов
df[(df['Pclass'] == 1) & (df['Fare'] > 0)].Fare.mean()

# Эксперименты с группировками

## value_counts()

In [None]:
# Посчитаем статистику выживших и погибших
df['Survived'].value_counts()

In [None]:
# Посчитаем статистику выживших и погибших среди мужчин
df[df.Sex=='male'].Survived.value_counts()    

In [None]:
# Посчитаем статистику выживших и погибших среди женщин
df[df.Sex=='female'].Survived.value_counts()

In [10]:
# Организуем вывод обобщенных данных о погибших и выживших среди мужчин и женщин
for sex in df['Sex'].unique():
    if sex == 'male':
        print('Данные о мужчинах')
    else:
        print('Данные о женщинах')
    print(df[df['Sex']==sex]['Survived'].value_counts())
    print()

Данные о мужчинах
0    468
1    109
Name: Survived, dtype: int64

Данные о женщинах
1    233
0     81
Name: Survived, dtype: int64



In [None]:
# Посчитаем статистику выживших и погибших среди пассажиров 1 класса
df[df['Pclass'] == 1]['Survived'].value_counts()

In [None]:
# Посчитаем обобщенные данные по классам и полу
for cls in sorted(df['Pclass'].unique()):
    print('Класс', cls)   
    for sex in df['Sex'].unique():
        if sex == 'male':
            print('Данные о мужчинах')
        else:
            print('Данные о женщинах')
        print(df[(df['Sex']==sex)&(df['Pclass']==cls)]['Survived'].value_counts())
        print()

## groupby()

In [None]:
# Считаем средний возраст выживших и погибших
# (сгруппируем пассажиров по столбцу 'Survived' и посчитаем средний возраст в каждой группе)
df.groupby(by = 'Survived')['Age'].mean()

In [None]:
# Считаем средний возраст выживших и погибших по классам
# (сгруппируем пассажиров по столбцам 'Survived'и 'Pclass' и посчитаем средний возраст в каждой группе)
df.groupby(by = ['Survived','Pclass'])['Age'].mean()

In [None]:
# Считаем количество выживших и погибших в зависимости от класса и пола
df.groupby(by = ['Sex', 'Pclass'])['Survived'].value_counts()

In [None]:
df.groupby(by = ["Sex", "Pclass", 'Survived'])['Name'].count()

In [16]:
# Считаем минимальную, среднюю и максимальную стоимость билетов по классам (исключая бесплатные билеты)
df[df['Fare'] >0].groupby(by = 'Pclass')['Fare'].agg(['min', 'mean', 'max'])

Unnamed: 0_level_0,min,mean,max
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,5.0,86.148874,512.3292
2,10.5,21.358661,73.5
3,4.0125,13.787875,69.55


In [None]:
# Считаем минимальные и максимальные возраст и сумму оплаты по классам для выживших и погибших пассажиров


In [None]:
# Считаем минимальную, среднюю и максимальную стоимость билета для пассажиров в зависимости от пола и класса


## pivot_table()

In [22]:
# Считаем средний возраст выживших и погибших пассажиров по классам
df.pivot_table(values = 'Age', index = 'Survived', columns = 'Pclass', aggfunc = 'mean')

Pclass
1    35.368197
2    25.901566
3    20.646118
Name: 1, dtype: float64

In [12]:
list(df.pivot_table(values = 'Age', index = 'Survived', columns = 'Pclass', aggfunc = 'mean').iloc[0])

[43.6953125, 33.544444444444444, 26.555555555555557]

In [23]:
# Считаем минимальную, максимальную и среднюю стоимость билета 
# для выживших и погибших пассажиров в зависимости от класса
df.pivot_table(values = 'Fare', index = 'Pclass', columns = 'Survived', aggfunc = ["min", 'mean', "max"])

Unnamed: 0_level_0,min,min,mean,mean,max,max
Survived,0,1,0,1,0,1
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,0.0,25.9292,64.684008,95.608029,263.0,512.3292
2,0.0,10.5,19.412328,22.0557,73.5,65.0
3,0.0,0.0,13.669364,13.694887,69.55,56.4958


Извлекаем из полученных данных информацию о конкретной категории пассажиров

In [25]:
# Помещаем сгруппированные данные в отдельный датафрейм:
test = df.pivot_table(values = 'Fare', index = 'Pclass', columns = 'Survived', aggfunc = ["min", 'mean', "max"])

In [33]:
# Извлекаем среднюю стоимость билета для погибших пассажиров 1 класса:
test['max'][1][3]

56.4958

In [None]:
# Считаем среднее количесто братьев, сестер и супругов ('SibSp'), 
# которые путешествовали с выжившими и погибшими пассажирами разных классов


### Слияние таблиц

In [None]:
df2 = pd.read_csv('sexes.csv')

In [None]:
df2

In [None]:
df.head()

In [None]:
df3 = df.merge(df2, on = 'Sex')

In [None]:
df3.tail()