# Практикум по Pandas

In [4]:
import pandas as pd
import numpy as np

In [None]:
# метод aggregate появился в версии Pandas 0.20.0
# Если выдается ошибка AttributeError: 'DataFrame' object has no attribute 'aggregate', то надо обновить Pandas
# conda update pandas
# или conda update conda

In [None]:
# если вы запускаете notebook в другом ядре (например, питон 3.6 при основной версии питона на компьютере 2.7), то
# обновляем версию Pandas для этого ядра:
# смотрим какие ядра установлены: conda info --envs
# активируем нужное ядро: source activate python3 (в Windows команда без source)
# обновляем Pandas: conda update pandas

In [None]:
# Проверяем версию Pandas
pd.__version__

# Создание DataFrame из листов и словарей

In [None]:
dataList = [
    {'date' : '2017-07-01', 'value' :100},
    {'date' : '2017-07-02', 'value' :200},
    {'date' : '2017-07-03', 'value' :300},
    {'date' : '2017-07-04', 'value' :400},
    {'date' : '2017-07-05', 'value' :500},
]

In [None]:
pd.DataFrame( dataList )

In [None]:
# Тоже самое, но в другом виде
# Задаем столбцы

dataDict = {
    'date':['2017-07-01','2017-07-02','2017-07-03','2017-07-04','2017-07-05'],
    'value':[100,200,300,400,500]
}

pd.DataFrame.from_dict( dataDict )

In [None]:
# Для сохранения порядка следования элементов можем использовать вместо словаря
dataDicty = [
    ('date', ['2017-07-01','2017-07-02','2017-07-03','2017-07-04','2017-07-05']),
    ('value',[100,200,300,400,500])
]

pd.DataFrame.from_dict( dict(dataDicty) )

# Создание Series


In [None]:
# Можно использовать Numpy для генерации данных
dataNP = np.random.rand(3)

In [None]:
# numpy - array
type(dataNP)


In [None]:
pd.Series(dataNP, index= ['first','second','third'])

# Импорт данных для DataFrame из файлов

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv
# указываем разделитель столбцов в файле
# заголовок у файла есть, но можно задать свои названия (удобно, если изначально они на русском)
# выводим первые 10 строк

data = pd.read_csv('train.csv',delimiter=',')

In [None]:
data.tail()

In [None]:
data.head()

In [None]:
# основная информация о нашем DataFrame
# хорошо показывает в каких данных много пропусков
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html
data.info()

Столбцы SibSp и Parch (наличие родственников среди пассажиров) распознаны как целое число. Если недо это исправить, то используем dtype:


In [None]:
data = pd.read_csv('train.csv', delimiter=',', dtype = {'SibSp' : str, 'Parch':str} )
data.info()

In [None]:
# статистика DataFrame
# вывод зависит от типа данных
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html
data.describe()

# Распределение стодбца



In [None]:
type(data['Pclass'])

In [None]:
data['Pclass'].value_counts()

# Гистограмма распределения

In [None]:
# Рисуем в браузере
%matplotlib inline

In [None]:
data.hist( column = ['Age'])

Можно и так

In [None]:
data['Age'].hist( bins= 25,figsize = (10,5))

# ### Упражнение

Загрузите в датафрейм mountains содержимое файла Mountains.csv. Посчитайте следующие показатели:
1. Минимальную и максимальную высоту гор в этом наборе

2. В каком году было впервые покорено наибольшее количество вершин (столбец First ascent)?

3. Постройте распределение распределение First ascent по годам

In [None]:
mountains = pd.read_csv('Mountains.csv', delimiter=',')

In [None]:
mountains['First ascent'].value_counts().sort_index()

In [None]:
mountains.describe()

In [None]:
mountains['First ascent'].value_counts()

In [None]:
mountains['First ascent'].hist(bins= 100,figsize = (30,5))

# Поэлементные действия с DataFrame

In [None]:
# зададим два DataFrame
df1 = pd.DataFrame([(0,1),(2,3),(4,5)], columns = ['value1','value2'])
df1

In [None]:
df2 = pd.DataFrame([(10,11),(12,13),(14,15),(17,18)], columns = ['value1','value3'])
df2

In [None]:
# Функция сложения
df1.add(df2)

In [None]:
# для несовпадающих строк используем значение из fill_value
df1.add(df2,fill_value = 100).fillna(0)

# mul - перемножение

In [None]:
df1.mul(df2,fill_value=0)

# div - поэлементное деление 

In [None]:
df1.div(df2,fill_value=17)

# Разность DataFrame

In [None]:
df1.sub(df2)

# Корректное копирование DataFrame

In [None]:
# Зададим DataFrame
df1 = pd.DataFrame( [ (0, 1) ],columns = ['value1','value2'] )
df1

In [None]:
# делаем его копию
df2 = df1

In [None]:
# Изменяем значение ячейки в копии
df2['value1'][0] = 555

In [None]:
df2

Смотрим что произошло с исходником

In [None]:
df1

Сделаем настоящую копию

In [None]:
df1 = pd.DataFrame( [ (0, 1) ],columns = ['value1','value2'] )
df1

In [None]:
df2 = df1.copy()

In [None]:
df2['value1'][0] = 555

In [None]:
df2

In [None]:
df1

# Сводные таблицы

In [None]:
data = pd.read_csv( 'train.csv', delimiter = ',' )
data.head()

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot.html
# index - значения столбца, которые будут в строках
# columns - значения столбца, которые образуют столбцы
# values - значения в ячейках таблицы
# aggfunc - функция, которая будет применена к значениям

# среднее значение столбца 'Age' в разбивке по Sex и Embarked
pd.pivot_table( data, index = ['Sex', 'Pclass'], columns = ['Embarked'], values = 'Age', aggfunc = np.mean )

# Apply - применить функциу или строке

In [None]:
data = pd.read_csv('train.csv', delimiter=',')
data.head(20)

In [None]:
def ageGroup(row):
    """
    Простая функция отнесения возраста к группе
    """
    
    passenger_type = 'Undef'
    # Проверяем, что значение возраста не равно NaN
    if not pd.isnull(row['Age']):
        if row['Age'] <= 18:
            passenger_type = 'Child'
        elif row['Age'] >=65:
            passenger_type = 'Retiree'
        else:
            passenger_type = 'Young'
    
    # Если значение возраста NaN, то возвращает Undef
    return passenger_type
    

In [None]:
def ageGroup2( row ):
    """
    Простая функция отнесения возраста к группе
    """
    
    # проверяем, что значение возраста не равно NaN
    if not pd.isnull( row['Age'] ):
        if row['Age'] <= 18:
            return 'Child'

        if row['Age'] >= 65:
            return 'Retiree'

        return 'Young'
    
    # если значение возраста NaN, то возвращаем Undef
    return 'Undef'

In [None]:
# Примениим функцию ageGroup к DataFrame и выведем результат в отдельный столбец ageGriup

data['ageGroup'] = data.apply(ageGroup, axis = 1)
data.head(10)

In [None]:
# Выводит только указанные значения. Грубо говоря филтрация

data[data['ageGroup'].isin(['Young','Undef']) ]

# Applymap - применяем функцию к каждой ячейке отдельно

In [None]:
# Например устанавливаем формат отображения

df = pd.DataFrame ( np.random.randn(10,3), columns = ['first','second','third'])
df

In [None]:
df.apply( lambda x : x**2)

# Упражнение

Классифицируйте высоту гор и посчитайте распределение количества вершин по этой классификации:
* высота до 7500 метров - High
* до 8000 метров - Very high
* более 8000 метров - Extremely high

# Сохранение DataFrame

In [None]:
mns = pd.read_csv('Mountains.csv', delimiter=',')
mns.head(20)

In [None]:
def mountHigh(row):
    if not pd.isnull(row['Height (m)']):
        if row['Height (m)'] <= 7500:
            return 'High'
        elif row['Height (m)'] <= 8000:
            return 'Very High'
        else:
            return 'Extremely High'
        
    return 'Undef'
    

In [None]:
mns['mountHighest'] = mns.apply(mountHigh, axis = 1)

mns.head(20)

In [None]:
mns['mountHighest'].value_counts()

# Сохранение DataFrame 

In [None]:
data.head()

In [None]:
# СОхранаяем датафрейм куда либо выбираем формат файла в котором сохраняем
data.to_

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html
# разделитель sep по умолчанию запятая
# na_rep - что ставим на место пустых ячеек
# columns - какие столбцы хотим записать
# index - включать ли номер строки

data.to_csv( 'train_modified.csv', sep = ';', na_rep = '0', columns = ['Survived', 'ageGroup'], index = False )

In [None]:
# Посмотреть документацию
?pd.DataFrame.to_csv

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_json.html
# при сохранении в JSON может быть несколько вариантов группировки данных

# orient = index - строки имеют вид
# {"0":{"PassengerId":1,"Survived":0,"Pclass":3,"Name":"Braund, Mr. Owen Harris","Sex":"male","Age":22.0,"SibSp":1,"Parch":0,"Ticket":"A\/5 21171","Fare":7.25,"Cabin":null,"Embarked":"S","ageGroup":"Young"}

data.to_json( 'train_json_index.json', orient = 'index' )

In [None]:
# другие варианты

data.to_json( 'train_json_columns.json', orient = 'columns' )
data.to_json( 'train_json_records.json', orient = 'records' )

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_excel.html
# сохранение в Excel

data.to_excel( 'train_modified.xlsx', sheet_name = 'data' )

# Типовые действия с DF

In [None]:
data = pd.read_csv('train.csv', delimiter=',')
data.head(5)

In [61]:
# Выбрать все строки и подмножества столбцов
dataSelected = data.loc[:3,['Name','Age','Cabin']]
dataSelected.head()

Unnamed: 0,Name,Age,Cabin
0,"Braund, Mr. Owen Harris",22.0,
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,C85
2,"Heikkinen, Miss. Laina",26.0,
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,C123


In [None]:
# Добавляем к фильтру строки
# например с третьей по пятнадцатую
dataSelected = data.loc[2:15,['Name','Age','Cabin']]
dataSelected.head()

# Добавить столбцы

In [None]:
# Посчитать количество слов в столбце Name
# сначала разбиваем на слова
data['nameLength'] = data['Name'].str.split(',')
data.head()

In [65]:
# Длбавляем подсчет количества слов 
data['nameLength'] = data['Name'].str.split(',').str.len()
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,nameLength
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2


In [None]:
# Удалить столбец
del data['nameLength']
data.head()

In [None]:
# Переименование столбца
# Например Inplce указывает, что надо подставить новое значение в самом DataFrame data
data.rename( columns={'Name' : 'FIO'}, inplace=True)
data.head()

In [None]:
# Можно заменить названия столбцов
# например, иногда русские названия в исходных данных доставляют трудности
data.columns= ['ID','Survived','Class','FIO','Gender','Age','SibSp','Parch','Ticker number', 'Fare', 'Cabin', 'Emnarked']
data.head()

# Дествия со строками

In [None]:
data = pd.read_csv('train.csv', delimiter=',')
data.head()

In [None]:
# Выбрать нужные строки
# например: со второй по пятую
data.loc[0:5]

In [76]:
# Выбор с набором значений
# строки с номерами 1,2,3,44

dataNew = data.iloc[[1,2,3,44]]

In [None]:
dataNew

In [80]:
# Индексы теперь идут не по порядку
# исправляем

dataNew.reset_index(inplace=True)

In [None]:
dataNew

In [None]:
del dataNew['index']

In [None]:
dataNew

In [None]:
# Можно задать маску, по которой будут филтроваться строки
# Например ID пасажира делится на 2

mask = (data.PassengerId % 2 == 0)

In [None]:
mask[:5]

In [None]:
data.loc[ mask ].head()

In [None]:
# Либо (Эквивалентно предыдущему способу)

data[data.PassengerId % 2 == 0 ].head()

# Работа с пустыми значениями

In [None]:
data = pd.read_csv('train.csv', delimiter=',')
data.head()

In [None]:
# В столбце Age довольно много пустых значений

data.info()

In [None]:
# Смотрим, что это за строки

data.loc[pd.isnull(data['Age'])].head()

In [None]:
# усли надо исключить условие, то ставим тильду

data.loc[~pd.isnull(data['Age'])].head()

In [None]:
# Заменим пустые значения Age на медиану

medianAge = data['Age'].median()
medianAge

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html

data['Age'].fillna( medianAge, inplace = True )

In [None]:
# итак, значение для строки с индексом 5 (было NaN) заменено на среднее

data.head(10)

# Сортировка

In [None]:
# Сортировка по индексу

data.sort_index(ascending=False).head()

In [None]:
# Сортировка по значению

data.sort_values(by='Age',ascending=False).head()

In [None]:
# Сортировка по значениюнескольких столбцов (Вначале идут иужыки, потом дамы)

data.sort_values(by=['Sex','Age'],ascending=[True,False]).head(500)

# Агрегация и группировка

In [5]:
data = pd.read_csv('train.csv', delimiter=',')
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
# число непустых строк в DataFrame
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.count.html

data.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [None]:
# для отдельного столбца

data['Age'].count()

In [121]:
# сумма
data.sum()

PassengerId                                               397386
Survived                                                     342
Pclass                                                      2057
Name           Braund, Mr. Owen HarrisCumings, Mrs. John Brad...
Sex            malefemalefemalefemalemalemalemalemalefemalefe...
Age                                                      21205.2
SibSp                                                        466
Parch                                                        340
Ticket         A/5 21171PC 17599STON/O2. 31012821138033734503...
Fare                                                     28693.9
dtype: object

In [122]:
# среднее значение
data.mean()

PassengerId    446.000000
Survived         0.383838
Pclass           2.308642
Age             29.699118
SibSp            0.523008
Parch            0.381594
Fare            32.204208
dtype: float64

In [126]:
# комбинация функций
# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.aggregate.html

data.aggregate( ['sum', 'mean'] )

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare
sum,397386.0,342.0,2057.0,"Braund, Mr. Owen HarrisCumings, Mrs. John Brad...",malefemalefemalefemalemalemalemalemalefemalefe...,21205.17,466.0,340.0,A/5 21171PC 17599STON/O2. 31012821138033734503...,28693.9493
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208


In [127]:
# агрегация по столбцам (agg - синоним aggregate)

data.agg( { 'Age': ['mean'], 'Survived': ['mean', 'sum'] } )

Unnamed: 0,Age,Survived
mean,29.699118,0.383838
sum,,342.0


In [128]:
# группировка по столбцу с вычислением среднего

data.groupby( 'Sex' ).mean().reset_index()

Unnamed: 0,Sex,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
1,male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


In [130]:
# группировка по нескольким столбцам одновременно

data.groupby( ['Sex', 'Age'] ).mean().reset_index()

Unnamed: 0,Sex,Age,PassengerId,Survived,Pclass,SibSp,Parch,Fare
0,female,0.75,557.500000,1.000000,3.000000,2.000000,1.000000,19.258300
1,female,1.00,277.500000,1.000000,3.000000,0.500000,1.500000,13.437500
2,female,2.00,379.666667,0.333333,2.500000,1.500000,1.500000,43.245833
3,female,3.00,209.500000,0.500000,2.500000,2.000000,1.500000,31.327100
4,female,4.00,451.600000,1.000000,2.600000,0.800000,1.200000,22.828340
5,female,5.00,380.000000,1.000000,2.750000,1.750000,1.250000,22.717700
6,female,6.00,767.500000,0.500000,2.500000,2.000000,1.500000,32.137500
7,female,7.00,536.000000,1.000000,2.000000,0.000000,2.000000,26.250000
8,female,8.00,131.500000,0.500000,2.500000,1.500000,1.500000,23.662500
9,female,9.00,544.500000,0.000000,3.000000,2.500000,1.750000,27.198950


# Объединение DataFrame

Merge - аналог JOIN в SQL

In [131]:
# заведем два DataFrame

df1 = pd.DataFrame( {
    'key1': ['one', 'two', 'three', 'only1'],
    'value': [1, 2, 3, 4]
} )

In [132]:
df1

Unnamed: 0,key1,value
0,one,1
1,two,2
2,three,3
3,only1,4


In [133]:
df2 = pd.DataFrame( {
    'key2': ['one', 'two', 'three', 'only2'],
    'value': [11, 12, 13, 14]
} )

In [134]:
df2

Unnamed: 0,key2,value
0,one,11
1,two,12
2,three,13
3,only2,14


In [135]:
# сохраняем все значения ключей, которые есть в df1
# если нужно несколько столбцов, то пишем left_on = ['key1', ...] и right_on = ['key2', ...]

df1.merge( df2, how = 'left', left_on = 'key1', right_on = 'key2' )

Unnamed: 0,key1,value_x,key2,value_y
0,one,1,one,11.0
1,two,2,two,12.0
2,three,3,three,13.0
3,only1,4,,


In [136]:
# сохраняем все значения ключей, которые есть в df2

df1.merge( df2, how = 'right', left_on = 'key1', right_on = 'key2' )

Unnamed: 0,key1,value_x,key2,value_y
0,one,1.0,one,11
1,two,2.0,two,12
2,three,3.0,three,13
3,,,only2,14


In [137]:
# сохраняем все значения ключей (объединение)

df1.merge( df2, how = 'outer', left_on = 'key1', right_on = 'key2' )

Unnamed: 0,key1,value_x,key2,value_y
0,one,1.0,one,11.0
1,two,2.0,two,12.0
2,three,3.0,three,13.0
3,only1,4.0,,
4,,,only2,14.0


In [138]:
# сохраняем только общие значения ключей

df1.merge( df2, how = 'inner', left_on = 'key1', right_on = 'key2' )

Unnamed: 0,key1,value_x,key2,value_y
0,one,1,one,11
1,two,2,two,12
2,three,3,three,13


Concat - совмещение DataFrame

In [140]:
# объединение DataFrame путем обычного "склеивания"
pd.concat( [df1, df2],sort=True )

Unnamed: 0,key1,key2,value
0,one,,1
1,two,,2
2,three,,3
3,only1,,4
0,,one,11
1,,two,12
2,,three,13
3,,only2,14


In [141]:
# горизонтальное объединение
pd.concat( [df1, df2], axis = 1 )

Unnamed: 0,key1,value,key2,value.1
0,one,1,one,11
1,two,2,two,12
2,three,3,three,13
3,only1,4,only2,14


Join - объединение по индексу

In [142]:
df1 = pd.DataFrame( {
    'key1': ['one', 'two', 'three', 'only1'],
    'value': [1, 2, 3, 4]
    },
    index = ['0', '1', '2', '3'])

In [143]:
df1

Unnamed: 0,key1,value
0,one,1
1,two,2
2,three,3
3,only1,4


In [144]:
df2 = pd.DataFrame( {
    'key2': ['one', 'two', 'three', 'only2'],
    'value': [11, 12, 13, 14]
    },
    index = ['2', '3', '4', '5'])

In [145]:
df2

Unnamed: 0,key2,value
2,one,11
3,two,12
4,three,13
5,only2,14


In [146]:
# для join надо указать lsuffix и rsuffix

df1.join( df2, how = 'left', lsuffix = '_df1', rsuffix = '_df2' )

Unnamed: 0,key1,value_df1,key2,value_df2
0,one,1,,
1,two,2,,
2,three,3,one,11.0
3,only1,4,two,12.0
