# Работа с числами

### Нахождение минимума и прочих арифметических выражений

In [5]:
import pandas as pd
dataframe = pd.read_csv("../data/titanic.csv")

print('Максимум:', dataframe['Age'].max())
print('Минимум:', dataframe['Age'].min())
print('Среднее:', dataframe['Age'].mean())
print('Сумма:', dataframe['Age'].sum())
print('Количество:', dataframe['Age'].count())

Максимум: 71.0
Минимум: 0.17
Среднее: 30.397989417989418
Сумма: 22980.88
Количество: 756


In [7]:
print('дисперсия:', dataframe['Age'].var())
print('стандартное отклонение:', dataframe['Age'].std())
print('коэффициент эксцесса:', dataframe['Age'].kurt())
print('коэффициент асимметрии:', dataframe['Age'].skew())
print('стандартная ошибка среднего:', dataframe['Age'].sem())

дисперсия: 203.32047012439116
стандартное отклонение: 14.259048710359018
коэффициент эксцесса: -0.036536168924722556
коэффициент асимметрии: 0.36851087371648295
стандартная ошибка среднего: 0.5185965877244655


### Нахождение уникальных значений

In [8]:
dataframe['Sex'].unique()

array(['female', 'male'], dtype=object)

In [9]:
dataframe['Sex'].value_counts()

Sex
male      851
female    462
Name: count, dtype: int64

In [11]:
dataframe['PClass'].value_counts()

PClass
3rd    711
1st    322
2nd    279
*        1
Name: count, dtype: int64

_Аномалия одно значение имеет *_

### Пропущенные значения

In [27]:
dataframe = pd.read_csv("../data/titanic.csv")
dataframe[dataframe['Age'].isnull()].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


*Важное замечание для меня. В библиотеке pandas для обозначения пропущенных значений используется значение NaN библиотеки ***Numpy****

In [26]:
#Изменим значения в первых 15 строках
import numpy as np
dataframe.loc[:14,'Sex'] = dataframe.loc[:14,'Sex'].replace(np.nan, 'male')
dataframe.head(14)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
5,"Anderson, Mr Harry",1st,47.0,male,1,0
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
7,"Andrews, Mr Thomas, jr",1st,39.0,male,0,0
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0


### Удаление столбцов

In [29]:
dataframe = pd.read_csv('../data/titanic.csv')
dataframe.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


In [31]:
#Также можно удалить несколько столбцов (Списком)
dataframe.drop(['Age','Sex'],axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


In [35]:
#Удаление столба по его индексу
dataframe.drop(dataframe.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


### Удаление строки

In [37]:
dataframe[dataframe['Sex'] != 'male'].head(10)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
11,"Astor, Mrs John Jacob (Madeleine Talmadge Force)",1st,19.0,female,1,1
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
15,"Baxter, Mrs James (Helene DeLaudeniere Chaput)",1st,50.0,female,1,1
19,"Beckwith, Mrs Richard Leonard (Sallie Monypeny)",1st,47.0,female,1,1
23,"Bishop, Mrs Dickinson H (Helen Walton)",1st,19.0,female,1,1


*Булевы функции отлично подходят для фильтра и форматирования таблиц по признаку*

In [38]:
dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


### Удаление повторяющихся строк

In [39]:
dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


*В датасете каждая строка имеет уникальное значение, поэтому следует рассмотреть только подмножество столбцов*

In [40]:
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


*У нас всего 2 уникальных значений поэтому только 2 строки вывелось. Что произошло? Сначала по половому признаку нашлась одна строка, остальные с этим же значением были отброшены, далее до второго уникального значения*

In [41]:
dataframe.drop_duplicates(subset=['Sex'],keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


*Первые уникальные значения с конца*

### Группирование строк по значениям

In [45]:
dataframe = pd.read_csv('../data/titanic.csv')
dataframe.groupby('Sex').mean(numeric_only=True)

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [46]:
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

In [47]:
dataframe.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

*Сгруппировали данные по первому столбцу, а затем по второму столбцу*

### Группировка строк по времени

In [51]:
time_index = pd.date_range('06/06/2017', periods=100000, freq='30s')
dataframe = pd.DataFrame(index=time_index)
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000) #Генерация 100000 целочисленных значений от 1 до 10
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-11,86503
2017-06-18,100582
2017-06-25,101023
2017-07-02,101222
2017-07-09,100315
2017-07-16,10302


In [52]:
dataframe.head(3)

Unnamed: 0,Sale_Amount
2017-06-06 00:00:00,7
2017-06-06 00:00:30,6
2017-06-06 00:01:00,5


In [54]:
dataframe.resample('ME').count()

Unnamed: 0,Sale_Amount
2017-06-30,72000
2017-07-31,28000


*По умолчанию при группировке по дате метка времени ставится на конец периода (временной группы). Можно начинать отсчет с начала временного интервала. Наглядный пример:*

In [55]:
dataframe.resample('ME',label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,72000
2017-06-30,28000
