# Pandas 

### "Pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации." (C)Wikipedia

In [1]:
import numpy as np
import pandas as pd

## Временные ряды в Pandas

In [2]:
"""
Ряд в пандас - это специальная структура данных
"""

s1 = pd.Series([1, 2, 3, 4, 5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
"""
Ряды можно создавать из np.array и наоборот: возвращать в формат массива numpy
"""
s1.to_numpy()

array([1, 2, 3, 4, 5], dtype=int64)

In [4]:
"""
Индексацию можно провести совсем не только при помощи чисел
"""
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [5]:
s2['d']

4

In [6]:
"""
Обращение по индексу также возможно
"""
s2.iloc[3]

4

In [7]:
s2.iloc

<pandas.core.indexing._iLocIndexer at 0x20e61b9e260>

In [9]:
"""
Создание из словаря
"""

d = {'a':2., 'b': 3., 'c': 1. }
s3 = pd.Series(d)
s3

a    2.0
b    3.0
c    1.0
dtype: float64

In [10]:
"""
Варианты индексации
"""

s6 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
print('s6[1] = ',s6.iloc[1])
print('s6[d] = ',s6['d'])
print('Срез: \n',s6['b':'d'],'\n')

print("Индексация условным выражением: s6[s6 <= 3] :\n",s6[s6 % 2 == 1])

s6[1] =  2
s6[d] =  4
Срез: 
 b    2
c    3
d    4
dtype: int64 

Индексация условным выражением: s6[s6 <= 3] :
 a    1
c    3
e    5
dtype: int64


In [11]:
s6

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [12]:
s6.iloc[1]

2

In [13]:
s6['d']

4

In [14]:
s6[2:4]

c    3
d    4
dtype: int64

In [15]:
s6['b':'e']

b    2
c    3
d    4
e    5
dtype: int64

In [20]:
#Арифметические операции
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
print('\ns6:\n',s6)
print('\ns7:\n',s7)
print('\ns6 + s7:\n',s6 + s7)
print('\ns6 * s7:\n',s6 * s7)
print('\ns6 / s7:\n',s6 / s7)
print('\n s7**s6 :\n', s7**s6)


s6:
 a    1
b    2
c    3
d    4
e    5
dtype: int64

s7:
 a    10
b    20
c    30
d    40
e    50
dtype: int64

s6 + s7:
 a    11
b    22
c    33
d    44
e    55
dtype: int64

s6 * s7:
 a     10
b     40
c     90
d    160
e    250
dtype: int64

s6 / s7:
 a    0.1
b    0.1
c    0.1
d    0.1
e    0.1
dtype: float64

 s7**s6 :
 a           10
b          400
c        27000
d      2560000
e    312500000
dtype: int64


### Табличные данные в Pandas

In [17]:
"""
Структура DataFrame
Создание из pd.Series
"""
d = {"price":pd.Series([1, 2, 3]),"count": pd.Series([10, 12, 7])}
df1 = pd.DataFrame(d)
df1

Unnamed: 0,price,count
0,1,10
1,2,12
2,3,7


In [18]:
pd.Series([1, 2, 3], index=['product 1', 'product 2', 'product 4'])

product 1    1
product 2    2
product 4    3
dtype: int64

In [19]:
"""
Зададим собственный вариант индексации
"""
d = {"price":pd.Series([10, 20., 30], index=['product 1', 'product 2', 'product 3']),
     "count": pd.Series([10, 12, 7], index=['product 1', 'product 2', 'product 3'])}
df2 = pd.DataFrame(d)
df2

Unnamed: 0,price,count
product 1,10.0,10
product 2,20.0,12
product 3,30.0,7


In [20]:
print(df2.info())

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, product 1 to product 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   3 non-null      float64
 1   count   3 non-null      int64  
dtypes: float64(1), int64(1)
memory usage: 72.0+ bytes
None


In [27]:
df2.index

Index(['product 1', 'product 2', 'product 3'], dtype='object')

In [28]:
df2[['price', 'count']]

Unnamed: 0,price,count
product 1,10.0,10
product 2,20.0,12
product 3,30.0,7


In [29]:
df2.columns[1]

'count'

In [30]:
df2[df2.columns[::2]]

Unnamed: 0,price
product 1,10.0
product 2,20.0
product 3,30.0


In [31]:
"""
Создание из массива словарей
"""

d3 = [{"price": 3, "count":8}, {"price": '4', "count": 11}]
df3 = pd.DataFrame(d3)
df3

Unnamed: 0,price,count
0,3,8
1,4,11


In [34]:
"""
Создание из одного словаря
"""

d4 = {'price' : [1., 2., 3.], 'count' : [10, 12, 7]}
df4 = pd.DataFrame(d4, index=['product 1', 'product 2', 'product 3'])

In [41]:
df4

Unnamed: 0,price,count
product 1,1.0,10
product 2,2.0,12
product 3,3.0,7


In [42]:
"""
Мы можем также узнать техническую информацию о нашей таблице
"""

df4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, product 1 to product 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   3 non-null      float64
 1   count   3 non-null      int64  
dtypes: float64(1), int64(1)
memory usage: 72.0+ bytes


In [43]:
"""
Обращение к элементам DataFrame
"""

d = {"price":np.array([1, 2, 3]),"count": np.array([10, 20, 30]), 'tax' : [0.1, 0.2, 0.3]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
df

Unnamed: 0,price,count,tax
a,1,10,0.1
b,2,20,0.2
c,3,30,0.3


In [44]:
df[df.columns[1]]

a    10
b    20
c    30
Name: count, dtype: int32

In [45]:
#Выбор столбца
df['count']

a    10
b    20
c    30
Name: count, dtype: int32

In [46]:
#Или набора столбцов
df[['count','price']]

Unnamed: 0,count,price
a,10,1
b,20,2
c,30,3


In [47]:
#Выбор строки по ее имени
df.loc['a']

price     1.0
count    10.0
tax       0.1
Name: a, dtype: float64

In [48]:
#И по индексу
df.iloc[1]

price     2.0
count    20.0
tax       0.2
Name: b, dtype: float64

In [49]:
#Slice по строкам
df[0:2]

Unnamed: 0,price,count,tax
a,1,10,0.1
b,2,20,0.2


In [50]:
#И по меткам
df['b':'c']

Unnamed: 0,price,count,tax
b,2,20,0.2
c,3,30,0.3


In [51]:
#Выбор строк по условию
df[df['count'] >= 20]

Unnamed: 0,price,count,tax
b,2,20,0.2
c,3,30,0.3


In [60]:
df.query('count >= 20')

Unnamed: 0,price,count,tax
b,2,20,0.2
c,3,30,0.3


In [52]:
"""
В pandas существуют удобные функции чтения из файла и записи в файл
"""



'\nВ pandas существуют удобные функции чтения из файла и записи в файл\n'

In [61]:
"""
Алло, алло, Джеймс, какие вести?
Давно я дома не была,
Пятнадцать дней, как я в отъезде,
Ну, как идут у нас дела?
"""

loss = pd.read_csv('Прекрасная Маркиза.csv')

In [62]:
loss

Unnamed: 0,Потери прекрасной маркизы,Строчка из песни,Потеря
0,100,Кобыла Ваша околела,Кобыла
1,500,С кобылой что? Пустое дело - она с конюшнею сг...,Конюшня
2,20000,Сгорел ваш дом с конюшней вместе,Дом
3,50000,Когда пылало все поместье,Поместье
4,100000,"Узнал ваш муж, прекрасная маркиза,Что разорил ...",Состояние


In [63]:
loss = pd.read_csv('Прекрасная Маркиза.csv', index_col='Потеря')

In [68]:
loss.loc['Дом']

Потери прекрасной маркизы                               20000
Строчка из песни             Сгорел ваш дом с конюшней вместе
Name: Дом, dtype: object

In [70]:
loss['Строчка из песни']

Потеря
Кобыла                                     Кобыла Ваша околела
Конюшня      С кобылой что? Пустое дело - она с конюшнею сг...
Дом                           Сгорел ваш дом с конюшней вместе
Поместье                             Когда пылало все поместье
Состояние    Узнал ваш муж, прекрасная маркиза,Что разорил ...
Name: Строчка из песни, dtype: object

In [65]:
loss.index

Index(['Кобыла', 'Конюшня', 'Дом', 'Поместье', 'Состояние'], dtype='object', name='Потеря')

In [71]:
"""
Создадим  новую колонку 'Шок Маркизы', исчисляя его в совокупной потере, известной маркизе на текущий момент
"""

loss['Шок Маркизы'] = loss['Потери прекрасной маркизы'].cumsum()
loss

Unnamed: 0_level_0,Потери прекрасной маркизы,Строчка из песни,Шок Маркизы
Потеря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Кобыла,100,Кобыла Ваша околела,100
Конюшня,500,С кобылой что? Пустое дело - она с конюшнею сг...,600
Дом,20000,Сгорел ваш дом с конюшней вместе,20600
Поместье,50000,Когда пылало все поместье,70600
Состояние,100000,"Узнал ваш муж, прекрасная маркиза,Что разорил ...",170600


In [72]:
loss['Потери прекрасной маркизы'].cumsum()

Потеря
Кобыла          100
Конюшня         600
Дом           20600
Поместье      70600
Состояние    170600
Name: Потери прекрасной маркизы, dtype: int64

In [73]:
"""
Чему равны суммарные потери прекрасной маркизы?
"""
loss['Потери прекрасной маркизы'].sum()

170600

In [74]:
"""
А средняя величина утраты?
"""
loss['Потери прекрасной маркизы'].mean()

34120.0

In [75]:
"""
Максимальная потеря?
"""

loss['Потери прекрасной маркизы'].max()

100000

In [76]:
"""
Минимальная?
"""

loss['Потери прекрасной маркизы'].min()

100

In [77]:
"""
Сохраним обновленную версию таблицы в файл
"""
loss.to_csv('Прекрасная Маркиза 2.csv')

In [78]:
"""
И проверим, как произошло сохранение
"""

pd.read_csv('Прекрасная Маркиза 2.csv')

Unnamed: 0,Потеря,Потери прекрасной маркизы,Строчка из песни,Шок Маркизы
0,Кобыла,100,Кобыла Ваша околела,100
1,Конюшня,500,С кобылой что? Пустое дело - она с конюшнею сг...,600
2,Дом,20000,Сгорел ваш дом с конюшней вместе,20600
3,Поместье,50000,Когда пылало все поместье,70600
4,Состояние,100000,"Узнал ваш муж, прекрасная маркиза,Что разорил ...",170600


## Работа с данными в Pandas

### Датасет по продажам

In [55]:
sales = pd.read_csv('sales_train.csv')

In [56]:
sales.head(10)

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,02.01.2013,0,59,22154,999.0,1.0
1,03.01.2013,0,25,2552,899.0,1.0
2,05.01.2013,0,25,2552,899.0,-1.0
3,06.01.2013,0,25,2554,1709.05,1.0
4,15.01.2013,0,25,2555,1099.0,1.0
5,10.01.2013,0,25,2564,349.0,1.0
6,02.01.2013,0,25,2565,549.0,1.0
7,04.01.2013,0,25,2572,239.0,1.0
8,11.01.2013,0,25,2572,299.0,1.0
9,03.01.2013,0,25,2573,299.0,3.0


In [57]:
s = sales.shop_id.apply(lambda x: str(x))

In [58]:
sales_1 = sales.copy()

In [59]:
sales_1['shop_id'] = s

In [74]:
sales_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2935849 entries, 0 to 2935848
Data columns (total 6 columns):
 #   Column          Dtype  
---  ------          -----  
 0   date            object 
 1   date_block_num  int64  
 2   shop_id         object 
 3   item_id         int64  
 4   item_price      float64
 5   item_cnt_day    float64
dtypes: float64(2), int64(2), object(2)
memory usage: 134.4+ MB


In [76]:
sales_1.query('''shop_id == '59' ''')

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,02.01.2013,0,59,22154,999.0,1.0
40084,10.01.2013,0,59,22151,399.0,1.0
77502,04.01.2013,0,59,5603,699.0,1.0
77503,19.01.2013,0,59,5587,199.0,2.0
77504,31.01.2013,0,59,5613,5571.0,1.0
...,...,...,...,...,...,...
2899654,10.10.2015,33,59,4962,298.0,1.0
2899655,04.10.2015,33,59,4706,299.0,1.0
2899656,11.10.2015,33,59,5002,2999.0,1.0
2899657,15.10.2015,33,59,5233,1199.0,1.0


In [77]:
sales.shape

(2935849, 6)

In [78]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2935849 entries, 0 to 2935848
Data columns (total 6 columns):
 #   Column          Dtype  
---  ------          -----  
 0   date            object 
 1   date_block_num  int64  
 2   shop_id         int64  
 3   item_id         int64  
 4   item_price      float64
 5   item_cnt_day    float64
dtypes: float64(2), int64(3), object(1)
memory usage: 134.4+ MB


In [79]:
"""
Рассмотрим конкретный магазин в конкретный магазин
"""

sales59 = sales.query('shop_id == 59')#[sales.shop_id == 59]
sales59

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,02.01.2013,0,59,22154,999.0,1.0
40084,10.01.2013,0,59,22151,399.0,1.0
77502,04.01.2013,0,59,5603,699.0,1.0
77503,19.01.2013,0,59,5587,199.0,2.0
77504,31.01.2013,0,59,5613,5571.0,1.0
...,...,...,...,...,...,...
2899654,10.10.2015,33,59,4962,298.0,1.0
2899655,04.10.2015,33,59,4706,299.0,1.0
2899656,11.10.2015,33,59,5002,2999.0,1.0
2899657,15.10.2015,33,59,5233,1199.0,1.0


In [80]:
sales59.date[0].split('.')

['02', '01', '2013']

In [81]:
ts = pd.to_datetime(sales59.date[0])
ts

Timestamp('2013-02-01 00:00:00')

In [82]:
ts.day

1

In [83]:
ts.month

2

In [84]:
ts.year

2013

In [85]:
ts.hour

0

In [86]:
sales59.set_index('date')

Unnamed: 0_level_0,date_block_num,shop_id,item_id,item_price,item_cnt_day
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
02.01.2013,0,59,22154,999.0,1.0
10.01.2013,0,59,22151,399.0,1.0
04.01.2013,0,59,5603,699.0,1.0
19.01.2013,0,59,5587,199.0,2.0
31.01.2013,0,59,5613,5571.0,1.0
...,...,...,...,...,...
10.10.2015,33,59,4962,298.0,1.0
04.10.2015,33,59,4706,299.0,1.0
11.10.2015,33,59,5002,2999.0,1.0
15.10.2015,33,59,5233,1199.0,1.0


In [87]:
sales59

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,02.01.2013,0,59,22154,999.0,1.0
40084,10.01.2013,0,59,22151,399.0,1.0
77502,04.01.2013,0,59,5603,699.0,1.0
77503,19.01.2013,0,59,5587,199.0,2.0
77504,31.01.2013,0,59,5613,5571.0,1.0
...,...,...,...,...,...,...
2899654,10.10.2015,33,59,4962,298.0,1.0
2899655,04.10.2015,33,59,4706,299.0,1.0
2899656,11.10.2015,33,59,5002,2999.0,1.0
2899657,15.10.2015,33,59,5233,1199.0,1.0


In [91]:
sales59.date = pd.to_datetime(sales59.date, format='mixed')
sales59.set_index('date', inplace=True)
sales59

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sales59.date = pd.to_datetime(sales59.date, format='mixed')


Unnamed: 0_level_0,date_block_num,shop_id,item_id,item_price,item_cnt_day
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013-02-01,0,59,22154,999.0,1.0
2013-10-01,0,59,22151,399.0,1.0
2013-04-01,0,59,5603,699.0,1.0
2013-01-19,0,59,5587,199.0,2.0
2013-01-31,0,59,5613,5571.0,1.0
...,...,...,...,...,...
2015-10-10,33,59,4962,298.0,1.0
2015-04-10,33,59,4706,299.0,1.0
2015-11-10,33,59,5002,2999.0,1.0
2015-10-15,33,59,5233,1199.0,1.0


In [92]:
sales59 = sales59.drop(columns=['date_block_num', 'item_id'])
sales59

Unnamed: 0_level_0,shop_id,item_price,item_cnt_day
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-02-01,59,999.0,1.0
2013-10-01,59,399.0,1.0
2013-04-01,59,699.0,1.0
2013-01-19,59,199.0,2.0
2013-01-31,59,5571.0,1.0
...,...,...,...
2015-10-10,59,298.0,1.0
2015-04-10,59,299.0,1.0
2015-11-10,59,2999.0,1.0
2015-10-15,59,1199.0,1.0


In [93]:
sales59['income'] = sales59['item_price']*sales59['item_cnt_day']
sales59

Unnamed: 0_level_0,shop_id,item_price,item_cnt_day,income
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013-02-01,59,999.0,1.0,999.0
2013-10-01,59,399.0,1.0,399.0
2013-04-01,59,699.0,1.0,699.0
2013-01-19,59,199.0,2.0,398.0
2013-01-31,59,5571.0,1.0,5571.0
...,...,...,...,...
2015-10-10,59,298.0,1.0,298.0
2015-04-10,59,299.0,1.0,299.0
2015-11-10,59,2999.0,1.0,2999.0
2015-10-15,59,1199.0,1.0,1199.0


In [94]:
sales59_2013 = sales59[sales59.index.year == 2013]
sales59_2014 = sales59[sales59.index.year == 2014]
sales59_2015 = sales59[sales59.index.year == 2015]

In [95]:
"""
Доход за 2013 год:
"""

sales59_2013.income.sum()

17386308.589999136

In [96]:
"""
Доход за 2014 год:
"""

sales59_2014.income.sum()

17479125.7900001

In [97]:
"""
Доход за 2015 год:
"""

sales59_2015.income.sum()

10361144.519999841

In [98]:
sales59_2013[sales59_2013.index.month == 10].income.sum()

1352985.0

In [99]:
"""
Посчитаем среднемесячный доход по годам
"""
month_income_2013 = [sales59_2013[sales59_2013.index.month == i].income.sum() for i in range(1,13)]
month_income_2014 = [sales59_2014[sales59_2014.index.month == i].income.sum() for i in range(1,13)]
month_income_2015 = [sales59_2015[sales59_2015.index.month == i].income.sum() for i in range(1,13)]


In [100]:
mounths = ['Jan', 'Feb', 'March', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']

month_income_2013 = pd.Series(month_income_2013, index=mounths)
month_income_2014 = pd.Series(month_income_2014, index=mounths)
month_income_2015 = pd.Series(month_income_2015, index=mounths)

In [102]:
month_income_2013

Jan      1.330189e+06
Feb      1.485324e+06
March    1.494760e+06
Apr      9.827315e+05
May      1.088616e+06
Jun      1.263982e+06
Jul      1.232969e+06
Aug      1.296419e+06
Sep      1.655218e+06
Oct      1.352985e+06
Nov      1.908513e+06
Dec      2.294602e+06
dtype: float64

In [103]:
month_income_2013.mean()

1448859.0491665944

In [104]:
month_income_2014.mean()

1456593.8158333416

In [105]:
month_income_2015.mean()

863428.7099999866

In [106]:
month_income_2013.argmax()

11

In [107]:
month_income_2013.index

Index(['Jan', 'Feb', 'March', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct',
       'Nov', 'Dec'],
      dtype='object')

In [108]:
"""
Самый прибыльный месяц
"""

best_2013 = month_income_2013.index[month_income_2013.argmax()]
best_2014 = month_income_2014.index[month_income_2014.argmax()]
best_2015 = month_income_2015.index[month_income_2015.argmax()]

In [109]:
best_2013

'Dec'

In [110]:
best_2014

'Dec'

In [111]:
best_2015

'Feb'

В чем причина?...

In [112]:
sales59_2013.index.max()

Timestamp('2013-12-31 00:00:00')

In [113]:
sales59_2014.index.max()

Timestamp('2014-12-31 00:00:00')

In [114]:
sales59_2015.index.max()

Timestamp('2015-12-10 00:00:00')

Выкенем декабрь из рассмотрения

In [115]:
month_income_2013.iloc[:-1]

Jan      1.330189e+06
Feb      1.485324e+06
March    1.494760e+06
Apr      9.827315e+05
May      1.088616e+06
Jun      1.263982e+06
Jul      1.232969e+06
Aug      1.296419e+06
Sep      1.655218e+06
Oct      1.352985e+06
Nov      1.908513e+06
dtype: float64

In [116]:
month_income_2014.iloc[:-1]

Jan      1038632.50
Feb      1428512.00
March    1439020.00
Apr      1170795.00
May      1236650.99
Jun      1313043.60
Jul      1176030.00
Aug      1302852.00
Sep      1590278.00
Oct      1158658.00
Nov      2083230.00
dtype: float64

In [117]:
month_income_2015.iloc[:-1]

Jan      1028576.00
Feb      1138104.00
March     967777.52
Apr      1077419.00
May      1133812.50
Jun       829087.00
Jul       830808.50
Aug      1010361.00
Sep       883655.00
Oct       939555.00
Nov       300158.00
dtype: float64

In [118]:
month_income_2013.iloc[:-1].mean()

1371973.3263635756

In [119]:
month_income_2014.iloc[:-1].mean()

1357972.9172727354

In [120]:
month_income_2015[:-1].mean()

921755.7745454401

In [122]:
"""
Вывод: 2015 год был довольно неудачным для данного магазина. Найдем ли мы такую тенденцию среди других магазинов?
"""

sales31 = sales[sales.shop_id == 31]
sales31.date = pd.to_datetime(sales31.date, format='mixed')
sales31.set_index('date', inplace=True)
sales31 = sales31.drop(columns=['date_block_num', 'item_id'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sales31.date = pd.to_datetime(sales31.date, format='mixed')


In [123]:
sales31

Unnamed: 0_level_0,shop_id,item_price,item_cnt_day
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-03-01,31,1794.0,2.0
2013-02-01,31,1789.0,1.0
2013-11-01,31,799.0,1.0
2013-01-26,31,1499.0,1.0
2013-01-25,31,1499.0,1.0
...,...,...,...
2015-01-10,31,1999.0,1.0
2015-07-10,31,1999.0,1.0
2015-10-10,31,1999.0,1.0
2015-10-23,31,1199.0,1.0


In [124]:
sales31['income'] = sales31['item_price']*sales31['item_cnt_day']
sales31_2013 = sales31[sales31.index.year == 2013]
sales31_2014 = sales31[sales31.index.year == 2014]
sales31_2015 = sales31[sales31.index.year == 2015]

In [125]:
month_income_31_2013 = [sales31_2013[sales31_2013.index.month == i].income.sum() for i in range(1,13)]
month_income_31_2014 = [sales31_2014[sales31_2014.index.month == i].income.sum() for i in range(1,13)]
month_income_31_2015 = [sales31_2015[sales31_2015.index.month == i].income.sum() for i in range(1,13)]

In [126]:
month_income_31_2013 = pd.Series(month_income_31_2013, index=mounths)
month_income_31_2014 = pd.Series(month_income_31_2014, index=mounths)
month_income_31_2015 = pd.Series(month_income_31_2015, index=mounths)

In [127]:
sales31_2013.index.max()

Timestamp('2013-12-31 00:00:00')

In [128]:
sales31_2014.index.max()

Timestamp('2014-12-31 00:00:00')

In [129]:
sales31_2015.index.max()

Timestamp('2015-12-10 00:00:00')

In [130]:
"""
Вывод: 10.12.2015 закончился сбор данных по магазинам
"""

month_income_31_2013.iloc[:-1].mean()

6779011.498182145

In [131]:
month_income_31_2014.iloc[:-1].mean()

6761601.265454524

In [132]:
month_income_31_2015.iloc[:-1].mean()

5157862.440908985


**Вывод**: как минимум у двух магазинов из перечня 2015 год оказался менее удачным, чем предшествующие. Возможно, это тенденция


## Очистка данных в pandas
### 1.Обработка пропусков

In [133]:
DICT = {'Model' : ['Logistic Regression', "SVM" ,'KNN', 'Decision Tree'], 'Accuracy' : [0.96,None, None, 0.67 ]}
df = pd.DataFrame(DICT)
df

Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
1,SVM,
2,KNN,
3,Decision Tree,0.67


In [134]:
df1 = df.fillna(0)
df1

Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
1,SVM,0.0
2,KNN,0.0
3,Decision Tree,0.67


In [135]:
df2 = df.fillna(1)
df2

Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
1,SVM,1.0
2,KNN,1.0
3,Decision Tree,0.67


In [136]:
df3 = df.fillna(df['Accuracy'].min())
df3

Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
1,SVM,0.67
2,KNN,0.67
3,Decision Tree,0.67


In [137]:
df4 = df.dropna()
df4

Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
3,Decision Tree,0.67


In [140]:
df.fillna(method = 'bfill')

  df.fillna(method = 'bfill')


Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
1,SVM,0.67
2,KNN,0.67
3,Decision Tree,0.67


In [141]:
df.fillna(method = 'ffill')

  df.fillna(method = 'ffill')


Unnamed: 0,Model,Accuracy
0,Logistic Regression,0.96
1,SVM,0.96
2,KNN,0.96
3,Decision Tree,0.67


### 2. Удаление дубликатов

In [142]:
DICT = {'Организация' : ['Яндекс', "Сбербанк" ,'Мираторг', 'Яндекс', 'Mail.ru Group', "Сбербанк", 'Яндекс'], 
        'Форма организации' : ['ООО', 'ОАО', 'ООО', 'ООО', 'ООО', 'ПАО', 'ООО']}
df = pd.DataFrame(DICT)

In [143]:
df

Unnamed: 0,Организация,Форма организации
0,Яндекс,ООО
1,Сбербанк,ОАО
2,Мираторг,ООО
3,Яндекс,ООО
4,Mail.ru Group,ООО
5,Сбербанк,ПАО
6,Яндекс,ООО


In [144]:
df.drop_duplicates()

Unnamed: 0,Организация,Форма организации
0,Яндекс,ООО
1,Сбербанк,ОАО
2,Мираторг,ООО
4,Mail.ru Group,ООО
5,Сбербанк,ПАО


In [145]:
"""
Удалились не все дубликаты. Потому что одна из строчек отличается от другой лишь формой организации
"""

df.drop_duplicates(subset='Организация')

Unnamed: 0,Организация,Форма организации
0,Яндекс,ООО
1,Сбербанк,ОАО
2,Мираторг,ООО
4,Mail.ru Group,ООО


In [146]:
df.drop_duplicates(subset='Организация', keep='last')

Unnamed: 0,Организация,Форма организации
2,Мираторг,ООО
4,Mail.ru Group,ООО
5,Сбербанк,ПАО
6,Яндекс,ООО
