# Антонов Павел - Вторая лаба по Pandas

### Импортировать модули sys numpy pandas

In [3]:
import sys
import numpy as np
import pandas as pd

### Получить от объекта Series показатели описательной статистики

In [4]:
pd.Series([1, 2, 3]).describe()

count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64

### Узнать частоту уникальных элементов объекта Series (гистограмма)

In [6]:
pd.Series([1, 2, 3, 3, 3, 1, 1]).value_counts()

3    3
1    3
2    1
dtype: int64

### Заменить все элементы объекта Series на "Other", кроме двух наиболее часто встречающихся

In [9]:
series = pd.Series([1, 2, 3, 3, 3, 1, 1, 2])
series[~series.isin(series.value_counts().index[:2])] = 'Other'
series

0        1
1    Other
2        3
3        3
4        3
5        1
6        1
7    Other
dtype: object

### Создать объект Series в индексах дата каждый день 2019 года, в значениях случайное значение

In [11]:
dates = pd.date_range(start='2019-01-01', end='2019-12-31') 
series = pd.Series(np.random.rand(len(dates)), index=dates)
series

2019-01-01    0.024417
2019-01-02    0.664767
2019-01-03    0.404271
2019-01-04    0.244993
2019-01-05    0.061211
                ...   
2019-12-27    0.182895
2019-12-28    0.731552
2019-12-29    0.376271
2019-12-30    0.005531
2019-12-31    0.157219
Freq: D, Length: 365, dtype: float64

### Найти сумму всех вторников

In [12]:
series[series.index.weekday == 2].sum()

26.073822588715785

### Для каждого месяца найти среднее значение

In [13]:
series.resample('M').mean()

2019-01-31    0.501430
2019-02-28    0.468356
2019-03-31    0.534018
2019-04-30    0.539720
2019-05-31    0.525093
2019-06-30    0.568061
2019-07-31    0.586266
2019-08-31    0.451064
2019-09-30    0.403951
2019-10-31    0.562173
2019-11-30    0.461084
2019-12-31    0.458999
Freq: M, dtype: float64

### Преобразовать объект Series в DataFrame заданной формы (shape)

In [15]:
series = pd.Series([1, 2, 3, 3, 3, 1, 1, 2])
pd.DataFrame(series.values.reshape((2, 4)))

Unnamed: 0,0,1,2,3
0,1,2,3,3
1,3,1,1,2


### Найти индексы объекта Series кратные 3

In [16]:
series = pd.Series([1, 2, 3, 3, 3, 1, 1, 2])
series[series % 3 == 0].index

Int64Index([2, 3, 4], dtype='int64')

### Получить данные по индексам объекта Series

In [17]:
series = pd.Series([1, 2, 3, 3, 3, 1, 1, 2])
indexes = [4, 5]
series.take(indexes)

4    3
5    1
dtype: int64

### Объединить два объекта Series вертикально и горизонтально

In [20]:
first = pd.Series(np.arange(5))
second = pd.Series(np.arange(4,12))
vertical = first.append(second)
horizontal = pd.concat([first, second], axis=1)
print(vertical)
print(horizontal)

0     0
1     1
2     2
3     3
4     4
0     4
1     5
2     6
3     7
4     8
5     9
6    10
7    11
dtype: int32
     0   1
0  0.0   4
1  1.0   5
2  2.0   6
3  3.0   7
4  4.0   8
5  NaN   9
6  NaN  10
7  NaN  11


### Получить индексы объекта Series A, данные которых содержатся в объетке Series B

In [25]:
first = pd.Series(np.arange(6))
second = pd.Series(np.arange(4,12))
result = first[first.isin(second)].index
result

Int64Index([4, 5], dtype='int64')

### Получить объект Series B, котоырй содержит элементы без повторений объекта A

In [26]:
series = pd.Series([1, 2, 3, 3, 3, 1, 1, 2])
pd.Series(series.unique())

0    1
1    2
2    3
dtype: int64

### Преобразовать каждый символ объекта Series в верхний регистр, преобразовать данных Series в строку

In [28]:
series = pd.Series(['test', 'Mai'])  
series.map(lambda s: str(s).upper())

0    TEST
1     MAI
dtype: object

### Рассчитать количество символов в объекте Series, преобразовать в строковый тип

In [31]:
series = pd.Series(['dskbhkhsd', 12234, 'sdgsgdgsd', 76])
series.map(lambda s: len(str(s)))

0    9
1    5
2    9
3    2
dtype: int64

### Найти разность между объектом Series и смещением объекта Series на n

In [32]:
series = pd.Series([1, 5, 7, 8, 12, 15, 17])
series.diff(periods=3)

0    NaN
1    NaN
2    NaN
3    7.0
4    7.0
5    8.0
6    9.0
dtype: float64

### Преобразовать разыне форматы строк объекта Series в дату

In [33]:
series = pd.Series(['2020/01/01', '2020-02-02', '3 Mar 2020'])
pd.to_datetime(series)

0   2020-01-01
1   2020-02-02
2   2020-03-03
dtype: datetime64[ns]

### Получить год, месяц, день, день недели, номер дня в году от объекта Series (string)

In [35]:
from dateutil.parser import parse
series = pd.Series(['2020/01/01', '2020-02-02', '3 Mar 2020'])
result = series.map(lambda x: parse(x, yearfirst=True))
print(result.dt.year)
print(result.dt.month)
print(result.dt.day)
print(result.dt.weekofyear)
print(result.dt.dayofyear)

0    2020
1    2020
2    2020
dtype: int64
0    1
1    2
2    3
dtype: int64
0    1
1    2
2    3
dtype: int64
0     1
1     5
2    10
dtype: int64
0     1
1    33
2    63
dtype: int64


### Отобрать элементы объекта Series, кторые содержат не менее двух гласных

In [36]:
from collections import Counter
series = pd.Series(['Тест', 'Маи', 'Test', 'Mai'])
mask = series.map(lambda x: sum([Counter(x.lower()).get(i, 0) for i in list('aeiouаоиеёэыуюя')]) >= 2)
series[mask]

1    Маи
3    Mai
dtype: object

### Отобрать e-маилы из объекта Series (можно юзать регулярки)

In [37]:
import re
emails = pd.Series(['test @test.com', 'test@test.ru', 'test.test', 'test@test'])
pattern = '[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mask = emails.map(lambda x: bool(re.match(pattern, x)))
emails[mask]

1    test@test.ru
dtype: object

### Получить среднее значение каждого уникального объекта Series s1 через "маску" другого объекта Series s2

In [43]:
n = 4
s1 = pd.Series(np.random.choice([1, 5, 7, 8, 12, 15, 17], n))
s2 = pd.Series(np.arange(n))
print(s1)
print(s2)
s2.groupby(s1).mean()

0     8
1     5
2     5
3    17
dtype: int32
0    0
1    1
2    2
3    3
dtype: int32


5     1.5
8     0.0
17    3.0
dtype: float64