# Продвинутый Python

## Тема 5: Библиотека Pandas

Pandas = panel + data

CSV = comma separated values

### Возможности pandas
Понимает многие источники данных:
* CSV- и Excel-файлы
* Буфер обмена (Ctrl + C)
* HTML-страницы (тег table)
* JSON-файлы
* формат Parquet
* SQL-запросы

Делает вычисления в оперативной памяти (DataFrame хранится в оперативной памяти) => работает быстро, но ограничения по памяти

Пример: есть ноутбук с 4Gb RAM; 2Gb свободно => с данными до 1.5 Gb можно работать

Аналоги SQL:
* Для группировки данных: GROUP BY - groupby (с любыми функциями)
* Для объединения таблиц: JOIN - join и merge
* Для сортировки данных: ORDER BY - sort_values (возможна по возрастанию и убыванию)

=> Если объем данных ограничен парой Gb, то нет необходимости работать с БД

Цепочки вычислений из нескольких методов

Вычисления любой сложности, вычисления с условными конструкциями

In [114]:
import pandas as pd

In [3]:
%pip install html5lib

Note: you may need to restart the kernel to use updated packages.


In [41]:
# Пример забора данных с сайтов
# Работает не очень. Часто таблицы представляют сложные структуры и не читаются read_html
print(pd.read_html('https://www.puhovik.ru/catalog/10297/?#622793'))

[                                0                       1
0                           Сезон                    лето
1     Длина изделия по спинке, см                      91
2                           Бренд                NORTFOLK
3             Страна производства                   КИТАЙ
4                  Силуэт, покрой                  прямой
5       Состав верхнего материала  37% нейлон, 63% хлопок
6  Состав подкладочного материала          100% полиэстер]


In [75]:
data = pd.read_csv('Homework/power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [45]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [46]:
type(data)

pandas.core.frame.DataFrame

In [47]:
len(data)

1189482

In [48]:
data.shape

(1189482, 4)

In [49]:
# Простые вычисления для нового столбца
data['year_plus_one'] = data['year'] + 1
data.head()

Unnamed: 0,country,year,quantity,category,year_plus_one
0,Austria,1996,5.0,1,1997
1,Austria,1995,17.0,1,1996
2,Belgium,2014,0.0,1,2015
3,Belgium,2013,0.0,1,2014
4,Belgium,2012,35.0,1,2013


In [50]:
# Основная статистика
data.describe()

Unnamed: 0,year,quantity,category,year_plus_one
count,1189482.0,1189482.0,1189482.0,1189482.0
mean,2002.852,184264.8,36.24763,2003.852
std,7.167345,15856630.0,18.09968,7.167345
min,1990.0,-864348.0,1.0,1991.0
25%,1997.0,14.0,24.0,1998.0
50%,2003.0,189.0,35.0,2004.0
75%,2009.0,2265.0,51.0,2010.0
max,2014.0,6680329000.0,71.0,2015.0


In [51]:
# Отдельный столбец (тип Series)
data['year'].head()

0    1996
1    1995
2    2014
3    2013
4    2012
Name: year, dtype: int64

In [52]:
# Отдельный столбец (тип Series)
data.year.head()

0    1996
1    1995
2    2014
3    2013
4    2012
Name: year, dtype: int64

In [55]:
# Новый тип (Series). Для столбца и всей таблица могут применятся разные методы
type(data), type(data['year']), type(data.year.head())

(pandas.core.frame.DataFrame,
 pandas.core.series.Series,
 pandas.core.series.Series)

In [56]:
# Уникальные значения в слобце
data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71])

In [59]:
set([1, 1, 2, 2, 2, 3])

{1, 2, 3}

In [60]:
# Количество уникальных элементов
len(data['category'].unique())

71

In [61]:
# Количество уникальных элементов
data['category'].nunique()

71

In [57]:
# Распределение количества строк по значениям столбца
data['category'].value_counts().head()

category
67    133916
27     97645
24     75132
42     64161
37     62156
Name: count, dtype: int64

In [62]:
# Распределение количества строк по значениям столбца (в процентах)
data['category'].value_counts(normalize=True).head()

category
67    0.112583
27    0.082090
24    0.063164
42    0.053940
37    0.052255
Name: proportion, dtype: float64

### Фильтры

In [63]:
values = pd.read_csv('Files/power.csv')
data.head()

Unnamed: 0,country,year,quantity,category,year_plus_one
0,Austria,1996,5.0,1,1997
1,Austria,1995,17.0,1,1996
2,Belgium,2014,0.0,1,2015
3,Belgium,2013,0.0,1,2014
4,Belgium,2012,35.0,1,2013


In [65]:
# Выбрать несколько столбцов
country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [69]:
# Выбрать несколько столбцов
values[['country', 'quantity']].head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [72]:
# Фильтр на строки. Потребление выше среднего
average_level = data ['quantity'].mean()
print(average_level)
f = f'quantity > {average_level}'
country_stats.query(f'quantity > {average_level}').head()

184264.77005012863


Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0


In [74]:
# Самый популярный способ
data[data.quantity > average_level].head()

Unnamed: 0,country,year,quantity,category,year_plus_one
3228,United States,2014,367987.0,2,2015
3229,United States,2013,384439.0,2,2014
3230,United States,2012,370625.0,2,2013
3231,United States,2011,310909.0,2,2012
3232,United States,2010,335418.0,2,2011


In [75]:
# Как определить используемый вариант страны
data['country'].unique()

array(['Austria', 'Belgium', 'Czechia', 'Finland', 'France', 'Greece',
       'Hungary', 'Italy', 'Korea, Republic of', 'Netherlands', 'Romania',
       'Serbia', 'Slovakia', 'Ukraine', 'United Kingdom', 'United States',
       'Brunei Darussalam', 'Bulgaria', 'Canada', 'Chile', 'Croatia',
       'Iran (Islamic Rep. of)', 'Jordan', 'Lithuania', 'Mexico', 'Oman',
       'Other Asia', 'Poland', 'Portugal', 'Spain', 'Sweden',
       'Switzerland', 'T.F.Yug.Rep. Macedonia', 'Turkey', 'Uzbekistan',
       'Argentina', 'Colombia', 'Germany', 'Norway', 'Australia',
       'China, Macao SAR', 'Japan', 'Denmark', 'Ireland', 'Philippines',
       'Bangladesh', 'Eritrea', 'Ethiopia', 'Lesotho', 'Nepal', 'Niger',
       'Pakistan', 'Serbia and Montenegro', 'Tunisia', 'Botswana',
       'Georgia', 'Republic of Moldova', 'Peru', 'South Africa',
       'Iceland', 'Latvia', 'Luxembourg', 'Cuba', 'Kyrgyzstan',
       'Singapore', 'Thailand', 'United Arab Emirates', 'Uruguay',
       'Armenia', 'Fiji', 

In [76]:
# Найдем как называется Россия и Беларусь в этом дата фрейме
# фильтр на подстроку - смотрим все страны, содерж. в названии 'us'
data[data['country'].str.contains('li', case = False)]['country'].unique()

array(['Korea, Republic of', 'Lithuania', 'Australia', 'Philippines',
       'Republic of Moldova', 'Belize', 'Bolivia (Plur. State of)',
       'Dominican Republic', 'Liberia', 'Libya',
       'Venezuela (Bolivar. Rep.)', 'Mali', 'Syrian Arab Republic',
       'Somalia', 'Mongolia', 'Liechtenstein', 'Wallis and Futuna Is.'],
      dtype=object)

In [89]:
# Фильтр на несколько условий сразу
# | - условие ИЛИ
# & - and
# () | (() | () & ())
filtred_countries = data[ (data['country'] == 'Russian Federation') | (data['country'] == 'Belarus')]
filtred_countries['country'].unique()

array(['Russian Federation', 'Belarus'], dtype=object)

In [91]:
# Фильтр на номер строки
data.loc[1000:1003]

Unnamed: 0,country,year,quantity,category,year_plus_one
1000,Austria,1998,-14.0,1,1999
1001,Austria,1997,5.0,1,1998
1002,Austria,1996,-1.0,1,1997
1003,Austria,1995,-10.0,1,1996


### Сортировка

In [92]:
# Сортировка по столбцу
data.sort_values(by = 'quantity').head()

Unnamed: 0,country,year,quantity,category,year_plus_one
832375,United States,2000,-864348.0,42,2001
832373,United States,2002,-562414.0,42,2003
832362,United States,2013,-551490.0,42,2014
832380,United States,1995,-493380.0,42,1996
832322,Ukraine,2010,-477263.0,42,2011


In [93]:
# Сортировка по убыванию
data.sort_values(by = 'quantity', ascending=False).head()

Unnamed: 0,country,year,quantity,category,year_plus_one
492581,United States,2014,6680329000.0,31,2015
492267,United States,2014,6680329000.0,31,2015
492047,China,2014,5462672000.0,31,2015
492345,China,2014,5462672000.0,31,2015
122392,USSR (former),1990,3257000000.0,12,1991


In [101]:
# Сортировка по нескольких столбцам
# Сначала сортировка по году, внутри каждого года по стране, а внутри каждой страны по количеству 
data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

Unnamed: 0,country,year,quantity,category,year_plus_one
835127,Afghanistan,2014,1935442.0,42,2015
491541,Afghanistan,2014,66000.0,31,2015
492004,Afghanistan,2014,66000.0,31,2015
492292,Afghanistan,2014,66000.0,31,2015
791301,Afghanistan,2014,5537.08,42,2015
797879,Afghanistan,2014,5537.08,42,2015
811493,Afghanistan,2014,5537.08,42,2015
813883,Afghanistan,2014,5537.08,42,2015
820564,Afghanistan,2014,5537.08,42,2015
828390,Afghanistan,2014,5537.08,42,2015


### Параметр inplace


In [102]:
data.head()

Unnamed: 0,country,year,quantity,category,year_plus_one
0,Austria,1996,5.0,1,1997
1,Austria,1995,17.0,1,1996
2,Belgium,2014,0.0,1,2015
3,Belgium,2013,0.0,1,2014
4,Belgium,2012,35.0,1,2013


In [111]:
# Исходный датафрейм не меняется
data.sort_values(['country', 'year'], ascending=[False, True])
# Исходный датафрейм перезапишется (параметр inplace)
data.sort_values(['country', 'year'], ascending=[False, True], inplace=True)
data.head() # Переписанные данные

Unnamed: 0,country,year,quantity,category,year_plus_one
12121,Zimbabwe,1990,4.0,4,1991
14259,Zimbabwe,1990,4.0,4,1991
17051,Zimbabwe,1990,4.0,4,1991
19201,Zimbabwe,1990,4.0,4,1991
21685,Zimbabwe,1990,4.0,4,1991


In [112]:
# Пример использования inplace
def calculation(data, inplace = True):
    data.sort_values(['country', 'year'], ascending=[False, True], inplace=False)

In [117]:
rating = pd.read_csv('Homework/ratings.csv')
rating.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,296,5.0,1147880044
1,1,306,3.5,1147868817
2,1,307,5.0,1147868828
3,1,665,5.0,1147878820
4,1,899,3.5,1147868510


In [16]:
# info - посмотреть, что за данные
rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25000095 entries, 0 to 25000094
Data columns (total 4 columns):
 #   Column     Dtype  
---  ------     -----  
 0   userId     int64  
 1   movieId    int64  
 2   rating     float64
 3   timestamp  int64  
dtypes: float64(1), int64(3)
memory usage: 762.9 MB


In [17]:
# Сколько уникальных фильмов в коллекции
len(rating.movieId.unique())

59047

In [118]:
%%time
# Топ пользователей по количеству оценок
rating.groupby('userId').count().sort_values('movieId', ascending=False).head(1000)

CPU times: user 348 ms, sys: 132 ms, total: 480 ms
Wall time: 486 ms


Unnamed: 0_level_0,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
72315,32202,32202,32202
80974,9178,9178,9178
137293,8913,8913,8913
33844,7919,7919,7919
20055,7488,7488,7488
...,...,...,...
120166,1443,1443,1443
128243,1442,1442,1442
93305,1442,1442,1442
91434,1441,1441,1441


In [24]:
%%time
# Lifetime (время между первой и последней оценкой)
rating_grouped = rating.groupby('userId').agg([min, max])
rating_grouped['diff'] = rating_grouped['timestamp']['max'] - \
rating_grouped['timestamp']['min']
rating_grouped['diff'].mean() / 24 / 3600

CPU times: user 453 ms, sys: 51.6 ms, total: 504 ms
Wall time: 502 ms


221.41065851262715

In [28]:
%%time
movies = pandas.read_csv('Files/movies.csv')
movies.head(3)

CPU times: user 51.7 ms, sys: 6.55 ms, total: 58.2 ms
Wall time: 55.5 ms


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance


In [30]:
joined = rating.merge(movies, on='movieId', how='left')
joined.head(3)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,296,5.0,1147880044,Pulp Fiction (1994),Comedy|Crime|Drama|Thriller
1,1,306,3.5,1147868817,Three Colors: Red (Trois couleurs: Rouge) (1994),Drama
2,1,307,5.0,1147868828,Three Colors: Blue (Trois couleurs: Bleu) (1993),Drama


## Вебинар 

In [6]:
import pandas as pd
df = pd.DataFrame(
    {
        'name': ['Iphone X', 'Iphone 14 Pro', 'Iphone 15', 'Iphone 8 Plus', 'Iphone 12'],
        'price': [65000, 115000, 105000, 60000, 75000],
        'count': [10, 20, 50, 1, 5]
    }
)
df

Unnamed: 0,name,price,count
0,Iphone X,65000,10
1,Iphone 14 Pro,115000,20
2,Iphone 15,105000,50
3,Iphone 8 Plus,60000,1
4,Iphone 12,75000,5


In [8]:
%%time
df.query('name == "Iphone X"')

CPU times: user 4.78 ms, sys: 2.23 ms, total: 7.01 ms
Wall time: 8.48 ms


Unnamed: 0,name,price,count
0,Iphone X,65000,10


In [12]:
df['name'] == "Iphone X"

0     True
1    False
2    False
3    False
4    False
Name: name, dtype: bool

In [14]:
%%time
df[df['name'] == "Iphone X"]

CPU times: user 1.24 ms, sys: 32 µs, total: 1.28 ms
Wall time: 1.27 ms


Unnamed: 0,name,price,count
0,Iphone X,65000,10


### Логические условия
* ИЛИ | == выполнено хотя бы одно условие
* И & == выполнены оба условия

In [15]:
df[(df['name'] == 'Iphone 14 Pro') | (df['name'] == 'Iphone 15')]

Unnamed: 0,name,price,count
1,Iphone 14 Pro,115000,20
2,Iphone 15,105000,50


In [21]:
df[(df['price'] < 80000) & (df['count'] >= 5)]

Unnamed: 0,name,price,count
0,Iphone X,65000,10
4,Iphone 12,75000,5


In [24]:
df[df['name'].isin(['Iphone 8 Plus', 'Iphone X', 'Iphone 15'])]

Unnamed: 0,name,price,count
0,Iphone X,65000,10
2,Iphone 15,105000,50
3,Iphone 8 Plus,60000,1


In [25]:
# Фильтр с отрицанием условия
df[~df['name'].isin(['Iphone 8 Plus', 'Iphone X', 'Iphone 15'])]

Unnamed: 0,name,price,count
1,Iphone 14 Pro,115000,20
4,Iphone 12,75000,5


In [32]:
df[
    (
        (df.name == 'Iphone 14 Pro') |
        (df.name == 'Iphone 15') |
        (df.name == 'Iphone X') 
    ) &
    (
        (df['price'] > 100000) &
        (df['count'] > 30)
    )
]

Unnamed: 0,name,price,count
2,Iphone 15,105000,50


### Пример забора данных с сайта
1. Ищем API с такими данными
2. Если это ваш сайт - идем к разработчикам и просим доступ в базу данных
3. Никогда не завязывать важные регулярные данные на read_html

Если нужна информация со страницы, которая не table (beautiful-soup-4)

Автоматизация сценариев на сайтах (Python + Selenium)

### CSV - comma separated values
* Если разделитель не запятая, то можно указать разделитель ('...csv', sep='разделитель')

* Если надо указать свои заголовки: names = ['...', '...']

* Если неверная кодировка: encoding='кодировка'. Как правило, либо utf-8 / cp1251

* iterator = True, chunksize = 100000 - количество строк за 1 чтение (100000)

* decimal, thousands - когда данные записаны в непривычном виде. Например, запись числа как 111.000,22

### Если файл очень большой и не хватает оперативки:
* Попросить у разработчиков более мощный компьютер (Jyputer на более мощном сервере)
* Воспользоваться облачным сервисом - арендовать мощности (Если проект не личный, то нужно согласовать оплачу с бухгалтерией компаний. Можно ли использовать облака для таких данных (согласовать с юристами), например, персональные данные)
* Лучшее решение - Базы данных (но, их нужно ставить, пользоваться и тд). 
* Docker desktop: скачать образ операционное системы, запустить систему. Хорошая БД - ClickHouse.

### ClickHouse - преимущества
* Open source проект
* Очень хорошо сжимает данные (порядка 10 раз)
* Достаточно быстро работает и потребляет мало памяти (для 40Gb порядка 1 секунды на сложный запрос, потребление порядка 250Mb оперативки)


### Data Base + Pandas == 99% задач аналитики

In [3]:
# Homewoork task 1
import pandas as pd

data_ratings = pd.read_csv('Homework/ratings.csv')
data_movies = pd.read_csv('Homework/movies.csv')

five = data_ratings[data_ratings['rating'] == 5]
#five = data_ratings[data_ratings.rating == 5]
result = five.groupby('movieId').count().sort_values('rating', ascending=False)
result = result.head(1)
#print(result)
ans = data_movies[data_movies['movieId'] == result.index[0]]
#print(ans['title'])
ans = list(ans['title'])
print(''.join(ans))

Shawshank Redemption, The (1994)


In [5]:
# Homework task 2
import pandas as pd

power = pd.read_csv('Homework/power.csv')

power = power[
    (
        (power['country'] == 'Latvia') |
        (power['country'] == 'Lithuania') |
        (power['country'] == 'Estonia')
    ) &
    (
        (power['category'] == 4) |
        (power['category'] == 12) |
        (power['category'] == 21)
    ) &
    (
        (power['year'] >= 2005) &
        (power['year'] <= 2010)
    ) &
    (power['quantity'] >= 0)
]

power_sum = power['quantity'].sum()
print(f"\nResult: {power_sum}")


Result: 240580.0
