# Основы pandas

In [1]:
import pandas as pd

Пример забора данных с сайтов

In [None]:
pd.read_html('http://www.cbr.ru')[2]

In [None]:
page_url = 'https://www.finanz.ru/valyuty/usd-rub'

# Импортируем нужную нам страницу в df
# attrs = {'class': 'news_table'} ---> указываем какой именно блок нам нужен
# encoding='utf-8' ---> указываем кодировку страниц для корректного отображения кириллицы
df = pd.read_html(page_url, attrs = {'class': 'news_table'}, encoding='utf-8')

In [None]:
df[:5]

Импорт данных из файла

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
data.tail()

In [None]:
type(data)

In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [None]:
# количество строк в датафрейме

len(data)

In [None]:
# или так

data.shape

Простые вычисления для нового столбца

In [None]:
data['year_plus_one'] = data['year'] + 1
data.head()

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [6]:
data01 = pd.read_csv('transactions.csv')
print(data01.shape)

(60, 8)


### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

### Отдельный столбец (тип Series)

In [None]:
data['year'].head()

In [None]:
# или так

data.year.head()

In [None]:
type(data['year'])

In [None]:
data.head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
len(data['category'].unique())

In [None]:
data['category'].head()

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts().head(10)

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [12]:
data02 = pd.read_csv('transactions.csv')
print(data02.head())
print(type(data02['Product'].value_counts()))

   Year  Month    ID Product  Amount  Price  Total  Cost
0  2017      1  t001      A1       7   2904  20328  1200
1  2017      1  t002      A2       2   1896   3792  1100
2  2017      2  t003      A1       5   2904  14520  1200
3  2017      2  t004      A4       1   8618   8618  4200
4  2017      2  t005      A5       3   5175  15525   500
<class 'pandas.core.series.Series'>


# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
# или так

data[['country', 'quantity']].head()

### Отфильтруем строки с потреблением выше среднего

In [None]:
average_level = data['quantity'].mean()
average_level

In [None]:
'quantity > {}'.format(average_level)

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

### Как определить используемый вариант названия страны?

In [None]:
data['country'].unique()

In [None]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на номер строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [40]:
ip = pd.read_csv('power.csv')

print(ip.groupby('country').head())

                    country  year  quantity  category
0                   Austria  1996       5.0         1
1                   Austria  1995      17.0         1
2                   Belgium  2014       0.0         1
3                   Belgium  2013       0.0         1
4                   Belgium  2012      35.0         1
...                     ...   ...       ...       ...
399113  Antarctic Fisheries  2007       3.0        27
399114  Antarctic Fisheries  2006       2.0        27
399115  Antarctic Fisheries  2005       2.0        27
399116  Antarctic Fisheries  2004       2.0        27
399117  Antarctic Fisheries  2003       1.0        27

[1215 rows x 4 columns]


In [None]:
data.sort_values('country', ascending=True, inplace=rewrite)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [35]:
pewdata = pd.read_csv('transactions.csv')

filtered_ = pewdata[ (pewdata['Product'] == '_8')]
print(filtered_.sort_values('Cost', ascending = False))

    Year  Month    ID Product  Amount  Price  Total  Cost
54  2017     12  t055      _8       2   3760   7520  2400
12  2017      4  t013      _8       3   3760  11280  1200
8   2017      4  t009      _8       3   3760  11280  1000
26  2017      6  t027      _8       3   3760  11280   800
41  2017     10  t042      _8       3   3760  11280   800
58  2017     12  t059      _8       3   3760  11280   800
37  2017      9  t038      _8       1   3760   3760   700
22  2017      6  t023      _8      10   3760  37600   200


# Домашние задания
Задание 1
Скачайте с сайта https://grouplens.org/datasets/movielens/ датасет любого размера. Определите какому фильму было выставлено больше всего оценок 5.0.

Задание 2
По данным файла power.csv посчитайте суммарное потребление стран Прибалтики (Латвия, Литва и Эстония) категорий 4, 12 и 21 за период с 2005 по 2010 года. Не учитывайте в расчетах отрицательные значения quantity.

Задание 3
Выберите страницу любого сайта с табличными данными. Импортируйте таблицы в pandas dataframe.
Примеры страниц (необязательно брать именно эти):
https://fortrader.org/quotes
https://www.finanz.ru/valyuty/v-realnom-vremeni

In [76]:
site = pd.read_html('https://www.finanz.ru/valyuty/v-realnom-vremeni', attrs = {"class" :"quote_list"}, encoding='UTF-8')
print(site[0].head())

site[site.[]]

   Unnamed: 0    Рубль Предложение Спрос Предыдущее закрытие        %  \
0         NaN  GBP/RUB     1017354     -             1017500  -0,01 %   
1         NaN  EUR/RUB      868105     -              870200  -0,24 %   
2         NaN  USD/RUB      731488     -              731912  -0,06 %   
3         NaN  JPY/RUB       06669     -               06669   0,00 %   
4         NaN  CNY/RUB      113207     -              113207   0,00 %   

  Абсолютное значение     Время  
0              -00146  06:11:00  
1              -02095  00:32:00  
2              -00424  00:01:00  
3               00000  06:11:00  
4               00000  06:11:00  


In [69]:
data = pd.read_csv('power.csv')

#сначала фильтруем по странам и категориям
filtered_countries = data[((data['country'] == 'Latvia') | (data['country']=='Lithuania') | (data['country']=='Estonia'))&((data['category'] == 4) | (data['category'] == 12)| (data['category'] == 21))]

#затем оставляем только нужные годы и положительные значения
filtered_countries = filtered_countries[(filtered_countries['year'] > 2004) & (filtered_countries['year'] < 2011) & filtered_countries['quantity'] > 0]

#старый знакомый груп-бай по количеству энергии, единичка позволяет обойтись без разбивки
print(filtered_countries.groupby('country')['quantity'].sum())
#filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

country
Estonia       63440.0
Latvia        54844.0
Lithuania    122197.0
Name: quantity, dtype: float64


In [52]:
books = pd.read_csv('books_data/Bx-Books.csv', sep = ';', error_bad_lines=False)
books.head()
book_rates = pd.read_csv('books_data/Bx-Book-Ratings.csv', sep = ';', error_bad_lines=False)
book_users = pd.read_csv('books_data/Bx-Users.csv', sep = ';', error_bad_lines=False)
print(book_users.merge(book_rates, on = 'User-ID').head)

#book_users.merge(books, on = 'ISBN', how = 'left')

print(book_users.shape)

#book_users.head()

b'Skipping line 6452: expected 8 fields, saw 9\nSkipping line 43667: expected 8 fields, saw 10\nSkipping line 51751: expected 8 fields, saw 9\n'
b'Skipping line 92038: expected 8 fields, saw 9\nSkipping line 104319: expected 8 fields, saw 9\nSkipping line 121768: expected 8 fields, saw 9\n'
b'Skipping line 144058: expected 8 fields, saw 9\nSkipping line 150789: expected 8 fields, saw 9\nSkipping line 157128: expected 8 fields, saw 9\nSkipping line 180189: expected 8 fields, saw 9\nSkipping line 185738: expected 8 fields, saw 9\n'
b'Skipping line 209388: expected 8 fields, saw 9\nSkipping line 220626: expected 8 fields, saw 9\nSkipping line 227933: expected 8 fields, saw 11\nSkipping line 228957: expected 8 fields, saw 10\nSkipping line 245933: expected 8 fields, saw 9\nSkipping line 251296: expected 8 fields, saw 9\nSkipping line 259941: expected 8 fields, saw 9\nSkipping line 261529: expected 8 fields, saw 9\n'
  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


<bound method NDFrame.head of          User-ID                   Location   Age        ISBN  Book-Rating
0              2  stockton, california, usa  18.0  0195153448            0
1              7        washington, dc, usa   NaN   034542252            0
2              8   timmins, ontario, canada   NaN  0002005018            5
3              8   timmins, ontario, canada   NaN  0060973129            0
4              8   timmins, ontario, canada   NaN  0374157065            0
...          ...                        ...   ...         ...          ...
1149775   278854      portland, oregon, usa   NaN  0425163393            7
1149776   278854      portland, oregon, usa   NaN  0515087122            0
1149777   278854      portland, oregon, usa   NaN  0553275739            6
1149778   278854      portland, oregon, usa   NaN  0553578596            0
1149779   278854      portland, oregon, usa   NaN  0553579606            8

[1149780 rows x 5 columns]>
(278858, 3)
