# Основы Pandas

### Загрузка данных в датафрейм

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('power.csv')

In [3]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [4]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = ',', header=0)
# data.head()

In [5]:
# количество строк в датафрейме
len(data)

1189482

In [6]:
# или так
data.shape

(1189482, 4)

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [9]:
trpd.read_csv('transactions.csv').shape()

TypeError: 'tuple' object is not callable

### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
# распределение количества строк по значениям столбца

data['country'].value_counts()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

In [None]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('rus', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ

filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
# фильтры на строки и столбцы

data.loc[100:105, ['country', 'quantity']]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values(by='quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year'], ascending=[True, True]).head()

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 