# Основы Pandas

### Загрузка данных в датафрейм

In [1]:

import pandas as pd


In [16]:
pd_t = pd.read_json("config.json")

In [2]:
data = pd.read_csv("power.csv")

In [22]:
data.sort_values(["country", "year"], ascending=[True, False], inplace=True)

In [13]:
import yaml, json
with open('config.yaml') as f:
    d = yaml.safe_load(f)
with open('config.json', mode="w") as f:
    json.dump(d, f)

In [19]:
type(data)

pandas.core.frame.DataFrame

In [20]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [21]:
# количество строк в датафрейме

len(data)

1189482

In [22]:
# или так

data.shape

(1189482, 4)

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [23]:
tr_cur = pd.read_csv('transactions.csv')

In [25]:
tr_cur.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


In [33]:
tr_cur["Year"].unique()

array([2017], dtype=int64)

### Основные сведения о датафрейме

In [None]:
data.info()

In [3]:
# немного статистики

data.describe()

Unnamed: 0,year,quantity,category
count,1189482.0,1189482.0,1189482.0
mean,2002.852,184264.8,36.24763
std,7.167345,15856630.0,18.09968
min,1990.0,-864348.0,1.0
25%,1997.0,14.0,24.0
50%,2003.0,189.0,35.0
75%,2009.0,2265.0,51.0
max,2014.0,6680329000.0,71.0


In [5]:
data.year.head(10)

0    1996
1    1995
2    2014
3    2013
4    2012
5    2011
6    2010
7    2009
8    1998
9    1995
Name: year, dtype: int64

In [None]:
data['year'].head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [8]:
# количество уникальных значений в столбце

len(data['category'].unique())
data["category"].value_counts(normalize=1)

67    0.112583
27    0.082090
24    0.063164
42    0.053940
37    0.052255
        ...   
69    0.000575
30    0.000417
26    0.000307
49    0.000088
66    0.000049
Name: category, Length: 71, dtype: float64

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts()

In [None]:
# если надо в процентах

data['category'].value_counts(normalize=True)

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [14]:
tr_t = pd.read_csv("transactions.csv")
b_t = tr_t["Product"].value_counts(normalize=1)[0]


0.18333333333333332

# Фильтры

In [21]:
data = pd.read_csv('power.csv')
data.head()
data.filter(items=['quantity']).mean()

quantity    184264.77005
dtype: float64

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [23]:
average_level = data['quantity'].mean()
average_level

184264.77005012863

In [24]:
'quantity > {}'.format(average_level)

'quantity > 184264.77005012863'

In [None]:
# строки с потреблением больше среднего

average_level = data["quantity"].mean()
data[data.quantity > average_level].head()


In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

In [None]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('', case=False) ]['country'].unique()




In [69]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

data[data["country"].str.contains("ru", case=0)]


0           5.0
1          17.0
2           0.0
3           0.0
4          35.0
           ... 
1189477    92.0
1189478    87.0
1189479    50.0
1189480    10.0
1189481     1.0
Name: quantity, Length: 1189482, dtype: float64

In [70]:
filtered_countries['country'].unique()

array(['Belarus'], dtype=object)

In [71]:
data[ ['country', 'quantity'] ].head()

Unnamed: 0,country,quantity
0,Belarus,5.0
1,Belarus,17.0
2,Belarus,0.0
3,Belarus,0.0
4,Belarus,35.0


In [None]:
# фильтры на строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year', 'quantity'], ascending=[False, True, False]).head(50)

In [None]:
data.sort_values('country', ascending=True, inplace=True)

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)


In [31]:
tr.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


In [1]:
import pandas as pd
ds_mov = pd.read_csv("movies.dat", sep="::", encoding="cp1251", names=["MovieID", "Title", "Genres"])
ds_users = pd.read_csv("users.dat", sep="::", encoding="cp1251", names=["UserID", "Gender", "Age", "Occupation", "Zip-code"])
ds_ratings = pd.read_csv("ratings.dat", sep="::", encoding="cp1251", names=["UserID", "MovieID", "Rating", "Timestamp"])


In [40]:
t_ds = ds_ratings[ds_ratings["Rating"] == 5].groupby(["MovieID"]).count().sort_values("Rating", ascending=False).head(1)
t_ds


Unnamed: 0_level_0,UserID,Rating,Timestamp
MovieID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2858,1963,1963,1963


In [19]:
import pandas as pd
# Lithuania Latvia Estonia
dt = pd.read_csv("power.csv")
cnd = dt.country.isin(["Lithuania", "Latvia", "Estonia"]) &\
    (dt.category.isin([4, 12, 21])) & (dt.year.between(2005, 2010)) &\
    dt.quantity >= 0
dt[cnd][["quantity", "year"]]

Unnamed: 0,quantity,year
0,5.0,1996
1,17.0,1995
2,0.0,2014
3,0.0,2013
4,35.0,2012


matrix([[ True],
        [ True],
        [ True]])