## Data Frame

In [1]:
import pandas as pd
import numpy as np

In [3]:
#создание DataFrame по столбцам с помощью словарей
frame = pd.DataFrame({'numbers':range(10), 'chars':['a']*10})

## Фильтрация : filter, булевые векторы, lambda для фильтрации. Статистики по отфильтрованным данным

In [4]:
student_stats = pd.read_csv('StudentsPerformance.csv')

In [30]:
student_stats.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [26]:
student_stats.filter(like = 'score', axis = 1)

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
...,...,...,...
995,88,99,95
996,62,55,55
997,59,71,65
998,68,78,77


In [6]:
student_stats['lunch'].unique()  # выведем уникальные значения в категориальном или порядковом признаке

array(['standard', 'free/reduced'], dtype=object)

In [31]:
student_stats[student_stats['lunch'] == 'standard'].mean()

math score       70.034109
reading score    71.654264
writing score    70.823256
dtype: float64

In [9]:
student_stats.loc[student_stats['gender'] == 'female', ['lunch']]

Unnamed: 0,lunch
0,standard
1,standard
2,standard
5,standard
6,standard
...,...
993,free/reduced
995,standard
997,free/reduced
998,standard


In [12]:
student_stats.loc[(student_stats['gender'] == 'female') &
     (student_stats['race/ethnicity'].isin(['group A', 
                                   'group B'])), 'lunch'].value_counts()  #Вместо кросстаба : корректный детальный запрос

standard        87
free/reduced    53
Name: lunch, dtype: int64

In [32]:
student_stats[student_stats['lunch'] == 'free/reduced'].mean()

math score       58.921127
reading score    64.653521
writing score    63.022535
dtype: float64

In [49]:
student_stats.groupby('lunch')[['math score', 'reading score', 'writing score']].agg([np.mean, np.std])  
#более честкий запрос на среднее и отклонение через группировку и аггрегацию

Unnamed: 0_level_0,math score,math score,reading score,reading score,writing score,writing score
Unnamed: 0_level_1,mean,std,mean,std,mean,std
lunch,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
free/reduced,58.921127,15.159956,64.653521,14.895339,63.022535,15.433823
standard,70.034109,13.653501,71.654264,13.830602,70.823256,14.339487


In [34]:
student_stats[(student_stats["lunch"] == 'free/reduced') & 
              (student_stats["race/ethnicity"] == "group B")]["math score"].max() #просто пример множественного отбора

88

In [37]:
student_stats.filter(like = 'score', axis = 1).apply(np.min) # применили функцию к столбцам отфильтрованного датафрейма

math score        0
reading score    17
writing score    10
dtype: int64

In [38]:
student_stats[student_stats["gender"].apply(lambda x: x[0] == "f")].head() #apply lambda функцию для фильтрации

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92


### Замена значений в столбце: map, replace

In [41]:
d = {"female": 'f', "male": 'm'}
student_stats["gender"] = student_stats["gender"].map(d)
student_stats.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,f,group B,bachelor's degree,standard,none,72,72,74
1,f,group C,some college,standard,completed,69,90,88
2,f,group B,master's degree,standard,none,90,95,93
3,m,group A,associate's degree,free/reduced,none,47,57,44
4,m,group C,some college,standard,none,76,78,75


In [42]:
di = {"f": 'fem', "m": 'mal'}
student_stats = student_stats.replace({"gender": di})
student_stats.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,fem,group B,bachelor's degree,standard,none,72,72,74
1,fem,group C,some college,standard,completed,69,90,88
2,fem,group B,master's degree,standard,none,90,95,93
3,mal,group A,associate's degree,free/reduced,none,47,57,44
4,mal,group C,some college,standard,none,76,78,75


### Добавление и удаление строк и столбцов : append, drop

In [None]:
new_line = {'Name':'Perov', 'Birth':'22.03.1990', 'City':'Penza'}

In [None]:
#добавление строки в DataFrame
frame.append(new_line, ignore_index=True)

In [None]:
#добавление строки в DataFrame
frame = frame.append(new_line, ignore_index=True)

In [None]:
#добавление столбца в DataFrame
frame['IsStudent'] = [False]*5 + [True]*2

In [None]:
#удаление строк DataFrame
frame.drop([5,6], axis=0)

In [None]:
#удаление строк DataFrame (inplace)
frame.drop([5,6], axis=0, inplace=True)

In [None]:
#удаление столбца DataFrame (inplace)
frame.drop('IsStudent', axis=1, inplace=True)

In [None]:
total_calls = (
    df["Total day calls"]
    + df["Total eve calls"]
    + df["Total night calls"]
    + df["Total intl calls"]
)
df.insert(loc=len(df.columns), column="Total calls", value=total_calls)
# loc parameter is the number of columns after which to insert the Series object
# we set it to len(df.columns) to paste it at the very end of the dataframe


# Или проще:
df["Total charge"] = (
    df["Total day charge"]
    + df["Total eve charge"]
    + df["Total night charge"]
    + df["Total intl charge"]
)

In [None]:
#запись DataFrame в файл
frame.to_csv('updated_dataset.csv', sep=',', header=True, index=False)

In [134]:
#аналог команды для пользователей Windows
!more dota_hero_stats.csv

,attack_type,id,legs,localized_name,name,primary_attr,roles
0,Melee,1,2,Anti-Mage,npc_dota_hero_antimage,agi,"['Carry', 'Escape', 'Nuker']"
1,Melee,2,2,Axe,npc_dota_hero_axe,str,"['Initiator', 'Durable', 'Disabler', 'Jungler']"
2,Ranged,3,4,Bane,npc_dota_hero_bane,int,"['Support', 'Disabler', 'Nuker', 'Durable']"
3,Melee,4,2,Bloodseeker,npc_dota_hero_bloodseeker,agi,"['Carry', 'Disabler', 'Jungler', 'Nuker', 'Initiator']"
4,Ranged,5,2,Crystal Maiden,npc_dota_hero_crystal_maiden,int,"['Support', 'Disabler', 'Nuker', 'Jungler']"
5,Ranged,6,2,Drow Ranger,npc_dota_hero_drow_ranger,agi,"['Carry', 'Disabler', 'Pusher']"
6,Melee,7,2,Earthshaker,npc_dota_hero_earthshaker,str,"['Support', 'Initiator', 'Disabler', 'Nuker']"
7,Melee,8,2,Juggernaut,npc_dota_hero_juggernaut,agi,"['Carry', 'Pusher', 'Escape']"
8,Ranged,9,2,Mirana,npc_dota_hero_mirana,agi,"['Carry', 'Support', 'Escape', 'Nuker', 'Disabler']"
9,Ranged,10,0,Morphling,npc_dota_hero_morphling,agi,"['Carry', 'Escape', 'Durable', 'Nuker', 

# Groupby, Aggregate, Pivot_table
In general, grouping data in Pandas works as follows:

df.groupby(by=grouping_columns)[columns_to_show].function()

First, the groupby method divides the grouping_columns by their values. They become a new index in the resulting dataframe.

Then, columns of interest are selected (columns_to_show). If columns_to_show is not included, all non groupby clauses will be included.

Finally, one or several functions are applied to the obtained groups per selected columns.

In [14]:
dota = pd.read_csv('dota_hero_stats.csv')

In [46]:
dota.head()

Unnamed: 0.1,Unnamed: 0,attack_type,id,legs,localized_name,name,primary_attr,roles
0,0,Melee,1,2,Anti-Mage,npc_dota_hero_antimage,agi,"['Carry', 'Escape', 'Nuker']"
1,1,Melee,2,2,Axe,npc_dota_hero_axe,str,"['Initiator', 'Durable', 'Disabler', 'Jungler']"
2,2,Ranged,3,4,Bane,npc_dota_hero_bane,int,"['Support', 'Disabler', 'Nuker', 'Durable']"
3,3,Melee,4,2,Bloodseeker,npc_dota_hero_bloodseeker,agi,"['Carry', 'Disabler', 'Jungler', 'Nuker', 'Ini..."
4,4,Ranged,5,2,Crystal Maiden,npc_dota_hero_crystal_maiden,int,"['Support', 'Disabler', 'Nuker', 'Jungler']"


In [132]:
dota.describe(include=["object", 'bool']) # Опишем столбцы с нечисловыми данными

Unnamed: 0,attack_type,localized_name,name,primary_attr,roles
count,117,117,117,117,117
unique,2,117,117,3,100
top,Ranged,Arc Warden,npc_dota_hero_weaver,int,"['Support', 'Disabler', 'Nuker']"
freq,61,1,1,42,3


In [133]:
dota.sort_values(by=["legs", "id"], ascending=[True, False]).head() #Сортировка

Unnamed: 0.1,Unnamed: 0,attack_type,id,legs,localized_name,name,primary_attr,roles,roles_count
92,92,Ranged,94,0,Medusa,npc_dota_hero_medusa,agi,"['Carry', 'Disabler', 'Durable']",3
89,89,Ranged,91,0,Io,npc_dota_hero_wisp,str,"['Support', 'Escape', 'Nuker']",3
87,87,Melee,89,0,Naga Siren,npc_dota_hero_naga_siren,agi,"['Carry', 'Support', 'Pusher', 'Disabler', 'In...",6
65,65,Melee,67,0,Spectre,npc_dota_hero_spectre,agi,"['Carry', 'Durable', 'Escape']",3
45,45,Ranged,47,0,Viper,npc_dota_hero_viper,agi,"['Carry', 'Durable', 'Initiator', 'Disabler']",4


In [47]:
dota['roles_count'] = [len(roo[1:-2].split(',')) for roo in dota['roles']] #посчитаем количество ролей

In [48]:
dota['roles_count'].mode() #Самое частое количество ролей

0    4
dtype: int64

In [123]:
dota["legs"].value_counts()    #посчитаем польователей с разным количеством ног

2    95
0    11
4     7
6     3
8     1
Name: legs, dtype: int64

In [127]:
dota["legs"].value_counts(normalize = True) # И в процентах

2    0.811966
0    0.094017
4    0.059829
6    0.025641
8    0.008547
Name: legs, dtype: float64

In [19]:
num_legs = dota[dota['legs'] == 4].shape[0] # корректный подсчет записей с определенным значением в определенном столбце

Unnamed: 0.1,Unnamed: 0,attack_type,id,legs,localized_name,name,primary_attr,roles
2,2,Ranged,3,4,Bane,npc_dota_hero_bane,int,"['Support', 'Disabler', 'Nuker', 'Durable']"
50,50,Ranged,52,4,Leshrac,npc_dota_hero_leshrac,int,"['Carry', 'Support', 'Nuker', 'Pusher', 'Disab..."
56,56,Ranged,58,4,Enchantress,npc_dota_hero_enchantress,int,"['Support', 'Jungler', 'Pusher', 'Durable', 'D..."
61,61,Ranged,63,4,Weaver,npc_dota_hero_weaver,agi,"['Carry', 'Escape']"
74,74,Ranged,76,4,Outworld Devourer,npc_dota_hero_obsidian_destroyer,int,"['Carry', 'Nuker', 'Disabler']"
94,94,Melee,96,4,Centaur Warrunner,npc_dota_hero_centaur,str,"['Durable', 'Initiator', 'Disabler', 'Nuker', ..."
95,95,Melee,97,4,Magnus,npc_dota_hero_magnataur,str,"['Initiator', 'Disabler', 'Nuker', 'Escape']"


In [6]:
dota[['attack_type', 'primary_attr']].pivot_table(index = 'attack_type', columns = 'primary_attr', 
                                                  aggfunc = len) #найдем самое частое сочетание оружия + атрибут (сводная)

primary_attr,agi,int,str
attack_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Melee,19,2,35
Ranged,18,40,3


In [50]:
pd.crosstab(dota['attack_type'], dota["primary_attr"]) # то же самое через crosstab

primary_attr,agi,int,str
attack_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Melee,19,2,35
Ranged,18,40,3


In [52]:
pd.crosstab(dota['attack_type'], dota["primary_attr"], normalize = True, margins = True) # и в процентах

primary_attr,agi,int,str,All
attack_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Melee,0.162393,0.017094,0.299145,0.478632
Ranged,0.153846,0.34188,0.025641,0.521368
All,0.316239,0.358974,0.324786,1.0


# Melt и Pivot - reshaping

In [4]:
# Создадим DataFrame
di = {
    'Day': ['MON', 'TUE', 'WEN', 'THU', 'FRI'],
    'Google': [1129, 1132, 1134, 1152, 1152],
    'Apple': [191, 192, 190, 190, 188]
}
df = pd.DataFrame(di)
df

Unnamed: 0,Day,Google,Apple
0,MON,1129,191
1,TUE,1132,192
2,WEN,1134,190
3,THU,1152,190
4,FRI,1152,188


In [6]:
# Сольем из ширины в глубину, оставив нетронутой колону 'Day' (id_vars)
# Сразу переименуем новые столбцы (var_name, value_name)
new_df = df.melt(id_vars = 'Day', var_name = 'Company', value_name = 'Price')
new_df

Unnamed: 0,Day,Company,Price
0,MON,Google,1129
1,TUE,Google,1132
2,WEN,Google,1134
3,THU,Google,1152
4,FRI,Google,1152
5,MON,Apple,191
6,TUE,Apple,192
7,WEN,Apple,190
8,THU,Apple,190
9,FRI,Apple,188


In [16]:
# Обратный reshape - Pivot, оставив нетронутой колонку 'Day' (index)
# Используем в качестве колонок таблицы значения "Company" ('columns')
orig_df = new_df.pivot_table(index = 'Day', columns = 'Company')
orig_df

Unnamed: 0_level_0,Price,Price
Company,Apple,Google
Day,Unnamed: 1_level_2,Unnamed: 2_level_2
FRI,188,1152
MON,191,1129
THU,190,1152
TUE,192,1132
WEN,190,1134


In [17]:
# Подкорректируем структуру, убрав обощающий столбец и лишнее название
orig_df = new_df.pivot_table(index = 'Day', columns = 'Company')['Price'].reset_index()
orig_df.columns.name = None 
orig_df

Unnamed: 0,Day,Apple,Google
0,FRI,188,1152
1,MON,191,1129
2,THU,190,1152
3,TUE,192,1132
4,WEN,190,1134


# Merge и map - добавление столбцов из датафреймов и словарей

In [None]:
# Из задачи яндекса про запросы URL - слияние несколькими датафреймов по одному id
rating = rating.merge(host, on = 'url')

# pValues - словать с ключами, совпадающими со столбцом 'id' в датафрейме query
query['pvalue'] = query['id'].map(pValues)

# Удаляем дупликаты в той же задаче. Предварительно отсортировать!
rating = rating.drop_duplicates(subset = ['id', 'host_id'])

# Делаем второй столбец из превого сдвигом (чтобы использовать значение в специфичной формуле)
a['rev_rel'] = a['relevance'].shift(periods = 1, axis = 0, fill_value = 1)

#Специфичная формула с отсылкой на прошлую строку - через цикл и iloc
for i in range(1, len(a)):
        a.iloc[i, 4] = a.iloc[i-1, 4] * (1 - a.iloc[i-1, 2]) * 0.85

# idxmin, idxmax, ne, nsmallest, nlargest - поиск и отбор максимумов и минимумов, ненулевых элементов

Вернем индекс максимального и минимального элемента в pd Series (первое вхождение)

In [22]:
orig_df['Google'].idxmin()

1

In [23]:
orig_df['Apple'].idxmax()

3

И то же самое для DataFrame с несколькими столбцами

In [28]:
orig_df[['Google', 'Apple']].idxmax()

Google    0
Apple     3
dtype: int64

Поработаем с отбором (ne)

In [32]:
di2 = {
    'Day': [1, 2, 3, 4, 5, 6, 7],
    'Usage': [0, 0, 0, 3, 2, 5, 6]
}
usage = pd.DataFrame(di2)
usage

Unnamed: 0,Day,Usage
0,1,0
1,2,0
2,3,0
3,4,3
4,5,2
5,6,5
6,7,6


In [37]:
#булевый вектор
usage['Usage'].ne(0)

0    False
1    False
2    False
3     True
4     True
5     True
6     True
Name: Usage, dtype: bool

In [36]:
usage['Usage'].ne(0).idxmax()  #Узнаем позицию первого ненулевого элемента (т.к. True > False это первое вхождение масимума)

3

In [39]:
usage.loc[usage['Usage'].ne(0).idxmax():]  #Отберем все строки, начиная с первого ненулевого ипользования

Unnamed: 0,Day,Usage
3,4,3
4,5,2
5,6,5
6,7,6


# nsmallest, nlargest - отбор  строк с лидирующими значениями

In [40]:
# Отберем 3 строки с минимальным Usage
usage.nsmallest(3, 'Usage')

Unnamed: 0,Day,Usage
0,1,0
1,2,0
2,3,0


In [41]:
# Отберем 3 строки с максимальным Usage
usage.nlargest(3, 'Usage')

Unnamed: 0,Day,Usage
6,7,6
5,6,5
3,4,3


In [43]:
# Отберем 3 строки с минимальным Usage кроме нулевых
usage.loc[usage['Usage'].ne(0).idxmax():].nsmallest(3, 'Usage')

Unnamed: 0,Day,Usage
4,5,2
3,4,3
5,6,5


# groupby и aggregate - продвинутая группировка и аггрегация

In [7]:
iris = pd.read_csv('iris.data', header = None, names = ['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth', 'class'])

In [8]:
iris['class'] = [name[5:] for name in iris['class']]  # преобразуем значения классов

In [9]:
iris

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Посмотрим способы нахождения максимальных и минимальных значений по определенному столбцу датафрейма, группируя по другому столбцу

In [105]:
iris.groupby('class').max()[['sepalLength']]

Unnamed: 0_level_0,sepalLength
class,Unnamed: 1_level_1
setosa,5.8
versicolor,7.0
virginica,7.9


In [44]:
iris.groupby('class')[['sepalLength']].max()  # эквивалентно предыдущей записи

Unnamed: 0_level_0,sepalLength
class,Unnamed: 1_level_1
setosa,5.8
versicolor,7.0
virginica,7.9


In [107]:
iris.groupby('class').sepalLength.agg(
    maxSepalLength  = 'max',
    minSepalLength  = 'min')

Unnamed: 0_level_0,maxSepalLength,minSepalLength
class,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,5.8,4.3
versicolor,7.0,4.9
virginica,7.9,4.9


In [112]:
iris.groupby('class').sepalLength.agg('max')

class
setosa        5.8
versicolor    7.0
virginica     7.9
Name: sepalLength, dtype: float64

In [116]:
iris.groupby('class').sepalLength.agg([
    lambda x: x.max(), 
    lambda x: x.min(),
    lambda x: x.mean()
    ])

Unnamed: 0_level_0,<lambda_0>,<lambda_1>,<lambda_2>
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,5.8,4.3,5.006
versicolor,7.0,4.9,5.936
virginica,7.9,4.9,6.588


Посмотрим аггрегацию сразу нескольких столбцов

In [118]:
iris.groupby('class').agg(
    maxSepalLength = pd.NamedAgg(column = 'sepalLength', aggfunc = 'max'),
    minSepalLength = pd.NamedAgg(column = 'sepalLength', aggfunc = 'min'),
    maxSepalWidth = pd.NamedAgg(column = 'sepalWidth', aggfunc = 'max'),
    minSepalWidth = pd.NamedAgg(column = 'sepalWidth', aggfunc = 'min'),
    maxPetalLength = pd.NamedAgg(column = 'petalLength', aggfunc = 'max'),
    minPetalLength = pd.NamedAgg(column = 'petalLength', aggfunc = 'min'),
    maxPetalWidth = pd.NamedAgg(column = 'petalWidth', aggfunc = 'max'),
    minPetalWidth = pd.NamedAgg(column = 'petalWidth', aggfunc = 'min'),
    )

Unnamed: 0_level_0,maxSepalLength,minSepalLength,maxSepalWidth,minSepalWidth,maxPetalLength,minPetalLength,maxPetalWidth,minPetalWidth
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
setosa,5.8,4.3,4.4,2.3,1.9,1.0,0.6,0.1
versicolor,7.0,4.9,3.4,2.0,5.1,3.0,1.8,1.0
virginica,7.9,4.9,3.8,2.2,6.9,4.5,2.5,1.4


In [121]:
iris.groupby('class').agg([
    lambda x: x.max(),
    lambda x: x.min()
    ])

Unnamed: 0_level_0,sepalLength,sepalLength,sepalWidth,sepalWidth,petalLength,petalLength,petalWidth,petalWidth
Unnamed: 0_level_1,<lambda_0>,<lambda_1>,<lambda_0>,<lambda_1>,<lambda_0>,<lambda_1>,<lambda_0>,<lambda_1>
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
setosa,5.8,4.3,4.4,2.3,1.9,1.0,0.6,0.1
versicolor,7.0,4.9,3.4,2.0,5.1,3.0,1.8,1.0
virginica,7.9,4.9,3.8,2.2,6.9,4.5,2.5,1.4


In [None]:
# Из яндекса контеста - подсчет уникльных и их количества
info = data.groupby(0)['correct_phone'].nunique()

### Преобразование типов столбцов

In [22]:
iris["sepalLength_int"] = iris["sepalLength"].astype("int64") # Преобразуем к типу int

In [23]:
iris

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,class,sepalLength_int
0,5.1,3.5,1.4,0.2,setosa,5
1,4.9,3.0,1.4,0.2,setosa,4
2,4.7,3.2,1.3,0.2,setosa,4
3,4.6,3.1,1.5,0.2,setosa,4
4,5.0,3.6,1.4,0.2,setosa,5
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,6
146,6.3,2.5,5.0,1.9,virginica,6
147,6.5,3.0,5.2,2.0,virginica,6
148,6.2,3.4,5.4,2.3,virginica,6


In [28]:
iris.dtypes

sepalLength        float64
sepalWidth         float64
petalLength        float64
petalWidth         float64
class               object
sepalLength_int      int64
dtype: object

In [None]:
#изменение типа столбца с помощью функции apply - взяла из другого файла
frame.Birth = frame.Birth.apply(pd.to_datetime)

#заполнение na
frame.fillna('разнорабочий', inplace=True)

frame[:3] #выбираем первые три записи
frame[-3:] #выбираем три послдение записи

frame.loc[[0,1,2], ["Name", "City"]] #работает на основе имен
frame.iloc[[1,3,5], [0,1]] #работает на основе позиций

# diff - функция разницы с прошлой строкой. Можно в groupby()!
#### timedelta перевод в секунды

In [None]:
data['diff'] = data['date'].diff()
data['diff_in_min'] = data['diff'].apply(lambda x: x.total_seconds() / 60)

## Оконные функции. Временные ряды, кумулятивная сумма и подсчет

In [37]:
data = pd.read_csv('log.csv')
data.head()

Unnamed: 0,date,user,event_type,parameter
0,2020-04-01_00:04:03,976455,3,
1,2020-04-01_00:01:27,456430,3,text
2,2020-04-01_00:06:32,566998,1,unknown
3,2020-04-01_00:08:28,927997,3,
4,2020-04-01_00:08:53,237940,4,unknown


In [38]:
# приведем дату и время к правильному формату datetime . (Возможно стоило бы сразу сделать Parse_datetime)
data['date'] = data.date.apply(pd.to_datetime, format = '%Y-%m-%d_%H:%M:%S')

In [39]:
# отсортируем по времени
data.sort_values(by = 'date', inplace = True)
# вынесем время в индекс датафрейма
data.set_index('date', inplace = True)

Наша задача - найти самый поздний пятиминутный интервал с максимальным количеством событий (левая граница включена, правая нет). В ответе вывести его начало.

Для быстрого решения нужно воспользоваться оконной функцией библиотеки pandas rolling() с временным окном в 5 минут.

In [44]:

# indexer = pd.api.indexers.FixedForwardWindowIndexer(window_size=2) # Вперед мотрящее окно бывает только
# фиксированного размера

# data['user'].rolling(window='1h').count() # смотрит назад. К сожалению, окно с временной периодичностью
# умеет смотреть только назад. А нам надо вперед на 5 минут!

# сделать колону time + 5 min - это бесползено, смотреть все равно будет назад.


# Решение: реверсируем массив, чтобы мы смотрели не назад, а вперед при подсчетах


event_cnt = data['user'][::-1].rolling(window = '5min', closed = 'left').count()

In [51]:
# добавим столбец в датафрейм если нужно
data['counted'] = event_cnt[::-1]

# посчитаем максимум и найдем время начало интервала
max_users = event_cnt.max()
print(max_users)
event_cnt[event_cnt == max_users].index.max()

73.0


Timestamp('2020-04-09 13:06:42')

#### Из упражнений по pandas

In [53]:
# Название всех колонок
data.columns.to_list()

['user', 'event_type', 'parameter', 'counted']

In [66]:
# Тип данных первой колонки
data.dtypes[1]

dtype('int64')

In [73]:
# какая индексация у датафрейма
data.index

DatetimeIndex(['2020-04-01 00:01:27', '2020-04-01 00:04:03',
               '2020-04-01 00:06:32', '2020-04-01 00:08:28',
               '2020-04-01 00:08:53', '2020-04-01 00:09:50',
               '2020-04-01 00:15:25', '2020-04-01 00:15:36',
               '2020-04-01 00:16:50', '2020-04-01 00:20:51',
               ...
               '2020-04-30 23:57:29', '2020-04-30 23:58:03',
               '2020-04-30 23:58:13', '2020-04-30 23:58:30',
               '2020-04-30 23:58:38', '2020-04-30 23:58:43',
               '2020-04-30 23:59:05', '2020-04-30 23:59:05',
               '2020-04-30 23:59:32', '2020-04-30 23:59:43'],
              dtype='datetime64[ns]', name='date', length=200000, freq=None)

In [71]:
# значение в ячейке

data.iloc[20,2]

#либо

data.values[20][2]

'unknown'

## Как дозаполнять датафреймы
### Из Yandex Cup RecSys: строим матрицу признаков при недостатке отзывов от юзеров. 

In [2]:
import pandas as pd
import numpy as np

In [30]:
df_one = pd.DataFrame({'user_id': [101, 102, 103, 104], '201': [1, 1, 0, 0], '203': [0, 0, 1, 0]})
user_ids = [101, 102, 103, 104, 105]
org_ids = ['201', '202', '203', '204', '205']  # ВАЖНО ЧТО ЭТО STRING, ЧТОБЫ СОВПАЛИ КОЛОНКИ
zeros = pd.DataFrame({'user_id': user_ids})
zeros[org_ids] = pd.DataFrame(np.zeros((len(user_ids), len(org_ids))))
zeros.set_index(keys = 'user_id', inplace = True)
df_one.set_index(keys = 'user_id', inplace = True)

In [25]:
df_one

Unnamed: 0_level_0,201,203
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1
101,1,0
102,1,0
103,0,1
104,0,0


In [26]:
zeros

Unnamed: 0_level_0,201,202,203,204,205
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
101,0.0,0.0,0.0,0.0,0.0
102,0.0,0.0,0.0,0.0,0.0
103,0.0,0.0,0.0,0.0,0.0
104,0.0,0.0,0.0,0.0,0.0
105,0.0,0.0,0.0,0.0,0.0


In [33]:
answer = zeros.add(df_one, axis = 0, fill_value = 0).astype('int')

In [34]:
answer

Unnamed: 0_level_0,201,202,203,204,205
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
101,1,0,0,0,0
102,1,0,0,0,0
103,0,0,1,0,0
104,0,0,0,0,0
105,0,0,0,0,0
