In [1]:
import pandas as pd

In [2]:
my_series = pd.Series([1, 2, 3, 4, 5])

In [164]:
my_series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [165]:
cities_df = pd.DataFrame({
    'City': ['MSK', 'SPB', 'EKB'],
    'Temp': [-3, -5, -7],
    'State': ['Cloudy', 'Clear', 'Snow']
})
# cities_df = cities_df.set_index(['City']) # Делаем колонку индексом
cities_df.set_index(['City'], inplace=True) # Можно сделать так колонку индексом без пересвоения
cities_df

Unnamed: 0_level_0,Temp,State
City,Unnamed: 1_level_1,Unnamed: 2_level_1
MSK,-3,Cloudy
SPB,-5,Clear
EKB,-7,Snow


Создание датафрейма из файла возможно при помощи функций:
● pd.read_csv(‘путь до файла’)
● pd.read_excel(‘путь до файла’, sheet_name = ‘страница’) 
● pd.read_html(‘путь до файла’)
● ... 
Сохранить датафрейм в файл возможно при помощи:
● df.to_csv(‘путь до файла’) 
● df.to_excel(‘путь до файла’)

In [166]:
names_df = pd.read_csv('names/yob1880.txt', names=['Names', 'Gender', 'Counts'])
names_df

Unnamed: 0,Names,Gender,Counts
0,Mary,F,7065
1,Anna,F,2604
2,Emma,F,2003
3,Elizabeth,F,1939
4,Minnie,F,1746
...,...,...,...
1995,Woodie,M,5
1996,Worthy,M,5
1997,Wright,M,5
1998,York,M,5


Атрибуты na_values, parse_dates и header
- na_values позволяет указать значения, которые обозначают отсутствие данных в исходном файле и заменяет их на NaN (not a number) – особый тип данных numpy, означающий отсутствие значения.
- parse_dates, позволяет указать столбцы, которые содержат даты, и приведет их к особому типу данных datetime.
- header позволяет указать является ли первая строка в файле строкой заголовков.
- names позволяет присвоить столбцам нужные имена.

Методы для быстрого изучения датафрейма
- метод .head(n) возвращает первые n строк датафрейма;
- метод .tail(n) возвращает последние n строк датафрейма;
- метод .describe() позволяет просмотреть основные статистики по датафрейму, также применим к отдельным столбцамдатафрейма;
- размерность датафрейма можно узнать при помощи метода .shape;
- метод .value_counts() позволяет посчитать уникальное количество значений по столбцу.

In [167]:
names_df.head()

Unnamed: 0,Names,Gender,Counts
0,Mary,F,7065
1,Anna,F,2604
2,Emma,F,2003
3,Elizabeth,F,1939
4,Minnie,F,1746


In [168]:
names_df['Gender'].value_counts()

M    1058
F     942
Name: Gender, dtype: int64

In [169]:
names_df.describe()

Unnamed: 0,Counts
count,2000.0
mean,100.742
std,466.108304
min,5.0
25%,7.0
50%,13.0
75%,41.25
max,9655.0


Выборки из датафреймов
- Получить конкретный столбец датафреймможно при помощи [ ]: df[‘Name’], полученный объект будет иметь тип Series.
- Если использовать [[ ]]: df[[‘names’]], полученный объект сохранит тип датафрейм.
- Проиндексировав датафрейм: df[0:4] можно получить необходимую выборку “строк” (в данном случае с первой по третью).

Выборки из датафреймов
- df[df[‘gender’] == ‘M’]

In [170]:
names_df[['Names', 'Gender']].tail(5)

Unnamed: 0,Names,Gender
1995,Woodie,M
1996,Worthy,M
1997,Wright,M
1998,York,M
1999,Zachariah,M


In [171]:
names_df[3:8] #Срезы тоже работают

Unnamed: 0,Names,Gender,Counts
3,Elizabeth,F,1939
4,Minnie,F,1746
5,Margaret,F,1578
6,Ida,F,1472
7,Alice,F,1414


In [172]:
names_df[names_df['Gender'] == 'M'].head(5) # Выборка по Gender

Unnamed: 0,Names,Gender,Counts
942,John,M,9655
943,William,M,9532
944,James,M,5927
945,Charles,M,5348
946,George,M,5126


In [173]:
names_df[(names_df['Gender'] == 'F') & (names_df['Names'] == 'William')] # Несколько условий для выборки

Unnamed: 0,Names,Gender,Counts
286,William,F,30


In [174]:
names_df[(names_df['Gender'] == 'M') & (names_df['Names'] == 'William')] # Несколько условий для выборки

Unnamed: 0,Names,Gender,Counts
943,William,M,9532


In [175]:
cities_df.loc[['EKB', 'MSK']] #Выборка по не цифровому индексу

Unnamed: 0_level_0,Temp,State
City,Unnamed: 1_level_1,Unnamed: 2_level_1
EKB,-7,Snow
MSK,-3,Cloudy


In [176]:
cities_df.iloc[0:2] #Выборка по индексу

Unnamed: 0_level_0,Temp,State
City,Unnamed: 1_level_1,Unnamed: 2_level_1
MSK,-3,Cloudy
SPB,-5,Clear


Сортировка датафреймов
- Метод .sort_values('столбец') позволяет выполнить сортировку по указанному столбцу.
- Атрибут ascending (принимает логическое значение) позволяет указать порядок сортировки.
- Метод .sort_index() позволяет отсортировать датафрейм по индексам.

In [177]:
names_df.sort_values(by='Counts', ascending=True).head(5)

Unnamed: 0,Names,Gender,Counts
1999,Zachariah,M,5
900,Manuela,F,5
899,Manervia,F,5
898,Mahalia,F,5
897,Madora,F,5


In [178]:
cities_df.sort_index() #Обычная сортировка по индексу

Unnamed: 0_level_0,Temp,State
City,Unnamed: 1_level_1,Unnamed: 2_level_1
EKB,-7,Snow
MSK,-3,Cloudy
SPB,-5,Clear


In [179]:
df_1 = pd.read_csv('names/yob2015.txt', names=['Names', 'Gender', 'Count'])
df_1['Year'] = 2015
df_2 = pd.read_csv('names/yob2016.txt', names=['Names', 'Gender', 'Count'])
df_2['Year'] = 2016
df_3 = pd.read_csv('names/yob2017.txt', names=['Names', 'Gender', 'Count'])
df_3['Year'] = 2017

df_res = pd.concat([df_1, df_2, df_3]) #Конкатинация нескольких DF

#Несного настроим вывод по количеству колонок и строк
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_row', 10)

df_res

Unnamed: 0,Names,Gender,Count,Year
0,Emma,F,20435,2015
1,Olivia,F,19669,2015
2,Sophia,F,17402,2015
3,Ava,F,16361,2015
4,Isabella,F,15594,2015
...,...,...,...,...
32464,Zykai,M,5,2017
32465,Zykeem,M,5,2017
32466,Zylin,M,5,2017
32467,Zylis,M,5,2017


In [180]:
df_res.reset_index() #Сбросим индексы

Unnamed: 0,index,Names,Gender,Count,Year
0,0,Emma,F,20435,2015
1,1,Olivia,F,19669,2015
2,2,Sophia,F,17402,2015
3,3,Ava,F,16361,2015
4,4,Isabella,F,15594,2015
...,...,...,...,...,...
98541,32464,Zykai,M,5,2017
98542,32465,Zykeem,M,5,2017
98543,32466,Zylin,M,5,2017
98544,32467,Zylis,M,5,2017


In [181]:
df_res[df_res['Names'] == 'Aadam']

Unnamed: 0,Names,Gender,Count,Year
23471,Aadam,M,22,2015
23922,Aadam,M,18,2016
23388,Aadam,M,18,2017


Группировка датафреймов
- Метод .groupby() позволяет сгруппировать датафрейм по столюцу для различных агрегированных расчетов.
Как правило применяется вместо с методами: .sum(), .count(), .min(), .max(), .std(), mean(), median(), var() и т.д.
- Метод .agg() позволяет провести несколько агрегированных расчетов одновременно. Применяется в связке с .groupby()

In [182]:
df_res.groupby(['Names', 'Gender']).sum().tail(11)

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,Year
Names,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1
Zyrie,F,6,2016
Zyrie,M,11,4033
Zyriel,F,6,2015
Zyrielle,F,5,2015
Zyrion,M,15,4031
...,...,...,...
Zyron,M,41,6048
Zyrus,M,18,6048
Zyus,M,5,2015
Zyva,F,17,4033


In [183]:
df_res[['Names', 'Gender', 'Count']].groupby(['Names', 'Gender']).agg(['count', 'sum', 'max', 'min']).tail(11)

# Выводи три поля ('Names', 'Gender', 'Count'), группируем по двум полям('Names', 'Gender') 
# и делаем расчеты по пунктам('count', 'sum', 'max', 'min'), 
# которые будут работать если выводим то, что можно считать (в нашем случае 'Count').

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,Count,Count,Count
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,max,min
Names,Gender,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Zyrie,F,1,6,6,6
Zyrie,M,2,11,6,5
Zyriel,F,1,6,6,6
Zyrielle,F,1,5,5,5
Zyrion,M,2,15,8,7
...,...,...,...,...,...
Zyron,M,3,41,15,12
Zyrus,M,3,18,7,5
Zyus,M,1,5,5,5
Zyva,F,2,17,9,8


Методы .apply() и .map()
- Метод .apply(func) позволяет применить функцию ко всем элементам датафрейма, не применяя цикл (отрабатывает намного быстрее).
В качестве аргумента принимает встроенную или написанную функцию (без скобок).
- Метод .map() позволяет применить функцию к Series, работает аналогично apply().

In [184]:
df_res['name_len'] = df_res.apply(lambda x: len(x['Names']), axis=1)
# axis=1 применяет функцию построчно
df_res

Unnamed: 0,Names,Gender,Count,Year,name_len
0,Emma,F,20435,2015,4
1,Olivia,F,19669,2015,6
2,Sophia,F,17402,2015,6
3,Ava,F,16361,2015,3
4,Isabella,F,15594,2015,8
...,...,...,...,...,...
32464,Zykai,M,5,2017,5
32465,Zykeem,M,5,2017,6
32466,Zylin,M,5,2017,5
32467,Zylis,M,5,2017,5


In [185]:
stacked_df = df_res.groupby(['Gender', 'Year']).mean()
stacked_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,name_len
Gender,Year,Unnamed: 2_level_1,Unnamed: 3_level_1
F,2015,93.262189,6.304498
F,2016,93.740554,6.291545
F,2017,93.495603,6.284396
M,2015,136.181118,5.977467
M,2016,133.388787,5.968154
M,2017,129.554379,5.94548


In [186]:
stacked_df.unstack('Gender') #Переводим Gender из отсортированного индекса строки в столбцы

Unnamed: 0_level_0,Count,Count,name_len,name_len
Gender,F,M,F,M
Year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2015,93.262189,136.181118,6.304498,5.977467
2016,93.740554,133.388787,6.291545,5.968154
2017,93.495603,129.554379,6.284396,5.94548
