# Глава 3: Упорядочение данных


Введение: 
Упорядочение данных — термин, охватывающий широкий диапазон тем и часто неофициально используемый для описания процесса преобразования сырых данных в чистый и организованный формат, готовый к использованию. Для нас упорядочение данных — это лишь один из шагов в предобработке данных, но это важный шаг.

Наиболее распространенной структурой данных, используемой для "упорядо­ чения", является фрейм данных, который может быть и интуитивно понятным, и невероятно универсальным. Фреймы данных являются табличными, т.е. они основаны на строках и столбцах, какие вы встречаете в электронной таблице. При­ ведем фрейм данных, созданный из данных о пассажирах на "Титанике"

# 3.1 Создание фрейма данных и 3.2 Описание данных



In [None]:
import pandas as pd

# Создать фрейм данных DataFrame
dataframe = pd.DataFrame()

# Добавить столбцы
dataframe['Имя'] = ['Никита Боков', 'Рома Алиев']
dataframe['Возраст'] = [18, 17]
dataframe['Водитель'] = [True, False]
dataframe['Гендер'] = dataframe['Мужчина']
print(dataframe)

# Создать строку и добавить её в конец фрейма данных
dataframe.loc[len(dataframe.index)] = ['Анна Буланникова', 17, True, 'Девушка']
dataframe.loc[len(dataframe.index)] = ['Гриша Боков', 13, False, 'Мужчина']

# Взглянуть на фрейм данных
print(dataframe)

# НАЧАЛО 3.2 ПУНКТА


In [22]:
# Взглянуть на первую строку фрейма данных
print(dataframe.iloc[0])

# Взглянуть на первые две строки
print(dataframe.head(2))

# Взглянуть на размерность матрицы
print(dataframe.shape)

# Взглянуть на статистику
print(dataframe.describe())


Имя         Никита Боков
Возраст               18
Водитель            True
Name: 0, dtype: object
            Имя  Возраст  Водитель
0  Никита Боков       18      True
1    Рома Алиев       17     False
(2, 3)
         Возраст
count   2.000000
mean   17.500000
std     0.707107
min    17.000000
25%    17.250000
50%    17.500000
75%    17.750000
max    18.000000


# 3.2 Навигация по фреймам данных


In [24]:
# Выбрать три строки
print(dataframe.iloc[1:4])

# Выбрать четыре строки
print(dataframe.iloc[:4])

# Задать индекс для поиска значений чего-либо (Имя)
dataframe = dataframe.set_index(dataframe['Имя'])

# Показать строку с нужным значением
print(dataframe.loc['Никита Боков'])


                   Имя  Возраст  Водитель
Имя                                      
Рома Алиев  Рома Алиев       17     False
                       Имя  Возраст  Водитель
Имя                                          
Никита Боков  Никита Боков       18      True
Рома Алиев      Рома Алиев       17     False
Имя         Никита Боков
Возраст               18
Водитель            True
Name: Никита Боков, dtype: object


# 3.4 Выбор строк на основе условных конструкций


In [25]:
# Показать верхние две строки, где столбец 'Возраст' равняется 17
print(dataframe[dataframe['Возраст'] == 17].head(2))

# Отфильтровать строки по нужным значениям
print(dataframe[(dataframe['Возраст'] == 18) & (dataframe['Водитель'] == True)])

                   Имя  Возраст  Водитель
Имя                                      
Рома Алиев  Рома Алиев       17     False
                       Имя  Возраст  Водитель
Имя                                          
Никита Боков  Никита Боков       18      True


# 3.5 Замена значений


In [26]:
# Заменить значения, показать две строки (1)
print((dataframe['Имя'].replace('Никита Боков', 'Nikita Bokov').head(2)))

# Заменить значения, показать две строки (2)
print(dataframe.replace(True, 'Yes'))

# Заменить значения, показать две строки (3)
print(dataframe.replace(r'lst', 'First', regex=True).head(2))


Имя
Никита Боков    Nikita Bokov
Рома Алиев        Рома Алиев
Name: Имя, dtype: object
                       Имя  Возраст Водитель
Имя                                         
Никита Боков  Никита Боков       18      Yes
Рома Алиев      Рома Алиев       17    False
                       Имя  Возраст  Водитель
Имя                                          
Никита Боков  Никита Боков       18      True
Рома Алиев      Рома Алиев       17     False


# 3.6 Переименовывание столбцов


In [27]:
# Переименовать столбец и показать его изменения
print(dataframe.rename(columns={'Возраст': 'Age'}))

# Переименовать несколько столбцов и показать его изменения
print(dataframe.rename(columns={'Водитель': 'Driver', 'Имя': 'Name'}))

# Загрузить библиотеку collections
import collections

# Создать словарь
column_names = collections.defaultdict(str)

# Создать ключи
for name in dataframe.columns:
    column_names[name]
print(column_names)

                       Имя  Age  Водитель
Имя                                      
Никита Боков  Никита Боков   18      True
Рома Алиев      Рома Алиев   17     False
                      Name  Возраст  Driver
Имя                                        
Никита Боков  Никита Боков       18    True
Рома Алиев      Рома Алиев       17   False
defaultdict(<class 'str'>, {'Имя': '', 'Возраст': '', 'Водитель': ''})


# 3.7 Нахождение минимума, максимума, суммы, среднего арифметического и количества


In [28]:
# Вычислить статистические показатели
print('Максимум:', dataframe['Возраст'].max())
print('Минимум:', dataframe['Возраст'].min())
print('Cреднее:', dataframe['Возраст'].std())
print('Сумма:', dataframe['Возраст'].sum())
print('Количество:', dataframe['Возраст'].count())

Максимум: 18
Минимум: 17
Cреднее: 0.7071067811865476
Сумма: 35
Количество: 2


In [29]:
# Показать количества значений
print(dataframe.count())

Имя         2
Возраст     2
Водитель    2
dtype: int64


# 3.8 Нахождение уникальных значений


In [30]:
# Выбрать уникальные значения
print(dataframe['Имя'].unique())

# Показать количества появлений
print(dataframe['Возраст'].value_counts())

# Показать количество уникальных значений по нужному параметру
print(dataframe['Возраст'].nunique())

['Никита Боков' 'Рома Алиев']
Возраст
18    1
17    1
Name: count, dtype: int64
2


# 3.9 Отбор недостающих значений


In [None]:
# Выбрать пропущенные значения и показать их
print(dataframe[dataframe['Возраст'].isnull()])

# Попытаться заменить пропущенные значения с NaN (Заранее не выйдет, т.к нужно импортировать библиотеку)
dataframe['Гендер'] = dataframe['Гендер'].replace['Мужчина', Nan]
print(dataframe)

import pandas as np

# Заменить значения с NaN
dataframe['Гендер'] = dataframe['Гендер'].replace('Мужчина', np.NaT)
print(dataframe)

# 3.10 Удаление столбцов


In [None]:
# Удалить столбец по заданному параметру
dataframe = dataframe.drop('Возраст', axis=1)
print(dataframe)

# Отбросить столбцы по заданному параметру
dataframe = dataframe.drop(['Имя', 'Возраст'], axis=1)
print(dataframe)

# Отбросить стобец по индексу (можно использовать такой метод,если неизвестно название столбца)
dataframe_drop_column = dataframe.drop(dataframe.columns[1], axis=1)
print(dataframe_drop_column)

# Создать новую переменную, для того чтобы не менять основной фрейм данных и рассмотреть его изменения в отдельной переменной
dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)
print(dataframe_name_dropped)

# 3.11 Удаление строки


In [None]:
# Удалить строки по заданному параметру
dataframe_drop_stroku = dataframe[dataframe['Гендер'] != 'Мужчина']
print(dataframe_drop_stroku)

# Удалить строку по уникальному значению
dataframe_drop_poimeni = dataframe[dataframe['Имя'] != 'Гриша Боков']
print(dataframe_drop_poimeni)

# Удалить строку по индексу
dataframe_drop_poindeksu = dataframe[dataframe.index != 0]
print(dataframe_drop_poindeksu)

# 3.12 Удаление повторяющихся строк


In [None]:
# Удалить дубликаты
dataframe_dublicates = dataframe.drop_duplicates()
print(dataframe_dublicates)

# Показать количество строк в исходном фрейме данных
print('Количество строк в исходном фрейме данных:', len(dataframe))

# Показать количество строк после дубликации
print('Количество строк в после дубликации:', len(dataframe.drop_duplicates()))

# Удалить дубликаты (Метод показывает первое появление уникального элемента, а остальные отбрасывает)
print(dataframe.drop_duplicates(subset=['Гендер']))

# Удалить дубликаты применив метод, позволяющий выбирать по какому критерию будет отбрасывать
print(dataframe.drop_duplicates(subset=['Возраст'], keep='last'))

# Посмотреть на каких позициях по счёту нах-ся в фрейме данных
print(dataframe.duplicated())

# 3.13 Группирование строк по значениям (Смотри Notion,у тебя мало данных)


In [None]:
# Сгруппировать строки по значениям столбца 'Возраст', вычислить среднее каждой группы
print(dataframe.groupby('Возраст').mean())

# Сгруппировать строки, подсчитать строки
print(dataframe.groupby('Водитель')['Имя'].count())

# Сгруппировать строки, вычислить среднее
print(dataframe.groupby(['Имя', 'Водитель'])['Возраст'].mean())

# 3.14 Группирование строк по значениям времени


In [41]:
import pandas as pd
import numpy as np

# Создать диапазон дат
time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')

# Создать фрейм данных
dataframe1 = pd.DataFrame(index=time_index)

# Создать столбец случайных значений со значением суммы продаж
dataframe1['Sale_Amount'] = np.random.randint(1, 10, 100000)


# Сгруппировать строки по неделе, вычислить сумму за неделю
print(dataframe1.resample('W').sum())

# Сгруппировать строки по двум неделям, вычилсить сумму за эти две недели
print(dataframe1.resample('2W').mean())

# Сгруппировать по месяцу, посчитать строки
print(dataframe1.resample('M').count())

# Сгруппировать по месяцу с помощью метода label, подсчитать строки
print(dataframe1.resample('M',label='left').count())

            Sale_Amount
2017-06-11        86639
2017-06-18       100905
2017-06-25       100216
2017-07-02       101258
2017-07-09       100827
2017-07-16        10266
            Sale_Amount
2017-06-11     5.013831
2017-06-25     4.988120
2017-07-09     5.012029
2017-07-23     4.935577
            Sale_Amount
2017-06-30        72000
2017-07-31        28000
            Sale_Amount
2017-05-31        72000
2017-06-30        28000


  time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')
  print(dataframe1.resample('M').count())
  print(dataframe1.resample('M',label='left').count())


# 3.15 Обход столба в цикле


In [42]:
# Напечатать первые два имени в верхнем регистре
for name in dataframe['Имя'][0:2]:
    print(name.upper())

# Альтернативный способ вывода двух имен в верхнем регистре
print([name.upper() for name in dataframe['Имя'][0:2]])

НИКИТА БОКОВ
РОМА АЛИЕВ
['НИКИТА БОКОВ', 'РОМА АЛИЕВ']


# 3.16 Применение функции ко всем эл-ам в столбце


In [43]:
# Создать функцию

def appercase(x):
    return x.upper()


# Применить функцию, показать две строки
print(dataframe['Имя'].apply(appercase)[0:2])

Имя
Никита Боков    НИКИТА БОКОВ
Рома Алиев        РОМА АЛИЕВ
Name: Имя, dtype: object


# 3.17 Применение функций к группам (Считает кол-во гендеров и выводит их кол-во)


In [None]:
print(dataframe.groupby('Гендер').apply(lambda x: x.count()))

# 3.18 Конкатенация фреймов данных


In [46]:
import pandas as pd

# Создать фреймы данных
data_a = {'id': ['1', '2', '3'],
          'first': ['Женя', 'Ира', 'Гриша'],
          'last': ['Паша', 'Вера', 'Полина']}
dataframe_a = pd.DataFrame(data_a, columns=['id', 'first', 'last'])

data_b = {'id': ['4', '5', '6'],
          'first': ['Никита', 'Аня', 'Эльдар'],
          'last': ['Костя', 'Рома', 'Саша']}
dataframe_b = pd.DataFrame(data_b, columns=['id', 'first', 'last'])

In [47]:
# Объеденить фреймы данных по строкам (Конкатенировать)
print(pd.concat([dataframe_a, dataframe_b], axis=0))

  id   first    last
0  1    Женя    Паша
1  2     Ира    Вера
2  3   Гриша  Полина
0  4  Никита   Костя
1  5     Аня    Рома
2  6  Эльдар    Саша


In [48]:
# Объеденить фреймы данных по столбцам (Конкатенировать)
print(pd.concat([dataframe_a, dataframe_b], axis=1))

  id  first    last id   first   last
0  1   Женя    Паша  4  Никита  Костя
1  2    Ира    Вера  5     Аня   Рома
2  3  Гриша  Полина  6  Эльдар   Саша


In [50]:
# Создать строку и добавить её в конец фрейма данных
dataframe_a.loc[len(dataframe_a.index)] = [7, 'Вадим', 'Сергей']
dataframe_a


Unnamed: 0,id,first,last
0,1,Женя,Паша
1,2,Ира,Вера
2,3,Гриша,Полина
3,7,Вадим,Сергей
4,7,Вадим,Сергей


# 3.19 Слияние фреймов данных


In [51]:
# Создать фрейм данных с данными людей
import pandas as pd

employee_data = {'employee_id': ['1', '2', '3', '4'],
                 'name': ['Nikita', 'Anna', 'Roma', 'Kostya']}

dataframe_employees = pd.DataFrame(employee_data, columns=['employee_id', 'name'])

# Создать фрейм данных с данными о продажах людей
sales_data = {'employee_id': ['3', '4', '5', '6'],
              'total sales': [23456, 2512, 7890, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns=['employee_id', 'total sales'])
print(dataframe_sales)




  employee_id  total sales
0           3        23456
1           4         2512
2           5         7890
3           6         1455


In [52]:
# Выполнить слияние фреймов данных (Посмотрит 'employee_id' и вернет значения и сделает их одним целым фреймом)
print(pd.merge(dataframe_employees, dataframe_sales, on='employee_id'))

  employee_id    name  total sales
0           3    Roma        23456
1           4  Kostya         2512


In [54]:
# Выполнить внешнее слияние фреймов данных (Сделает единым оба фрейма данных)
print(pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer'))

  employee_id    name  total sales
0           1  Nikita          NaN
1           2    Anna          NaN
2           3    Roma      23456.0
3           4  Kostya       2512.0
4           5     NaN       7890.0
5           6     NaN       1455.0
