# Adding a column

Добавление колонок к DataFrame

Добавление колонок производится по тойже констуркции что и добавления пары ключ значение в словарь с тем лишь отличием что кол-во значений в новом столбце должно соответствовать общей длинне датафрейма

In [2]:
# Другими словами допустим у нас есть df

import pandas as pd

df = pd.DataFrame([
  [1, '3 inch screw', 0.5, 0.75],
  [2, '2 inch nail', 0.10, 0.25],
  [3, 'hammer', 3.00, 5.50],
  [4, 'screwdriver', 2.50, 3.00]
],
  columns=['Product ID', 'Description', 'Cost to Manufacture', 'Price']
)

print(df)

   Product ID   Description  Cost to Manufacture  Price
0           1  3 inch screw                  0.5   0.75
1           2   2 inch nail                  0.1   0.25
2           3        hammer                  3.0   5.50
3           4   screwdriver                  2.5   3.00


In [4]:
# если мы вдруг захотим добавить новую колонку и укажем кол-во значений ее меньше чем в остальных то получим ошибку
# df['new_column'] = [1]
# Чтобы код не вызывал ошибок
# 1. Можно указать значения в кол-ве которое равно остальным столбцам
# 2. Присвоить одно значение новой колонке в таком случае все значения новой колонки будут равны данному значению
df['new_column'] = 1
print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column
0           1  3 inch screw                  0.5   0.75           1
1           2   2 inch nail                  0.1   0.25           1
2           3        hammer                  3.0   5.50           1
3           4   screwdriver                  2.5   3.00           1


Но не часто бывают случаю когда все значения каждой строки равны одному и томе же значению

Общей практикой добавления колонок является добавление колонок со значеями которые были вычисленны на основе имеющихся данных

In [5]:
# в таком случае используются простые математические действия 
# например разница между значениями колонки Price и Cost to Manufacture записанной в колонке с именем Diff запишется следующим образом
df['Diff'] = df.Price - df["Cost to Manufacture"]
print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column  Diff
0           1  3 inch screw                  0.5   0.75           1  0.25
1           2   2 inch nail                  0.1   0.25           1  0.15
2           3        hammer                  3.0   5.50           1  2.50
3           4   screwdriver                  2.5   3.00           1  0.50


## Использование функций для формирования новой колонки

А еще чаще бывает что требуется рассчитать значения новой колонки исходя из более сложной логики чем вычитание одного значения из другого

В таком случае используется метод **apply()** внутрь которого передается функция которая будет применена к каждому значению колонки из которой функция была вызвана

In [6]:
# Например мы хотим чтобы значение новой колонки являлось равной значениям из колонки Description но чтобы каждое слово начиналось в заглавной буквы
# И назовем данную колонку Title_Description
df['Title_Description'] = df.Description.apply(str.title)
print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column  Diff  \
0           1  3 inch screw                  0.5   0.75           1  0.25   
1           2   2 inch nail                  0.1   0.25           1  0.15   
2           3        hammer                  3.0   5.50           1  2.50   
3           4   screwdriver                  2.5   3.00           1  0.50   

  Title_Description  
0      3 Inch Screw  
1       2 Inch Nail  
2            Hammer  
3       Screwdriver  


Но если можно применять встроенные методы различных классов то следовательно можно применять и свои функции в том числе и **lambda** функции

In [8]:
# Тот же самый эффект с колонкой Description можно добиться и через Lambda функцию
# создадим переменную которая будет содержать lambda функцию
change_des_upper = lambda x: x.upper()

df['Upper_Description'] = df.Description.apply(change_des_upper)

print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column  Diff  \
0           1  3 inch screw                  0.5   0.75           1  0.25   
1           2   2 inch nail                  0.1   0.25           1  0.15   
2           3        hammer                  3.0   5.50           1  2.50   
3           4   screwdriver                  2.5   3.00           1  0.50   

  Title_Description Upper_Description  
0      3 Inch Screw      3 INCH SCREW  
1       2 Inch Nail       2 INCH NAIL  
2            Hammer            HAMMER  
3       Screwdriver       SCREWDRIVER  


In [9]:
# Можно создавать и более сложные условия для вывода например является ли идентификатор продукта (Product ID) четным или не четным
even_odd_prod_id = lambda x: 'even' if x % 2 == 0 else 'odd'

df['Even_Odd_Product_ID'] = df['Product ID'].apply(even_odd_prod_id)

print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column  Diff  \
0           1  3 inch screw                  0.5   0.75           1  0.25   
1           2   2 inch nail                  0.1   0.25           1  0.15   
2           3        hammer                  3.0   5.50           1  2.50   
3           4   screwdriver                  2.5   3.00           1  0.50   

  Title_Description Upper_Description Even_Odd_Product_ID  
0      3 Inch Screw      3 INCH SCREW                 odd  
1       2 Inch Nail       2 INCH NAIL                even  
2            Hammer            HAMMER                 odd  
3       Screwdriver       SCREWDRIVER                even  


Метод apply() применяет функцию внутри метода к каждому значению в столбце, но что если нам необходимо получать значения в зависимости от значений нескольких колонок

В таком случае указывается параметр метода apply() - axis = 1 (данная переменная может принимать два значения 0 или 1. По умолчанию используется 0)

И метод применяется ко всему df

In [10]:
# Допустим если значение product id четное то мы Cost of Manufacture отнимаем от Price а если не четное то наборот
check = lambda x: x['Cost to Manufacture'] - x.Price if x['Even_Odd_Product_ID'] == 'even' else x.Price - x['Cost to Manufacture']
df['even_odd_price_cost'] = df.apply(check, axis=1)

print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column  Diff  \
0           1  3 inch screw                  0.5   0.75           1  0.25   
1           2   2 inch nail                  0.1   0.25           1  0.15   
2           3        hammer                  3.0   5.50           1  2.50   
3           4   screwdriver                  2.5   3.00           1  0.50   

  Title_Description Upper_Description Even_Odd_Product_ID  even_odd_price_cost  
0      3 Inch Screw      3 INCH SCREW                 odd                 0.25  
1       2 Inch Nail       2 INCH NAIL                even                -0.15  
2            Hammer            HAMMER                 odd                 2.50  
3       Screwdriver       SCREWDRIVER                even                -0.50  


## Переименовать колонку

Для того чтобы переименовать колонку используется два метода
- Вызывается переменная columns объекта класса DataFrame и присваивается новое значение которое является списком новых наименований
    - но у данного способа есть ряд недостатков
        - если мы его используем то в обязательном порядке следует указать наименования всех колонок. Получается даже в случае если нам требуется переименовать только одну колонку чтобы метод сработал надо будет в списке указать все старые наименования колонок в список

In [15]:
# Допустим нам надо переименовать колонку even_odd_price_cost и сделать ее просто абревиатурой EOPC
# В таком случае процесс будет выглядет так

old_column_name = list(df.columns)
old_column_name[-1] = 'EOPC'
df.columns = old_column_name

print(df.columns)
print(df.head())

Index(['Product ID', 'Description', 'Cost to Manufacture', 'Price',
       'new_column', 'Diff', 'Title_Description', 'Upper_Description',
       'Even_Odd_Product_ID', 'EOPC'],
      dtype='object')
   Product ID   Description  Cost to Manufacture  Price  new_column  Diff  \
0           1  3 inch screw                  0.5   0.75           1  0.25   
1           2   2 inch nail                  0.1   0.25           1  0.15   
2           3        hammer                  3.0   5.50           1  2.50   
3           4   screwdriver                  2.5   3.00           1  0.50   

  Title_Description Upper_Description Even_Odd_Product_ID  EOPC  
0      3 Inch Screw      3 INCH SCREW                 odd  0.25  
1       2 Inch Nail       2 INCH NAIL                even -0.15  
2            Hammer            HAMMER                 odd  2.50  
3       Screwdriver       SCREWDRIVER                even -0.50  


In [None]:
# что будет если мы попробуем переименовать таким способом только одну колонку
# ну во первых вам и самому будет не понят что и на что вы переименовывайте а во вторых давайте попробуем =)
df.columns = ['first column']

# выйдет ошибка valueError
# ValueError: Length mismatch: Expected axis has 10 elements, new values have 1 elements

Второй способ переименовать колонку намного более лаконичный и правильный и позволяет переименовывать только те колонки которые необходимы.

Способ заключается в использовании метода rename(columns={}, inplace = True) внутрь которого передается словарь с парой ключ:значение

Где
- ключ - это наименование старой колонки
- значение - наименование новой колонки 
- с параметром inplace мы уже знакомы

In [19]:
# Переименнуем колонку Upper_Description просто в UD
df.rename(columns={'Upper_Description':'UD'}, inplace=True)

print(df.head())

   Product ID   Description  Cost to Manufacture  Price  new_column  Diff  \
0           1  3 inch screw                  0.5   0.75           1  0.25   
1           2   2 inch nail                  0.1   0.25           1  0.15   
2           3        hammer                  3.0   5.50           1  2.50   
3           4   screwdriver                  2.5   3.00           1  0.50   

  Title_Description            UD Even_Odd_Product_ID  EOPC  
0      3 Inch Screw  3 INCH SCREW                 odd  0.25  
1       2 Inch Nail   2 INCH NAIL                even -0.15  
2            Hammer        HAMMER                 odd  2.50  
3       Screwdriver   SCREWDRIVER                even -0.50  
