<h1><a href='#part0'>Як з Pandas Dataframe видалити стовпець</a></h1>

# Як з Pandas Dataframe видалити рядок

Pandas представляє нам відмінні інструменти для обробки даних, у тому числі для видалення інформації, яка нам не потрібна. У цій статті ми розглянемо різні способи видалення рядків із Dataframe Pandas.

[link origin](http://www.excelguide.ru/2021/09/drop-row-pandas.html)

#### Створимо навчальний Dataframe з описом міст України, з яким ми надалі працюватимемо:

In [85]:
import pandas as pd

In [148]:
from bs4 import BeautifulSoup

def make_req(url, timeout=50):
    import requests
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:102.0) Gecko/20100101 Firefox/102.0',
    }
    resp = requests.get(url, headers=headers, timeout=timeout)
    return resp

# url = f'https://mistaua.com/Пошук_населених_пунктів/обласні-центри'
# resp = make_req(url)
# soup = BeautifulSoup(resp.text, 'html.parser')

text = open('table.txt', encoding='utf')
soup = BeautifulSoup(text.read(), 'html.parser')

base_sel = 'table'

klass = ["region", "area", "hight", "tel_ind", "made", "made_day", "activ", "view",
"gerb", "flag"]
col = []
rows = []
for name in klass:
    col_name = [i.text.strip() for i in soup.select(f'{base_sel} th.{name}')][0]
    col.append(col_name)
    rows.append([i.text.strip() for i in soup.select(f'{base_sel} td.{name}')])

df = pd.DataFrame(columns=col)

for j, i in enumerate(col):
    if len(i) > 0:
        df[i] = rows[j]
    else:
        pass
df.head()

Unnamed: 0,ОбластьРайон,Площа км2,Висота над рівнем моря,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
0,,836.0,105,+380 44,482,28.05,7417,13541,,
1,Львівська,160.0,284,+380 32,1256,7.05,6720,9175,,
2,Дніпропетровська,380.0,79,+380 56,1783,10.09,2531,3764,,
3,Харківська,350.02,120,+380 57,1653,23.08,3518,3219,,
4,Тернопільська,59.0,325,+380 352,1540,28.08,3062,2894,,


Pandas для видалення рядків, а також стовпців використовується метод drop. Його синтаксис наступний (зверніть увагу, що необов'язково використовувати всі параметри, можна тільки ті, які нам необхідні):

```Python
df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```
де, 
> `labels` – номери або назви стовпців для видалення<br>
`axis` – значення `0`, якщо ви хочете видалити рядки, або `1`, якщо плануєте видаляти стовпці<br>
`index` – визначає, які рядки треба видалити<br>
`columns` – визначає, які стовпці треба видалити<br>
`inplace` – змінює оригінальний Dataframe, якщо параметр дорівнює `True`<br>
`errors` – ігноруються помилки, якщо параметр заданий як `ignore`<br>

# Спосіб 1. Видалення рядка в Pandas за його індексом
Для кожного рядка в Dataframe Pandas надає індекс, зазвичай це число. У нашому навчальному Dataframe, наприклад, у Києва індекс 0, а у Дніпропетровська 2. Давайте приберемо запис із Києвом:

In [149]:
df.drop(labels = [0],axis = 0).head()

Unnamed: 0,ОбластьРайон,Площа км2,Висота над рівнем моря,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
1,Львівська,160.0,284,+380 32,1256,7.05,6720,9175,,
2,Дніпропетровська,380.0,79,+380 56,1783,10.09,2531,3764,,
3,Харківська,350.02,120,+380 57,1653,23.08,3518,3219,,
4,Тернопільська,59.0,325,+380 352,1540,28.08,3062,2894,,
5,Івано-Франківська,83.73,260,+380 342,1662,7.05,3566,2806,,


Ми можемо видалити кілька рядків, перерахувавши їх індекси через кому в квадратних дужках:

In [150]:
df.drop(labels = [22,23],axis = 0).tail()

Unnamed: 0,ОбластьРайон,Площа км2,Висота над рівнем моря,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
18,Сумська,95.38,138,+380 542,1652,3.09,1278,1146,,
19,Миколаївська,260.0,42,+380 512,1789,10.09,1730,1122,,
20,Закарпатська,31.56,122,+380 312,872,2.1,1260,975,,
21,Херсонська,68.0,41,+380 552,1778,17.09,885,364,,
24,Автономна Республіка Крим,107.41,245,+380 652,1784,5.06,385,23,,


### Зверніть увагу, що за умовчанням метод drop не змінює вихідний dataframe, якщо ви хочете, щоб це було зроблено, додайте параметр inplace=True

In [151]:
df.drop(labels = [24],axis = 0, inplace = True)
df.tail()

Unnamed: 0,ОбластьРайон,Площа км2,Висота над рівнем моря,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
19,Миколаївська,260.0,42,+380 512,1789,10.09,1730,1122,,
20,Закарпатська,31.56,122,+380 312,872,2.1,1260,975,,
21,Херсонська,68.0,41,+380 552,1778,17.09,885,364,,
22,Донецька,571.0,198,+380 622(3),1869,28.08,695,144,,
23,Луганська,286.2,107,+380 642,1795,3.09,462,41,,


# Спосіб 2. Видалення рядка Pandas за її змістом

Припустимо, нам треба прибрати рядок із назвою міста з показником висоти над рівнем моря 41, але ми не знаємо його індексу та хочемо його видалити за цим показником. Для цього ми повинні спочатку змінити стовпець з індексами та замість цифрових значень задати дані зі стовпця «Висота над рівнем моря»:

In [152]:
df = df.set_index('Висота над рівнем моря')
df

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
105,,836.0,+380 44,482,28.05,7417,13541,,
284,Львівська,160.0,+380 32,1256,7.05,6720,9175,,
79,Дніпропетровська,380.0,+380 56,1783,10.09,2531,3764,,
120,Харківська,350.02,+380 57,1653,23.08,3518,3219,,
325,Тернопільська,59.0,+380 352,1540,28.08,3062,2894,,
260,Івано-Франківська,83.73,+380 342,1662,7.05,3566,2806,,
53,Одеська,163.0,+380 48,1415,2.09,2847,2452,,
234,Вінницька,113.16,+380 432,1362,17.09,2024,2412,,
93,Запорізька,240.0,+380 61(2),1770,14.1,1116,2246,,
187,Рівненська,58.24,+380 362,1283,26.08,2711,2038,,


Тепер, коли в якості індексів ми маємо висоту над рівнем моря, ми можемо виконати поставлене перед нами завдання:

In [153]:
df.drop(['41'],axis = 0)

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
105,,836.0,+380 44,482,28.05,7417,13541,,
284,Львівська,160.0,+380 32,1256,7.05,6720,9175,,
79,Дніпропетровська,380.0,+380 56,1783,10.09,2531,3764,,
120,Харківська,350.02,+380 57,1653,23.08,3518,3219,,
325,Тернопільська,59.0,+380 352,1540,28.08,3062,2894,,
260,Івано-Франківська,83.73,+380 342,1662,7.05,3566,2806,,
53,Одеська,163.0,+380 48,1415,2.09,2847,2452,,
234,Вінницька,113.16,+380 432,1362,17.09,2024,2412,,
93,Запорізька,240.0,+380 61(2),1770,14.1,1116,2246,,
187,Рівненська,58.24,+380 362,1283,26.08,2711,2038,,


Ми можемо видалити кілька рядків за їх змістом у Pandas, перерахувавши їх через кому у квадратних дужках:

In [154]:
df.drop(['105','284'],axis = 0)

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
79,Дніпропетровська,380.0,+380 56,1783,10.09,2531,3764,,
120,Харківська,350.02,+380 57,1653,23.08,3518,3219,,
325,Тернопільська,59.0,+380 352,1540,28.08,3062,2894,,
260,Івано-Франківська,83.73,+380 342,1662,7.05,3566,2806,,
53,Одеська,163.0,+380 48,1415,2.09,2847,2452,,
234,Вінницька,113.16,+380 432,1362,17.09,2024,2412,,
93,Запорізька,240.0,+380 61(2),1770,14.1,1116,2246,,
187,Рівненська,58.24,+380 362,1283,26.08,2711,2038,,
295,Хмельницька,93.05,+380 382(2),1431,28.09,1783,1919,,
181,Волинська,42.0,+380 32(2),1085,23.08,2342,1876,,


# Спосіб 3. Видалення рядка Pandas за умовою
За допомогою способу `loc` ми можемо видаляти рядки за умовою, наприклад ми хочемо прибрати з Dataframe ті міста, у яких площа менше 250 км2.

Так як ми будемо застосовувати математичні умови, то спершу стовпець «Площа» ми повинні перевести у формат int64:

In [155]:
df['Площа км2'] = pd.to_numeric(df['Площа км2'])
df.head()

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
105,,836.0,+380 44,482,28.05,7417,13541,,
284,Львівська,160.0,+380 32,1256,7.05,6720,9175,,
79,Дніпропетровська,380.0,+380 56,1783,10.09,2531,3764,,
120,Харківська,350.02,+380 57,1653,23.08,3518,3219,,
325,Тернопільська,59.0,+380 352,1540,28.08,3062,2894,,


Далі за допомогою методу `loc` ми передамо в Dataframe відфільтровані рядки, а саме ті, які задовольняють умові, що Площа > 250 км2

In [156]:
df = df.loc[df['Площа км2'] > 250]
df

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Активність,Переглядів на добу,Герб,Прапор
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
105,,836.0,+380 44,482,28.05,7417,13541,,
79,Дніпропетровська,380.0,+380 56,1783,10.09,2531,3764,,
120,Харківська,350.02,+380 57,1653,23.08,3518,3219,,
42,Миколаївська,260.0,+380 512,1789,10.09,1730,1122,,
198,Донецька,571.0,+380 622(3),1869,28.08,695,144,,
107,Луганська,286.2,+380 642,1795,3.09,462,41,,


<p id='part0'></p>


# Як з Pandas Dataframe видалити стовпець

При роботі з даними в Pandas часто можна зіткнутися з ситуацією, коли частина стовпців в Dataframe не містять потрібної нам інформації і їх потрібно видалити, в цій статті ми розглянемо кілька способів, як це можна зробити

# Спосіб 1. Видалення стовпця за його ім'ям в Pandas

Вкажіть у методі `drop` назву того стовпця, який ви хочете видалити, а параметр `axis` зробіть рівним `1`:

In [157]:
df.drop(columns = ['Активність'],axis = 1)

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Переглядів на добу,Герб,Прапор
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
105,,836.0,+380 44,482,28.05,13541,,
79,Дніпропетровська,380.0,+380 56,1783,10.09,3764,,
120,Харківська,350.02,+380 57,1653,23.08,3219,,
42,Миколаївська,260.0,+380 512,1789,10.09,1122,,
198,Донецька,571.0,+380 622(3),1869,28.08,144,,
107,Луганська,286.2,+380 642,1795,3.09,41,,


Також ми можемо видалити кілька стовпців за назвою, для цього перерахуйте їх через кому всередині квадратних дужок:

In [146]:
df.drop(columns = ['Активність', 'Герб', 'Прапор'], axis = 1) 

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Переглядів на добу
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
105,,836.0,+380 44,482,28.05,13541
79,Дніпропетровська,380.0,+380 56,1783,10.09,3764
120,Харківська,350.02,+380 57,1653,23.08,3219
42,Миколаївська,260.0,+380 512,1789,10.09,1122
198,Донецька,571.0,+380 622(3),1869,28.08,144
107,Луганська,286.2,+380 642,1795,3.09,41


Зверніть увагу, що синтаксис не змінює вихідний Dataframe, якщо ви хочете це зробити, то додайте параметр `inplace=True`

In [160]:
df.drop(columns = ['Активність', 'Герб', 'Прапор'], axis = 1, inplace=True)
df

Unnamed: 0_level_0,ОбластьРайон,Площа км2,Телефонний код,Рік заснування,День міста,Переглядів на добу
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
105,,836.0,+380 44,482,28.05,13541
79,Дніпропетровська,380.0,+380 56,1783,10.09,3764
120,Харківська,350.02,+380 57,1653,23.08,3219
42,Миколаївська,260.0,+380 512,1789,10.09,1122
198,Донецька,571.0,+380 622(3),1869,28.08,144
107,Луганська,286.2,+380 642,1795,3.09,41


# Спосіб 2. Видалення стовпця за його порядковим номером у Pandas

Ми можемо видалити стовпець, вказуючи на його ім'я, а його порядковий номер. Зверніть увагу, що нумерація стовпців йде в Pandas з 0. Наприклад, ми хочемо прибрати стовпець «Площа», його порядковий номер – 1

In [161]:
df.drop(df.columns[[1]], axis = 1)

Unnamed: 0_level_0,ОбластьРайон,Телефонний код,Рік заснування,День міста,Переглядів на добу
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
105,,+380 44,482,28.05,13541
79,Дніпропетровська,+380 56,1783,10.09,3764
120,Харківська,+380 57,1653,23.08,3219
42,Миколаївська,+380 512,1789,10.09,1122
198,Донецька,+380 622(3),1869,28.08,144
107,Луганська,+380 642,1795,3.09,41


Цим же способом ми можемо видалити кілька стовпців з Pandas, вказавши їх через кому. Приберемо стовпці Площа та Переглядів на добу:

In [163]:
df.drop(df.columns[[1,5]], axis = 1)

Unnamed: 0_level_0,ОбластьРайон,Телефонний код,Рік заснування,День міста
Висота над рівнем моря,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
105,,+380 44,482,28.05
79,Дніпропетровська,+380 56,1783,10.09
120,Харківська,+380 57,1653,23.08
42,Миколаївська,+380 512,1789,10.09
198,Донецька,+380 622(3),1869,28.08
107,Луганська,+380 642,1795,3.09
