В этой лекции научимся:
    - удалять данные из DataFrame по строкам, столбцам и выбранным условиям;
    - удалять пустые значения;
    - удалять повторяющиеся значения;
    - заменять пустые значения на нужные нам.
    
Для начала импортируем нашы данные.

In [1]:
import pandas as pd

data = pd.read_csv("D:\\new_data\\Metro_Interstate_Traffic_Volume.csv")
data.head()

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767
3,,290.13,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 12:00:00,5026
4,,291.14,0.0,0.0,75,Clouds,broken clouds,2012-10-02 13:00:00,4918


В общем случае, для удаления какого-либо объекта из DataFrame пользуются методом drop(), который в качестве аргумента может принимать информацию об объектах, которые надо удалить.

Давайте удалим колонку temp. Для этого, нужно передать в метод drop() название этой колонки и установить параметр axis=1, чтобы 
метод drop() понял, что мы хотим работать со столбцами. В конце запроса воспользуемся метотод head(), чтобы не отображать всю таблицу.

In [2]:
data.drop('temp', axis=1).head(3)

Unnamed: 0,holiday,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767


Мы можем удалить несколько колонок сразу, передав их в метод drop() списко.

In [3]:
data.drop(['rain_1h', 'date_time'], axis=1).head(3)

Unnamed: 0,holiday,temp,snow_1h,clouds_all,weather_main,weather_description,traffic_volume
0,,288.28,0.0,40,Clouds,scattered clouds,5545
1,,289.36,0.0,75,Clouds,broken clouds,4516
2,,289.58,0.0,90,Clouds,overcast clouds,4767


Небольшое отступление. Почему, после того, как мы удалили колонку из таблицы data, она снова отобразилась при следующей операции, хотя после удаления её не было видно. Дело в том, что в первом случае нам был показан результат операции над DataFrame. Но этот результат не был сохранён. Вообще говоря, это очень удобно при работе с данными, выполнить какую-нибудь манипуляцию и посмотреть, что получилось, при этом на боясь изменить исходные данные.

Если мы хотим сохранить результат, то есть 3 основных способа:
1. Мы можем создать новый объект и сохранить резлуьтат в него:
    data_new = data.drop('temp', axis=1)
2. Мы можем переопределить или пересоздать уже существующий объект:
    data = data.drop('temp', axis=1)
3. Мы можем воспользоваться параметром inplace, установив его значение в "True". Тем самым, мы сообщаем методу, что сделанные   изменения должны быть сохранены. Но этот метод работает не всегда.
    data.drop('temp', axis=1, inpsace=True)
    
В качестве примера, создадим новый объект data_new и сохраним в него результаты удаления.

In [4]:
data_new = data.drop('temp', axis=1)
data_new.head()

Unnamed: 0,holiday,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767
3,,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 12:00:00,5026
4,,0.0,0.0,75,Clouds,broken clouds,2012-10-02 13:00:00,4918


Как видите, в новом объекте колонка "temp" отсутсвует.

Мы также можем удалить выбранные строки. В этом случаем передаём в списке номера индексы строк, а параметр axis=0.

In [5]:
data.drop([1,3,5], axis=0).head()

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767
4,,291.14,0.0,0.0,75,Clouds,broken clouds,2012-10-02 13:00:00,4918
6,,293.17,0.0,0.0,1,Clear,sky is clear,2012-10-02 15:00:00,5584
7,,293.86,0.0,0.0,1,Clear,sky is clear,2012-10-02 16:00:00,6015


Теперь представим, что нам необходимо удалить все дуплирующиеся записи какого-нибудь из столбцов. Для удаления дупликатов используется метод drop_duplicates(). Он может работать и без параметров, но если вы хотите удалить дубликаты по какому-то конкретному столбцу, то необходимо передать название этого столбца в парметр "subset".

Давайте удалим все дубликаты из столбца 'snow_1h' и посмотрим, что останеться от наше таблицы.

In [6]:
data.drop_duplicates(subset='snow_1h')

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
20158,,274.33,0.98,0.51,90,Rain,moderate rain,2015-12-23 12:00:00,5167
20162,,273.74,0.0,0.32,90,Snow,light snow,2015-12-23 14:00:00,5182
20167,,273.83,0.0,0.06,90,Snow,light snow,2015-12-23 18:00:00,3854
20221,,270.74,0.0,0.05,90,Snow,light snow,2015-12-26 08:00:00,1472
20222,,271.17,0.0,0.21,90,Snow,light snow,2015-12-26 09:00:00,2013
20266,,267.25,0.0,0.25,90,Snow,snow,2015-12-28 21:00:00,2149
20268,,267.14,0.0,0.44,90,Snow,snow,2015-12-28 22:00:00,2165
20272,,266.95,0.0,0.13,90,Snow,light snow,2015-12-29 00:00:00,505
20286,,269.4,0.0,0.1,75,Snow,light snow,2015-12-29 08:00:00,2979


Оказыветься в колонке "snow_1h" всего лишь 12 уникальных значенией. Мы можем передать в метдо drop_duplicates несколько колонок.
В этом случае мы получим таблицу со всеми уникальными комбинациями значений, двух колонок, которые были в DataFrame. Давайте 
посмотрим на колонки 'snow_1h' и 'holiday'.

In [7]:
data.drop_duplicates(subset=['snow_1h','holiday'])

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
126,Columbus Day,273.08,0.0,0.0,20,Clouds,few clouds,2012-10-08 00:00:00,455
1123,Veterans Day,288.12,0.0,0.0,87,Clear,sky is clear,2012-11-12 00:00:00,1000
1370,Thanksgiving Day,278.54,0.0,0.0,20,Mist,mist,2012-11-22 00:00:00,919
2360,Christmas Day,264.4,0.0,0.0,90,Clouds,overcast clouds,2012-12-25 00:00:00,803
2559,New Years Day,263.49,0.0,0.0,58,Clouds,broken clouds,2013-01-01 00:00:00,1439
3697,Washingtons Birthday,258.96,0.0,0.0,20,Clouds,few clouds,2013-02-18 00:00:00,556
6430,Memorial Day,286.37,0.0,0.0,90,Clouds,overcast clouds,2013-05-27 00:00:00,863
7414,Independence Day,290.08,0.0,0.0,1,Clear,sky is clear,2013-07-04 00:00:00,1060
8575,State Fair,297.42,0.0,0.0,12,Clouds,few clouds,2013-08-22 00:00:00,661


Давайте теперь посмотрим, как удалять отсутсвующие значения. Посмотрим на колонку 'holiday' и заметим, что большинство значений 
там это "None". Если мы хотим удалить отсутсвующие значения из DataFrame(), можно воспользоваться методом dropna(). Давйте так и сделаем.

In [8]:
data.dropna().head()

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767
3,,290.13,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 12:00:00,5026
4,,291.14,0.0,0.0,75,Clouds,broken clouds,2012-10-02 13:00:00,4918


Ничего не зименилось. Значения "None" остались в таблице. Почему это произошло? Давайте для начала посмотрим, сколько всего отсутствующих значений в нашем DataFrmae. Сделать это можно с помощью двух методов isnull() или isna(). Сразу проссумируем результаты по всем колонкам DataFrame.

In [9]:
data.isna().sum()

holiday                0
temp                   0
rain_1h                0
snow_1h                0
clouds_all             0
weather_main           0
weather_description    0
date_time              0
traffic_volume         0
dtype: int64

Судя по результату выполнения метода isna() в нашей таблице отсутсвую пустые значения, и при этом мы их видим при отображении таблицы. В чём же может быть дело? А давайте проверим типы данных всех наших колонок. Для этого воспользуемся методом info() из первой лекции.

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48204 entries, 0 to 48203
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   holiday              48204 non-null  object 
 1   temp                 48204 non-null  float64
 2   rain_1h              48204 non-null  float64
 3   snow_1h              48204 non-null  float64
 4   clouds_all           48204 non-null  int64  
 5   weather_main         48204 non-null  object 
 6   weather_description  48204 non-null  object 
 7   date_time            48204 non-null  object 
 8   traffic_volume       48204 non-null  int64  
dtypes: float64(3), int64(2), object(4)
memory usage: 3.3+ MB


В строчке "0   holiday   48204 non-null  object " и кроеться проблема. Сдесь видно, что все элементы в столбце "holiday" имеют тип "object", а также что в этотм столбце нет ни одного отсутствующего значения. Дело в том, что при изначально чтении нашей таблицы метод read_csv() не распознал корректно отсутсвующие значения, и передела значение None в строку или набор символов "None". То есть, для Pandas сейчас это просто четыре символа без какого-либо специального значения. Такое при работе с данными происходит постоянно. Поэтому будте внимательны при чтении/импорте ваших данных, чтобы не потерять нужную информацию.

Давайте создадим новый DataFrame, в котором заменим все строки "None" на отстувующие значения. Для этого воспользуемся знакомым нам методом  replace().

In [11]:
data_new = data.replace({'holiday':{'None': None}})

In [12]:
data_new.head()

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767
3,,290.13,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 12:00:00,5026
4,,291.14,0.0,0.0,75,Clouds,broken clouds,2012-10-02 13:00:00,4918


Визулаьно пока ничего не изменилось. Но взглянем теперь на типы данных новой таблицы.

In [13]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48204 entries, 0 to 48203
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   holiday              61 non-null     object 
 1   temp                 48204 non-null  float64
 2   rain_1h              48204 non-null  float64
 3   snow_1h              48204 non-null  float64
 4   clouds_all           48204 non-null  int64  
 5   weather_main         48204 non-null  object 
 6   weather_description  48204 non-null  object 
 7   date_time            48204 non-null  object 
 8   traffic_volume       48204 non-null  int64  
dtypes: float64(3), int64(2), object(4)
memory usage: 3.3+ MB


Сейчас видно, что в колонке "holiday" у нас всего 61 актуальное значение. Остальные значения пропущены. Теперь можем спокойно удалить все строки с отсутсвующими значениями.

In [14]:
data_new.dropna()

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
126,Columbus Day,273.080,0.00,0.0,20,Clouds,few clouds,2012-10-08 00:00:00,455
1123,Veterans Day,288.120,0.00,0.0,87,Clear,sky is clear,2012-11-12 00:00:00,1000
1370,Thanksgiving Day,278.540,0.00,0.0,20,Mist,mist,2012-11-22 00:00:00,919
2360,Christmas Day,264.400,0.00,0.0,90,Clouds,overcast clouds,2012-12-25 00:00:00,803
2559,New Years Day,263.490,0.00,0.0,58,Clouds,broken clouds,2013-01-01 00:00:00,1439
...,...,...,...,...,...,...,...,...,...
44441,Memorial Day,299.487,0.00,0.0,24,Clouds,few clouds,2018-05-28 00:00:00,1088
45547,Independence Day,297.550,0.00,0.0,1,Mist,mist,2018-07-04 00:00:00,1021
46936,State Fair,289.020,0.00,0.0,1,Clear,sky is clear,2018-08-23 00:00:00,596
47330,Labor Day,292.430,0.25,0.0,1,Rain,light rain,2018-09-03 00:00:00,962


Вместе с удалением всех строк, которые содержать None мы удалили почти все данные. Теперь в DataFrame всего лишь 61 строка. А что если не удалять отсутсвующие значения а заменить их на какое либо другое. Для этого мы можем воспользоваться методо fillna(), в который передаём значение на которое нужно заменить None. Сразу сохраним результат изменений в новую таблицу.

In [15]:
data_new.fillna('0', inplace=True)
data_new.head(3)

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,0,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,0,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,0,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767


In [16]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48204 entries, 0 to 48203
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   holiday              48204 non-null  object 
 1   temp                 48204 non-null  float64
 2   rain_1h              48204 non-null  float64
 3   snow_1h              48204 non-null  float64
 4   clouds_all           48204 non-null  int64  
 5   weather_main         48204 non-null  object 
 6   weather_description  48204 non-null  object 
 7   date_time            48204 non-null  object 
 8   traffic_volume       48204 non-null  int64  
dtypes: float64(3), int64(2), object(4)
memory usage: 3.3+ MB


Теперь мы видим, что в колонке "holiday" у нас нет ни одного пропущеннго значения, но на эотот раз мы понимаем, почему. Давайте ещё подсчитаем сколько и каких значений сейчас в колонке "holiday" с помощьюу мтеода value_counts().

In [17]:
data_new['holiday'].value_counts()

0                            48143
Labor Day                        7
New Years Day                    6
Martin Luther King Jr Day        6
Christmas Day                    6
Thanksgiving Day                 6
Columbus Day                     5
State Fair                       5
Memorial Day                     5
Washingtons Birthday             5
Veterans Day                     5
Independence Day                 5
Name: holiday, dtype: int64

Видно, что все отсутсвующие значения значения заменены на 0 и их у нас 48143. Мы избавились в нашей таблице от отсутсвующих значений, и вместе с тем не потеряли ни одной строчки информации.