# Дополнительные методы работы с данными: очитска данных и создание новых признаков

В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных.

В жизни редко данные приходят в виде готовых матриц, которые представляют собой идеально организованный набор наблюдений без пропусков или аномалий. Поэтому очистка данных - важный этап.


Скачать датасет можно по адресу https://drive.google.com/file/d/1zy9JKp-bTfF0gRYkGl-g0X4o72NAhl1u/view

In [1]:
import pandas as pd

In [2]:
#загрузка файла в pandas

df = pd.read_csv('train.csv')

In [3]:
#вывод первых 10 строк файла

df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [19]:
df['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [4]:
#вывод информации о файле

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


## Изменение датафрейма

In [5]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

## Метод drop()

df.drop([название элементов], axis = 1 или 0, inplace = True)
axis = 1, если нужно удалить столбцы
axis = 0, если нужно удалить строки
inplace = True - удаляем элементы из самой переменной
inplace = False - просто показывается результат изменения, не изменяя переменной, к которой применяется метод

In [8]:
#Удаляем столбцы, в которых нет ценной для нас информации
df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis = 1, inplace = True)

In [34]:
df.head(20)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Alone
0,0,3,male,22.0,1,0,7.25,S,not alone
1,1,1,female,38.0,1,0,71.28,C,not alone
2,1,3,female,26.0,0,0,7.92,S,alone
3,1,1,female,35.0,1,0,53.1,S,not alone
4,0,3,male,35.0,0,0,8.05,S,alone
5,0,3,male,24.0,0,0,8.46,Q,alone
6,0,1,male,54.0,0,0,51.86,S,alone
7,0,3,male,2.0,3,1,21.08,S,not alone
8,1,3,female,27.0,0,2,11.13,S,not alone
9,1,2,female,14.0,1,0,30.07,C,not alone


## Функция round()
Позволяет выполнить округление

round(имя_df[название_колонки], количество знаков]

In [10]:
df['Fare'] = round(df['Fare'], 2)

## Пропущенные значения

Узнаем сколько их. Методы isna(), sum()

In [26]:
df.isna().sum()

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

In [20]:
df['Embarked'].fillna('Q', inplace = True)

## Заполняем пропущенные значения

## Метод fillna()
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

## Заполняем пустые значения о возрасте

In [17]:
# Способ 1: Среднее арифметическое
df['Age'].fillna(df.Age.median())

In [23]:
# Способ 2: Cредние арифметические в зависимости от класса каюты
age_1 = df[df['Pclass'] == 1]['Age'].median()
age_2 = df[df['Pclass'] == 2]['Age'].median()
age_3 = df[df['Pclass'] == 3]['Age'].median()
print(age_1, age_2, age_3)

37.0 29.0 24.0


In [24]:
#Функция fill_age()
def fill_age(row):
    if pd.isnull(row['Age']):
        if row['Pclass'] == 1:
            return age_1
        if row['Pclass'] == 2:
            return age_2
        return age_3
    return row['Age']

In [25]:
df['Age'] = df.apply(fill_age, axis = 1)

## Закрепляем
### Создаем новый столбец с информацией о том, был ли пассажир на борту один или с родственниками
### Feature Engineering 

In [28]:
# Способ 1: с помощью именной функции и apply
def is_alone(row):
    if row['SibSp'] + row['Parch'] == 0:
        return 'alone'
    else:
        return 'not alone'

In [29]:
df['Alone'] = df.apply(is_alone, axis = 1)

In [33]:
# Способ 2: с помощью lambda-функции
df['Alone'] = df.apply(lambda x: 'alone' if x['SibSp'] + x['Parch'] == 0 else 'not alone', axis = 1)

In [37]:
# Построим сводную таблицу (pivot_table), в которой отразим количество погибших и выживших 
# из числа путешествовавших в одиночку или с родственниками
df.pivot_table(columns = 'Alone', index = 'Survived', values = 'Age', aggfunc = 'count')

Alone,alone,not alone
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,374,175
1,163,179


## Дополнительные приемы работы с числами

In [38]:
new_df = pd.DataFrame({'col1': [1,2,3,4,5], 'col2': '2,5 4,5 3.3 1,5 2,9'.split()})

In [39]:
new_df

Unnamed: 0,col1,col2
0,1,25.0
1,2,45.0
2,3,3.3
3,4,15.0
4,5,29.0


In [40]:
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
col1    5 non-null int64
col2    5 non-null object
dtypes: int64(1), object(1)
memory usage: 160.0+ bytes


In [53]:
new_df['col2'].sum()

14.700000000000001

In [54]:
new_df['col2'].min()

1.5

In [55]:
new_df['col2'].max()

4.5

In [56]:
max(new_df['col2'])

4.5

In [44]:
#Заменяем запятые на точки
new_df['col2'] = new_df['col2'].str.replace(',', '.')
#new_df['col2'] = new_df['col2'].apply(lambda x: x.replace(',', '.'))

In [47]:
new_df

Unnamed: 0,col1,col2
0,1,2.5
1,2,4.5
2,3,3.3
3,4,1.5
4,5,2.9


In [51]:
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
col1    5 non-null int64
col2    5 non-null float64
dtypes: float64(1), int64(1)
memory usage: 160.0 bytes


## Три способа перевода значений в числовой формат

In [48]:
new_df['col2'] = pd.to_numeric(new_df['col2'])

In [49]:
new_df['col2'] = new_df['col2'].astype('float64')

In [50]:
new_df['col2'] = new_df['col2'].apply(lambda x: float(x))

### Если нужно заменить сразу много столбцов

In [52]:
#Создадим новый датафрейм
num_df = pd.DataFrame({'col1': '56,5 2,5 3.3 1,5 2,9'.split(), 'col2': '2,5 4,5 3.3 1,5 2,9'.split(), 
                       'col3': '7,6 4,5 3.3 7,5 1,9'.split()})
num_df

Unnamed: 0,col1,col2,col3
0,565.0,25.0,76.0
1,25.0,45.0,45.0
2,3.3,3.3,3.3
3,15.0,15.0,75.0
4,29.0,29.0,19.0


In [58]:
#Заменим запятые на точки и изменим тип данных
print(list(num_df))

for i in list(num_df):
    num_df[i] = num_df[i].apply(lambda x: x.replace(',', '.')).astype('float64')
    print(i)

num_df

['col1', 'col2', 'col3']
col1
col2
col3


Unnamed: 0,col1,col2,col3
0,56.5,2.5,7.6
1,2.5,4.5,4.5
2,3.3,3.3,3.3
3,1.5,1.5,7.5
4,2.9,2.9,1.9


## Работа с датами

In [59]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2016-weather-data-seattle.csv')
df.tail(10)
#df.head(10)

Unnamed: 0,Date,Max_TemperatureC,Mean_TemperatureC,Min_TemperatureC
24371,12/22/2015,8,6.0,3.0
24372,12/23/2015,5,4.0,3.0
24373,12/24/2015,6,4.0,2.0
24374,12/25/2015,5,4.0,2.0
24375,12/26/2015,4,2.0,0.0
24376,12/27/2015,4,3.0,2.0
24377,12/28/2015,5,3.0,2.0
24378,12/29/2015,7,4.0,1.0
24379,12/30/2015,6,2.0,-1.0
24380,12/31/2015,6,2.0,-2.0


In [77]:
#Информация о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24381 entries, 0 to 24380
Data columns (total 6 columns):
Date                 24381 non-null datetime64[ns]
Max_TemperatureC     24381 non-null int64
Mean_TemperatureC    24376 non-null float64
Min_TemperatureC     24380 non-null float64
current_date         24381 non-null datetime64[ns]
timedelta            24381 non-null float64
dtypes: datetime64[ns](2), float64(3), int64(1)
memory usage: 1.1 MB


In [61]:
#Количество пропущенных значений
df.isna().sum()

Date                 0
Max_TemperatureC     0
Mean_TemperatureC    5
Min_TemperatureC     1
dtype: int64

In [62]:
#Преобразование в формат даты год-месяц-день
df['Date'] = pd.to_datetime(df['Date'])

In [64]:
#Выборка года
df['Date'].dt.year

0        1948
1        1948
2        1948
3        1948
4        1948
5        1948
6        1948
7        1948
8        1948
9        1948
10       1948
11       1948
12       1948
13       1948
14       1948
15       1948
16       1948
17       1948
18       1948
19       1948
20       1948
21       1948
22       1948
23       1948
24       1948
25       1948
26       1948
27       1948
28       1948
29       1948
         ... 
24351    2015
24352    2015
24353    2015
24354    2015
24355    2015
24356    2015
24357    2015
24358    2015
24359    2015
24360    2015
24361    2015
24362    2015
24363    2015
24364    2015
24365    2015
24366    2015
24367    2015
24368    2015
24369    2015
24370    2015
24371    2015
24372    2015
24373    2015
24374    2015
24375    2015
24376    2015
24377    2015
24378    2015
24379    2015
24380    2015
Name: Date, Length: 24381, dtype: int64

In [80]:
df.head()

Unnamed: 0,Date,Max_TemperatureC,Mean_TemperatureC,Min_TemperatureC,current_date,timedelta,timedelta_m
0,1948-01-01,10,8.0,7.0,2020-03-24,72.0,37988640.0
1,1948-01-02,6,4.0,3.0,2020-03-24,72.0,37987200.0
2,1948-01-03,7,4.0,2.0,2020-03-24,72.0,37985760.0
3,1948-01-04,7,4.0,2.0,2020-03-24,72.0,37984320.0
4,1948-01-05,7,3.0,0.0,2020-03-24,72.0,37982880.0


Подробнее о методе
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

## Создание новых временных признаков

In [75]:
#df['current_date'] = pd.to_datetime('today').strftime("%m/%d/%Y")
#df.drop(['current_time'], axis = 1, inplace = True)
df['current_date'] = df['current_date'].astype('datetime64')

In [76]:
df['timedelta'] = (df['current_date']-df['Date']).astype('timedelta64[Y]')

In [79]:
df['timedelta_m'] = (df['current_date']-df['Date']).astype('timedelta64[m]')

## Удаление дубликатов

In [81]:
#Создадим словарь со списками данных
data = {"Name": ["James", "Alice", "Phil", "James"],
"Age": [24, 28, 40, 24],
"Sex": ["Male", "Female", "Male", "Male"]}

In [83]:
#Преобразуем словарь в датафрейм
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Sex
0,James,24,Male
1,Alice,28,Female
2,Phil,40,Male
3,James,24,Male


In [86]:
#Удалим дубликаты
df.drop_duplicates(inplace = True)

In [87]:
df

Unnamed: 0,Name,Age,Sex
0,James,24,Male
1,Alice,28,Female
2,Phil,40,Male
