# Дополнительные методы работы с данными: очитска данных и создание новых признаков

В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных.

В жизни редко данные приходят в виде готовых матриц, которые представляют собой идеально организованный набор наблюдений без пропусков или аномалий. Поэтому очистка данных - важный этап.


Скачать датасет можно по адресу https://drive.google.com/file/d/1zy9JKp-bTfF0gRYkGl-g0X4o72NAhl1u/view

In [6]:
import pandas as pd

In [2]:
#загрузка файла в pandas

df = pd.read_csv('train.csv')

In [3]:
#вывод первых 10 строк файла

df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [4]:
#вывод информации о файле

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Изменение датафрейма

In [5]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

## Метод drop()

df.drop([название элементов], axis = 1 или 0, inplace = True)
axis = 1, если нужно удалить столбцы
axis = 0, если нужно удалить строки
inplace = True - удаляем элементы из самой переменной
inplace = False - просто показывается результат изменения, не изменяя переменной, к которой применяется метод

In [55]:
#Удаляем столбцы, в которых нет ценной для нас информации


## Функция round()
Позволяет выполнить округление

round(имя_df[название_колонки], количество знаков]

In [56]:
df['Fare'] = round(df['Fare'], 2)

## Пропущенные значения

Узнаем сколько их. Методы isna(), sum()

In [10]:
df.isna().sum()

## Заполняем пропущенные значения

In [58]:
# метод fillna()
#Embards


In [13]:
#подсчет однотипных данных
#метод value_counts()


In [60]:
#Выбор элемента по индексу
#функция index[]

## Метод fillna()
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

## Заполняем пустые значения о возрасте

In [17]:
# Способ 1: Среднее арифметическое
df['Age'].fillna(df.Age.median())

In [62]:
# Способ 2: Cредние арифметические в зависимости от класса каюты
age_1 = df[df['Pclass'] == 1]['Age'].median()


In [64]:
#Функция fill_age()
def fill_age(row):
    if pd.isnull(row['Age']):
        if row['Pclass'] == 1:
            return age_1
        if row['Pclass'] == 2:
            return age_2
        return age_3
    return row['Age']

In [65]:
df['Age'] = df.apply(fill_age,axis = 1)

## Закрепляем
### Создаем новый столбец с информацией о том, был ли пассажир на борту один или с родственниками
### Feature Engineering 

In [66]:
# Способ 1: с помощью именной функции и apply



In [68]:
# Способ 2: с помощью lambda-функции


In [69]:
# Построим сводную таблицу (pivot_table), в которой отразим количество погибших и выживших 
# из числа путешествовавших в одиночку или с родственниками


## Дополнительные приемы работы с числами

In [70]:
new_df = pd.DataFrame({'col1': [1,2,3,4,5], 'col2': '2,5 4,5 3.3 1,5 2,9'.split()})

In [71]:
new_df

In [72]:
new_df.info()

In [73]:
new_df['col2'].sum()

In [74]:
#Заменяем запятые на точки


## Три способа перевода значений в числовой формат

In [75]:
new_df['col2'] = pd.to_numeric(new_df['col2'])

In [76]:
new_df['col2'] = new_df['col2'].astype('float64')

In [77]:
new_df['col2'] = new_df['col2'].apply(lambda x: float(x))

### Если нужно заменить сразу много столбцов

In [79]:
#Создадим новый датафрейм
num_df = pd.DataFrame({'col1': '56,5 2,5 3.3 1,5 2,9'.split(), 'col2': '2,5 4,5 3.3 1,5 2,9'.split(), 
                       'col3': '7,6 4,5 3.3 7,5 1,9'.split()})
num_df

In [81]:
#Заменим запятые на точки и изменим тип данных
print(list(num_df))

for i in list(num_df):
    num_df[i] = num_df[i].apply(lambda x: x.replace(',', '.')).astype('float64')
    print(i)

num_df

## Работа с датами

In [7]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2016-weather-data-seattle.csv')
df.tail(10)
#df.head(10)

Unnamed: 0,Date,Max_TemperatureC,Mean_TemperatureC,Min_TemperatureC
24371,12/22/2015,8,6.0,3.0
24372,12/23/2015,5,4.0,3.0
24373,12/24/2015,6,4.0,2.0
24374,12/25/2015,5,4.0,2.0
24375,12/26/2015,4,2.0,0.0
24376,12/27/2015,4,3.0,2.0
24377,12/28/2015,5,3.0,2.0
24378,12/29/2015,7,4.0,1.0
24379,12/30/2015,6,2.0,-1.0
24380,12/31/2015,6,2.0,-2.0


In [11]:
#Информация о датафрейме

In [None]:
#Количество пропущенных значений

In [8]:
#Преобразование в формат даты год-месяц-день
df['Date'] = pd.to_datetime(df['Date'])
#Выборка года
df['Date'].dt.year

0        1948
1        1948
2        1948
3        1948
4        1948
         ... 
24376    2015
24377    2015
24378    2015
24379    2015
24380    2015
Name: Date, Length: 24381, dtype: int64

In [14]:
df['Date'].dt.hour

0        0
1        0
2        0
3        0
4        0
        ..
24376    0
24377    0
24378    0
24379    0
24380    0
Name: Date, Length: 24381, dtype: int64

In [19]:
df['Date'][0]

Timestamp('1948-01-01 00:00:00')

In [21]:
df = pd.DataFrame({'year': [2015, 2016],
                   'month': [2, 3],
                   'day': [4, 5]})
df

Unnamed: 0,year,month,day
0,2015,2,4
1,2016,3,5


In [22]:
pd.to_datetime(df)

0   2015-02-04
1   2016-03-05
dtype: datetime64[ns]

Подробнее о методе
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

## Создание новых временных признаков

In [15]:
df['current_time'] = pd.to_datetime('today').strftime("%m/%d/%Y")
df['current_time'] = pd.to_datetime(df['current_time'])

In [None]:
df['timedelta'] = (df['current_time']-df['Date']).astype('timedelta64[Y]')

## Удаление дубликатов

In [None]:
#Создадим словарь со списками данных
data = {"Name": ["James", "Alice", "Phil", "James"],
"Age": [24, 28, 40, 24],
"Sex": ["Male", "Female", "Male", "Male"]}

In [None]:
#Преобразуем словарь в датафрейм

In [None]:
#Удалим дубликаты
df.drop_duplicates()