# Cleaning Data with Python 

## Common data problems 

|Datatype|Example|Python data type
|--|--|--|
|Text data|First name, Last name| str
|Integers|Subscribers, prodcuts sold|int
|Decimals|Temperature, exchange rates|float
|Binary|Is married,new customer, yes/no|boolean
|Dates|Order dates|datetime
|Categories|Marriage status, gender|category


### Ограничения связанные с типами данных

В данном разделе будут рассматриваться проблемы касающиеся всех типов данных. Для анализа данных и последующих выводов на основе полученных результатов, крайне необходимо оценить тип обрабатываемых данных. Так как результаты статистического анализа численных и категориальных данных будет зависеть от типа данных выборки

In [30]:
import pandas as pd
import numpy as np

price = pd.Series(['10$','15$'])

# проверка типа данных необходима для понимания какие операции можно совершить
print(price.dtype) # returns object


# тип object - означает что элементы ряда это строки, 
# следовательно математических операций н-р суммирование выполнить не получится
# как конвертировать  из строки в целое число

# удаляем символ $
price = price.str.strip('$')

#конвертация из строкового типа данных в целочисленный
price = price.astype('int')

# проверка истиности 
assert price.dtype == 'int'

object


```
метод 
string.strip(character) - удаляет значения character в рассматриваемой строке

DataFrame(Series).astype(dtype, copy=True, errors='raise')
конвертирует тип данных объекта пандас в желаемый - dtype

assert - проверка истинности выражения, если False, то возникнет AssertionError. В случае если True, не будет никакого предупреждения
```

In [27]:
# 1 - married, 2 - divorced, 3-single
marriage_status = pd.Series([1, 2,  3, 2 ,3])
print(marriage_status.describe())

# Рассматриваемые данные являются категорийные, 
# поэтому при определении статистических параметров неправильно использовать 
# их как числа

marriage_status = marriage_status.astype('category')
assert marriage_status.dtype == 'category'
marriage_status.describe()

count    5.00000
mean     2.20000
std      0.83666
min      1.00000
25%      2.00000
50%      2.00000
75%      3.00000
max      3.00000
dtype: float64


count     5
unique    3
top       2
freq      2
dtype: int64

### Ограничения связанные с данными превышающими диапазон 

Способы решения:
- исключение данных находящиеся вне диапазон. При использовании данного методы, стоит учитывать кол-во значений не находящиеся в диапазоне интервала, тк исключения большого числа можно повлиять на дальнейшую статистику.
- установить минимум и максимум
- определить данные вне диапазон как пропущенные или условные
- определить пользовательские данные на основе бизнес предположений


In [53]:
# drop values
import pandas as pd

#средний рейтинг меняется от 1 до 3 включительно
avg_rating = pd.Series([1, 2,  3, 2 ,3, 6])

# проверим если в данных значения больше 3
avg_rating[avg_rating > 3]

# 1 способ фильтрации данных
avg_rating = avg_rating[avg_rating <= 3]

# 2 способ pandas.Series.drop()
avg_rating = avg_rating.drop(avg_rating[avg_rating > 3])
assert  avg_rating.max() <= 3

# 3 способ присвоить максимальное значение данным выходящим из диапазона чисел
avg_rating.loc[avg_rating[avg_rating > 3].index] = 3 
print(avg_rating)

# для типа данных Dates
df['dt'] = pd.to_datetime(df['date']).dt.date
today = dt.date.today()
df.loc[df['dt'] > today, 'dt'] = today

0    1
1    2
2    3
3    2
4    3
dtype: int64


### Дупликаты

```python
df.duplicated(subset = None, keep ='first')
```
Данный метод позволяет анализировать только дупликатные значения. возвращает bool список, где True показывает на дупликатное значение.
Параметры:
subset - имя колонки или список имен колонок, по которым будет анализироваться и сравниваться дупликатные значения
keep:
 - 'first' - рассмартривает первое значение как уникальное, остальные его дупликаты (возвращается бул.список дупликатов)
 - 'last' - рассматривает последнее значение как уникальное, а все остальные его дупликаты(возвращается бул.список дупликатов)
 - False - все повторяющиеся значения это дупликаты (возвращает бул.список, где True это дупликаты. Этот параметр используется если нужно получить список только дупликатных значений.


```python
df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
```
Данный метод возвращает датафрейм без дупликатных значений.
Параметры:
 - subset - если None, то ищет дубликаты по всем колонкам
 - keep - также как и для df.duplicated()
 - inplace - удалить дупликаты в таблице или вернуть их копию
 - ignore_index - если True, то результирующая ось индексов будет пронумерована от 0 до n-1


## Text and categorical data

### Membership constraints
В методах машиного обучения в качестве исходных данных используют категорийные, обычно имеющие числовые значение, которые преопределены к какой либо категории.

> Anti joins - what is in A and not in B - множество А минус В (set(A).difference(set(B)))

> Inner joins - what is in both A and B - множество А* В

In [None]:
# Print categories DataFrame
print(categories.head())

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines['safety'].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")

pandas.Series.unique() - Return unique values of Series object.The unique values returned as a NumPy array.

In [None]:
# Find the cleanliness category in airlines not in categories
cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])

# Find rows with that category -- cat_clean_rows = boolean 
#isin () method returns list of boolean values
cat_clean_rows = airlines['cleanliness'].isin(cat_clean)

# Print rows with inconsistent category
print(airlines[cat_clean_rows])

# Print rows with consistent categories only
print(airlines[~cat_clean_rows])

### Categorical variables

Value consistency
- Capitalization - str.lower() or str.upper()
- white spaces - str.strip()
- Collapsing data into categories
  - qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise') -Quantile-based discretization function.
  - cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True) Bin values into discrete intervals. Use cut when you need to segment and sort data values into bins. This function is also useful for going from a continuous variable to a categorical variable. For example, cut could convert ages to groups of age ranges. Supports binning into an equal number of bins, or a pre-specified array of bins.
  - **Map categories to fewer ones:** with replace(to_replace = None, Value = NoDefault.no_default ....) method
  
  **df.replace({0: 10, 1: 100}) - нули заменить на 10, 1 заменить на 100.**
  

In [None]:
# Create ranges for categories
label_ranges = [0, 60, 180, np.inf]
label_names = ['short', 'medium', 'long']

# Create wait_type column
airlines['wait_type'] = pd.cut(airlines['wait_min'], bins = label_ranges, 
                                labels = label_names)

# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'weekday', 'Wednesday': 'weekday', 
            'Thursday': 'weekday', 'Friday': 'weekday', 
            'Saturday': 'weekend', 'Sunday': 'weekend'}

airlines['day_week'] = airlines['day'].replace(mappings)

### Cleaning text data
**Common text data problems**(inconsistency, fixed length violations, typos) Types - (names, phone numbers, emails, etc)
useful methods:
- str.contains - 
- any()

Regular expressions 


In [None]:
# Replace "Dr." with empty string ""
airlines['full_name'] = airlines['full_name'].str.replace("Dr.","")

# Replace "Mr." with empty string ""
airlines['full_name'] = airlines['full_name'].str.replace("Mr.","")

# Replace "Miss" with empty string ""
airlines['full_name'] = airlines['full_name'].str.replace("Miss","")

# Replace "Ms." with empty string ""
airlines['full_name'] = airlines['full_name'].str.replace("Ms.","")

# Assert that full_name has no honorifics
assert airlines['full_name'].str.contains('Ms.|Mr.|Miss|Dr.').any() == False

In [None]:
# Store length of each row in survey_response column
resp_length = airlines['survey_response'].str.len()

# Find rows in airlines where resp_length > 40
airlines_survey = airlines[resp_length > 40]

# Assert minimum survey_response length is > 40
assert airlines_survey['survey_response'].str.len().min() > 40

# Print new survey_response column
print(airlines_survey['survey_response'])