# ООО «Внимание к деталям» Предобработка и проверка.

## Задание:

Данные разбиты на два листа - общая информация о точках клиента и данные о выручках клиента с 2015 по 2018 годы.

Клиент прислал эти данные чтобы вы, как аналитик, могли сформировать модель машинного обучения для прогнозирования выручек клиента по новым точкам.

Первый этап этой работы - проверка присланных клиентом данных.

Точки клиента разбиты на тестовую и обучающую выборки (указано на первом листе файла в столбце “Выборка”). По магазинам обучающей выборки клиент предоставляет свои выручки (второй лист) для обучения будущей модели. На тестовых точках клиент потом самостоятельно проверит качество прогнозирования, поэтому выручки по тестовым точкам он нам не предоставляет.


В качестве результата тестового задания мы ждем от вас письмо клиенту с замечаниями, вопросами, уточнениями по данным. Представьте, что вам дальше необходимо будет загрузить эти данные в систему и использовать их для формирования модели спроса - тяжело это делать с некорректными или непонятными данными.


Формирование модели машинного обучения находится за рамками тестового задания, ее делать не нужно.

Также в этом письме необходимо указать ответы на следующие три вопроса:

* 1.Сколько магазинов формата стрит в тестовой выборке?  
* 2.Какова средняя выручка магазинов формата мини ТЦ за 2016 год?  
* 3.Сколько магазинов с бесплатной парковкой?  

## Подготовка

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import datetime

pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 500)
pd.set_option('expand_frame_repr', False)


In [2]:
data_s0 = pd.read_excel('ООО_Внимание_к_деталям.xlsx', sheet_name='Справочник точек')
data_s1 = pd.read_excel('ООО_Внимание_к_деталям.xlsx', sheet_name='Выручка по обучающей выборке')

  data_s0 = pd.read_excel('ООО_Внимание_к_деталям.xlsx', sheet_name='Справочник точек')


In [3]:
data_s0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246 entries, 0 to 245
Data columns (total 21 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id точки             245 non-null    float64       
 1   Адрес                246 non-null    object        
 2   Широта               242 non-null    float64       
 3   Долгота              242 non-null    float64       
 4   Дата открытия        245 non-null    object        
 5   Дата закрытия        9 non-null      datetime64[ns]
 6   Площадь магазина     246 non-null    int64         
 7   Тип входа            244 non-null    object        
 8   Площадь ТЦ           204 non-null    float64       
 9   Формат магазина      246 non-null    object        
 10  Парковка             226 non-null    object        
 11  Этаж                 241 non-null    object        
 12  Время работы         232 non-null    object        
 13  Заполненность ТЦ     182 non-null  

### Sheet 0

In [4]:
#data_s0.sample(30)

In [5]:
data_s0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246 entries, 0 to 245
Data columns (total 21 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id точки             245 non-null    float64       
 1   Адрес                246 non-null    object        
 2   Широта               242 non-null    float64       
 3   Долгота              242 non-null    float64       
 4   Дата открытия        245 non-null    object        
 5   Дата закрытия        9 non-null      datetime64[ns]
 6   Площадь магазина     246 non-null    int64         
 7   Тип входа            244 non-null    object        
 8   Площадь ТЦ           204 non-null    float64       
 9   Формат магазина      246 non-null    object        
 10  Парковка             226 non-null    object        
 11  Этаж                 241 non-null    object        
 12  Время работы         232 non-null    object        
 13  Заполненность ТЦ     182 non-null  

### Пропуски

Очевидные проблемы:
* Есть пропуски в столбцах с обязательными данными, необходимо проверить причину пропуска и выделить множество таких строк, помечены красным.

* Есть пропуски в столбцах допускающих пропуски, необходимо проверить однородность таких множеств по признаку пропуска, помечены желтым.

$\require{color}$         
$ 0   \colorbox{red   }{id точки            }$      
$ 1   \colorbox{green }{Адрес               }$     
$ 2   \colorbox{yellow}{Широта              }$     
$ 3   \colorbox{yellow}{Долгота             }$     
$ 4   \colorbox{red   }{Дата открытия       }$     
$ 5   \colorbox{yellow}{Дата закрытия       }$     
$ 6   \colorbox{green }{Площадь магазина    }$     
$ 7   \colorbox{yellow}{Тип входа           }$     
$ 8   \colorbox{yellow}{Площадь ТЦ          }$     
$ 9   \colorbox{green }{Формат магазина     }$     
$ 10  \colorbox{yellow}{Парковка            }$     
$ 11  \colorbox{yellow}{Этаж                }$     
$ 12  \colorbox{red   }{Время работы        }$     
$ 13  \colorbox{yellow}{Заполненность ТЦ    }$     
$ 14  \colorbox{green }{Рядом с эскалатором }$     
$ 15  \colorbox{green }{Рядом со входом     }$     
$ 16  \colorbox{yellow}{Конкуренты в ТЦ     }$     
$ 17  \colorbox{yellow}{Расположение в ТЦ   }$     
$ 18  \colorbox{green }{Толока              }$     
$ 19  \colorbox{green }{Люкс                }$     
$ 20  \colorbox{green }{Выборка             }$     

### Типы данных

In [6]:
data_s0.info()
#data_s0.sample(30)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246 entries, 0 to 245
Data columns (total 21 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id точки             245 non-null    float64       
 1   Адрес                246 non-null    object        
 2   Широта               242 non-null    float64       
 3   Долгота              242 non-null    float64       
 4   Дата открытия        245 non-null    object        
 5   Дата закрытия        9 non-null      datetime64[ns]
 6   Площадь магазина     246 non-null    int64         
 7   Тип входа            244 non-null    object        
 8   Площадь ТЦ           204 non-null    float64       
 9   Формат магазина      246 non-null    object        
 10  Парковка             226 non-null    object        
 11  Этаж                 241 non-null    object        
 12  Время работы         232 non-null    object        
 13  Заполненность ТЦ     182 non-null  

В целом все типы данных сомнительные:
* Целочисленные не приведены к int, нужно смотреть, что там.
* Дата открытия не приведена к datetime. Значит есть какие либо ошибки в дате.
* Никакие категориальные не приведены к категориальным, доверия 0.

$\require{color}$         
$ 0   \colorbox{red   }{id точки            }$      
$ 1   \colorbox{yellow}{Адрес               }$     
$ 2   \colorbox{yellow}{Широта              }$     
$ 3   \colorbox{yellow}{Долгота             }$     
$ 4   \colorbox{red   }{Дата открытия       }$     
$ 5   \colorbox{yellow}{Дата закрытия       }$     
$ 6   \colorbox{yellow}{Площадь магазина    }$     
$ 7   \colorbox{yellow}{Тип входа           }$     
$ 8   \colorbox{yellow}{Площадь ТЦ          }$     
$ 9   \colorbox{yellow}{Формат магазина     }$     
$ 10  \colorbox{yellow}{Парковка            }$     
$ 11  \colorbox{yellow}{Этаж                }$     
$ 12  \colorbox{red   }{Время работы        }$     
$ 13  \colorbox{yellow}{Заполненность ТЦ    }$     
$ 14  \colorbox{yellow}{Рядом с эскалатором }$     
$ 15  \colorbox{yellow}{Рядом со входом     }$     
$ 16  \colorbox{yellow}{Конкуренты в ТЦ     }$     
$ 17  \colorbox{yellow}{Расположение в ТЦ   }$     
$ 18  \colorbox{yellow}{Толока              }$     
$ 19  \colorbox{yellow}{Люкс                }$     
$ 20  \colorbox{yellow}{Выборка             }$     

Ни одного чистого столбца нет.Необходимо проверить каждый столбец на соответсвие предполагаемому типу.

### Sheet 1

### Пропуски

In [7]:
#data_s1.sample(30)
#data_s1.info()

Необходимо проверить:
* Совпадение по признаку тестовая\обучающая с основным листом
* Состыковки по датам, все данные должны лежать в одном временном диапазоне, от начала работы заведения до горизонта событий или закрытия заведений. Если брать выручки за произвольные промежутки прогноз не имеет смысла.

### Типы данных

In [8]:
#data_s1.sample(30)
#data_s1.info()

Все типы произвольные, необходимо приводить к datetime или проверять, чтобы доверять этим данным.

## Предобработка

Датафрейм куда занесу все проблемные строки. Где столбец problem - описание проблемы, столбец index - номер проблемной строки в оригинальном документе.

In [9]:
#Журнал с проблемными строками
problems_log_s0 = pd.DataFrame(columns = [*data_s0.columns,'index'])
#Журнал с пропущенными важными признаками
nan_log_s0 = pd.DataFrame(columns = [*data_s0.columns,'index',])
#Журнал с пропущенными признаками
nan_log_s0_low_priority = pd.DataFrame(columns = [*data_s0.columns,'index',])

In [10]:
def log(rows:pd.DataFrame, problem_description:str, log:pd.DataFrame) -> pd.DataFrame:
        #Функция заносит указанные строки в указанный журнал.
        tmp = rows.copy().reset_index(level=0)
        #Тк. в эксель нумерация строк идет с 1 и первая строка файла это наименования столбцов, сдвигаем индекс на место.
        tmp['index'] = tmp['index'] + 2
        
        res = log
        #Строка уже есть в журнале, добавляю только проблему.
        if (tmp['index'].isin(log['index'])).any():
            log.loc[log['index'].isin(tmp['index']), 'problem'] =\
            log.loc[log['index'].isin(tmp['index']), 'problem'] +\
            '|' + problem_description
        #Строки нет в журнале, добавляю всю строку и проблему.
        if (~tmp['index'].isin(log['index'])).any():
            tmp = tmp.loc[~tmp['index'].isin(log['index'])]
            tmp['problem'] = problem_description
            res = pd.concat([log, tmp]).reset_index(drop = True)

            
        return res

### Sheet 0

####  id точки

##### Уникальность id

In [11]:
tmp = data_s0[data_s0['id точки'].duplicated(keep=False)].copy()
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
186,42645.0,"Респ. Татарстан, г. Нижнекамск, ул. Химиков, д...",51.814376,55.631285,2006-04-16 00:00:00,NaT,255,без сквозного прохода,2887.0,Мини ТЦ,бесплатная парковка,1,с 9:00 до 21:00,3.0,1,1,,10.0,29.981741,54.62069,Обучающая
194,42683.0,"Россия, Пензенская область, Пенза, проспект Ст...",44.951652,53.220492,2013-12-27 00:00:00,NaT,578,без сквозного прохода,54500.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,3.0,1,0,1.0,8.0,34.480876,60.5,Обучающая
195,42683.0,"Россия, Пермский край, Пермь, улица Попова, 16",56.228132,58.008433,2012-07-15 00:00:00,NaT,277,без сквозного прохода,6400.0,Мини ТЦ,нет парковки,1,с 10:00 до 21:00,,0,0,,8.0,33.196617,63.896552,Обучающая
238,42645.0,"Респ. Татарстан, г. Нижнекамск, ул. Химиков, д...",51.814376,55.631285,2006-04-16 00:00:00,NaT,255,без сквозного прохода,2887.0,Мини ТЦ,бесплатная парковка,1,с 9:00 до 21:00,3.0,1,1,,10.0,29.981741,54.62069,Обучающая


Заношу проблему в журнал и в вывод.

In [12]:
problems_log_s0 = log(tmp, 'Дубликат id', problems_log_s0)

##### Строки с NaN

In [13]:
tmp = data_s0[data_s0['id точки'].isnull()].copy()
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
229,,"Тульская обл, г. Тула, ул. Советская, дом № 47...",37.618866,54.191774,2010-03-23 00:00:00,NaT,189,сквозной проход,51000.0,Мини ТЦ,платная парковка,1,с 10:00 до 22:00,2.0,0,0,1.0,2.0,49.039977,73.137931,Обучающая


Заношу проблему в журнал и в вывод.

In [14]:
nan_log_s0 = log(tmp, 'Точка без id', nan_log_s0)

#### Адрес

In [15]:
data_s0['Адрес'].value_counts()

г. Санкт-Петербург, пл. Александра Невского, дом № 2, МФК "Москва"                                                                   2
Респ. Татарстан, г. Нижнекамск, ул. Химиков, дом № 49, ТЦ "Рамус"                                                                    2
респ. Адыгея,Тахтамукайский р-он, аул Новая Адыгея,Тургеневское шоссе, 27, ТЦ "МЕГА Адыгея"                                          1
Новосибирская обл, г. Новосибирск, ул. Военная, дом № 5, ТРЦ "АУРА"                                                                  1
Новосибирская обл, г. Новосибирск, ул. Гоголя, дом № 13, ТРЦ "Галерея"                                                               1
Новосибирская обл, Новосибирск г, Красный пр-кт, дом № 29                                                                            1
Омская обл, г. Омск, бул. Архитекторов, дом № 35, СТЦ Мега                                                                           1
Омская обл, г. Омск, пр. Карла Маркса, дом № 24, ТВЦ "К

Повторяющихся адресов крайне мало, возможности, что либо восстановить по принципу нахождения в одном и том же тц крайне мало.

#### Широта и Долгота

##### Строки с NaN

In [16]:
tmp = data_s0[data_s0['Широта'].isnull()|data_s0['Долгота'].isnull()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
148,42437.0,"Московская область, г. Серпухов. ул. Советская...",,,2017-05-23 00:00:00,NaT,341,,21800.0,ТЦ,,1,,,0,0,,4.0,51.027292,62.758621,Тестовая
150,42443.0,"Московская область, Пушкино, ул Красноармейско...",,,2016-11-16 00:00:00,NaT,661,,28000.0,ТЦ,,1,,,0,1,,2.0,21.857582,55.068966,Тестовая
167,42509.0,"Пермь, улица Революции 13к2",,,2018-04-10 00:00:00,NaT,1128,сквозной проход,82394.0,ТЦ,платная парковка,1,,3.0,1,1,2.0,14.0,28.381511,64.034483,Обучающая
189,42667.0,"Республика Башкортостан, г.Уфа, ул. Рубежная, ...",,,2015-12-03 00:00:00,NaT,640,сквозной проход,82394.0,ТЦ,бесплатная парковка,1,,,0,1,,1.0,49.403805,71.586207,Обучающая


Возможно выйдет восстановить данные по широте и долготе, по широте и долготе точек с таким же адресом.

In [17]:
data_s0[(data_s0['Адрес'].isin(tmp['Адрес'])) & ~(data_s0['id точки'].isin(tmp['id точки']))]

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка


Соседей по адресу не оказалось, заношу в журнал и в вывод.

In [18]:
nan_log_s0 = log(tmp, 'Точка без широты и долготы', nan_log_s0)

#### Дата открытия

##### Строки с NaN.

In [19]:
tmp = data_s0[data_s0['Дата открытия'].isnull()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
106,42220.0,"Камчатский край, г. Петропавловск-Камчатский, ...",158.587359,53.071978,,NaT,1488,сквозной проход,9000.0,ТЦ,бесплатная парковка,цоколь,с 10:00 до 21:00,,0,0,,8.0,37.415914,63.12,Обучающая


Заношу в журнал и в вывод.

In [20]:
nan_log_s0 = log(tmp, 'Точка без даты открытия', nan_log_s0)

##### Проверка остальных дат

In [21]:
#Маска дат которые дают конфликт при проверке формата
mask = ~pd.to_datetime(data_s0['Дата открытия'], format='%Y/%m/%d', errors='coerce').notna()
#Даты которые дают конфликт и которые не Na
tmp = data_s0[mask&data_s0['Дата открытия'].notna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
218,42774.0,"Свердловская обл, г. Екатеринбург, ул. 8 Марта...",60.598984,56.829098,13.06.1899,NaT,370,без сквозного прохода,225000.0,ТЦ,платная парковка,2,с 10:00 до 22:00,3.0,0,0,2.0,7.5,64.648856,75.793103,Обучающая


Еще одна строка с некорректной датой заношу в журнал и вывод.

In [22]:
problems_log_s0 = log(tmp, 'Точка с некорректной датой открытия', problems_log_s0)

#### Дата закрытия

По логике столбец и должен содержать множество na.

In [23]:
tmp = data_s0[data_s0['Дата закрытия'].notna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
29,18931.0,"г. Москва, Калужское ш., 21 км, С1, ТРЦ ""Мега""",37.491161,55.603834,2010-10-29 00:00:00,2018-03-18,425,без сквозного прохода,180500.0,ТЦ,бесплатная парковка,1.0,c 10:00 до 24:00,3.0,1,0,,9.0,91.022487,104.586207,-
85,42122.0,"г. Санкт-Петербург, пр. Энгельса, дом № 120, Т...",30.321797,60.037216,2004-05-18 00:00:00,2017-04-10,112,без сквозного прохода,16000.0,ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,,0,0,2.0,9.0,36.292908,48.137931,-
89,42135.0,"г. Санкт-Петербург, ул. Балканская, дом № 17, ...",30.380018,59.826235,2013-08-02 00:00:00,2018-03-09,443,сквозной проход,93000.0,ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,1,1,,11.0,32.486835,57.448276,
92,42156.0,"г. Санкт-Петербург, ул. Ефимова, дом № 2, Лите...",30.320827,59.926354,2007-03-28 00:00:00,2018-04-07,338,сквозной проход,32200.0,ТЦ,нет парковки,1.0,с 10:00 до 22:00,2.0,1,1,,7.0,72.133192,68.034483,-
99,42192.0,"г. Санкт-Петербург,ул. Ленсовета, дом № 101, Л...",30.348522,59.831734,2012-12-23 00:00:00,2017-08-01,321,сквозной проход,,Мини ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,0,1,,9.0,33.427061,63.62069,-
136,42383.0,"М.О. г. Мытищи, Шараповский проезд, 1, ""ТЦ ""Кр...",37.761646,55.914736,2010-07-12 00:00:00,2017-07-22,236,без сквозного прохода,2000.0,Мини ТЦ,нет парковки,1.0,с 10:00 до 22:00,3.0,0,1,,8.0,29.458197,63.551724,-
137,42388.0,"М.О. г. Электросталь, пр. Ленина, 0/10, ТЦ ""Эл...",38.437642,55.799296,2008-02-11 00:00:00,2017-10-23,377,без сквозного прохода,60000.0,ТЦ,бесплатная парковка,,с 10:00 до 22:00,3.0,1,0,,7.0,40.731117,51.0,-
173,42546.0,"Респ. Башкортостан, Уфимский р-он, г. Уфа, ул....",55.940446,54.725815,2004-04-26 00:00:00,2018-01-11,276,без сквозного прохода,5700.0,ТЦ,нет парковки,1.0,с 10:00 до 21:00,,0,0,,4.0,19.802614,53.724138,-
200,42706.0,"Россия, Свердловская область, Екатеринбург, ул...",60.538536,56.817178,2019-07-19 00:00:00,2017-12-31,446,без сквозного прохода,113163.0,ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,1,1,,11.0,22.870652,62.833333,-


В строке с индексом 200, дата закрытия меньше даты открытия, заношу в журнал и вывод.

In [24]:
problems_log_s0 = log(tmp.iloc[-1:], 'Дата закрытия < Даты открытия', problems_log_s0)

#### Площадь магазина

In [25]:
data_s0['Площадь магазина'].describe()

count     246.000000
mean      380.837398
std       206.211319
min        91.000000
25%       251.000000
50%       330.000000
75%       429.750000
max      1488.000000
Name: Площадь магазина, dtype: float64

Все ОК.

#### Тип входа

Конечно смешанные категории не подходят для ML, нужно хотябы разделить на раздельные признаки для каждого типа входа со значением 0 или 1. Но к заданию это вроде не относится.

In [26]:
data_s0['Тип входа'].unique()

array(['без сквозного прохода', 'сквозной проход',
       'отдельный вход с улицы + сквозной проход',
       'отдельный вход с улицы', 'единственный вход в ТК', nan],
      dtype=object)

##### Строки с NaN

In [27]:
tmp = data_s0[data_s0['Тип входа'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
148,42437.0,"Московская область, г. Серпухов. ул. Советская...",,,2017-05-23 00:00:00,NaT,341,,21800.0,ТЦ,,1,,,0,0,,4.0,51.027292,62.758621,Тестовая
150,42443.0,"Московская область, Пушкино, ул Красноармейско...",,,2016-11-16 00:00:00,NaT,661,,28000.0,ТЦ,,1,,,0,1,,2.0,21.857582,55.068966,Тестовая


Заношу в журнал и вывод.

In [28]:
nan_log_s0 = log(tmp, 'Отсутствует тип входа', nan_log_s0)

#### Площадь ТЦ

По логике столбец допускает NaN. Если это уличный киоск, то и площади тц у него нет. Тут есть разные решения, принять за площадь ТЦ площадь магазина или ввести признак отношения площадей и убрать оба столбца и тд. Это уже относится к построению модели. Но, если магазин находится в ТЦ, важно знать площадь этого ТЦ.

In [29]:
data_s0['Площадь ТЦ'].describe()

count       204.000000
mean      69561.509804
std       67128.326340
min         700.000000
25%       19958.500000
50%       47800.000000
75%      103455.750000
max      396000.000000
Name: Площадь ТЦ, dtype: float64

##### Строки с NaN

In [30]:
#data_s0[data_s0['Площадь ТЦ'].isna()]

Строки с NaN среди точек находящихся внутри ТЦ.

In [31]:
data_s0['Формат магазина'].unique()

array(['ТЦ', 'Street', 'Мини ТЦ', 'Стрит', 'Мини-ТЦ', 'Strееt', 'Стрт'],
      dtype=object)

В Форматах магазина есть ошибки, запомнили.

Точки в ТЦ и без площади ТЦ, такие нас не устраивают.

In [32]:
regex = r"(?<!\w)ТЦ(?!\w)"
flags = 'i'
tmp = data_s0[data_s0['Формат магазина'].str.contains(regex, case=False)&
        data_s0['Площадь ТЦ'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
15,17987.0,"Волгоградская обл, Волгоград г, Университетски...",44.434011,48.637886,2016-10-31 00:00:00,NaT,993,без сквозного прохода,,ТЦ,бесплатная парковка,1.0,,2.0,2,2,,13.0,70.835287,91.862069,Обучающая
18,18331.0,"Вологодская обл, г. Череповец, Советский пр., ...",37.930204,59.125277,2007-02-21 00:00:00,NaT,234,единственный вход в ТК,,Мини ТЦ,бесплатная парковка,1.0,с 10:00 до 21:00,3.0,1,0,,3.0,33.059965,49.103448,Обучающая
20,18527.0,"Воронежская обл, Воронеж г, Революции пр-кт, д...",39.206573,51.668036,2016-09-05 00:00:00,NaT,836,отдельный вход с улицы + сквозной проход,,ТЦ,платная парковка,1.0,,2.0,1,1,,13.0,55.272535,43.344828,Обучающая
52,41958.0,"г. Москва, ул. Хачатуряна, вл. 15 Б, ТЦ ""ВВС"",...",37.604071,55.86305,2013-03-06 00:00:00,NaT,259,сквозной проход,,ТЦ,нет парковки,1.0,с 10:00 до 22:00,,0,0,,9.0,67.785124,77.448276,Обучающая
82,42113.0,"г. Санкт-Петербург, пр. Просвещения, дом № 84,...",30.414297,60.037104,2008-03-14 00:00:00,NaT,297,отдельный вход с улицы + сквозной проход,,Мини-ТЦ,нет парковки,1.0,с 11:00 до 21:00,,0,0,,3.0,91.733807,76.068966,Обучающая
94,42163.0,"г. Санкт-Петербург, ул. Одоевского, дом № 29, ...",30.234984,59.948167,2007-04-03 00:00:00,NaT,110,отдельный вход с улицы + сквозной проход,,Мини-ТЦ,нет парковки,1.0,с 10:00 до 21:00,3.0,0,0,,5.0,48.089179,49.206897,Обучающая
99,42192.0,"г. Санкт-Петербург,ул. Ленсовета, дом № 101, Л...",30.348522,59.831734,2012-12-23 00:00:00,2017-08-01,321,сквозной проход,,Мини ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,0,1,,9.0,33.427061,63.62069,-
126,42319.0,"Курская обл, г. Курск, ул. Карла Маркса, дом №...",36.191724,51.748903,2019-01-26 00:00:00,NaT,715,сквозной проход,,ТЦ,бесплатная парковка,1.0,,2.0,0,1,,14.0,42.047857,73.965517,Обучающая
133,42368.0,"Ленинградская обл, Гатчинский р-он, г. Гатчина...",30.122856,59.565871,2013-11-11 00:00:00,NaT,248,отдельный вход с улицы,,Мини ТЦ,бесплатная парковка,1.0,с 10:00 до 21:00,,0,0,,9.0,28.709783,61.655172,Тестовая
138,42389.0,"Магаданская область, Магадан г., Карла Маркса ...",150.803786,59.563946,2017-04-22 00:00:00,NaT,386,отдельный вход с улицы + сквозной проход,,ТЦ,бесплатная парковка,1.0,,2.0,1,1,,11.0,52.499327,57.758621,Обучающая


Логирую 19 строк и заношу в вывод.

In [33]:
nan_log_s0 = log(tmp, 'Точка находится в тц но нет площади Тц', nan_log_s0)

#### Формат магазина

In [34]:
data_s0['Формат магазина'].unique()

array(['ТЦ', 'Street', 'Мини ТЦ', 'Стрит', 'Мини-ТЦ', 'Strееt', 'Стрт'],
      dtype=object)

4 вида уличных форматов. Проблемы того кто строит модель и мои когда буду считать кол-во магазинов. Все остальное хоршо. ᕙ(^▿^-ᕙ)

#### Парковка

По логике столбец не должен содержать NaN, как минимум должно стоять 'нет'.

In [35]:
data_s0['Парковка'].value_counts()

бесплатная парковка    156
нет парковки            34
платная парковка        31
100                      2
1000                     1
700                      1
бесплатная паpковка      1
Name: Парковка, dtype: int64

Грязненько. Но вопросы к заказчику только по nan. Понятно, что цифры это стоимость парковки, т.е как минимум она платная. Парковок с известной ценой мало, чтобы что-то от этого хотеть, хотя фактор не маловажный.

##### Строки с NaN

In [36]:
tmp = data_s0[data_s0['Парковка'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
16,18010.0,"Волгоградская обл, г. Волгоград, ул. Рабоче-Кр...",44.501075,48.698107,2010-03-14 00:00:00,NaT,386,отдельный вход с улицы,,Street,,1,с 10:00 до 21:00,3.0,1,0,,,19.174899,69.241379,Обучающая
59,42001.0,"г. Санкт-Петербург, Большой пр., дом № 55/6, Д...",30.30692,59.962369,2011-10-13 00:00:00,NaT,342,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,,0,1,,,32.635018,85.758621,Обучающая
70,42056.0,"г. Санкт-Петербург, Московский пр., дом № 34/36",30.318644,59.915188,2006-06-18 00:00:00,NaT,193,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,,0,0,,,24.637132,73.068966,Обучающая
72,42059.0,"г. Санкт-Петербург, Невский пр., дом № 27",30.327007,59.935056,2005-03-03 00:00:00,NaT,234,отдельный вход с улицы,,Стрит,,1,с 10:00 до 22:00,,0,1,,3.0,77.000192,77.965517,Тестовая
74,42072.0,"г. Санкт-Петербург, Невский пр., дом № 90-92, ...",30.352412,59.932428,2003-09-16 00:00:00,NaT,136,отдельный вход с улицы,,Стрит,,3,с 10:00 до 22:00,,0,1,0.0,,43.738228,74.862069,Тестовая
80,42100.0,"г. Санкт-Петербург, пр. Большевиков, дом № 3, ...",30.471393,59.917637,2010-07-07 00:00:00,NaT,180,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,3.0,1,1,,,33.465501,69.0,Обучающая
84,42118.0,"г. Санкт-Петербург, пр. Чернышевского, дом № 1...",30.358883,59.944349,2004-10-07 00:00:00,NaT,240,отдельный вход с улицы,,Street,,1,Вс-Чт c 10:00 до 21:00 Пт-Сб с 10:00...,,0,0,,,35.343648,73.482759,Обучающая
87,42132.0,"г. Санкт-Петербург, Средний проспект В.О., дом...",30.27677,59.942885,2001-05-07 00:00:00,NaT,108,отдельный вход с улицы,,Street,,1,с 10:00 до 21:00,,0,0,0.0,,31.695752,48.413793,Обучающая
97,42189.0,"г. Санкт-Петербург, ул. Савушкина, дом № 6а",30.298755,59.986254,2008-07-28 00:00:00,NaT,248,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,,0,0,,,26.494907,71.310345,Обучающая
98,42191.0,"г. Санкт-Петербург, ул. Садовая, дом № 31",30.322093,59.928884,2005-11-29 00:00:00,NaT,162,отдельный вход с улицы,,Стрит,,1,с 10:00 до 21:00,,0,0,0.0,,26.559869,55.241379,Обучающая


Логирую 20 строк и заношу в вывод.

In [37]:
nan_log_s0 = log(tmp, 'Нет информации о парковке', nan_log_s0)

#### Этаж

Этаж должен быть указан у каждой точки.

In [38]:
data_s0['Этаж'].unique()

array([3, 1, 'цоколь', nan, 2, 4.5, 20,
       datetime.datetime(2019, 5, 2, 0, 0)], dtype=object)

##### Строка с датой вместо этажа

In [39]:
tmp = data_s0[data_s0['Этаж'] == datetime.datetime(2019, 5, 2, 0, 0)]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
234,42831.0,"Хабаровский край, г. Хабаровск, ул. Ким-Ю-Чена...",135.082894,48.490178,2009-12-04 00:00:00,NaT,288,сквозной проход,18000.0,ТЦ,бесплатная парковка,2019-05-02 00:00:00,с 10:00 до 22:00,3.0,0,0,,8.0,102.390352,71.827586,Обучающая


Логирую и заношу в вывод.

In [40]:
problems_log_s0 = log(tmp, 'Дата вместо этажа', problems_log_s0)

##### Строки с NaN

In [41]:
tmp = data_s0[data_s0['Этаж'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
43,41914.0,"г. Москва, ул. Б. Черемушкинская, дом № 1, ТРЦ...",37.602001,55.689265,2010-01-18 00:00:00,NaT,440,без сквозного прохода,92000.0,ТЦ,бесплатная парковка,,с 10:00 до 22:00,3.0,0,0,1.0,11.0,20.958678,60.275862,Обучающая
137,42388.0,"М.О. г. Электросталь, пр. Ленина, 0/10, ТЦ ""Эл...",38.437642,55.799296,2008-02-11 00:00:00,2017-10-23,377,без сквозного прохода,60000.0,ТЦ,бесплатная парковка,,с 10:00 до 22:00,3.0,1,0,,7.0,40.731117,51.0,-
149,42438.0,"Московская область, Мытищи, Шараповский проезд, 2",37.75903,55.916592,2013-12-26 00:00:00,NaT,339,без сквозного прохода,30000.0,ТЦ,платная парковка,,с 10:00 до 22:00,3.0,1,0,,9.0,52.55295,73.181818,Обучающая
181,42598.0,"Респ. Татарстан, г. Казань, пр. Ибрагимова, до...",49.09329,55.821254,2017-01-06 00:00:00,NaT,934,единственный вход в ТК,,Мини ТЦ,бесплатная парковка,,с 10:00 до 22:00,3.0,0,0,,10.0,35.277917,70.37931,Обучающая
219,42775.0,"Свердловская обл, г. Нижний Тагил, ул. Ленина,...",59.95941,57.90815,2010-02-25 00:00:00,NaT,286,без сквозного прохода,7200.0,ТЦ,бесплатная парковка,,с 10:00 до 21:00,3.0,0,0,,9.0,52.499327,57.758621,Обучающая


Все строки ТЦ, даже нельзя списать на уличные ларечки. Логирую и заношу в вывод.

In [42]:
nan_log_s0 = log(tmp, 'Нет этажа', nan_log_s0)

#### Время работы

Довольно важный признак, по логике должен быть у каждого магазина. При желании можно взять время работы ТЦ.

In [43]:
data_s0['Время работы'].unique()

array(['с 10:00 до 22:00', 'с 10:00 до 21:00', 'с 10:00 до 20:00',
       'с 9:00 до 21:00', nan,
       'Пн-Сб с 10:00 до 21:00 Вс с 10:00 до 20:00',
       'Пн-Пт с 9:00 до 20:00    Сб с 10:00 до 19:00         Вс с 10:00 до 18:00',
       'c 10:00 до 24:00', 'с 9:00 до 23:00',
       'Вс-Чт c 10:00 до 23:00           Пт-Сб с 10:00 до 24:00',
       'Вс-Чт с 10:00 до 22:00 Пт-Сб с 10:00 до 23:00',
       'Вс-Чт c 10:00 до 22:00           Пт-Сб с 10:00 до 23:00',
       'с 10:00 до 23:00', 'с 10:00 до 22:00 ',
       'Пн-Сб с 10:00 до 21:00  Вс с 11:00 до 21:00', 'с 11:00 до 21:00',
       'Вс-Чт c 10:00 до 21:00           Пт-Сб с 10:00 до 22:00',
       'Вс-Чт c 10:00 до 21:00    Пт-Сб с 10:00 до 22:00',
       'Пн-Сб c 10:00 до 20:00 Вс с 10:00 до 19:00 ', 'c 10-00 до 21-00',
       'Вс-Чт с 10:00 до 23:00 Пт-Сб с 10:00 до 24:00',
       'Пн-Сб с 10:00 до 20:00 Вс с 10:00 до 19:00',
       'Вс-Чт с 10:00 до 21:00     Пт-Сб с  10:00 до 22:00',
       'c 9:00 до 21:00',
       'Вс-Чт с

Полный хаос. Все это надо приводить к адекватным признакам, чтобы использовать в ML. Важный вопрос, там где не указанны дни недели, имеется в виду, что точка работает во все дни?. Добавляю этот вопрос в вывод.

##### Строки с NaN

In [44]:
tmp = data_s0[data_s0['Время работы'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
15,17987.0,"Волгоградская обл, Волгоград г, Университетски...",44.434011,48.637886,2016-10-31 00:00:00,NaT,993,без сквозного прохода,,ТЦ,бесплатная парковка,1.0,,2.0,2,2,,13.0,70.835287,91.862069,Обучающая
20,18527.0,"Воронежская обл, Воронеж г, Революции пр-кт, д...",39.206573,51.668036,2016-09-05 00:00:00,NaT,836,отдельный вход с улицы + сквозной проход,,ТЦ,платная парковка,1.0,,2.0,1,1,,13.0,55.272535,43.344828,Обучающая
126,42319.0,"Курская обл, г. Курск, ул. Карла Маркса, дом №...",36.191724,51.748903,2019-01-26 00:00:00,NaT,715,сквозной проход,,ТЦ,бесплатная парковка,1.0,,2.0,0,1,,14.0,42.047857,73.965517,Обучающая
138,42389.0,"Магаданская область, Магадан г., Карла Маркса ...",150.803786,59.563946,2017-04-22 00:00:00,NaT,386,отдельный вход с улицы + сквозной проход,,ТЦ,бесплатная парковка,1.0,,2.0,1,1,,11.0,52.499327,57.758621,Обучающая
141,42406.0,"Москва г, Новинский б-р, дом № 8, ТЦ ""Лотте Пл...",37.584156,55.751554,2019-04-02 00:00:00,NaT,752,единственный вход в ТК,,ТЦ,платная парковка,1.0,,2.0,1,0,,12.0,39.934845,73.103448,Тест
143,42419.0,"Москва г, Чечерский (п Воскресенское) проезд, ...",37.51678,55.524269,2017-07-26 00:00:00,NaT,905,без сквозного прохода,,ТЦ,бесплатная парковка,1.0,,2.0,0,0,,12.0,32.635018,85.758621,Тестовая
144,42420.0,"Московская обл, Одинцовский р-н, Немчиновка с,...",37.380346,55.720083,2018-08-18 00:00:00,NaT,900,без сквозного прохода,,ТЦ,1000,1.0,,2.0,1,0,,12.0,248.234096,89.586207,Обучающая
148,42437.0,"Московская область, г. Серпухов. ул. Советская...",,,2017-05-23 00:00:00,NaT,341,,21800.0,ТЦ,,1.0,,,0,0,,4.0,51.027292,62.758621,Тестовая
150,42443.0,"Московская область, Пушкино, ул Красноармейско...",,,2016-11-16 00:00:00,NaT,661,,28000.0,ТЦ,,1.0,,,0,1,,2.0,21.857582,55.068966,Тестовая
167,42509.0,"Пермь, улица Революции 13к2",,,2018-04-10 00:00:00,NaT,1128,сквозной проход,82394.0,ТЦ,платная парковка,1.0,,3.0,1,1,2.0,14.0,28.381511,64.034483,Обучающая


In [45]:
tmp.shape

(14, 21)

Логирую и добавляю в вывод.

In [46]:
nan_log_s0 = log(tmp, 'Нет времени работы', nan_log_s0)

#### Заполненость ТЦ

Не до конца понимаю значение признака. Это абсолютное, относительное или категориальное значение. В чем оно измеряется, как оно измеряется. Добавляю вопрос в вывод.

In [47]:
data_s0['Заполненность ТЦ'].unique()

array([nan,  3.,  0.,  2.,  1.])

In [48]:
data_s0['Заполненность ТЦ'].value_counts()

3.0    121
2.0     35
1.0     17
0.0      9
Name: Заполненность ТЦ, dtype: int64

##### Строки с NaN

In [49]:
tmp = data_s0[data_s0['Заполненность ТЦ'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
0,8955.0,"Оренбургская обл, Оренбург г, Шарлыкское ш, д...",55.118272,51.843127,2016-11-09 00:00:00,NaT,478,без сквозного прохода,130000.0,ТЦ,бесплатная парковка,3,с 10:00 до 22:00,,0,0,1.0,7.0,37.857582,69.5,Обучающая
1,11007.0,"Алтайский край, г. Барнаул, ул. Малахова, дом ...",83.696799,53.356954,2010-04-26 00:00:00,NaT,332,сквозной проход,31500.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,1,,9.0,57.810494,66.896552,Обучающая
7,15775.0,"Астраханская обл, г. Астрахань, ул. Боевая, до...",48.023172,46.338313,2014-02-05 00:00:00,NaT,521,без сквозного прохода,130000.0,ТЦ,100,1,с 10:00 до 22:00,,0,1,1.0,8.0,38.935806,62.827586,Обучающая
13,17684.0,"Владимирская обл, г. Владимир, ул. Большая Мос...",40.402853,56.128696,2012-01-23 00:00:00,NaT,379,без сквозного прохода,26000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,1,,8.0,49.664424,63.206897,Обучающая
17,18229.0,"Волгоградская обл, г. Волжский, ул. Александро...",44.800322,48.772425,2014-04-23 00:00:00,NaT,283,без сквозного прохода,44750.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,1,1.0,10.0,30.372477,54.814815,Обучающая
23,18710.0,"г. Великий Новгород, ул. Большая Санкт-Петербу...",31.263348,58.539009,2010-03-16 00:00:00,NaT,356,сквозной проход,20000.0,ТЦ,бесплатная парковка,1,с 10:00 до 21:00,,0,1,,5.0,68.88103,70.965517,Обучающая
24,18728.0,"г. Вологда, ул. Благовещенская, дом № 4, ЦУМ",39.884911,59.220169,2010-07-13 00:00:00,NaT,189,сквозной проход,7000.0,Мини ТЦ,нет парковки,1,Пн-Пт с 9:00 до 20:00 Сб с 10:00 до 19:00 ...,,1,1,,10.0,83.173746,55.62069,Обучающая
52,41958.0,"г. Москва, ул. Хачатуряна, вл. 15 Б, ТЦ ""ВВС"",...",37.604071,55.86305,2013-03-06 00:00:00,NaT,259,сквозной проход,,ТЦ,нет парковки,1,с 10:00 до 22:00,,0,0,,9.0,67.785124,77.448276,Обучающая
56,41991.0,"г. Москва, ш. Энтузиастов, дом № 12, корпус 2,...",37.7055,55.7487,2011-12-16 00:00:00,NaT,314,сквозной проход,240000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,0,1.0,7.0,57.431866,72.241379,Обучающая
58,41998.0,"г. Санкт-Петербург, Балканская пл., дом № 5, Л...",30.375804,59.832204,2004-10-27 00:00:00,NaT,179,без сквозного прохода,74000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,1,0.0,10.0,91.098405,86.172414,Обучающая


In [50]:
tmp.shape

(64, 21)

Логирую и добавляю в вывод.

In [51]:
nan_log_s0 = log(tmp, 'Нет заполнености ТЦ', nan_log_s0)

#### Рядом с эскалатором

In [52]:
data_s0['Рядом с эскалатором'].value_counts()

0    136
1    109
2      1
Name: Рядом с эскалатором, dtype: int64

#####  Ошибка бинарном признаке

In [53]:
tmp = data_s0[~data_s0['Рядом с эскалатором'].isin([0,1])]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
15,17987.0,"Волгоградская обл, Волгоград г, Университетски...",44.434011,48.637886,2016-10-31 00:00:00,NaT,993,без сквозного прохода,,ТЦ,бесплатная парковка,1,,2.0,2,2,,13.0,70.835287,91.862069,Обучающая


Логирую и заношу в вывод.

In [54]:
problems_log_s0 = log(tmp, 'цифра не из {0,1} в бинарном признаке Рядом с эскалатором', problems_log_s0)

#### Рядом со входом

In [55]:
data_s0['Рядом со входом'].value_counts()

0    130
1    113
2      2
3      1
Name: Рядом со входом, dtype: int64

#####  Ошибка бинарном признаке

In [56]:
tmp = data_s0[~data_s0['Рядом со входом'].isin([0,1])]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
15,17987.0,"Волгоградская обл, Волгоград г, Университетски...",44.434011,48.637886,2016-10-31 00:00:00,NaT,993,без сквозного прохода,,ТЦ,бесплатная парковка,1,,2.0,2,2,,13.0,70.835287,91.862069,Обучающая
114,42253.0,"Краснодарский край, г. Краснодар, ул. Уральска...",39.050053,45.035407,2011-10-05 00:00:00,NaT,249,сквозной проход,178000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,2.0,1,3,,10.0,66.159523,71.0,Тестовая
226,42800.0,"Тверская обл, Калининский р-он, г. Тверь, Твер...",35.907557,56.858085,2011-11-02 00:00:00,NaT,387,отдельный вход с улицы,,Street,,1,с 10:00 до 21:00,,1,2,,3.0,31.287526,66.0,Обучающая


In [57]:
problems_log_s0 = log(tmp, 'цифра не из {0,1} в бинарном признаке Рядом со входом', problems_log_s0)

#### Конкуренты в ТЦ

In [58]:
data_s0['Конкуренты в ТЦ'].value_counts()

1.0    46
0.0    35
2.0    12
3.0     1
Name: Конкуренты в ТЦ, dtype: int64

Не до конца понятный признак, это может быть кол-во конкурентов,а может быть относительная величина. В чем измеряется и как измеряется?Добавил вопрос в вывод.

##### Строки с NaN

In [59]:
tmp = data_s0[data_s0['Конкуренты в ТЦ'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
1,11007.0,"Алтайский край, г. Барнаул, ул. Малахова, дом ...",83.696799,53.356954,2010-04-26 00:00:00,NaT,332,сквозной проход,31500.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,1,,9.0,57.810494,66.896552,Обучающая
4,15041.0,"Архангельская обл, г. Архангельск, Троицкий пр...",40.526317,64.534327,2006-12-09 00:00:00,NaT,176,сквозной проход,15332.0,ТЦ,бесплатная парковка,цоколь,с 10:00 до 21:00,3.0,1,0,,0.0,103.199885,78.275862,Тестовая
5,15087.0,"Архангельская обл, г. Архангельск, ул. Воскрес...",40.5354,64.5419,2014-11-20 00:00:00,NaT,416,без сквозного прохода,60000.0,ТЦ,бесплатная парковка,1,с 10:00 до 21:00,3.0,1,1,,10.5,71.418989,67.035714,Тестовая
9,16119.0,"Башкортостан Респ, Уфа г, Цюрупы ул, дом № 97 ...",55.958263,54.736556,2018-05-23 00:00:00,NaT,662,сквозной проход,48000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,3.0,1,1,,10.0,83.19162,71.428571,Тестовая
10,16418.0,"Белгородская обл, г. Белгород, ул. 50-летия Бе...",36.584564,50.599074,2014-04-16 00:00:00,NaT,462,без сквозного прохода,3400.0,ТЦ,бесплатная парковка,3,с 10:00 до 20:00,3.0,0,1,,7.0,49.384778,75.241379,Обучающая
13,17684.0,"Владимирская обл, г. Владимир, ул. Большая Мос...",40.402853,56.128696,2012-01-23 00:00:00,NaT,379,без сквозного прохода,26000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,,0,1,,8.0,49.664424,63.206897,Обучающая
14,17983.0,"Владимирская обл, г. Владимир, ул. Тракторная,...",40.387096,56.1492,2008-06-27 00:00:00,NaT,227,без сквозного прохода,40000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,2.0,1,0,,4.0,55.689602,70.62069,Тестовая
15,17987.0,"Волгоградская обл, Волгоград г, Университетски...",44.434011,48.637886,2016-10-31 00:00:00,NaT,993,без сквозного прохода,,ТЦ,бесплатная парковка,1,,2.0,2,2,,13.0,70.835287,91.862069,Обучающая
16,18010.0,"Волгоградская обл, г. Волгоград, ул. Рабоче-Кр...",44.501075,48.698107,2010-03-14 00:00:00,NaT,386,отдельный вход с улицы,,Street,,1,с 10:00 до 21:00,3.0,1,0,,,19.174899,69.241379,Обучающая
18,18331.0,"Вологодская обл, г. Череповец, Советский пр., ...",37.930204,59.125277,2007-02-21 00:00:00,NaT,234,единственный вход в ТК,,Мини ТЦ,бесплатная парковка,1,с 10:00 до 21:00,3.0,1,0,,3.0,33.059965,49.103448,Обучающая


In [60]:
tmp.shape

(152, 21)

Большое кол-во NaN и скорее всего информация отсутствует в принципе. Логирую как низкий приоритет и заношу в вывод.

In [61]:
nan_log_s0_low_priority = log(tmp, 'NaN в Конкуренты в ТЦ', nan_log_s0_low_priority)

#### Расположение в ТЦ

По логике этот признак должен быть у всех, т.к. не требует каких либо затрат на получение.

In [62]:
data_s0['Расположение в ТЦ'].unique()

array([ 7. ,  9. ,  6. , 10. ,  0. , 10.5,  8. ,  1.5,  4. , 13. ,  nan,
        3. , 11. ,  5. , 12. , 14. ,  2. ,  1. ,  7.5])

In [63]:
data_s0['Расположение в ТЦ'].value_counts()

10.0    38
9.0     33
8.0     30
7.0     22
11.0    16
6.0     15
5.0     15
4.0     14
12.0    11
3.0      7
13.0     6
14.0     5
2.0      5
1.0      3
1.5      1
10.5     1
0.0      1
7.5      1
Name: Расположение в ТЦ, dtype: int64

Так же как и в прошлые разы не ясна природа признака. Заношу вопрос в вывод.

##### Строки с NaN

In [64]:
tmp = data_s0[data_s0['Расположение в ТЦ'].isna()]
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
16,18010.0,"Волгоградская обл, г. Волгоград, ул. Рабоче-Кр...",44.501075,48.698107,2010-03-14 00:00:00,NaT,386,отдельный вход с улицы,,Street,,1,с 10:00 до 21:00,3.0,1,0,,,19.174899,69.241379,Обучающая
32,41842.0,"г. Москва, Ленинградское ш., дом № 16А, Башня 1",37.497746,55.821386,2016-12-06 00:00:00,NaT,984,отдельный вход с улицы + сквозной проход,,Street,платная парковка,1,с 10:00 до 22:00,3.0,1,0,,,20.365943,61.62069,Обучающая
59,42001.0,"г. Санкт-Петербург, Большой пр., дом № 55/6, Д...",30.30692,59.962369,2011-10-13 00:00:00,NaT,342,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,,0,1,,,32.635018,85.758621,Обучающая
69,42051.0,"г. Санкт-Петербург, Московский пр., дом № 205,...",30.320466,59.845018,2006-10-30 00:00:00,NaT,173,отдельный вход с улицы,25000.0,Street,бесплатная парковка,1,Пн-Сб с 10:00 до 21:00 Вс с 11:00 до 21:00,,0,1,0.0,,98.0,114.413793,Обучающая
70,42056.0,"г. Санкт-Петербург, Московский пр., дом № 34/36",30.318644,59.915188,2006-06-18 00:00:00,NaT,193,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,,0,0,,,24.637132,73.068966,Обучающая
74,42072.0,"г. Санкт-Петербург, Невский пр., дом № 90-92, ...",30.352412,59.932428,2003-09-16 00:00:00,NaT,136,отдельный вход с улицы,,Стрит,,3,с 10:00 до 22:00,,0,1,0.0,,43.738228,74.862069,Тестовая
80,42100.0,"г. Санкт-Петербург, пр. Большевиков, дом № 3, ...",30.471393,59.917637,2010-07-07 00:00:00,NaT,180,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,3.0,1,1,,,33.465501,69.0,Обучающая
84,42118.0,"г. Санкт-Петербург, пр. Чернышевского, дом № 1...",30.358883,59.944349,2004-10-07 00:00:00,NaT,240,отдельный вход с улицы,,Street,,1,Вс-Чт c 10:00 до 21:00 Пт-Сб с 10:00...,,0,0,,,35.343648,73.482759,Обучающая
87,42132.0,"г. Санкт-Петербург, Средний проспект В.О., дом...",30.27677,59.942885,2001-05-07 00:00:00,NaT,108,отдельный вход с улицы,,Street,,1,с 10:00 до 21:00,,0,0,0.0,,31.695752,48.413793,Обучающая
97,42189.0,"г. Санкт-Петербург, ул. Савушкина, дом № 6а",30.298755,59.986254,2008-07-28 00:00:00,NaT,248,отдельный вход с улицы,,Street,,1,с 10:00 до 22:00,,0,0,,,26.494907,71.310345,Обучающая


In [65]:
tmp.shape

(22, 21)

22 точки без признака, логирую и заношу в вывод.

In [66]:
nan_log_s0 = log(tmp, 'Нет расположения в ТЦ', nan_log_s0)

#### Толока

Признак возможно представляет собой результат работы какой либо модели. Нужно уточнить что это за признак?. Заношу в вывод.

In [67]:
data_s0['Толока'].describe()

count    246.000000
mean      56.703189
std       35.526801
min       10.454353
25%       32.953392
50%       49.812128
75%       69.030800
max      248.234096
Name: Толока, dtype: float64

#### Люкс

Признак возможно представляет собой результат работы какой либо модели. Нужно уточнить что это за признак?. Заношу в вывод.

In [68]:
data_s0['Люкс'].describe()

count    246.000000
mean      69.644964
std       12.816096
min       36.724138
25%       61.974138
50%       69.287356
75%       75.689655
max      124.241379
Name: Люкс, dtype: float64

#### Выборка

In [69]:
data_s0['Выборка'].unique()

array(['Обучающая', 'Тестовая', '-', nan, 'Тест', 'Обyчающая'],
      dtype=object)

In [70]:
data_s0['Выборка'].value_counts()

Обучающая    156
Тестовая      77
-             10
Тест           1
Обyчающая      1
Name: Выборка, dtype: int64

##### Не однозначное значение

Символ '-', может означать как отрицание, так и пропуск, Логиую и заношу в вывод.

In [71]:
tmp = data_s0[data_s0['Выборка'] == '-']
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
29,18931.0,"г. Москва, Калужское ш., 21 км, С1, ТРЦ ""Мега""",37.491161,55.603834,2010-10-29 00:00:00,2018-03-18,425,без сквозного прохода,180500.0,ТЦ,бесплатная парковка,1.0,c 10:00 до 24:00,3.0,1,0,,9.0,91.022487,104.586207,-
85,42122.0,"г. Санкт-Петербург, пр. Энгельса, дом № 120, Т...",30.321797,60.037216,2004-05-18 00:00:00,2017-04-10,112,без сквозного прохода,16000.0,ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,,0,0,2.0,9.0,36.292908,48.137931,-
92,42156.0,"г. Санкт-Петербург, ул. Ефимова, дом № 2, Лите...",30.320827,59.926354,2007-03-28 00:00:00,2018-04-07,338,сквозной проход,32200.0,ТЦ,нет парковки,1.0,с 10:00 до 22:00,2.0,1,1,,7.0,72.133192,68.034483,-
99,42192.0,"г. Санкт-Петербург,ул. Ленсовета, дом № 101, Л...",30.348522,59.831734,2012-12-23 00:00:00,2017-08-01,321,сквозной проход,,Мини ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,0,1,,9.0,33.427061,63.62069,-
102,42204.0,"Иркутская обл, г. Иркутск, ул. 3 Июля, дом № 2...",104.290721,52.273268,2016-03-16 00:00:00,NaT,360,без сквозного прохода,38700.0,ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,0,0,0.0,7.0,67.677109,79.793103,-
129,42340.0,"Ленинградская обл, Всеволожский р-он, пр.Энгел...",30.379675,60.092002,2017-12-07 00:00:00,NaT,1025,без сквозного прохода,127149.0,ТЦ,бесплатная парковка,1.0,Вс-Чт с 10:00 до 22:00 Пт-Сб с 10:00 до 23:00,3.0,0,0,0.0,5.0,55.107822,80.172414,-
136,42383.0,"М.О. г. Мытищи, Шараповский проезд, 1, ""ТЦ ""Кр...",37.761646,55.914736,2010-07-12 00:00:00,2017-07-22,236,без сквозного прохода,2000.0,Мини ТЦ,нет парковки,1.0,с 10:00 до 22:00,3.0,0,1,,8.0,29.458197,63.551724,-
137,42388.0,"М.О. г. Электросталь, пр. Ленина, 0/10, ТЦ ""Эл...",38.437642,55.799296,2008-02-11 00:00:00,2017-10-23,377,без сквозного прохода,60000.0,ТЦ,бесплатная парковка,,с 10:00 до 22:00,3.0,1,0,,7.0,40.731117,51.0,-
173,42546.0,"Респ. Башкортостан, Уфимский р-он, г. Уфа, ул....",55.940446,54.725815,2004-04-26 00:00:00,2018-01-11,276,без сквозного прохода,5700.0,ТЦ,нет парковки,1.0,с 10:00 до 21:00,,0,0,,4.0,19.802614,53.724138,-
200,42706.0,"Россия, Свердловская область, Екатеринбург, ул...",60.538536,56.817178,2019-07-19 00:00:00,2017-12-31,446,без сквозного прохода,113163.0,ТЦ,бесплатная парковка,1.0,с 10:00 до 22:00,3.0,1,1,,11.0,22.870652,62.833333,-


In [72]:
problems_log_s0 = log(tmp, 'Значение \'-\' в признаке \'Выборка\'', problems_log_s0)

##### Строки с NaN

Обязательный для заполнения признак. Логирую и заношу в вывод.

In [73]:
tmp = data_s0[data_s0['Выборка'].isna()]

In [74]:
tmp

Unnamed: 0,id точки,Адрес,Широта,Долгота,Дата открытия,Дата закрытия,Площадь магазина,Тип входа,Площадь ТЦ,Формат магазина,Парковка,Этаж,Время работы,Заполненность ТЦ,Рядом с эскалатором,Рядом со входом,Конкуренты в ТЦ,Расположение в ТЦ,Толока,Люкс,Выборка
89,42135.0,"г. Санкт-Петербург, ул. Балканская, дом № 17, ...",30.380018,59.826235,2013-08-02 00:00:00,2018-03-09,443,сквозной проход,93000.0,ТЦ,бесплатная парковка,1,с 10:00 до 22:00,3.0,1,1,,11.0,32.486835,57.448276,


In [75]:
nan_log_s0 = log(tmp, 'Нет типа выборки', nan_log_s0)

### Sheet 1

In [76]:
#Журнал с проблемными строками
problems_log_s1 = pd.DataFrame(columns = [*data_s0.columns,'problem','index'])
#Журнал с пропущенными важными признаками
nan_log_s1 = pd.DataFrame(columns = [*data_s0.columns,'problem','index'])

Столбцы с типом object значит в этих столбца есть значения которые не вышло привести к численному виду.

In [77]:
data_s1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155 entries, 0 to 154
Data columns (total 47 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id точки    152 non-null    float64
 1   2015-01-01  116 non-null    float64
 2   2015-02-01  116 non-null    float64
 3   2015-03-01  116 non-null    float64
 4   2015-04-01  116 non-null    float64
 5   2015-05-01  117 non-null    float64
 6   2015-06-01  117 non-null    float64
 7   2015-07-01  117 non-null    float64
 8   2015-08-01  118 non-null    float64
 9   2015-09-01  119 non-null    float64
 10  2015-10-01  119 non-null    float64
 11  2015-11-01  120 non-null    object 
 12  2015-12-01  126 non-null    object 
 13  2016-01-01  127 non-null    object 
 14  2016-02-01  130 non-null    object 
 15  2016-03-01  131 non-null    object 
 16  2016-04-01  131 non-null    object 
 17  2016-05-01  131 non-null    object 
 18  2016-06-01  129 non-null    float64
 19  2016-07-01  132 non-null    f

Строки не подходящие под паттерн, число с плавающей точкой.

In [78]:
pattern = r'^(\d+\.\d+)$|^(\d+)$'

Сначала вычисляю для каждого столбца совпадения с паттерном. В результате будет куча NaN т.к. видно, что многие обьекты в стобце типа float64, а к ним не применим match и некоторые значения True или False. Потом прохожусь по всем строкам и проверяю, что строке хотябы один False. 

In [79]:
mask = data_s1.select_dtypes(include=['object']).apply(lambda x: x.str.match(pattern), axis=0).apply(lambda x: ~x.all(), axis=1)

In [80]:
data_s1[mask]

Unnamed: 0,id точки,2015-01-01,2015-02-01,2015-03-01,2015-04-01,2015-05-01,2015-06-01,2015-07-01,2015-08-01,2015-09-01,2015-10-01,2015-11-01,2015-12-01,2016-01-01,2016-02-01,2016-03-01,2016-04-01,2016-05-01,2016-06-01,2016-07-01,2016-08-01,2016-09-01,2016-10-01,2016-11-01,2016-12-01,2017-01-01,2017-02-01,2017-03-01,2017-04-01,2017-05-01,2017-06-01,2017-07-01,2017-08-01,2017-09-01,2017-10-01,2017-11-01,2017-12-01,2018-01-01,2018-02-01,2018-04-01,2018-05-01,2018-06-01,2018-07-01,2018-08-01,2018-09-01,2018-10-01,2018-11-01
5,16418.0,1097856.0,1251315.0,1498360.0,1172858.0,1061769.0,1084432.0,950879.0,1012459.0,1084123.0,1163764.0,"1 260 110,78",2574953.226613,1110906.048387,1379968.448276,1605536.249996,1151860.208333,1155781.169355,1118210.0,990290.1,1039288.0,1076724.0,1190360.0,1130526.125833,2251110.970161,1043718.541667,1278501.517857,1487713.0,995113.8,1018060.0,998903.7,810016.9,827374.9,1106045.0,1051451.0,1299509.0,2309722.0,1245772.0,1363428.0,1176113.0,1220379.0,1197103.0,1029584.0,882819.2,972544.2,1014446.0,1223028.0
34,42019.0,349175.7,428954.0,540926.4,324392.6,309350.0,356982.1,338761.7,404598.4,388900.9,431534.9,406191.283333,883086.091194,377759.85,501202.85172,561997.422581,363731.16,351048.812903,385331.3,402680.3,406822.1,384061.5,436478.6,"409 920,76","731 540,48","359 273,61","422 936,10",497617.6,352994.2,324350.9,408038.0,374163.3,398273.3,400277.9,370121.3,397926.2,767033.9,334578.6,413062.7,355092.0,367755.8,427415.5,412546.2,415900.8,405427.7,452073.4,506063.1
49,42132.0,392567.0,492616.5,548249.1,375326.6,351457.6,408164.6,424135.4,448348.4,482615.4,522399.4,501171.423965,967414.375532,462805.870968,565 006.39,740 025.32,523198.866667,479422.823226,542986.7,,687991.2,549747.4,673200.4,664607.04232,926897.414761,427563.424516,557485.611432,654977.5,452334.2,416775.8,509538.1,411076.8,478432.6,480642.2,418959.5,515951.8,793774.9,415842.6,467840.7,387206.2,348629.4,454408.6,377589.6,403862.5,425747.2,395631.0,451610.7
51,42151.0,2194019.0,2613882.0,3197476.0,2605320.0,2190041.0,2776213.0,2454760.0,2714818.0,2865671.0,3250333.0,3130351.015,5896149.539471,2750077.23299,"3 765 959,65","4 396 496,06","3 548 574,21","3 004 449,48",3426305.0,3191344.0,3526473.0,3615487.0,3671685.0,3635487.84165,6251272.116284,2712996.068,3533192.170714,4216629.0,3343032.0,2872168.0,3389693.0,3012664.0,2953128.0,3275184.0,2856332.0,3652451.0,5663314.0,2894688.0,3514717.0,3322619.0,3091117.0,3639575.0,3160223.0,3301408.0,3201380.0,3307600.0,3909895.0
55,42191.0,1517144.0,1527407.0,1963732.0,1539653.0,1293609.0,1538641.0,1265592.0,1473603.0,1622752.0,1699108.0,1745319.51258,3297442.866968,1745328.019355,1702519.29931,"2 070 484,72","1 622 718,72","1 704 226,37",1821890.0,1765664.0,1567110.0,1687008.0,2140081.0,2046691.33032,3511543.75171,1869250.563871,2007945.0288,2196840.0,1639915.0,1821587.0,1961135.0,1892287.0,1942660.0,2046824.0,1838707.0,2253636.0,3594532.0,2114605.0,2309856.0,2112185.0,2309666.0,2818972.0,2516305.0,2730944.0,2789306.0,2811758.0,3067991.0
65,42238.0,277173.2,371465.0,423192.4,289493.4,274871.0,291003.8,269989.2,275862.5,321393.9,325385.4,336 048.92,705 402.96,284 880.04,416003.559593,467281.972903,330714.145333,295782.517419,341107.4,287883.2,271233.5,317410.1,331507.0,315484.203333,641438.25669,259836.425517,353722.609286,407781.6,273575.6,270077.8,292361.4,232802.6,253636.2,273655.6,245422.0,289894.7,586750.8,245952.1,303762.4,224166.2,212263.8,366374.2,,319653.2,250666.8,229532.2,251905.3
79,42355.0,85751.51,105745.9,146492.9,85729.96,93568.54,146862.6,182964.4,211138.4,192441.7,126862.6,90767.445333,194722.603355,79599.658667,99675.188966,129198.823226,83833.026207,90507.767742,143539.2,204567.1,239827.4,194232.5,130127.5,89366.954667,179 944.79,80211.669333,109187.931429,130552.1,77840.55,85575.56,153777.7,174416.7,207114.5,174407.1,118976.9,102064.1,175107.3,94826.79,103373.9,79854.85,84665.27,130930.7,164624.1,206688.8,170606.0,107082.0,103495.4


Пробую исправить

In [81]:
data_s1.select_dtypes(include=['object']).replace(to_replace=r'(,)|( )', value='', regex=True, inplace= True)

In [82]:
data_s1 = data_s1.astype('float')

In [83]:
data_s1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155 entries, 0 to 154
Data columns (total 47 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id точки    152 non-null    float64
 1   2015-01-01  116 non-null    float64
 2   2015-02-01  116 non-null    float64
 3   2015-03-01  116 non-null    float64
 4   2015-04-01  116 non-null    float64
 5   2015-05-01  117 non-null    float64
 6   2015-06-01  117 non-null    float64
 7   2015-07-01  117 non-null    float64
 8   2015-08-01  118 non-null    float64
 9   2015-09-01  119 non-null    float64
 10  2015-10-01  119 non-null    float64
 11  2015-11-01  120 non-null    float64
 12  2015-12-01  126 non-null    float64
 13  2016-01-01  127 non-null    float64
 14  2016-02-01  130 non-null    float64
 15  2016-03-01  131 non-null    float64
 16  2016-04-01  131 non-null    float64
 17  2016-05-01  131 non-null    float64
 18  2016-06-01  129 non-null    float64
 19  2016-07-01  132 non-null    f

Все приводится к нужному типу, можно на всякий случай обратить внимание заказчика, что в его данных ошибка. Но исправления это не требует.

#### id точки

#### Уникальность id

In [84]:
tmp = data_s1[data_s1['id точки'].duplicated(keep=False)&data_s1['id точки'].notna()].copy()
tmp

Unnamed: 0,id точки,2015-01-01,2015-02-01,2015-03-01,2015-04-01,2015-05-01,2015-06-01,2015-07-01,2015-08-01,2015-09-01,2015-10-01,2015-11-01,2015-12-01,2016-01-01,2016-02-01,2016-03-01,2016-04-01,2016-05-01,2016-06-01,2016-07-01,2016-08-01,2016-09-01,2016-10-01,2016-11-01,2016-12-01,2017-01-01,2017-02-01,2017-03-01,2017-04-01,2017-05-01,2017-06-01,2017-07-01,2017-08-01,2017-09-01,2017-10-01,2017-11-01,2017-12-01,2018-01-01,2018-02-01,2018-04-01,2018-05-01,2018-06-01,2018-07-01,2018-08-01,2018-09-01,2018-10-01,2018-11-01
83,42383.0,227416.886667,301359.175,366493.0,256595.884697,223962.096129,241470.289667,268201.834194,285165.496452,268671.797333,307369.437742,313546.748667,542316.6,252934.439333,315365.4,396360.0,268140.630333,244010.423548,254807.249667,268337.013226,266149.490645,292829.203333,298976.948065,263109.089577,478168.7,247749.502,299834.34,361285.8,267474.601333,233104.63129,295844.367,237027.377097,274366.568966,340023.987333,285341.654839,331181.0775,480606.5,290967.715455,310493.43,264606.220667,219131.287742,279045.797333,239944.954516,294459.344065,270101.65,238021.185161,287760.169667
84,42383.0,394456.820997,454259.3786,583650.0,443076.413799,391290.346452,408554.289,357205.572574,390696.346452,417790.097997,430764.776129,494164.473,975546.0,432084.77433,561409.6,669310.1,487761.416997,485661.457742,456049.37367,392559.430645,430120.35,469779.123,492347.534516,488088.280677,966823.2,449199.266997,551020.175357,656515.2,434812.0095,496444.915219,451425.447,392264.506452,412884.193877,441486.342,389910.15871,489110.061,857623.9,482870.72064,508593.69,438699.822,445378.677097,425878.134,369380.52871,407637.960968,384249.393,449429.469677,516463.893
110,42597.0,159357.77,163778.55,209237.3,119044.440667,120611.429355,155005.578,146695.845484,155073.011935,178703.464333,214433.583,207129.407333,482789.4,202859.262667,250167.5,324058.0,209297.239667,188630.142581,231000.163333,207120.520645,219676.964839,217866.649,261610.058387,241850.578667,513745.4,224192.854516,284803.9675,342030.6,219265.106667,204951.550323,271993.449,217573.309032,239816.497742,241099.798333,236499.547742,288028.286,503579.1,258394.352932,303328.4475,232310.533,206991.946452,256464.936,222763.039032,257462.160968,238893.624667,254131.913226,304643.126667
111,42597.0,788735.620309,915970.362829,1215916.0,872090.908507,780988.410697,822884.550667,697784.523255,757521.236129,814036.689248,836107.082581,941045.862775,1909250.0,809219.982667,1026803.0,1224504.0,878091.831333,884691.811613,810742.675613,709275.264516,783020.456039,790234.494667,856860.941935,826688.571147,1722902.0,763251.618667,976233.352657,1182357.0,762453.345333,814990.806297,774322.813333,665150.810323,750051.95871,776847.321333,721696.656774,906545.104,1630336.0,849055.735613,953085.207143,787095.805333,804114.132903,817746.833333,665763.477419,735152.020645,704202.978667,828985.715355,945777.193333


In [85]:
problems_log_s1 = log(tmp, 'Дубликат id, разные данные', problems_log_s1)

##### Строки с NaN

In [86]:
tmp = data_s1[data_s1['id точки'].isna()]
tmp

Unnamed: 0,id точки,2015-01-01,2015-02-01,2015-03-01,2015-04-01,2015-05-01,2015-06-01,2015-07-01,2015-08-01,2015-09-01,2015-10-01,2015-11-01,2015-12-01,2016-01-01,2016-02-01,2016-03-01,2016-04-01,2016-05-01,2016-06-01,2016-07-01,2016-08-01,2016-09-01,2016-10-01,2016-11-01,2016-12-01,2017-01-01,2017-02-01,2017-03-01,2017-04-01,2017-05-01,2017-06-01,2017-07-01,2017-08-01,2017-09-01,2017-10-01,2017-11-01,2017-12-01,2018-01-01,2018-02-01,2018-04-01,2018-05-01,2018-06-01,2018-07-01,2018-08-01,2018-09-01,2018-10-01,2018-11-01
108,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
129,,,,,,,,,,,,,,,,,,,,,150770.45,129880.736667,147085.754839,140624.68,249065.601344,115923.849997,139895.185714,171331.977419,130542.603333,104024.947871,147545.578333,126134.735484,137515.714516,135492.096667,115834.133871,117132.691667,194858.772065,114585.758339,118510.4,94791.263333,93654.952258,108397.95,100705.532258,116268.127419,97226.428333,97570.266129,121038.385
154,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,312996.8325,469148.098065,497820.22436,430578.992903,556950.42,929069.946658,502913.05314,594450.393471,560283.324,514546.421768,644308.088,533981.383006,562082.839742,575194.942,724658.394194,726229.02


3 строки, одна из которых, просто пропуск по всем полям. Логирую и заношу в вывод.

In [87]:
nan_log_s1 = log(tmp[1:], 'Нет id точки', nan_log_s1)
problems_log_s1 = log(tmp[:1], 'Пропущенна вся строка', problems_log_s1)

##### Записи в sheet 1 без точек в sheet 0

In [88]:
tmp = data_s1[data_s1['id точки'].notna()&data_s1['id точки'].isin(data_s0['id точки'])]

6 записей остались без данных в sheet 0.

In [89]:
data_s1[data_s1['id точки'].notna()].shape[0] - tmp.shape[0]

6

In [90]:
tmp = data_s1[~(data_s1['id точки'].isin(data_s0['id точки']))]
tmp

Unnamed: 0,id точки,2015-01-01,2015-02-01,2015-03-01,2015-04-01,2015-05-01,2015-06-01,2015-07-01,2015-08-01,2015-09-01,2015-10-01,2015-11-01,2015-12-01,2016-01-01,2016-02-01,2016-03-01,2016-04-01,2016-05-01,2016-06-01,2016-07-01,2016-08-01,2016-09-01,2016-10-01,2016-11-01,2016-12-01,2017-01-01,2017-02-01,2017-03-01,2017-04-01,2017-05-01,2017-06-01,2017-07-01,2017-08-01,2017-09-01,2017-10-01,2017-11-01,2017-12-01,2018-01-01,2018-02-01,2018-04-01,2018-05-01,2018-06-01,2018-07-01,2018-08-01,2018-09-01,2018-10-01,2018-11-01
115,45801.0,,,,,,,,,16133.6,209725.058065,150740.837333,316499.46431,157374.19871,190895.928276,242348.96,196188.72,163661.372903,191137.408,193664.149677,220022.807742,182855.530667,247901.630968,203167.403413,393606.83871,190433.491613,248916.88,308307.530323,184143.717333,178108.325161,256286.8,207663.427097,254516.206452,227490.330667,224540.092903,270445.504,459736.768671,249946.461213,291878.76,217643.365333,184792.629677,238328.832,218318.99871,260616.051613,238226.949333,253439.669677,288315.776
149,2633921.0,132965.439655,169366.746429,206388.45,137964.7,104022.609677,148099.078333,109004.348387,142252.233871,142128.645,165113.769355,146348.766667,371015.23771,154774.131034,199913.774138,257444.790323,151540.96,144995.864516,195533.401667,184773.375806,187099.527419,214129.493333,159344.940323,148620.09,299352.50929,125480.15625,164620.682143,198762.8,121885.886667,112022.774194,137551.703333,109168.054839,113500.790323,105040.74,102333.540323,113391.018333,232945.668435,101905.77931,132421.992857,86721.779167,90059.05,113034.895,76825.856452,97766.093548,86143.466667,91317.248387,115013.301667
150,2634000.0,341009.722,413489.085501,518426.278387,376071.505667,357895.794516,505318.240505,458096.520286,516279.226774,486665.455265,570820.219042,650161.509667,971408.852693,485994.616333,621628.405862,904165.93,665313.427667,514341.796774,551528.538,543446.6729,575061.060968,623802.058667,668443.386129,572178.698657,979096.869055,491242.844,666340.327857,818441.189677,597309.669,501209.064194,606516.049333,503788.05129,621351.320968,548635.336667,514921.08871,687005.536667,929888.122658,513382.351353,590733.692857,480563.392,457005.916452,541734.577,444286.811935,574573.53871,538086.317,530747.27129,565599.127667
151,2634008.0,270923.715,404737.144643,470433.872222,401063.781,318507.45,385579.165,375166.269677,382299.377093,413219.906524,470166.09871,440464.357333,935522.989586,391747.646667,516522.805172,624805.979032,515396.389996,425388.171935,502459.208333,388487.110642,391481.063871,316589.915333,341641.611935,281580.21804,527792.670071,224119.152667,302291.828929,387318.617742,260027.916,242444.780645,287295.531667,243727.768065,236094.362903,242776.017667,204961.915161,197560.122333,337194.695961,162847.124247,202552.822857,185037.349333,167999.870323,186120.868667,175067.582903,174118.710968,174518.631333,189597.414516,226016.234333
152,2634011.0,378429.753517,350607.477988,482925.193552,367225.245935,349294.028363,388179.193333,400668.150126,421847.743068,345782.485333,360541.050968,421239.038,957476.388168,397970.02129,426358.826897,543228.298065,404400.638667,425347.254194,496725.236667,444494.209677,482043.645161,401535.55,425327.852258,400319.495073,838820.48609,406415.215484,400920.975,493242.733548,385916.622,390776.625806,399131.743333,405865.546452,416868.805161,406099.434987,369399.431613,467659.509333,887570.69789,461032.727239,443111.015436,410602.549333,379963.923226,457012.976,431740.369032,491072.692,461658.858,421671.512258,489829.227333
153,2633936.0,,,,,420226.94,311592.339222,255945.11389,234998.024826,234465.065333,279630.782667,301462.536667,555602.024777,278632.685333,320643.226207,408450.476,269205.804,276359.444667,307388.204667,270617.484516,303373.320645,297020.033333,338859.405161,298333.46298,644241.254774,298026.264667,345820.802963,433355.304516,300881.494667,289653.830245,335926.033333,312048.090968,376385.295819,333933.464667,344517.292903,372648.691333,677214.710652,360466.44102,372836.555,299080.189333,286674.025806,327415.778667,305542.250323,345389.650968,349845.855333,361092.704994,363068.734


In [91]:
problems_log_s1 = log(tmp, 'Точек с таким id нету на листе \'Справочник точек\'', problems_log_s1)

##### Записи с неверным типом выборки

In [92]:
tmp1 = data_s0[data_s0['id точки'].isin(data_s1['id точки'])&data_s0['id точки'].notna()]
tmp1['Выборка'].value_counts()

Обучающая    92
Тестовая     47
-             4
Тест          1
Name: Выборка, dtype: int64

In [93]:
#Пригодится потом
correct_ids = tmp1[tmp1['Выборка'] == 'Обучающая'].copy()

Логирую и заношу в вывод.

In [94]:
tmp = data_s1[data_s1['id точки'].isin(tmp1[tmp1['Выборка'] == '-']['id точки'])]
tmp

Unnamed: 0,id точки,2015-01-01,2015-02-01,2015-03-01,2015-04-01,2015-05-01,2015-06-01,2015-07-01,2015-08-01,2015-09-01,2015-10-01,2015-11-01,2015-12-01,2016-01-01,2016-02-01,2016-03-01,2016-04-01,2016-05-01,2016-06-01,2016-07-01,2016-08-01,2016-09-01,2016-10-01,2016-11-01,2016-12-01,2017-01-01,2017-02-01,2017-03-01,2017-04-01,2017-05-01,2017-06-01,2017-07-01,2017-08-01,2017-09-01,2017-10-01,2017-11-01,2017-12-01,2018-01-01,2018-02-01,2018-04-01,2018-05-01,2018-06-01,2018-07-01,2018-08-01,2018-09-01,2018-10-01,2018-11-01
52,42156.0,260592.09,301938.804357,406857.248032,267426.243333,240642.103226,252872.436667,227303.680645,242696.690323,236613.813333,247887.625806,294141.282967,678621.365613,264463.576667,349500.458621,429907.073839,275839.923333,272521.558065,255131.58,238261.064516,247975.306452,249503.906667,279918.73871,264645.04,600193.921161,262988.33,326669.121429,401700.129032,257206.216667,266067.822581,249781.473333,231029.167742,232550.893548,262877.376667,210783.383871,270951.45,550287.703581,271854.4752,302020.832143,239486.83,246396.167742,249492.1,227085.73871,239764.196774,224413.493333,247228.725806,265928.886667
56,42192.0,151637.321333,216306.985,277075.327097,180022.309333,170645.389032,196597.060667,176633.319355,194029.565806,204538.501333,202785.031613,190298.736,366739.925806,157156.285333,219535.906897,263464.079355,180751.274,174377.539355,200850.477333,172807.40129,181212.264516,182401.356,210517.014194,161834.140093,288096.281471,145799.498,187834.596429,228228.963871,159337.159333,140776.146452,171973.024667,129564.992258,149789.750968,155721.031333,138721.606452,147342.395333,236467.515303,135509.310473,154444.758571,129081.012,129195.525161,140256.683333,114631.785806,137375.068387,140619.259333,132880.625161,147962.226
59,42204.0,138342.193333,182352.672143,224840.470323,129653.390333,117262.265806,153938.761,133176.183548,158712.207097,146608.009,155954.326774,152804.841667,338557.375194,137679.351,176569.73931,228844.81,141326.096333,148554.235161,159055.875333,158013.758065,182216.446774,143892.589333,179254.670323,148488.994333,290576.184694,141774.270667,165953.85,221218.112903,140603.149333,141436.503226,161556.745667,149503.807742,170164.181613,170236.708,155990.386129,183633.284667,299695.872006,160898.802528,171539.617143,136093.549,135727.985806,148455.293,143561.938065,161570.083226,145780.487,151386.444839,156269.433667
83,42383.0,227416.886667,301359.175,366492.959677,256595.884697,223962.096129,241470.289667,268201.834194,285165.496452,268671.797333,307369.437742,313546.748667,542316.638794,252934.439333,315365.363793,396360.040323,268140.630333,244010.423548,254807.249667,268337.013226,266149.490645,292829.203333,298976.948065,263109.089577,478168.718006,247749.502,299834.34,361285.763548,267474.601333,233104.63129,295844.367,237027.377097,274366.568966,340023.987333,285341.654839,331181.0775,480606.548123,290967.715455,310493.43,264606.220667,219131.287742,279045.797333,239944.954516,294459.344065,270101.65,238021.185161,287760.169667
84,42383.0,394456.820997,454259.3786,583649.965152,443076.413799,391290.346452,408554.289,357205.572574,390696.346452,417790.097997,430764.776129,494164.473,975545.974854,432084.77433,561409.609655,669310.098387,487761.416997,485661.457742,456049.37367,392559.430645,430120.35,469779.123,492347.534516,488088.280677,966823.179939,449199.266997,551020.175357,656515.226613,434812.0095,496444.915219,451425.447,392264.506452,412884.193877,441486.342,389910.15871,489110.061,857623.941581,482870.72064,508593.69,438699.822,445378.677097,425878.134,369380.52871,407637.960968,384249.393,449429.469677,516463.893


In [95]:
problems_log_s1 = log(tmp, 'Точки с таким id находится в выборке с названием \'-\'', problems_log_s1)

Так же неверный тип выборки. Логирую и заношу в вывод.

In [96]:
tmp = data_s1[data_s1['id точки'].isin(tmp1[tmp1['Выборка'].isin(['Тестовая', 'Тест'])]['id точки'])]
tmp.shape

(48, 47)

In [97]:
problems_log_s1 = log(tmp, 'Точки с таким id находится в тестовой выборке', problems_log_s1)

#### Проверка временного ряда

Беру только корректные строки, относящиеся к обучающей выборке.

In [98]:
mask = data_s1['id точки'].isin(correct_ids['id точки'])

In [99]:
dates_columns = data_s1.loc[mask,:].iloc[:,1:]

Вычисляю временные границы для каждой строки по первому не NaN значению. Первый столбец в котором встречается не NaN

In [100]:
dates_columns['start_date'] = dates_columns.apply(lambda x: x.notna().idxmax(), axis=1)

In [101]:
#dates_columns

##### Строки у которых внутри временного ряда есть NaN

In [102]:
tmp = dates_columns[dates_columns.apply(lambda x: x[x['start_date']:].isna().any() , axis=1)]

In [103]:
tmp

Unnamed: 0,2015-01-01,2015-02-01,2015-03-01,2015-04-01,2015-05-01,2015-06-01,2015-07-01,2015-08-01,2015-09-01,2015-10-01,2015-11-01,2015-12-01,2016-01-01,2016-02-01,2016-03-01,2016-04-01,2016-05-01,2016-06-01,2016-07-01,2016-08-01,2016-09-01,2016-10-01,2016-11-01,2016-12-01,2017-01-01,2017-02-01,2017-03-01,2017-04-01,2017-05-01,2017-06-01,2017-07-01,2017-08-01,2017-09-01,2017-10-01,2017-11-01,2017-12-01,2018-01-01,2018-02-01,2018-04-01,2018-05-01,2018-06-01,2018-07-01,2018-08-01,2018-09-01,2018-10-01,2018-11-01,start_date
4,437693.191667,510077.2,602107.6,465779.8,423448.914516,414476.6,370944.770968,392089.8,416797.3,458215.5,513996.8,997652.2,399725.4,518929.7,592577.8,441552.7,449032.8,413248.4,377791.2,395019.0,408141.0,461964.5,452770.5,879288.5,387282.241667,492204.6,573761.8,373567.9,289179.4,,,,,328280.3,449390.2,842531.3,378429.858867,453511.5,388849.7,369223.219355,392389.0,328593.2,350885.3,369367.358333,427575.006452,472508.001667,2015-01-01
32,409733.686,496969.1,589823.4,427574.5,393749.777419,423020.3,397962.432903,315021.3,310776.9,320979.2,349331.3,660379.1,259083.9,362500.1,393372.0,,,,316564.3,240877.5,238322.1,293412.4,274983.5,528240.6,229771.062,321831.3,359994.2,268626.9,223988.5,223253.8,189445.6,187866.7,207239.6,208332.1,243615.6,446594.4,250100.56608,289638.1,212550.8,191151.577419,187329.1,155775.2,163227.0,169713.459333,194452.16,223386.425333,2015-01-01
49,392567.021996,492616.5,548249.1,375326.6,351457.633468,408164.6,424135.383068,448348.4,482615.4,522399.4,501171.4,967414.4,462805.9,565006.4,740025.3,523198.9,479422.8,542986.7,,687991.2,549747.4,673200.4,664607.0,926897.4,427563.424516,557485.6,654977.5,452334.2,416775.8,509538.1,411076.8,478432.6,480642.2,418959.5,515951.8,793774.9,415842.587948,467840.7,387206.2,348629.403871,454408.6,377589.6,403862.5,425747.226667,395630.996129,451610.744,2015-01-01
65,277173.233103,371465.0,423192.4,289493.4,274870.983226,291003.8,269989.179355,275862.5,321393.9,325385.4,336048.9,705403.0,284880.0,416003.6,467282.0,330714.1,295782.5,341107.4,287883.2,271233.5,317410.1,331507.0,315484.2,641438.3,259836.425517,353722.6,407781.6,273575.6,270077.8,292361.4,232802.6,253636.2,273655.6,245422.0,289894.7,586750.8,245952.072697,303762.4,224166.2,212263.771613,366374.2,,319653.2,250666.784,229532.178065,251905.257333,2015-01-01
76,937093.666667,1134076.0,1272160.0,1051449.0,866973.58871,1085566.0,990347.056448,1081381.0,1155475.0,1250608.0,1182082.0,2448194.0,1141346.0,1421053.0,1622232.0,1323466.0,1213570.0,1268636.0,1156121.0,1171858.0,1280883.0,1242260.0,1313863.0,2281034.0,997895.916658,1351871.0,1494150.0,1219489.0,1097972.0,1335273.0,1142968.0,1117314.0,1094493.0,1024619.0,1164985.0,1779698.0,948042.443333,1172479.0,1109079.0,940113.185484,1159450.0,1001108.0,1089363.0,996613.863636,,,2015-01-01
82,170613.73,233023.8,271680.7,178956.6,160447.865806,191808.0,184215.983226,190019.0,188803.2,198060.4,201141.1,415890.2,177206.8,230446.1,298553.2,184516.1,196249.5,,,303099.9,247818.1,252799.0,237062.5,435022.8,216435.536,271305.4,341194.2,203383.8,211156.0,268786.2,205478.9,275057.5,229464.1,208477.7,252728.6,429795.9,249279.696,263483.2,206774.5,206711.161935,259486.8,234693.1,259235.7,227310.3,226225.534839,292021.412,2015-01-01
90,155182.264839,206998.7,303193.5,197869.8,185618.485161,211856.0,177174.994839,203734.2,211948.9,213541.7,206658.1,397011.8,180267.8,253041.7,296689.8,186894.4,188035.1,202165.6,170403.2,193985.0,190883.1,215787.3,176077.2,332565.0,158368.204839,193594.5,288081.9,211876.6,210109.4,208332.5,167459.2,190096.7,176734.5,161818.4,172907.9,285997.1,,,203867.8,176048.653548,197872.7,182718.1,185599.9,191958.743,205780.454516,209298.481,2015-01-01


Логирую заношу в вывод.

In [104]:
problems_log_s1 = log(tmp, 'Записи с NaN внутри временного ряда', problems_log_s1)

## Вывод

### Вопросы к заказчику

Вопросы:
* Признак 'Время работы', если не указанны дни недели, имеется в виду, что точка работает во все дни?
* Признак 'Заполненость ТЦ', Не до конца понятно значение признака. Это абсолютное, относительное или категориальное значение? В чем оно измеряется и как измеряется?
* Признак 'Конкуренты в ТЦ', В чем измеряется и как измеряется?
* Признак 'Расположение в ТЦ' В чем измеряется и как измеряется?
* Зачем в обучающей выборке, точки для которых известна выручка всего за несколько месяцев, если для остальных точек есть данные за несколько лет? прим. строка 149, 150.

### Результат проверки данных

Указанные, ниже проблемы сохранены в файле логов, с указанием на строку с ошибкой.

#### Лист - 'Справочник точек':

* Обнаруженные проблемы в листе:
    * 2 точки с id 42645 и 2 точки с id 42683
    * 1 точка с некорректной датой открытия 13.06.1899
    * 1 точка с датой закрытия < даты открытия
    * точка с датой вместо этажа
    * 3 точки с не соответвующими бинарными признаками Рядом с эскалатором и Рядом со входом
    * 10 точек с не однозначным типом выборки '-'
* Пропуски в важных признаках в листе:
    * 1 точка без id
    * 4 точки без широты и долготы
    * 1 точка без даты открытия
    * 2 точки без типа входа
    * 19 точек находящихся в тц без указания площади тц
    * 20 точек без информации о парковке
    * 5 точек без этажа
    * 14 точек без времени работы
    * 64 точки без заполнености тц
    * 1 точка без типа выборки
* Пропуски в признаках в листе: 
    * 152 точек без информации о конкурентах в тц

##### Логи Sheet 0 для передачи заказчику

In [105]:
#problems_log_s0[['index', 'problem']]
#nan_log_s0[['index', 'problem']]
#nan_log_s0_low_priority[['index', 'problem']]
problems_log_s0_result = pd.concat([problems_log_s0['index'], problems_log_s0['problem'].str.split('|', 21, expand=True)], axis=1)
nan_log_s0_result = pd.concat([nan_log_s0['index'], nan_log_s0['problem'].str.split('|', 21, expand=True)], axis=1)
nan_log_s0_low_priority_result = pd.concat([nan_log_s0_low_priority['index'], nan_log_s0_low_priority['problem'].str.split('|', 21, expand=True)], axis=1)

with pd.ExcelWriter('sheet_0_logs.xlsx') as writer:  
    problems_log_s0_result.to_excel(writer, sheet_name='Проблемы в данных')
    nan_log_s0_result.to_excel(writer, sheet_name='Пропуски в важных признаках')
    nan_log_s0_low_priority_result.to_excel(writer, sheet_name='Пропуски')

In [106]:
#problems_log_s0_result

#### Лист - 'Выручка по обучающей выборке':


* Обнаруженные проблемы в листе:
    * 6 записей не имеют точек с таким id в листе 'Справочник точек'
    * 4 записи из Выборки с названием '-'
    * 48 записей из тестовой выборки
    * 7 записей из обучающей выборки содержат NaN внутри временного ряда
    * 2 записи с дубликатом id точки
* Пропуски в важных признаках в листе:
    * 2 записи с NaN в 'id точки'
    * 1 запись просто пропуск по всем столбцам
* Пропуски в признаках в листе: 

* Стоит обратить внимание:
    * 0 и 1 в середине временного ряда в строках 62 и 136, но эти строки не из обучающей выборки.
    * в строках 5, 34, 49, 51, 55, 65, 79, содержатся не верные для чисел с плавающей точкой значения(если имеет значение для заказчика)

##### Логи Sheet 1 для передачи заказчику

In [107]:
#problems_log_s1[['index', 'problem']]
#nan_log_s1[['index', 'problem']]
#nan_log_s1_low_priority[['index', 'problem']]
problems_log_s1_result = pd.concat([problems_log_s1['index'], problems_log_s1['problem'].str.split('|', 21, expand=True)], axis=1)
nan_log_s1_result = pd.concat([nan_log_s1['index'], nan_log_s1['problem'].str.split('|', 21, expand=True)], axis=1)
#nan_log_s0_low_priority_result = pd.concat([nan_log_s0_low_priority['index'], nan_log_s0_low_priority['problem'].str.split('|', 21, expand=True)], axis=1)

with pd.ExcelWriter('sheet_1_logs.xlsx') as writer:  
    problems_log_s1_result.to_excel(writer, sheet_name='Проблемы в данных')
    nan_log_s1_result.to_excel(writer, sheet_name='Пропуски в важных признаках')
#    nan_log_s1_low_priority_result.to_excel(writer, sheet_name='Пропуски')

### Ответ на вопросы в задании

#### Сколько магазинов формата стрит в тестовой выборке?

In [108]:
q0 = data_s0[data_s0['Формат магазина'].isin(['Street', 'Стрит', 'Strееt', 'Стрт'])&
             data_s0['Выборка'].isin(['Тестовая','Тест'])].shape[0]
q0

7

#### Какова средняя выручка магазинов формата мини ТЦ за 2016 год?

In [109]:
data_s0['Формат магазина'].unique()

array(['ТЦ', 'Street', 'Мини ТЦ', 'Стрит', 'Мини-ТЦ', 'Strееt', 'Стрт'],
      dtype=object)

In [110]:
tmp = data_s0[data_s0['Формат магазина'].isin(['Мини ТЦ', 'Мини-ТЦ'])]

Какое совпадение все мини тц есть в листе с выручкой.

In [111]:
(data_s0['Формат магазина'].isin(['Мини ТЦ', 'Мини-ТЦ'])).sum() - data_s0[data_s0['Формат магазина'].isin(['Мини ТЦ', 'Мини-ТЦ'])].shape[0]

0

In [112]:
tmp = data_s1[data_s1['id точки'].isin(tmp['id точки'])&data_s1['id точки'].notna()]
tmp.loc[:,'2016-01-01': '2016-12-01'].mean().mean()

330813.33052018785

#### Сколько магазинов с бесплатной парковкой?

In [113]:
data_s0['Парковка'].value_counts()

бесплатная парковка    156
нет парковки            34
платная парковка        31
100                      2
1000                     1
700                      1
бесплатная паpковка      1
Name: Парковка, dtype: int64

Выходит 157 магазинов.