# *Startups operations/close predictions [M1_31DS+]*
_____
** Описание исследования.**

Практико-ориентированное соревнование по курсу Специалист по Data Science плюс. Исследование активности стартапов с целью построения модели классификации для решения задачи прогнозирования `удачности` стартапа.
_____
**Цель исследования.**
    
Провести анализ данных о стартапах за временной период с `1970-01-01` по `2018-01-01`. Выявить скрытые паттерны в данных, позволяющие более детально оценивать открытые на рынках стартапы. Разработать модель *бинарной классификации* для прогнозирования **успешности** стартапа.
_____
**Задачи исследования.**

1. Оценить уровень финансовой активности стартапов.
2. Выявить закономерности, влияющие на жизненный цикл стартапов, обнаружить скрытые зависимости.
3. Построить модели Машинного обучения (МО) -  (модель классификации) для предсказания **успешности** стартапов.

_____
**Исходные данные.**

Для исследования 2 файла со следующей информацией:

- `kaggle_startups_train_27042024.csv` - Основная таблица, содержащая данные о стартапах, содержит 53000 значений, представлена *14* признаками.
- `kaggle_startups_test_27042024.csv` - Таблица с тестовыми данными для оценки качества моделей.

______

**Содержание исследования.**

***Часть 1. Загрузка данных:***
* [1. Загрузка библиотек. Загрузка данных и их изучение. Анализ общей информации.](#pt1)
* [2. Предобработка данных.](#pt2)

<a id = 'pt1'></a>
# Загрузка данных

## Загрузка библиотек. Загрузка данных и их изучение. Анализ общей информации.

In [8]:
#Общие импорты
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#import tensorflow as tf
from utils import *

#Иморты sklearn
from sklearn.model_selection import (train_test_split, cross_val_score, GridSearchCV)
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

#Доп. библиотеки
#Корреляционный анализ
!pip install phik -q
from phik import phik_matrix
from phik.report import plot_correlation_matrix

#Анализ полученных моделей
!pip install shap -q
import shap

#Служебные библиотеки
import os

import warnings
warnings.simplefilter('ignore')
warnings.filterwarnings("ignore");

In [4]:
if os.path.exists(os.getcwd()+'\\data\\'):
    path = os.getcwd()+'\\data\\'
    print('OK - Path exists')
else:
    raise EnvironmentError('Нет пути к данным')

OK - Path exists


#### Данные о стартапах
Загружается основной датасет `kaggle_startups_train_27042024.csv` с обучающей выборкой, для которого будет выполнен исследовательский анализ данных.

In [10]:
data = pd.read_csv(path+'kaggle_startups_train_27042024.csv')
print('Основная информация о датасете')
data.info()
print()
print('Представление данных')
data.head()

Основная информация о датасете
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52514 entries, 0 to 52513
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               52513 non-null  object 
 1   category_list      50049 non-null  object 
 2   funding_total_usd  42445 non-null  float64
 3   status             52514 non-null  object 
 4   country_code       47013 non-null  object 
 5   state_code         45752 non-null  object 
 6   region             46156 non-null  object 
 7   city               46156 non-null  object 
 8   funding_rounds     52514 non-null  int64  
 9   founded_at         52514 non-null  object 
 10  first_funding_at   52514 non-null  object 
 11  last_funding_at    52514 non-null  object 
 12  closed_at          4915 non-null   object 
dtypes: float64(1), int64(1), object(11)
memory usage: 5.2+ MB

Представление данных


Unnamed: 0,name,category_list,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,closed_at
0,Lunchgate,Online Reservations|Restaurants,828626.0,operating,CHE,25,Zurich,Zürich,2,2009-12-31,2011-05-01,2014-12-01,
1,EarLens,Manufacturing|Medical|Medical Devices,42935019.0,operating,USA,CA,SF Bay Area,Redwood City,4,2005-01-01,2010-05-04,2014-02-25,
2,Reviva Pharmaceuticals,Biotechnology,35456381.0,operating,USA,CA,SF Bay Area,San Jose,3,2006-01-01,2012-08-20,2014-07-02,
3,Sancilio and Company,Health Care,22250000.0,operating,,,,,3,2004-01-01,2011-09-01,2014-07-18,
4,WireTough Cylinders,Manufacturing,,operating,USA,VA,VA - Other,Bristol,1,2010-09-30,2012-02-01,2012-02-01,


Датасет содержит информацию о `52514` компаниях-стартапах, представлен `11 категориальными признаками`, `2 числовыми признаками`. Рассматриваемый целевой признак `status` представлен категориальным признаком, который далее потребует кодирования.

В представленной информации о загруженных данных отражено наличие пропусков в данных, которые содержатся в признаках: `category_list`, `funding_total_usd`, `country_code`, `state_code`, `region`, `city`, `closed_at`. Для признака `closed_at` наличие пропусков не является критичным, так основная часть стартапов продолжала работу на момент выгрузки данных, поэтому пропуски в признаке будут заполнены датой выгрузки. Признаки `founded_at`, `closed_at` потенциально могут быть мало информативны для модели, при этом на основе данных признаков может быть сформирован новый признак: **длительность работы стартапа** - `lifetime`.

#### Данные о стартапах - ТЕСТОВАЯ ВЫБОРКА
Загружается вторичный датасет `kaggle_startups_test_27042024.csv` с тестовой выборкой, который будет использоваться для валидации готовых моделей МО.

In [11]:
test_data = pd.read_csv(path+'kaggle_startups_test_27042024.csv')
print('Основная информация о датасете')
test_data.info()
print()
print('Представление данных')
test_data.head()

Основная информация о датасете
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13125 entries, 0 to 13124
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               13125 non-null  object 
 1   category_list      12534 non-null  object 
 2   funding_total_usd  10547 non-null  float64
 3   country_code       11743 non-null  object 
 4   state_code         11430 non-null  object 
 5   region             11536 non-null  object 
 6   city               11538 non-null  object 
 7   funding_rounds     13125 non-null  int64  
 8   founded_at         13125 non-null  object 
 9   first_funding_at   13125 non-null  object 
 10  last_funding_at    13125 non-null  object 
 11  lifetime           13125 non-null  int64  
dtypes: float64(1), int64(2), object(9)
memory usage: 1.2+ MB

Представление данных


Unnamed: 0,name,category_list,funding_total_usd,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime
0,Crystalsol,Clean Technology,2819200.0,NIC,17,,,1,2008-06-01,2009-07-01,2009-07-01,3501
1,JBI Fish & Wings,Hospitality,,USA,TN,TN - Other,Humboldt,1,2010-07-25,2010-07-28,2010-07-28,2717
2,COINPLUS,Finance,428257.0,LUX,3,Esch-sur-alzette,Esch-sur-alzette,2,2014-06-16,2014-05-15,2014-09-18,1295
3,Imagine Communications,Software|Video|Video Streaming,34700000.0,USA,CA,San Diego,San Diego,4,2005-01-01,2005-01-01,2010-04-20,4748
4,DNA13,Software,4530000.0,CAN,ON,Ottawa,Ottawa,1,2001-01-01,2007-05-08,2007-05-08,6209


Датасет является содержит информацию о `13125` компаниях-стартапах, представлен `9 категориальными признаками`, `3 числовыми признаками`, будет использован для оценки качества разработанной модели МО. Представленные в датасете признаки отличаются от представленных в обучающем датасете.

В представленной информации о загруженных данных отражено наличие пропусков в данных, которые содержатся в признаках: `category_list`, `funding_total_usd`, `country_code`, `state_code`, `region`, `city`.