# Предсказание успешности стартапа

**Цель и задачи:** разработать модель для предсказания успешности стартапа (закроется или нет).

**План проекта**
1. Загрузка и ознакомление с данными

    1.1 Вывод

2. Предварительная обработка
3. Полноценный разведочный анализ
4. Разработка новых синтетических признаков,
5. Проверка на мультиколлинеарность,
6. Отбор финального набора обучающих признаков,
7. Выбор и обучение моделей,
8. Итоговая оценка качества предсказания лучшей модели,
9. Анализ важности ее признаков,

**Описание данных**
Датасет состоит из двух файлов: тренировочный набор (около 53к записей) и тестовый набор (около 13к записей). Тренировочный набор содержит целевой признак status, указывающий на то, закрылся стартап или продолжает действовать. Временной период - '1970-01-01' по '2018-01-01'. Дата формирования выгрузки - '2018-01-01'

- kaggle_startups_train_01.csv - информация (53 000) стартапах, которые будут использоваться в качестве обучающих данных.
- kaggle_startups_test_01.csv - информация (13 000) стартапах, которые будут использоваться в качестве тестовых данных. Ваша задача - предсказать значение 'status' для каждого стартапа из этого датасета.
- name - идентификатор (название) стартапа в тестовом наборе.
- status - целевой признак. Для каждого стартапа предскажите категориальное значение соответствующее прогнозу ['operating', 'closed'].

**Описание полей данных**
- name - Название стартапа
- category_list - Список категорий, к которым относится стартап
- funding_total_usd - Общая сумма финансирования в USD
- status - Статус стартапа (закрыт или действующий)
- country_code - Код страны
- state_code - Код штата
- region - Регион
- city - Город
- funding_rounds - Количество раундов финансирования
- founded_at - Дата основания
- first_funding_at - Дата первого раунда финансирования
- last_funding_at - Дата последнего раунда финансирования
- closed_at - Дата закрытия стартапа (если применимо)
- lifetime - Время существования стартапа в днях

In [None]:
!pip install phik -q

In [None]:
!pip install Levenshtein -q

In [None]:
!pip install ydata-profiling -q

In [85]:
!pip install pycountry -q

In [350]:
!pip install pycountry_convert -q

In [351]:
import os

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import phik
from phik.report import plot_correlation_matrix
from phik import report


from Levenshtein import distance

import webbrowser
from ydata_profiling import ProfileReport

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split

In [352]:
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.4f}'.format)

## Загрузка и ознакомление с данными

Загружу тестовый и тренировачный датасет, также проверим лежат ли они в нужной директории. Если нет, то нужно будет проверить корректность расположения. У меня датасеты лежат в одной папке с тетрадкой.

In [388]:
#train = pd.read_csv('kaggle_startups_train_27042024.csv')
#test = pd.read_csv('kaggle_startups_test_27042024.csv')

pth1 = 'kaggle_startups_train_27042024.csv'
pth2 = 'kaggle_startups_test_27042024.csv'
    
    
if (os.path.exists(pth1)) and (os.path.exists(pth2)):
    train = pd.read_csv(pth1)
    test = pd.read_csv(pth2)
else:
    print('Error Data path')

Ошибки нет. Файлы лежат где нужно. Воспользуюсь библиотекой `ydata_profiling` для первичного анализа тренировочной и тестовых данных. 

In [266]:
profile_train = ProfileReport(train, title='Тренировачные данные о стартапах')
profile_test = ProfileReport(test, title='Тестовые данные о стартапах')

In [152]:
#profile_train.to_notebook_iframe()

In [153]:
#profile_test.to_notebook_iframe()

In [7]:
profile_train.to_file('profile_train.html')
html_file_train_path =os.path.abspath('profile_train.html')
webbrowser.open(f'file://{html_file_train_path}')



Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

True

In [8]:
profile_test.to_file('profile_test.html')
html_file_test_path =os.path.abspath('profile_test.html')
webbrowser.open(f'file://{html_file_test_path}')



Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

True

## Вывод 

Датасет train содержит 52514 записей. Пропуски присутствуют в name (52513 записей)  category_list (50049 записей), funding_total_usd (42445 записей), country_code (47013 записей), state_code (45752 записей), region (46156 записей), city (46156 записей)- последние 2 столбца содержат одинаковое количество пропусков. Далее вижу, что опистельная статистика показывает минимальную сумму инвестирования стоставляет 1 $, что не очень выглядит правдоподобным, максимальная сумма также вызывает некоторые вопросы. Что касется самих данных стилистически названия столбцов выглядт верно. category_list содержит записи категорий, причем они состоят не только из основной категории, но и мультикатегорийных данных. state_code - состоит из числовых и буквенных обозначений (или состая из того и другого, например, GBR - C7), причем буквенные характерны только для США. Также в датасете есть столбцы с датами, приведем их в формат datetime. В тренировочном датасете отустствует lifetime, чтобы его добавить найду разницу между founded_at и closed_at, при этом в последнем столбце есть пропуски заменим их датой выгрузки датасета 2018-01-01
Аналогична ситуация и для датасета test.

Какой по итогу план для следующего шага предобработки данных у меня сложился?
1. Изменить формат соответсвющих столбцов на to_datetime. Пропуски в closed_at в тренировочной заполню датой выгрузки.
2. Нужно проверить на наличие дубликатов.
3. Посмотреть уникальные значения для всех категориальных признаков. 
3. Не просто удалить, заполнить или etc пропуски, а понять природу их появления, какая между ними связь.

## Предварительная обработка

Для начала нужно назначить столбец name - в качестве id-шника.

In [389]:
train.set_index('name', inplace = True)
test.set_index('name', inplace = True)

### Столбцы со временем

Приведу столбцы founded_at, first_funding_at, last_funding_at, closed_at в формат to_datetime.

In [390]:
def convert_columns_to_datetime(df, columns):
    for column in columns:
        df[column] = pd.to_datetime(df[column])
    return df

In [391]:
train = convert_columns_to_datetime(train, ['founded_at', 'first_funding_at', 'last_funding_at', 'closed_at'])
test = convert_columns_to_datetime(test, ['founded_at', 'first_funding_at', 'last_funding_at'])

Теперь заполню пропуски closed_at в тренировочном датасете.

In [392]:
train['closed_at'].fillna(pd.Timestamp('2018-01-01'), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train['closed_at'].fillna(pd.Timestamp('2018-01-01'), inplace=True)


Добавлю столбец в тренировочный датасет время существования стартапа в днях (lifetime) и удалю closed_at, т.к. далее он не понадобится.

In [393]:
train['lifetime'] = (train['closed_at'] - train['founded_at']).dt.days
train.drop(columns=['closed_at'], inplace=True)

**Вывод:** на этом шаге добавила столбец lifetime в тренировочный датасет и привела к нужному формату столбцы со временем.

### Дубликаты
Для начала посмотрю на наличие явных дубликатов в train, сколько их, какое процентное соотношение от общего числа они составляют.

In [394]:
print(f'Дубликаты в train', train.duplicated().sum())
print(f'В процентом соотношение от общего числа:', round((train.duplicated().sum() / len(train)), 4) * 100, f'%')

Дубликаты в train 10
В процентом соотношение от общего числа: 0.02 %


В тренировочном датасете 10 дубликатов, удалю их.

In [395]:
train = train.drop_duplicates()

**Вывод:** в тренировочном датасете было 0.02% дубликтов от общего числа строк. Было удалено 10 дубликтов.

### Исследование уникальных значений

Напишу функцию, которая выедет все столбцы с категориальными значениями. Выведу топ-50 для каждого категориального столбца, так уникальных значений много (например, в category_list).

In [396]:
def get_unique_value_counts(df, top_n=50):
    
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns
    uniq_value_dict = {column: df[column].value_counts() for column in categorical_columns}
    
    for column, value_counts in uniq_value_dict.items():
       # Вычисление частот
        frequency = value_counts / len(df)
        
        # Создание DataFrame для вывода
        top_values = pd.DataFrame({
            'Value': value_counts.index,
            'Count': value_counts.values,
            'Frequency': frequency.values
        }).head(top_n)
        
        print(f"\nТоп-{top_n} значений в столбце '{column}':\n{top_values}")
    
    #uniq_value = df[column].value_counts()
    #print(f"Частотное распределение в столбце '{column}':\n{uniq_value.head(top_n)}")

In [397]:
get_unique_value_counts(train)


Топ-50 значений в столбце 'category_list':
                               Value  Count  Frequency
0                           Software   3206     0.0611
1                      Biotechnology   2905     0.0553
2                         E-Commerce   1063     0.0202
3                             Mobile    920     0.0175
4                   Clean Technology    892     0.0170
5                        Curated Web    851     0.0162
6                        Health Care    744     0.0142
7                Hardware + Software    733     0.0140
8                              Games    681     0.0130
9                Enterprise Software    671     0.0128
10               Health and Wellness    613     0.0117
11                     Manufacturing    604     0.0115
12                       Advertising    553     0.0105
13                         Education    422     0.0080
14                    Semiconductors    400     0.0076
15                           Finance    338     0.0064
16                   

In [398]:
get_unique_value_counts(test)


Топ-50 значений в столбце 'category_list':
                               Value  Count  Frequency
0                           Software    775     0.0590
1                      Biotechnology    693     0.0528
2                         E-Commerce    263     0.0200
3                             Mobile    255     0.0194
4                   Clean Technology    234     0.0178
5                        Curated Web    191     0.0146
6                Hardware + Software    181     0.0138
7                              Games    180     0.0137
8                        Health Care    176     0.0134
9                Enterprise Software    169     0.0129
10                     Manufacturing    157     0.0120
11               Health and Wellness    148     0.0113
12                       Advertising    141     0.0107
13                           Finance    106     0.0081
14                         Education    101     0.0077
15                    Semiconductors     96     0.0073
16                   

Визуально проверить уникальные значения достаточно сложно для этих датасетов, так число уникальных значений в категориальных достаточно велико. Как таковых явных ошибок в написание значений я не вижу. Стоит подумать, как укрупнить категории стартапов и страны, для столбцов state_code, region, city укрупление не несет какой-либо смысл.

Начну с более простого - страны. Считаю, что лучше разделить страны по экономическим регонам в мире
Для категорий укрупню их следующим образом: возьмем топ 50 остальные значения присвоим категорию Other. 
Но перд этим заполним пропуски с помощью пайплайна.

### Работа с пропусками

В датасетах есть пропуски в категориальных и количественном столбцах. В начале посмотрю наличие пропусков в category_list, funding_total_usd, country_code.

In [399]:
train[train['category_list'].isnull()]

Unnamed: 0_level_0,category_list,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Iberic Premium,,107239.0000,closed,,,,,1,2013-01-07,2014-06-01,2014-06-01,929
Salesjob,,,closed,,,,,1,2013-01-01,2013-10-22,2013-10-22,670
Savasti,,,closed,,,,,1,2015-01-01,2015-01-01,2015-01-01,422
The Center from Health Promotion,,10000000.0000,operating,,,,,1,2002-06-13,2003-11-12,2003-11-12,5681
Seamless Logistics,,,operating,,,,,1,2009-02-27,2011-02-01,2011-02-01,3230
...,...,...,...,...,...,...,...,...,...,...,...,...
Beach Bum,,,closed,,,,,1,2014-04-09,2015-05-18,2015-05-18,1087
"iSend, LLC",,,closed,,,,,1,2007-01-01,2008-05-28,2008-05-28,1232
Thermal Nomad,,,operating,USA,TX,Houston,Houston,1,2014-04-20,2014-05-28,2014-05-28,1352
Vision Software PTY,,15000000.0000,operating,,,,,1,1998-12-25,1999-11-02,1999-11-02,6947


In [400]:
train[train['country_code'].isnull()]

Unnamed: 0_level_0,category_list,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Sancilio and Company,Health Care,22250000.0000,operating,,,,,3,2004-01-01,2011-09-01,2014-07-18,5114
Iberic Premium,,107239.0000,closed,,,,,1,2013-01-07,2014-06-01,2014-06-01,929
Purewine,Nanotechnology|Technology|Wine And Spirits,335000.0000,operating,,,,,2,2014-01-01,2014-08-28,2015-08-05,1461
paack,Customer Service|Delivery|Retail,30000.0000,operating,,,,,1,2014-03-30,2015-02-01,2015-02-01,1373
Salesjob,,,closed,,,,,1,2013-01-01,2013-10-22,2013-10-22,670
...,...,...,...,...,...,...,...,...,...,...,...,...
Plix,Advertising|Digital Media|Games|Social Media|T...,400000.0000,closed,,,,,1,2011-01-01,2012-01-01,2012-01-01,1047
ELabsEurope,Internet|Life Sciences|Medical,20000000.0000,closed,,,,,1,1999-08-01,2000-10-23,2000-10-23,843
Capcom groupe,Construction|Optical Communications|Telecommun...,10653150.2487,closed,,,,,1,2014-04-24,2015-09-29,2015-09-29,1068
Vision Software PTY,,15000000.0000,operating,,,,,1,1998-12-25,1999-11-02,1999-11-02,6947


In [401]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52504 entries, Lunchgate to Apparcando
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   category_list      50046 non-null  object        
 1   funding_total_usd  42443 non-null  float64       
 2   status             52504 non-null  object        
 3   country_code       47009 non-null  object        
 4   state_code         45748 non-null  object        
 5   region             46152 non-null  object        
 6   city               46152 non-null  object        
 7   funding_rounds     52504 non-null  int64         
 8   founded_at         52504 non-null  datetime64[ns]
 9   first_funding_at   52504 non-null  datetime64[ns]
 10  last_funding_at    52504 non-null  datetime64[ns]
 11  lifetime           52504 non-null  int64         
dtypes: datetime64[ns](3), float64(1), int64(2), object(6)
memory usage: 7.2+ MB


In [402]:
test[test['category_list'].isnull() & test['funding_total_usd'].isnull() & test['country_code'].isnull()]

Unnamed: 0_level_0,category_list,funding_total_usd,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Indie Broadcast Network,,,,,,,1,2012-01-14,2013-07-17,2013-07-17,988
Desafío Táctico,,,,,,,1,2012-01-01,2013-08-02,2013-08-02,2192
Nemo,,,,,,,1,2013-03-18,2015-01-28,2015-01-28,1271
LaunchCenter 39,,,,,,,1,1998-02-18,2000-02-03,2000-02-03,1248
BorderX Lab,,,,,,,1,2014-09-16,2015-06-15,2015-06-15,989
...,...,...,...,...,...,...,...,...,...,...,...
PittMoss,,,,,,,1,2013-12-13,2015-04-17,2015-04-17,1480
UGIG,,,,,,,1,2009-06-30,2011-04-19,2011-04-19,3107
Himily,,,,,,,1,2013-11-01,2014-08-20,2014-08-20,728
Maboo,,,,,,,1,2014-10-10,2015-07-13,2015-07-13,938


In [403]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52504 entries, Lunchgate to Apparcando
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   category_list      50046 non-null  object        
 1   funding_total_usd  42443 non-null  float64       
 2   status             52504 non-null  object        
 3   country_code       47009 non-null  object        
 4   state_code         45748 non-null  object        
 5   region             46152 non-null  object        
 6   city               46152 non-null  object        
 7   funding_rounds     52504 non-null  int64         
 8   founded_at         52504 non-null  datetime64[ns]
 9   first_funding_at   52504 non-null  datetime64[ns]
 10  last_funding_at    52504 non-null  datetime64[ns]
 11  lifetime           52504 non-null  int64         
dtypes: datetime64[ns](3), float64(1), int64(2), object(6)
memory usage: 7.2+ MB


In [404]:
test.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13125 entries, Crystalsol to RingCentral
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   category_list      12534 non-null  object        
 1   funding_total_usd  10547 non-null  float64       
 2   country_code       11743 non-null  object        
 3   state_code         11430 non-null  object        
 4   region             11536 non-null  object        
 5   city               11538 non-null  object        
 6   funding_rounds     13125 non-null  int64         
 7   founded_at         13125 non-null  datetime64[ns]
 8   first_funding_at   13125 non-null  datetime64[ns]
 9   last_funding_at    13125 non-null  datetime64[ns]
 10  lifetime           13125 non-null  int64         
dtypes: datetime64[ns](3), float64(1), int64(2), object(5)
memory usage: 1.7+ MB


In [405]:
train_indices = train.index
test_indices = test.index

original_column_order = train.columns.tolist()

In [406]:
categorical_cols_with_unknown = ['region', 'state_code', 'city']
categorical_cols_most_frequent = ['category_list','country_code']
numerical_cols = ['funding_total_usd']

In [407]:
# Создание пайплайна для столбцов с пропусками, заполняемыми значением 'unknown'
unknown_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='constant', fill_value='unknown'))  # Заполнение пропусков значением 'unknown'
])

# Создание пайплайна для столбцов с пропусками, заполняемыми наиболее часто встречающимся значением
most_frequent_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent'))  # Заполнение пропусков наиболее часто встречающимся значением
])

# Создание пайплайна для количественных столбцов без масштабирования
numerical_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median'))  # Заполнение пропусков медианой
])

In [408]:
# Применение пайплайнов к соответствующим столбцам
preprocessor = ColumnTransformer(
    transformers=[
        ('unknown_cat', unknown_pipeline, categorical_cols_with_unknown),
        ('most_frequent_cat', most_frequent_pipeline, categorical_cols_most_frequent),
        ('num', numerical_pipeline, numerical_cols)
    ],
    remainder='passthrough'  # Остальные столбцы остаются неизменными
)

In [409]:
# Объединение train и test данных для предварительной обработки
combined_data = pd.concat([train, test])

# Преобразование данных
combined_data_preprocessed = preprocessor.fit_transform(combined_data)

# Получение имен столбцов после преобразования
new_column_names = categorical_cols_with_unknown + categorical_cols_most_frequent + numerical_cols + [col for col in combined_data.columns if col not in (categorical_cols_with_unknown + categorical_cols_most_frequent + numerical_cols)]

# Преобразование обратно в DataFrame с сохранением индексов и имен столбцов
combined_data_preprocessed_df = pd.DataFrame(combined_data_preprocessed, index=combined_data.index, columns=new_column_names)

# Установка столбцов в исходный порядок
combined_data_preprocessed_df = combined_data_preprocessed_df.reindex(columns=original_column_order)

# Разделение обратно на train и test
train = combined_data_preprocessed_df.loc[train_indices]
test = combined_data_preprocessed_df.loc[test_indices].drop(columns=['status'])

# Ограниченный вывод для проверки
train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52504 entries, Lunchgate to Apparcando
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   category_list      52504 non-null  object        
 1   funding_total_usd  52504 non-null  object        
 2   status             52504 non-null  object        
 3   country_code       52504 non-null  object        
 4   state_code         52504 non-null  object        
 5   region             52504 non-null  object        
 6   city               52504 non-null  object        
 7   funding_rounds     52504 non-null  object        
 8   founded_at         52504 non-null  datetime64[ns]
 9   first_funding_at   52504 non-null  datetime64[ns]
 10  last_funding_at    52504 non-null  datetime64[ns]
 11  lifetime           52504 non-null  object        
dtypes: datetime64[ns](3), object(9)
memory usage: 5.2+ MB


In [410]:
test.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13125 entries, Crystalsol to RingCentral
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   category_list      13125 non-null  object        
 1   funding_total_usd  13125 non-null  object        
 2   country_code       13125 non-null  object        
 3   state_code         13125 non-null  object        
 4   region             13125 non-null  object        
 5   city               13125 non-null  object        
 6   funding_rounds     13125 non-null  object        
 7   founded_at         13125 non-null  datetime64[ns]
 8   first_funding_at   13125 non-null  datetime64[ns]
 9   last_funding_at    13125 non-null  datetime64[ns]
 10  lifetime           13125 non-null  object        
dtypes: datetime64[ns](3), object(8)
memory usage: 1.2+ MB


In [414]:
# Преобразование трехбуквенных кодов стран в объекты pycountry
train['country_code_alpha_3'] = train['country_code'].apply(lambda x: pycountry.countries.get(alpha_3=x))
test['country_code_alpha_3'] = test['country_code'].apply(lambda x: pycountry.countries.get(alpha_3=x))

In [416]:
# Создаем функцию для получения континента по трехбуквенному коду страны
def get_continent(country_code):
    try:
        # Получаем трехбуквенный код страны
        alpha_3 = country_code.alpha_3
        # Получаем континент по трехбуквенному коду страны
        return pc.country_alpha2_to_continent_code(pc.country_alpha3_to_country_alpha2(alpha_3))
    except AttributeError:
        # Если не удалось найти континент для данного кода страны, возвращаем None
        return None

# Применение функции к столбцу 'country_code' и создание нового столбца 'continent'
train['continent'] = train['country_code_alpha_3'].apply(get_continent)
test['continent'] = test['country_code_alpha_3'].apply(get_continent)

In [418]:
train['continent'].unique()

array(['EU', 'NA', 'AS', 'OC', 'SA', 'AF', None], dtype=object)

In [419]:
train[train['continent'].isnull()]

Unnamed: 0_level_0,category_list,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime,continent,country_code_alpha_3
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
GECAD ePayment,E-Commerce|Financial Services|Payments,2000000.0,operating,ROM,10,Bucharest,Bucharest,1,2004-01-01,2004-01-01,2004-01-01,5114,,
GECAD NET,CAD|Information Technology|Web Design,1000.0,operating,ROM,10,Bucharest,Bucharest,1,1999-01-01,1992-01-01,1992-01-01,6940,,
People Centric,Human Resources,2000000.0,operating,ROM,10,Bucharest,Bucharest,1,2009-01-01,2007-10-15,2007-10-15,3287,,
PressLabs,Blogging Platforms|Web Hosting,100000.0,operating,ROM,36,Timisoara,Timisoara,1,2009-11-01,2011-04-01,2011-04-01,2983,,
TxtFeedback,Mobile,38484.0,operating,ROM,13,Cluj-Napoca,Cluj,1,2012-01-01,2013-04-03,2013-04-03,2192,,
Tjobs S.A.,Enterprise Software|Recruiting,668100.0,operating,ROM,27,Cluj-Napoca,Targu-mures,3,2011-01-01,2011-01-01,2014-05-14,2557,,
SmartDreamers,Curated Web|Human Resources|Recruiting,2000000.0,operating,ROM,27,Cluj-Napoca,Targu-mures,1,2013-01-01,2015-02-02,2015-02-02,1826,,
Style Jukebox,Audio|Cloud Computing|Consumers|Entertainment|...,310457.0,operating,ROM,36,Timisoara,Timisoara,2,2012-01-01,2012-01-01,2014-05-07,2192,,
Ubongo,Technology,2000000.0,operating,TAN,23,TZA - Other,Dar Es Salaam,1,2013-04-20,2015-01-16,2015-01-16,1717,,
Green Horse Games,Games,2000000.0,operating,ROM,10,Bucharest,Bucharest,2,2013-05-30,2013-06-10,2015-01-20,1677,,


import pycountry

#Создаем функцию для получения континента по трехбуквенному коду страны
def get_continent(country_code):
    try:
        # Получаем континент по трехбуквенному коду страны
        country = pycountry.countries.get(alpha_3=country_code)
        continent = country.continent.name
        return continent
    except AttributeError:
        # Если не удалось найти континент для данного кода страны, возвращаем None
        return None

In [415]:
train

Unnamed: 0_level_0,category_list,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime,continent,country_code_alpha_3
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Lunchgate,Online Reservations|Restaurants,828626.0000,operating,CHE,25,Zurich,Zürich,2,2009-12-31,2011-05-01,2014-12-01,2923,,"Country(alpha_2='CH', alpha_3='CHE', flag='🇨🇭'..."
EarLens,Manufacturing|Medical|Medical Devices,42935019.0000,operating,USA,CA,SF Bay Area,Redwood City,4,2005-01-01,2010-05-04,2014-02-25,4748,,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'..."
Reviva Pharmaceuticals,Biotechnology,35456381.0000,operating,USA,CA,SF Bay Area,San Jose,3,2006-01-01,2012-08-20,2014-07-02,4383,,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'..."
Sancilio and Company,Health Care,22250000.0000,operating,USA,unknown,unknown,unknown,3,2004-01-01,2011-09-01,2014-07-18,5114,,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'..."
WireTough Cylinders,Manufacturing,2000000.0000,operating,USA,VA,VA - Other,Bristol,1,2010-09-30,2012-02-01,2012-02-01,2650,,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Videostream,Entertainment,2000000.0000,operating,CAN,ON,Toronto,Kitchener,1,2012-01-01,2014-03-01,2014-03-01,2192,,"Country(alpha_2='CA', alpha_3='CAN', flag='🇨🇦'..."
Hello Curry,Hospitality,500000.0000,operating,IND,2,Hyderabad,Hyderabad,1,2012-11-28,2014-03-07,2014-03-07,1860,,"Country(alpha_2='IN', alpha_3='IND', flag='🇮🇳'..."
Taskforce,Email|Messaging|Productivity Software,50000.0000,operating,USA,CA,SF Bay Area,San Francisco,3,2010-07-01,2009-06-14,2011-01-01,2741,,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'..."
NetScaler,Security,13000000.0000,operating,USA,CA,SF Bay Area,San Jose,6,1997-12-01,1998-11-30,2004-03-01,7336,,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'..."


In [384]:
import pycountry_convert as pc

# Функция для преобразования трехбуквенного кода страны в континент
def get_continent(country_code):
    try:
        return pc.country_alpha2_to_continent_code(pc.country_alpha3_to_country_alpha2(country_code))
    except KeyError:
        return None

# Применение функции к столбцу 'country_code' и создание нового столбца 'continent'
train['continent'] = train['country_code'].apply(get_continent)
test['continent'] = test['country_code'].apply(get_continent)

TypeError: object of type 'Country' has no len()

In [387]:
train

Unnamed: 0_level_0,category_list,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,first_funding_at,last_funding_at,lifetime,continent
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Lunchgate,Online Reservations|Restaurants,828626.0000,operating,"Country(alpha_2='CH', alpha_3='CHE', flag='🇨🇭'...",25,Zurich,Zürich,2,2009-12-31,2011-05-01,2014-12-01,2923,EU
EarLens,Manufacturing|Medical|Medical Devices,42935019.0000,operating,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'...",CA,SF Bay Area,Redwood City,4,2005-01-01,2010-05-04,2014-02-25,4748,
Reviva Pharmaceuticals,Biotechnology,35456381.0000,operating,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'...",CA,SF Bay Area,San Jose,3,2006-01-01,2012-08-20,2014-07-02,4383,
Sancilio and Company,Health Care,22250000.0000,operating,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'...",unknown,unknown,unknown,3,2004-01-01,2011-09-01,2014-07-18,5114,
WireTough Cylinders,Manufacturing,2000000.0000,operating,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'...",VA,VA - Other,Bristol,1,2010-09-30,2012-02-01,2012-02-01,2650,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
Videostream,Entertainment,2000000.0000,operating,"Country(alpha_2='CA', alpha_3='CAN', flag='🇨🇦'...",ON,Toronto,Kitchener,1,2012-01-01,2014-03-01,2014-03-01,2192,
Hello Curry,Hospitality,500000.0000,operating,"Country(alpha_2='IN', alpha_3='IND', flag='🇮🇳'...",2,Hyderabad,Hyderabad,1,2012-11-28,2014-03-07,2014-03-07,1860,AS
Taskforce,Email|Messaging|Productivity Software,50000.0000,operating,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'...",CA,SF Bay Area,San Francisco,3,2010-07-01,2009-06-14,2011-01-01,2741,
NetScaler,Security,13000000.0000,operating,"Country(alpha_2='US', alpha_3='USA', flag='🇺🇸'...",CA,SF Bay Area,San Jose,6,1997-12-01,1998-11-30,2004-03-01,7336,


In [342]:
print(train['country_code'].unique())

['CHE' 'USA' 'GBR' 'RUS' 'ESP' 'FRA' 'SWE' 'IND' 'KOR' 'AUS' 'TWN' 'CHN'
 'HUN' 'CAN' 'FIN' 'BRA' 'EGY' 'PRT' 'ISR' 'CHL' 'SVK' 'NLD' 'ARG' 'ARE'
 'JPN' 'IRL' 'DEU' 'LBN' 'EST' 'IDN' 'BEL' 'MEX' 'DNK' 'ITA' 'GRC' 'ROM'
 'TUR' 'SGP' 'SAU' 'MYS' 'NGA' 'QAT' 'VNM' 'BGR' 'GHA' 'UGA' 'JOR' 'AUT'
 'PAK' 'NZL' 'HKG' 'ZAF' 'LVA' 'NOR' 'HRV' 'VEN' 'PER' 'LUX' 'SVN' 'POL'
 'PHL' 'NIC' 'CZE' 'ISL' 'PAN' 'URY' 'BGD' 'MCO' 'GTM' 'THA' 'TTO' 'UKR'
 'KEN' 'CRI' 'DZA' 'LTU' 'CYM' 'MUS' 'BLR' 'SLV' 'COL' 'MLT' 'PSE' 'BLZ'
 'CYP' 'MMR' 'MKD' 'KHM' 'GIB' 'SRB' 'DOM' 'BWA' 'BLM' 'PRY' 'BMU' 'TAN'
 'LIE' 'GRD' 'UZB' 'GEO' 'SEN' 'ALB' 'ECU' 'MOZ' 'LKA' 'LAO' 'TUN' 'HND'
 'ZWE' 'BAH' 'MDA' 'MAF' 'BHR' 'AZE' 'MAR' 'KWT' 'IRN' 'GGY' 'KNA' 'PRI'
 'OMN' 'KAZ' 'JAM' 'NPL' 'ARM' 'TGO' 'RWA' 'BRN' 'JEY' 'SOM' 'CMR' 'MNE'
 'SYC' 'ZMB']
