# «Анализ исторических данных стартапов для формирования инвестиционной стратегии»

**Автор:** Александр  
**Дата:** 26.03.25

## Цель проекта 

**Цели проекта**
Подготовить датасет и проверить, что данные в нём соответствуют здравому смыслу, а также ответить на вопросы заказчика как о предобработке, так и о значении данных для бизнеса.

Вам предстоит принять решения:

по каким столбцам можно объединять данные из разных таблиц;

можно ли доверять данным о сотрудниках стартапов и их образовании;

что значат покупки за 0 или за 1 доллар;

какая цена в зависимости от категории стартапов и количества раундов финансирования перед его покупкой;

как рассчитать и отобразить численные показатели и динамику.

Предобработка и валидация данных

Проверить целостность и корректность данных (пропуски, аномалии, дубликаты).

Определить ключевые столбцы для объединения таблиц.

Оценить достоверность данных о сотрудниках и их образовании.

Ответы на ключевые бизнес-вопросы

Интерпретация "странных" сделок (покупки за 
0
или
0или1).

**Анализ зависимости цены покупки стартапа от:**

Категории (индустрия).

Количества раундов финансирования.

Расчет и визуализация динамики ключевых метрик (например, рост стоимости стартапов со временем).

Выявление индикаторов успешных сделок

Поиск признаков, которые могут указывать на высокую вероятность успешной перепродажи стартапа (например, связь между образованием основателей и ценой выхода).

Формирование выводов для бизнес-модели

Рекомендации по выбору целевых стартапов для инвестиций.

Оценка рисков искажений в данных.

**Ключевые вопросы заказчика**
Объединение данных: Какие столбцы использовать для корректного слияния таблиц?

Доверие к данным: Насколько надежна информация о сотрудниках и их образовании?

Аномальные сделки: Что означают покупки за 
0
/
0/1? (Возможные гипотезы: юридические сделки, ошибки в данных, тестовые транзакции.)

Ценообразование: Как цена связана с категорией стартапа и числом раундов?

Визуализация: Как наглядно показать динамику и ключевые метрики?

**Описание данных**

**Таблица acquisition**

Содержит информацию о покупках одними компаниями других компаний:

id — идентификатор покупки.

acquiring_company_id — идентификатор покупающей компании.

acquired_company_id — идентификатор покупаемой компании.

term_code — варианты расчёта.

price_amount — сумма сделки.

acquired_at — дата сделки.

**Таблица company_and_rounds**

Содержит информацию о компаниях и раундах финансирования:

company ID — идентификатор компании.

name — название компании.

category code — категория области деятельности компании.

status — статус компании.

founded at — дата инвестирования.

closed at — дата закрытия компании.

domain — официальный сайт компании.

network username — ник компании в сети.

country code — код страны компании.

investment rounds — число инвестиционных раундов.

funding rounds — число раундов финансирования.

funding total — сумма финансирования.

milestones — вехи финансирования.

funding round id — идентификатор этапа финансирования.

company id — идентификатор компании.

funded at — дата финансирования.

funding round type — тип финансирования.

raised amount — сумма финансирования.

pre money valuation — предварительная денежная оценка.

participants — число участников.

is first round — является ли раунд первым.

is last round — является раунд последним.

**Таблица education**

Содержит информацию об образовании сотрудника:

id — идентификатор записи об образовании.

person_id — идентификатор работника.

instituition — название учебного заведения.

graduated_at — дата получения образования.

**Таблица people**

Содержит информацию о сотрудниках:

id — идентификатор сотрудника.

first_name — имя сотрудника.

last_name — фамилия сотрудника.

company_id — идентификатор компании.

network_username — ник в социальных сетях.

**Таблица degrees**

Содержит информацию о типе образования сотрудника:

id — идентификатор записи.

object_id — идентификатор сотрудника.

degree_type — тип образования.

subject — специальность.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Загрузка данных
acquisition = pd.read_csv('acquisition.csv')
company_rounds = pd.read_csv('company_and_rounds.csv')
education = pd.read_csv('education.csv')
people = pd.read_csv('people.csv')
degrees = pd.read_csv('degrees.csv')

In [3]:
# Просмотр структуры данных
display(acquisition.head())
display(acquisition.info())
display(acquisition.describe())


Unnamed: 0,id,acquiring_company_id,acquired_company_id,term_code,price_amount,acquired_at
0,1,11,10,,20000000,2007-05-30
1,7,59,72,cash,60000000,2007-07-01
2,8,24,132,cash,280000000,2007-05-01
3,9,59,155,cash,100000000,2007-06-01
4,10,212,215,cash,25000000,2007-07-01


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9407 entries, 0 to 9406
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   id                    9407 non-null   int64 
 1   acquiring_company_id  9407 non-null   int64 
 2   acquired_company_id   9407 non-null   int64 
 3   term_code             1831 non-null   object
 4   price_amount          9407 non-null   int64 
 5   acquired_at           9378 non-null   object
dtypes: int64(4), object(2)
memory usage: 441.1+ KB


None

Unnamed: 0,id,acquiring_company_id,acquired_company_id,price_amount
count,9407.0,9407.0,9407.0,9407.0
mean,5256.981822,49787.284575,71693.030722,393296500.0
std,3005.794674,69060.422026,73026.433729,26821980000.0
min,1.0,4.0,4.0,0.0
25%,2682.5,3246.0,23124.0,0.0
50%,5178.0,26107.0,45126.0,0.0
75%,7841.5,56151.0,81203.0,23432.0
max,10529.0,285984.0,286176.0,2600000000000.0


In [4]:
display(company_rounds.head())
display(company_rounds.info())

Unnamed: 0,company ID,name,category code,status,founded at,closed at,domain,network username,country code,investment rounds,...,milestones,funding round id,company id,funded at,funding round type,raised amount,pre money valuation,participants,is first round,is last round
0,1.0,Wetpaint,web,operating,2005-10-17,,wetpaint-inc.com,BachelrWetpaint,USA,0.0,...,5.0,888.0,1.0,2005-10-01,series-a,5250000.0,0.0,2.0,0.0,1.0
1,1.0,Wetpaint,web,operating,2005-10-17,,wetpaint-inc.com,BachelrWetpaint,USA,0.0,...,5.0,889.0,1.0,2007-01-01,series-b,9500000.0,0.0,3.0,0.0,0.0
2,1.0,Wetpaint,web,operating,2005-10-17,,wetpaint-inc.com,BachelrWetpaint,USA,0.0,...,5.0,2312.0,1.0,2008-05-19,series-c+,25000000.0,0.0,4.0,1.0,0.0
3,10.0,Flektor,games_video,acquired,,,flektor.com,,USA,0.0,...,0.0,,,,,,,,,
4,100.0,There,games_video,acquired,,,there.com,,USA,0.0,...,4.0,,,,,,,,,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 217774 entries, 0 to 217773
Data columns (total 22 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   company  ID            217472 non-null  float64
 1   name                   217472 non-null  object 
 2   category  code         143886 non-null  object 
 3   status                 217472 non-null  object 
 4   founded  at            109956 non-null  object 
 5   closed  at             3449 non-null    object 
 6   domain                 147159 non-null  object 
 7   network  username      95534 non-null   object 
 8   country  code          108607 non-null  object 
 9   investment  rounds     217472 non-null  float64
 10  funding  rounds        217472 non-null  float64
 11  funding  total         217472 non-null  float64
 12  milestones             217472 non-null  float64
 13  funding  round  id     52928 non-null   float64
 14  company  id            52928 non-nul

None

In [5]:
display(education.head())
display(education.info())

display(people.head())
display(people.info())

display(degrees.head())
display(degrees.info())

Unnamed: 0,id,person_id,instituition,graduated_at
0,1,6117,,
1,2,6136,"Washington University, St. Louis",1990-01-01
2,3,6136,Boston University,1992-01-01
3,4,6005,University of Greenwich,2006-01-01
4,5,5832,Rice University,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109610 entries, 0 to 109609
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   id            109610 non-null  int64 
 1   person_id     109610 non-null  int64 
 2   instituition  109555 non-null  object
 3   graduated_at  58054 non-null   object
dtypes: int64(2), object(2)
memory usage: 3.3+ MB


None

Unnamed: 0,id,first_name,last_name,company_id,network_username
0,10,Mark,Zuckerberg,5.0,
1,100,Peter,Lester,27.0,
2,1000,Dr. Steven,E. Saunders,292.0,
3,10000,Neil,Capel,2526.0,
4,100000,Sue,Pilsch,,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 226709 entries, 0 to 226708
Data columns (total 5 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   id                226709 non-null  int64  
 1   first_name        226704 non-null  object 
 2   last_name         226708 non-null  object 
 3   company_id        34615 non-null   float64
 4   network_username  38867 non-null   object 
dtypes: float64(1), int64(1), object(3)
memory usage: 8.6+ MB


None

Unnamed: 0,id,object_id,degree_type,subject
0,1,p:6117,MBA,
1,2,p:6136,BA,"English, French"
2,3,p:6136,MS,Mass Communication
3,4,p:6005,MS,Internet Technology
4,5,p:5832,BCS,"Computer Science, Psychology"


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109610 entries, 0 to 109609
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   id           109610 non-null  int64 
 1   object_id    109610 non-null  object
 2   degree_type  98392 non-null   object
 3   subject      81298 non-null   object
dtypes: int64(1), object(3)
memory usage: 3.3+ MB


None

**Вывод о полученных данных**
**1. Объём данных:**
acquisition: 9,407 записей о покупках компаний

company_rounds: 217,774 записи о компаниях и раундах финансирования

education: 109,610 записей об образовании

people: 226,709 записей о сотрудниках

degrees: 109,610 записей о типах образования

**2. Соответствие описанию:**
Данные в целом соответствуют описанию, но есть несоответствия:

В таблице company_rounds названия столбцов содержат лишние пробелы (например "company ID" вместо "company_ID")

Некоторые столбцы, описанные в документации, отсутствуют или имеют другие названия

**3. Пропущенные значения:**
acquisition:

term_code - 80.5% пропусков

acquired_at - 0.3% пропусков

company_rounds:

Много пропусков в ключевых столбцах (category_code - 34%, founded_at - 49.5%)

Данные о раундах финансирования (с 13 по 21 столбец) содержат ~75% пропусков

education:

instituition - 0.05% пропусков

graduated_at - 47% пропусков

people:

company_id - 84.7% пропусков

network_username - 82.8% пропусков

degrees:

degree_type - 10.2% пропусков

subject - 25.8% пропусков

**4. Типы данных:**
В основном используются правильные типы:

Числовые идентификаторы - int64/float64

Даты - object (требуется преобразование в datetime)

Текстовые данные - object

Основные проблемы:

Даты хранятся как строки (object)

Некоторые числовые поля (например price_amount) имеют экстремальные значения (макс. 2.6 трлн)

**Предобработка данных**
Исправление названий столбцов (company_rounds)

In [6]:
# Преобразование названий столбцов в snake_case
company_rounds.columns = (
    company_rounds.columns
    .str.strip()  # Удаление пробелов в начале и конце
    .str.replace(' ', '_')  # Замена пробелов на подчеркивания
    .str.replace('__', '_')  # Замена двойных подчеркиваний на одиночные
    .str.lower()  # Приведение к нижнему регистру
)

# Проверка изменений
print(company_rounds.columns)


Index(['company_id', 'name', 'category_code', 'status', 'founded_at',
       'closed_at', 'domain', 'network_username', 'country_code',
       'investment_rounds', 'funding_rounds', 'funding_total', 'milestones',
       'funding_round_id', 'company_id', 'funded_at', 'funding_round_type',
       'raised_amount', 'pre_money_valuation', 'participants',
       'is_first_round', 'is_last_round'],
      dtype='object')


**acquisition:
term_code → заменить пропуски на "unknown"**

In [7]:
# Замена пропущенных значений в столбце term_code на строку "unknown"
acquisition['term_code'] = acquisition['term_code'].fillna('unknown')

# Проверка изменений
print(acquisition['term_code'].head())


0    unknown
1       cash
2       cash
3       cash
4       cash
Name: term_code, dtype: object


In [8]:
# Удаление строк с пропущенными значениями в столбце acquired_at
acquisition = acquisition.dropna(subset=['acquired_at'])

# Проверка изменений
print(acquisition.info())


<class 'pandas.core.frame.DataFrame'>
Int64Index: 9378 entries, 0 to 9406
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   id                    9378 non-null   int64 
 1   acquiring_company_id  9378 non-null   int64 
 2   acquired_company_id   9378 non-null   int64 
 3   term_code             9378 non-null   object
 4   price_amount          9378 non-null   int64 
 5   acquired_at           9378 non-null   object
dtypes: int64(4), object(2)
memory usage: 512.9+ KB
None


In [9]:
# Замена пропущенных значений в указанных столбцах на строку "unknown"
company_rounds['category_code'] = company_rounds['category_code'].fillna('unknown')
company_rounds['founded_at'] = company_rounds['founded_at'].fillna('unknown')
company_rounds['country_code'] = company_rounds['country_code'].fillna('unknown')

# Проверка изменений
print(company_rounds[['category_code', 'founded_at', 'country_code']].head())


  category_code  founded_at country_code
0           web  2005-10-17          USA
1           web  2005-10-17          USA
2           web  2005-10-17          USA
3   games_video     unknown          USA
4   games_video     unknown          USA


In [10]:
# Оставляем только записи с полной информацией в указанных столбцах
complete_funding_data = company_rounds.dropna(subset=['funding_round_id', 'raised_amount'])

# Проверка изменений
print(complete_funding_data.info())



<class 'pandas.core.frame.DataFrame'>
Int64Index: 52928 entries, 0 to 217773
Data columns (total 22 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   company_id           52626 non-null  float64
 1   name                 52626 non-null  object 
 2   category_code        52928 non-null  object 
 3   status               52626 non-null  object 
 4   founded_at           52928 non-null  object 
 5   closed_at            2943 non-null   object 
 6   domain               50785 non-null  object 
 7   network_username     34013 non-null  object 
 8   country_code         52928 non-null  object 
 9   investment_rounds    52626 non-null  float64
 10  funding_rounds       52626 non-null  float64
 11  funding_total        52626 non-null  float64
 12  milestones           52626 non-null  float64
 13  funding_round_id     52928 non-null  float64
 14  company_id           52928 non-null  float64
 15  funded_at            52680 non-null

In [11]:
# Замена пропущенных значений в столбце graduated_at на строку "unknown"
education['graduated_at'] = education['graduated_at'].fillna('unknown')

# Проверка изменений
print(education['graduated_at'].head())


0       unknown
1    1990-01-01
2    1992-01-01
3    2006-01-01
4       unknown
Name: graduated_at, dtype: object


**Коррекция типов данных**

In [12]:
# Преобразование столбцов с датами в формат datetime
acquisition['acquired_at'] = pd.to_datetime(acquisition['acquired_at'], errors='coerce')


In [13]:
# Преобразование столбца founded_at и closed_at в формат datetime
company_rounds['founded_at'] = pd.to_datetime(company_rounds['founded_at'], errors='coerce')
company_rounds['closed_at'] = pd.to_datetime(company_rounds['closed_at'], errors='coerce')


In [14]:
# Преобразование столбца graduated_at в формат datetime
education['graduated_at'] = pd.to_datetime(education['graduated_at'], errors='coerce')


In [15]:
print(acquisition['acquired_at'].head())
print(company_rounds[['founded_at', 'closed_at']].head())
print(education['graduated_at'].head())


0   2007-05-30
1   2007-07-01
2   2007-05-01
3   2007-06-01
4   2007-07-01
Name: acquired_at, dtype: datetime64[ns]
  founded_at closed_at
0 2005-10-17       NaT
1 2005-10-17       NaT
2 2005-10-17       NaT
3        NaT       NaT
4        NaT       NaT
0          NaT
1   1990-01-01
2   1992-01-01
3   2006-01-01
4          NaT
Name: graduated_at, dtype: datetime64[ns]


In [16]:
# Приведение столбцов к типу category
company_rounds['status'] = company_rounds['status'].astype('category')
company_rounds['category_code'] = company_rounds['category_code'].astype('category')


In [17]:
# Приведение столбца term_code к типу category
acquisition['term_code'] = acquisition['term_code'].astype('category')


In [18]:
print(company_rounds.dtypes)
print(acquisition.dtypes)


company_id                    float64
name                           object
category_code                category
status                       category
founded_at             datetime64[ns]
closed_at              datetime64[ns]
domain                         object
network_username               object
country_code                   object
investment_rounds             float64
funding_rounds                float64
funding_total                 float64
milestones                    float64
funding_round_id              float64
company_id                    float64
funded_at                      object
funding_round_type             object
raised_amount                 float64
pre_money_valuation           float64
participants                  float64
is_first_round                float64
is_last_round                 float64
dtype: object
id                               int64
acquiring_company_id             int64
acquired_company_id              int64
term_code                     cat

**Объединение таблиц**

In [19]:
# Сначала проверим дубликаты столбцов в company_rounds
print("Дубликаты столбцов в company_rounds:", 
      company_rounds.columns[company_rounds.columns.duplicated()])



Дубликаты столбцов в company_rounds: Index(['company_id'], dtype='object')


In [40]:
# Удалим дубликаты столбцов
company_rounds = company_rounds.loc[:, ~company_rounds.columns.duplicated()]

# Теперь выполним объединение
main_merged = pd.merge(
    acquisition,
    company_rounds,
    left_on='acquired_company_id',
    right_on='company_id',  # Используем только один столбец company_id
    how='left'
)

# Проверка результатов
print(f"Успешно объединено. Размер таблицы: {main_merged.shape}")


Успешно объединено. Размер таблицы: (11724, 27)


In [43]:
# Преобразуем типы данных перед объединением
print("Тип id_y до преобразования:", people_education['id_y'].dtype)
print("Тип object_id до преобразования:", degrees['object_id'].dtype)

people_education['id_y'] = people_education['id_y'].astype(str)
degrees['object_id'] = degrees['object_id'].astype(str)

print("\nТип id_y после преобразования:", people_education['id_y'].dtype)
print("Тип object_id после преобразования:", degrees['object_id'].dtype)

# Теперь выполняем объединение
print("\nРазмер people_education до объединения:", people_education.shape)
print("Размер degrees до объединения:", degrees.shape)

people_full = pd.merge(
    people_education,
    degrees,
    left_on='id_y',
    right_on='object_id',
    how='left'
)

print("\nРезультаты объединения:")
print("Размер итоговой таблицы:", people_full.shape)
print("Количество совпадений:", people_full['object_id'].notna().sum())
print("Процент совпадений:", round(people_full['object_id'].notna().mean()*100, 2), "%")

# Покажем первые 5 строк для проверки
print("\nПервые 5 строк объединенной таблицы:")
display(people_full.head())


Тип id_y до преобразования: object
Тип object_id до преобразования: object

Тип id_y после преобразования: object
Тип object_id после преобразования: object

Размер people_education до объединения: (267694, 9)
Размер degrees до объединения: (109610, 4)

Результаты объединения:
Размер итоговой таблицы: (267694, 13)
Количество совпадений: 0
Процент совпадений: 0.0 %

Первые 5 строк объединенной таблицы:


Unnamed: 0,id_x,first_name,last_name,company_id,network_username,id_y,person_id,instituition,graduated_at,id,object_id,degree_type,subject
0,10,Mark,Zuckerberg,5.0,,2415.0,10.0,Harvard University,NaT,,,,
1,100,Peter,Lester,27.0,,,,,NaT,,,,
2,1000,Dr. Steven,E. Saunders,292.0,,,,,NaT,,,,
3,10000,Neil,Capel,2526.0,,,,,NaT,,,,
4,100000,Sue,Pilsch,,,,,,NaT,,,,
