# Проект: Исследование стартапов

* Автор: Колдашев Виталий Андреевич
* Дата: 07.02.2025
* Ссылка на GitHub: https://github.com/PsychoCoderrr/YPracticumProjects/blob/main/FinalPythonProject.ipynb

## Введение

Стартапы играют ключевую роль в инновационной экономике, привлекая инвестиции, развивая технологии и создавая новые рынки. Однако не все стартапы успешно проходят путь от идеи до устойчивого бизнеса, и многие из них сталкиваются с трудностями в поиске финансирования, найме специалистов и выборе стратегии развития.

Цель данного исследования — проанализировать данные о стартапах, их финансировании и сотрудниках, чтобы выявить закономерности, влияющие на успешность компаний. В рамках проекта будет проведена предобработка и исследование нескольких датасетов, включающих информацию о раундах инвестиций, составе команд, образовании сотрудников и статусе компаний.

Основные задачи исследования:
* Оценить объем и динамику финансирования стартапов по годам.
* Изучить связь между размером компании и полнотой информации о сотрудниках.
* Проверить возможность объединения данных по ключевым параметрам.
* Проанализировать выбросы в данных, связанные с финансированием и продажей компаний.
* Исследовать, сколько раундов финансирования проходит стартап перед приобретением.

Результаты анализа помогут определить факторы, способствующие успеху стартапов, а также дадут представление о типичных инвестиционных тенденциях. Полученные выводы могут быть полезны как инвесторам, так и самим стартапам при принятии стратегических решений.

## Шаг 1. Знакомство с данными: загрузка и первичная предобработка

### Загрузка данных

In [1]:
!pip install phik -U
!pip install pandas -U

zsh:1: command not found: pip
zsh:1: command not found: pip


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
df_acquisition = pd.read_csv('https://code.s3.yandex.net/datasets/acquisition.csv')

In [4]:
df_company = pd.read_csv('https://code.s3.yandex.net/datasets/company_and_rounds.csv')

In [5]:
df_degrees = pd.read_csv('https://code.s3.yandex.net/datasets/degrees.csv')

In [6]:
df_education = pd.read_csv('https://code.s3.yandex.net/datasets/education.csv')

In [7]:
df_fund = pd.read_csv('https://code.s3.yandex.net/datasets/fund.csv')

In [8]:
df_investment = pd.read_csv('https://code.s3.yandex.net/datasets/investment.csv')

In [None]:
df_people = pd.read_csv('https://code.s3.yandex.net/datasets/people.csv')

### 1.1. Вывод общей информации, исправление названия столбцов

In [None]:
df_acquisition.info()

In [None]:
df_acquisition.head()

In [None]:
df_company.info()

In [None]:
df_company.head(20)

In [None]:
df_degrees.info()

In [None]:
df_degrees.head()

In [None]:
df_education.info()

In [None]:
df_education.head(15)

In [None]:
df_fund.info()

In [None]:
df_fund.head()

In [None]:
df_investment.info()

In [None]:
df_investment.head()

In [None]:
df_people.info()

In [None]:
df_people.head(35)

После вывода общей информации о датасетах мы видим проблему в названии переменных в датасете df_company, приведем их к стилю snake case

In [None]:
df_company.columns

In [None]:
snake_case_columns = ['company_id', 'name', 'category_code', 'status', 'founded_at',
       'closed_at', 'domain', 'network_username', 'country_code',
       'investment_rounds', 'funding_rounds', 'funding_total', 'milestones',
       'funding_round_id', 'company_id', 'funded_at',
       'funding_round_type', 'raised_amount', 'pre_money_valuation',
       'participants', 'is_first_round', 'is_last_round']
df_company.columns = snake_case_columns
df_company.columns

Провели изменение названий переменных

### 1.2. Смена типов и анализ пропусков

Видим, что столбцы с датами представлены типом данных object, что не позволяет выполнять с ними те операции, которые можно обычно выполнять с датами в pandas, приведем их к типу datetime64

In [None]:
df_acquisition['acquired_at'] = df_acquisition['acquired_at'].astype('datetime64[ns]')

In [None]:
df_acquisition.info()

In [None]:
df_fund['founded_at'] = df_fund['founded_at'].astype('datetime64[ns]')

In [None]:
df_fund.info()

In [None]:
name_array = ['founded_at', 'closed_at', 'funded_at']
for name in name_array:
    df_company[name] = df_company[name].astype('datetime64[ns]')

In [None]:
df_company.info()

Мы успешно поменяли тип данных на datetime64[ns] в необходимых местах

Полнота данных является достаточной для выполнения задач проекта

## Шаг 2. Предобработка данных, предварительное исследование

### 2.1. Раунды финансирования по годам

Задание необходимо выполнить без объединения и дополнительной предобработки на основе датасета `company_and_rounds.csv`.

* Составьте сводную таблицу по годам, в которой на основании столбца `raised_amount` для каждого года указан:

  * типичный размер средств, выделяемый в рамках одного раунда;
  * общее количество раундов финансирования за этот год.

* Оставьте в таблице информацию только для тех лет, для которых есть информация о более чем 50 раундах финансирования.

* На основе получившейся таблицы постройте график, который будет отражать динамику типичного размера средств, которые стартапы получали в рамках одного раунда финансирования.

На основе полученных данных ответьте на вопросы:

* В каком году типичный размер собранных в рамках одного раунда средств был максимален?

* Какая тенденция по количеству раундов и выделяемых в рамках каждого раунда средств наблюдалась в 2013 году?

In [None]:
df_company['year'] = df_company['funded_at'].dt.year

summary = df_company.pivot_table(
    index='year', 
    values='raised_amount', 
    aggfunc=['median', 'count']
).reset_index()
summary.columns = ['year', 'typical_raised_amount', 'num_rounds']
summary = summary[summary['num_rounds'] > 50]
display(summary)
plt.figure(figsize=(12, 6))
plt.plot(summary['year'], summary['typical_raised_amount'], marker='o', linestyle='-', color='b')
plt.xlabel("Год")
plt.ylabel("Типичный размер инвестиций ($)")
plt.title("Динамика типичного размера инвестиций в рамках одного раунда")
plt.grid(True)
plt.show()



Используя полученные результаты, можно сделать вывод, что типичный размер собранных в рамках одного раунда средств был максимален в 2005 году.
А также видим, что в 2013 году наблюдалось увеличение количества раундов, а так же видим начало увеличения типичного размера средств собранных в рамках одного раунда после длительного спада

### 2.2. Люди и их образование

Заказчик хочет понять, зависит ли полнота сведений о сотрудниках (например, об их образовании) от размера компаний.

* Оцените, насколько информация об образовании сотрудников полна. Используя датасеты `people.csv` и `education.csv`, разделите все компании на несколько групп по количеству сотрудников и оцените среднюю долю сотрудников без информации об образовании в каждой из групп. Обоснуйте выбранные границы групп.

* Оцените, возможно ли для выполнения задания присоединить к этим таблицам ещё и таблицу `degrees.csv`.

In [None]:
df_edu_merged = pd.merge(df_people, df_education, left_on = 'id', right_on = 'person_id', how = 'left')
df_edu_merged['has_education'] = df_edu_merged['instituition'].notna()

df_company_edu = df_edu_merged.groupby('company_id').agg(
    total_employees=('id_x', 'count'),  # Общее число сотрудников в компании
    employees_with_higher_edu=('has_education', 'sum'),  # Число сотрудников с образованием
)
df_company_edu['employees_without_higher_edu'] = df_company_edu['total_employees'] - df_company_edu['employees_with_higher_edu']


def categorize_company(size):
    if size < 10:
        return "Маленькая"
    elif size < 100:
        return "Средняя"
    elif size < 1000:
        return "Крупная"
    else:
        return "Очень крупная"
        
df_company_edu['company_size_group'] = df_company_edu['total_employees'].apply(categorize_company)
df_company_edu['share_without_higher_edu'] = df_company_edu['employees_without_higher_edu'] / df_company_edu['total_employees']
education_summary = df_company_edu.groupby('company_size_group')['share_without_higher_edu'].median().reset_index()

education_summary.head()

После исследования мы можем сделать вывод, что больше всего людей без указанного высшего образования именно в маленьких компаниях. Я использовал для разделения на величину компаний лографимическое увеличение.

### 2.3. Объединять или не объединять — вот в чём вопрос

Некоторые названия столбцов встречаются в датасетах чаще других. И, например, в результате предварительной проверки датасетов было выяснено, что столбец `company_id` подходит для объединения данных, так как большая часть значений встречается в разных датасетах не один, а несколько раз. Этот столбец может быть использован для объединения данных.

* Установите, подходит ли для объединения данных столбец `network_username`, который встречается в нескольких датасетах. Нам необходимо понимать, дублируется ли для разных датасетов информация в столбцах с таким названием, и если да — то насколько часто.

* Оцените, можно ли использовать столбцы с именем `network_username` для объединения данных.

Попробуем заджойнить датасеты по столбцам network_username для того, скорее всего они должны оказаться небольшими, так как в разных датасетах эти столбцы отвечают за разные вещи, где-то за username фонда, где-то за username пользователя в компании и т.д.

In [None]:
df_company_clean = df_company.dropna(subset=['network_username'])
df_people_clean = df_people.dropna(subset=['network_username'])
df_fund_clean = df_fund.dropna(subset=['network_username'])
df_company_people_merged = pd.merge(df_company_clean['network_username'], df_people_clean['network_username'], on = 'network_username', how = 'inner')
df_company_people_merged.head(15)