# Исследование данных финансовой компании

## Цель и задачи

Цель: провести исследовательский анализ данных финансовой компании предоставляющей льготные займы стартапам для разработки бизнес-модели компании, основываясь на исторических данных.

Задачи:

1. Загрузить данные и познакомиться с их содержимым.
2. Провести предобработку данных.
3. Провести исследовательский анализ данных.
4. Сформулировать выводы по проведенному анализу.

## Данные

Для анализа были отобраны данные финансовой компании, предоставляющей льготные займы. Данные состоят из 5 датасетов:

[Данные предоставлены Яндекс Практикум](https://clck.ru/3Nkist)    

## Структура проекта 

1. Загрузка данных и знакомство с ними.
2. Предобработка данных.
3. Исследовательский анализ данных.
4. Итоговые выводы.

# Знакомство с данными: загрузка и первичная предобработка

## Вывод общей информации

Начнем с загрузки библиотек и датасетов `rest_info.csv` и `rest_price.csv`. Для анализа данных будем использовать библиотеку pandas, а для визуализации данных библиотеки matplotlib и seaborn.

In [None]:
# Импортируем библиотеки
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

Выгрузим данные датасетов в переменные и присвоим им соответсвующие названия.

In [None]:
# Выгружаем данные в переменные

companies_df = pd.read_csv("https://code.s3.yandex.net/datasets/company_and_rounds.csv")
acquisition_df = pd.read_csv("https://code.s3.yandex.net/datasets/acquisition.csv")
education_df = pd.read_csv("https://code.s3.yandex.net/datasets/education.csv")
people_df = pd.read_csv("https://code.s3.yandex.net/datasets/people.csv")
degrees_df = pd.read_csv("https://code.s3.yandex.net/datasets/degrees.csv")
fund_df = pd.read_csv("https://code.s3.yandex.net/datasets/fund.csv")
investment_df = pd.read_csv("https://code.s3.yandex.net/datasets/investment.csv")

#### Датасет `companies_df`

Выведем первые 5 строк и общую информацию о датасете `companies_df`.

In [None]:
# Выводим общую информацию о `companies_df`.
companies_df.head()

In [None]:
# Выводим первые строки датафрейма `companies_df`.
companies_df.info()

Датасет `companies_df` содержит 22 столбцов и 217774 строк, в которых представлена информация о компаниях и раундах финансирования.

После первичного анализа можно сделать следующие выводы:

* Названия столбцов стоит привести к стилю snake case для более удобной работы с ними.
* Столбцы `category code`, `status`, `country code`, `funding round type` стоит привести к типу данных `category`, так как в них хранится категориальная информация (статус, код категории и страны). Также к типу `category` стоит привести столбцы `is first round` и `is last round`, так как они также показывают статус и могут принимать значения 1 или 0.
* Данные в столбцах `founded at`, `closed at`, `funded at` стоит привести к типу `datetime`, так как данные в этих столбцах представляют собой даты, но на данный момент представлены в формате `object`.
* Датасет содержит множество пропусков во многих столбцах, что говорит о неполноте данных.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

#### Датасет `acquisition_df`

Познакомимся с датасетом `acquisition_df`.

Выведем первые 5 строк и общую информацию о датасете `acquisition_df`.

In [None]:
# Выводим общую информацию о  `acquisition_df`.
acquisition_df.head()

In [None]:
# Выводим первые строки датафрейма `acquisition_df`.
acquisition_df.info()

Датасет `acquisition_df` содержит 6 столбцов и 9407 строк, в которых представлена информация о покупках одними компаниями других компаний.

После первичного анализа можно сделать следующие выводы:

* Столбцы названы корректно.
* Столбец `term_code` стоит привести к типу данных `category`, так как в нем хранится  информация о варианте расчета — это категория.
* Столбец `acquired_at` стоит привести к типу `datetime`, так как данные в этом столбце представляют собой даты, но на данный момент представлены в формате `object`.
* Датасет содержит пропуски в столбцах `term_code` и `acquired_at`. Вероятно, для некоторых сделок не указаны вариант расчета и/или дата сделки.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

#### Датасет `education_df`

Далее познакомимся с датасетом `education_df`.

Выведем первые 5 строк и общую информацию о датасете `education_df`.

In [None]:
# Выводим общую информацию о  `education_df`.
education_df.head()

In [None]:
# Выводим первые строки датафрейма `education_df`.
education_df.info()

Датасет `education_df` содержит 4 столбца и 109610 строк, в которых представлена информация об образовании сотрудника.

После первичного анализа можно сделать следующие выводы:

* Столбцы названы корректно.
* Столбец `graduated_at` стоит привести к типу `datetime`, так как данные в этом столбце представляют собой даты, но на данный момент представлены в формате `object`. Следует также оставить только год выпуска, так как конкретная дата выпуска излишня и представлена в датасете как `01-01-1990`.
* Датасет содержит пропуски в столбцах `instituition` и `graduated_at`. Вероятно, для некоторых сотрудников не указаны университет и/или дата выпуска.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

#### Датасет `people_df`

Далее познакомимся с датасетом `people_df`.

Выведем первые 5 строк и общую информацию о датасете `people_df`.

In [None]:
# Выводим общую информацию о `people_df`.
people_df.head()

In [None]:
# Выводим первые строки датафрейма `people_df`.
people_df.info()

Датасет `people_df` содержит 5 столбцов и 226708 строк, в которых представлена информация о сотрудниках.

После первичного анализа можно сделать следующие выводы:

* Столбцы названы корректно.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

#### Датасет `degrees_df`

Далее познакомимся с датасетом `degrees_df`.

Выведем первые 5 строк и общую информацию о датасете `degrees_df`.

In [None]:
# Выводим общую информацию о `degrees_df`.
degrees_df.head()

In [None]:
# Выводим первые строки датафрейма `degrees_df`.
degrees_df.info()

Датасет `people_df` содержит 4 столбца и 109610 строк, в которых представлена информация о типе образования сотрудников..

После первичного анализа можно сделать следующие выводы:

* Столбцы названы корректно.
* Столбец `degree_type` стоит привести к типу данных `category`, так как в нем хранится  информация о типе образования — это категория.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

#### Датасет `fund_df`

Далее познакомимся с датасетом `fund_df`.

Выведем первые 5 строк и общую информацию о датасете `fund_df`.

In [None]:
# Выводим общую информацию о `fund_df`.
fund_df.head()

In [None]:
# Выводим первые строки датафрейма `fund_df`.
fund_df.info()

Датасет `fund_df` содержит 9 столбцов и 11652  строк, в которых представлена информация о фондах.

После первичного анализа можно сделать следующие выводы:

* Столбцы названы корректно.
* Столбец `country_code` стоит привести к типу данных `category`, так как в нем хранится  информация о коде страны — это категория.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

#### Датасет `investment_df`

Далее познакомимся с датасетом `investment_df`.

Выведем первые 5 строк и общую информацию о датасете `investment_df`.

In [None]:
# Выводим общую информацию о `investment_df`.
investment_df.head()

In [None]:
# Выводим первые строки датафрейма `investment_df`.
investment_df.info()

Датасет `investment_df` содержит 4 столбца и 61403 строк, в которых представлена информация о раундах инвестирования.

После первичного анализа можно сделать следующие выводы:

* Столбцы названы корректно.
* Судя по первичному знакомству с данными, они соотвествуют своему описанию.

## Исправление названия столбцов

Столбцы в датасете `companies_df` названы некорректно. Стоит привести их к стилю snake case, для более удобной дальнейшей работы с ними.

Данные также содержат дубликат столбца `company_id`, который следует переименовать до переименования столбцов, так как после приведения к стилю snake case их названия станут одинаковыми.

In [None]:
# Переименовываем столбец 'company  id' в 'company_id_x'
companies_df = companies_df.rename(columns={"company  id": "company_id_x"})

In [None]:
# Приведем названия столбцов к snake case
companies_df.columns = companies_df.columns.str.lower().str.split().str.join("_")

# Выведем общую информацию о датасете для проверки изменений
companies_df.info()

Столбцы успешно переименованы.

## Смена типов и анализ пропусков

Для более удобной работы с данными изменим типы данных некоторых столбцов на более актуальные. 

Для начала следует привести следующие столбцы к типу данных `category`:

* `companies_df`: Столбцы `category_code`, `status`, `country_code`, `funding_round_type` стоит привести к типу данных `category`, так как в них хранится категориальная информация (статус, код категории и страны). Также к типу `category` стоит привести столбцы `is_first_round` и `is_last_round`, так как они также показывают статус и могут принимать значения 1 или 0.
* `acquisition_df`: Столбец `term_code` стоит привести к типу данных `category`, так как в нем хранится  информация о варианте расчета — это категория.
* `degrees_df`: Столбец `degree_type` стоит привести к типу данных `category`, так как в нем хранится  информация о типе образования — это категория.
* `fund_df`: Столбец `category_code` стоит привести к типу данных `category`, так как в нем хранится  информация о коде страны — это категория.

In [None]:
# Приводим столбцы датасета `companies_df` к типу `category`
for column in companies_df[
    ["category_code", "status", "country_code", "funding_round_type"]
]:
    companies_df[column] = companies_df[column].astype("category")

# Приводим столбец `term_code` датасета `acquisition_df` к типу `category`
acquisition_df["term_code"] = acquisition_df["term_code"].astype("category")

# Приводим столбец `degree_type` датасета `degrees_df` к типу `category`
degrees_df["degree_type"] = degrees_df["degree_type"].astype("category")

# Приводим столбец `country_code` датасета `fund_df` к типу `category`
fund_df["country_code"] = fund_df["country_code"].astype("category")

Далее приводим следующие столбцы с датами к типу `datetime`:

* `companies_df`: Столбцы `founded_at`, `closed_at`, `funded_at` приводим к типу `datetime`, так как данные в этих столбцах представляют собой даты, но на данный момент представлены в формате `object`.
* `acquisition_df`: Столбец `acquired_at` приводим к типу `datetime`, так как данные в этом столбце представляют собой даты, но на данный момент представлены в формате `object`.
* `education_df`: Столбец `graduated_at` приводим к типу `datetime`, так как данные в этом столбце представляют собой даты, но на данный момент представлены в формате `object`. Оставляем только год выпуска, так как конкретная дата выпуска излишня и представлена в датасете как `01-01-1990`.

In [None]:
# Изменим тип данных в датасете `companies_df` на `datetime`
for column in companies_df[["founded_at", "closed_at", "funded_at"]]:
    companies_df[column] = pd.to_datetime(companies_df[column], errors="coerce")

# Изменим тип данных в датасете `acquisition_df` на `datetime`
acquisition_df["acquired_at"] = pd.to_datetime(
    acquisition_df["acquired_at"], errors="coerce"
)

# Изменим тип данных в датасете `education_df` на `datetime`, оставив только год
education_df["graduated_at"] = pd.to_datetime(
    education_df["graduated_at"], errors="coerce"
).dt.year

#### Предварительный итог:

* Заменили типы данных выбранных столбцов на `category`. 
* Заменили типы данных выбранных столбцов на `datetime`. 

#### Оценка количества пропусков в данных

Проверим данные на наличие пропусков, чтобы определить полноту предоставленных данных. Найдем долю пропусков в строках датасетов.

#### Датасет `companies_df`

In [None]:
# Подсчитываем долю строк с пропусками в датасете `companies_df`
companies_df.isna().sum() / companies_df.shape[0]

Можно сделать следующие выводы: 

* В датасете `companies_df`в 0.001% строк отсутвует название и/или индентификатор компании, что делает такие строки непригодными для анализа.
* Для трети строк не указана категория области деятельности компании.
* Для 50% компаний не указана дата инвестирования, что сделает любые исследования динамики инвестирования неполными.
* У 98% компании не указана дата закрытия компании из чего можно сделать вывод, что компания еще не закрыта. Пропуски в этом столбце не повлияют на исследование.
* У 76% компаний отсутвует значительное количество важной информации, включающей в себя тип и сумму финансирования, число участников, денежную оценку и индентификатор этапа финансирования.

#### Датасет `acquisition_df`

In [None]:
# Подсчитываем долю строк с пропусками в датасете `acquisition_df`
acquisition_df.isna().sum() / acquisition_df.shape[0]

Пропуски в датасете `acquisition_df` содержатся только в столбцах `term_code` (81%) и `acquired_at` (0.003%). Для большинства сделок не указаны варианты расчета, что делает невозможным исследование наиболее популярных вариантов расчета.

#### Датасет `education_df`

In [None]:
# Подсчитываем долю строк с пропусками в датасете `education_df`
education_df.isna().sum() / education_df.shape[0]

В датасете `education_df` пропуски содержатся в столбцах `instituition` и `graduated_at`. В то время как в столбце `instituition` значение пропусков незначительно (0.005%), в столбце `graduated_at` с датой завершения получения образования пропуски составляют почти половину от всех строк (47%), что может говорить о том, что сотрудники не предоставили эту информацию. В комбинации с отсутсвием также названия учебного заведения можно сделать вывод о том, что у сотрудника нет дополнительного образования.

Вполне вероятно, что некоторыые сотрудники еще не закончили высшее образование и поэтому не указали дату выпуска, но утверждать то, что все 48% сотрудников не закончили высшее образование, некорректно. 

#### Датасет `people_df`

In [None]:
# Подсчитываем долю строк с пропусками в датасете `people_df`
people_df.isna().sum() / people_df.shape[0]

Незначительное количество пропусков содержат столбцы `first_name` и `last_name`. Значительное количество пропусков обнаружено в столбцах `company_id` (85%) и `network_username` (83%), но на качество исследования их влияние минимально. Возможно, данная информация не была заполнена при составлении датасета.

#### Датасет `degrees_df`

In [None]:
# Подсчитываем долю строк с пропусками в датасете `degrees_df`
degrees_df.isna().sum() / degrees_df.shape[0]

В 10% строках столбца `degree_type` содержатся пропуски. Пропуски также были обнаружены в столбце `subject` (26%), что может говоирть о том, что предоставленная информация об образовании сотрудников неполная и исследование, напрямую связанное с квалификацией сотрудников может быть неполным.

Оценка полноты данных:

* Значительное количество данных в датасете отсутствует. К ним относятся информация о финансировании компаний, раундах финансирования, а также о квалификации и образовании сотрудников.
* Для некоторых конкретных исследований данных может быть недостаточно.

## Предобработка данных, предварительное исследование

### Раунды финансирования по годам

Проведем исследование раундов финансирования по годам. Составим сводную таблицу в которой изучим типичный размер средств, выделяяемый в рамках одного раунда, а также общее количество раундов финансирования.

В исследование вошли только те года, в течение которых было совершено более 50 раундов фиинансирования.

In [None]:
# Преобразуем дату в год
companies_df["funded_at"] = pd.to_datetime(companies_df["funded_at"]).dt.year

# Создаем сводную таблицу с двумя метриками: медиана и количество
pivot = pd.pivot_table(
    companies_df, index="funded_at", values="raised_amount", aggfunc=["median", "count"]
)

# Переименуем колонки для удобства
pivot.columns = ["Типичный размер средств", "Количество раундов"]
pivot = pivot.reset_index()

# Оставляем только годы с более чем 50 раундами
final_pivot = pivot[pivot["Количество раундов"] > 50]

final_pivot

In [None]:
#
final_pivot.plot(
    kind="line",
    legend=False,
    title="Динамика типичного размера средств, которые стартапы получали в рамках одного раунда финансирования",
    xlabel="Год",
    ylabel="Типичный размер средств (млн.)",
    x="funded_at",
    y=["Типичный размер средств"],
    figsize=(10, 6),
    marker="o",
)

На основе сводбной таблицы и графика можно сделать следующие выводы:

* В 2005 году типичный размер собранных в рамках одного раунда средств был максимальным и составлял 5,5 млн., после чего наблюдается спад.
* В 2013 году впервые за 7 лет упадка типичный размер собранных в рамках одного раунда средств вырос с 1 млн. до 1,2 млн. при том, что количество раундов также увеличилось с 9970 до 11072.

### Люди и их образование

Проведем исследование зависимости полноты сведений о сотрудниках (об их образовании) от размера компании. Для этого подробнее исследуем датасеты `people_df` и `education_df`. К данным датасетам можно также присоединить датасет `degrees_df`, так как он тоже содержит информацию о образовании сотрудников, но более детальную, и содержит в себе индентификатор сотрудника, по которому датасеты можно объединить.

Для более удобной работы соединим датасеты по индектификатору сотрудника. Нам важно оставить всю информацию о сотрудниках, представленную в датасетах, поэтому объединим их типом `left`.

In [None]:
# Объединим датасеты медотом merge
employees_df = people_df.merge(
    education_df, left_on="id", right_on="person_id", how="left"
)

# Выведем первые 5 строк полученного датасета
employees_df.head()

Тип данных столбца `object_id` датасета `degrees_df` не совпадает с типом идентификатора сотрудников из датасетов, с которыми он должен быть объединен, поэтому стоит преобразовать тип данных столбца `object_id` из `object` в `int64` и объединить датасеты.

In [None]:
# Приведем столбец `object_id` к типу данных int64
degrees_df["object_id"] = pd.to_numeric(degrees_df["object_id"], errors="coerce")

# Присоединим датасет `degrees_df`
employees_df = employees_df.merge(
    degrees_df, left_on="id_x", right_on="object_id", how="left"
)

Проанализировав первые строки датасета, обнаружили дубликаты по индектификатору сотрудника, а также по имени, фамилии и идентификатору компании. Найдем число подобных дубликатов и удалим их во избежание искажения исследования.

In [None]:
# Сохраняем количество строк исходного датасета
previous_employees = employees_df.shape[0]

# Удаляем дубликаты
employees_df = employees_df.drop_duplicates(
    subset=["id_x", "first_name", "last_name", "company_id"]
)

print(
    f"Удаленных дубликатов: {previous_employees - employees_df.shape[0]}, "
    f"строк в датасете осталось: {employees_df.shape[0]}"
)

Разделим компании на группы, основываясь на общем количестве сотрудников компании. Для корректного разделения на группы создадим гистограмму и сформировать критерии категоризации.

In [None]:
# Посчитаем количество сотрудников в каждой компании
company_counts = (
    employees_df.groupby("company_id").size().reset_index(name="employee_count")
)

# Строим гистограмму распределения значений количества сотрудников
sns.histplot(company_counts["employee_count"], bins=20)
plt.xlabel("Количество сотрудников")
plt.ylabel("Количество компаний")
plt.title("Распределение количества сотрудников по компаниям")
plt.show()

Из данной гистограммы можно сделать вывод о том, что в подавляющем количестве компаний работают менее 50 человек, что довольно логично, так как финансовая компания, чьи данные используются в этом исследовании, предоставляет льготные займы именно стартапам, стоит учесть этот факт при составлении категорий. Составим новую гистограмму и разделим стартапы на следующие группы:

* 1 сотрудник (в стартапе работает только основатель)
* 2 сотрудника
* 3 сотрудника
* 4-5 сотрудников
* 6-10 сотрудников
* 11-25 сотрудников
* 26+ сотрудников

In [None]:
# Определяем границы для группировки
bins = [0, 1, 2, 3, 5, 10, 25, float("inf")]
labels = ["1", "2", "3", "4-5", "6-10", "11-25", "26+"]

# Создаем новую колонку с категориями
company_counts["employee_category"] = pd.cut(
    company_counts["employee_count"], bins=bins, labels=labels, right=True
)

# Теперь строим график по категориям
sns.countplot(data=company_counts, x="employee_category")
plt.xlabel("Количество сотрудников")
plt.ylabel("Количество компаний")
plt.title("Распределение количества сотрудников по компаниям")

Пo графику можно сделать вывод о том, что в большинстве стартапов работает только 1 сотрудник. Следует подкорректировать разделение на группы, для того, чтобв сравнение было наиболее корректным.

* 1 сотрудник (в стартапе работает только основатель)
* 2 сотрудника
* 3-5 сотрудников
* Более 6 сотрудников

Оценим распределение количества сотрудников с этими группами.

In [None]:
# Определяем границы для группировки
bins = [0, 1, 2, 5, float("inf")]
labels = ["1", "2", "3-5", "6+"]

# Создаем новую колонку с категориями
company_counts["employee_category"] = pd.cut(
    company_counts["employee_count"], bins=bins, labels=labels, right=True
)

# Теперь строим график по категориям
sns.countplot(data=company_counts, x="employee_category")
plt.xlabel("Количество сотрудников")
plt.ylabel("Количество компаний")
plt.title("Распределение количества сотрудников по компаниям")

Группа стартапов с 1 сотрудником в любом случае будет наибольшей по количеству стартапов, но стартапы в остальных группах распределены более ровно. 
На основе этих групп создадим сводную таблицу и выведем для каждой группы компаний долю сотрудников без информации об образовании.

In [None]:
# Посчитаем количество сотрудников в каждой компании
company_counts = (
    employees_df.groupby("company_id").size().reset_index(name="employee_count")
)


# Разделим компании на группы по численности
def categorize_company(size):
    if size == 1:
        return "1 сотрудник"
    elif size <= 3:
        return "2-3 сотрудника"
    elif size <= 10:
        return "4-10 сотрудников"
    else:
        return "11+ сотрудников"


company_counts["size_category"] = company_counts["employee_count"].apply(
    categorize_company
)

# Для каждого сотрудника определим, есть ли у него информация об образовании
# id_y == NaN: нет информации об образовании
employees_df["no_education_info"] = employees_df["id_y"].isna().astype(int)

# Объединим данные о количестве сотрудников и их доле с исходным датафреймом
# Посчитаем для каждого company_id:
company_id_stats = (
    employees_df.groupby("company_id")
    .agg(
        total_employees=("id_x", "size"),  # Общее число сотрудников
        count_without_education=(
            "no_education_info",
            "sum",
        ),  # Кол-во без инф. об образовании
    )
    .reset_index()
)

# Добавим категорию размера компании
company_id_stats = company_id_stats.merge(
    company_counts[["company_id", "size_category"]], on="company_id", how="left"
)

# Посчитаем долю сотрудников без информации об образовании
company_id_stats["share_without_education"] = (
    company_id_stats["count_without_education"] / company_id_stats["total_employees"]
)

# Создадим сводную таблицу по группам компаний
pivot_table = pd.pivot_table(
    company_id_stats,
    index="size_category",
    values=["total_employees", "share_without_education"],
    aggfunc={"share_without_education": "mean"},
)

# Переименуем колонки для удобства
pivot_table.columns = ["Доля без инф. об образовании"]

print(pivot_table)

In [None]:
# Сортируем таблицу по убыванию доли
pivot_table_sorted = pivot_table.reset_index().sort_values(
    by="Доля без инф. об образовании", ascending=False
)

# Строим график
plt.figure(figsize=(10, 6))
sns.barplot(
    data=pivot_table_sorted, x="size_category", y="Доля без инф. об образовании"
)

plt.xlabel("Категория размера компании")
plt.ylabel("Средняя доля без информации об образовании")
plt.title("Средняя доля компаний без информации об образовании по категориям размера")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

На основе данной сводной таблицы и графика можно сделать следующий вывод:

* Наибольшая доля сотрудников без информации об образовании в стартапах с числом сотрудников от 4 до 10 — 51%.
* В стартапах с одним сотрудником доля сотрудников с неполной информацией составляет 46%, что является близким значением к доле у стартапов, где работают 2-3 человека (47%).
* В относительно крупных стартапах — более 11 сотрудников — доля сотрудников без информации от образовании наименьшая — 43%.

Таким образом можно сделать вывод, что полнота сведений о сотрудниках зависит от размера компании: количество сотрудников с неполной информацией растет по мере увеличения количества сотрудников, однако после некоторой отметки (в данном исследовании 11+ сотрудников) значительно падает. Это говорит о том, что с увеличением количества сотрудников уже крупного стартапа полнота информации о сотрудниках растет. 

### Объединять или не объединять — вот в чём вопрос

Проведем более подробное исследование столбца с названием `network_username`, который встречается в датасетах `companies_df`, `people_df` и `fund_df`.

Выведем общую информацию об этих столбцах и сравним тип данных в них, а также количество пропусков.

In [None]:
# Выведем общую информацию о столбце `network_username` в датасете `companies_df`
companies_df["network_username"]

In [None]:
# Выведем общую информацию о столбце `network_username` в датасете `people_df`
people_df["network_username"]

In [None]:
# Выведем общую информацию о столбце `network_username` в датасете `fund_df`
fund_df["network_username"]

В всех столбцах хранятся данные типа `object`. Найдем количество уникальных значений в каждом из столбцов:

In [None]:
# Посчитаем количество уникальных ников в социальных сетях в датасете `companies_df`
nickname_counts = companies_df["network_username"].value_counts()

print(
    f"Количество уникальных ников в социальных сетях в датасете `companies_df`: {len(nickname_counts)}"
)

In [None]:
# Посчитаем количество уникальных ников в социальных сетях в датасете `people_df`
nickname_counts = people_df["network_username"].value_counts()

print(
    f"Количество уникальных ников в социальных сетях в датасете `people_df`: {len(nickname_counts)}"
)

In [None]:
# Посчитаем количество уникальных ников в социальных сетях в датасете `fund_df`
nickname_counts = fund_df["network_username"].value_counts()

print(
    f"Количество уникальных ников в социальных сетях в датасете `fund_df`: {len(nickname_counts)}"
)

Количество уникальных ников сильно различается — 38 тыс., 79 тыс. и 2 тыс. Для того, чтобы найти число общих ников, которые встречаются в обоих датасетах, используем метод `intersection()`.

In [None]:
# Преобразуем столбцы датасетов в множества
set_df_companies = set(companies_df["network_username"])
set_df_people = set(people_df["network_username"])
set_df_fund = set(fund_df["network_username"])

# Используем .intersection() для поиска общих элементов
common_usernames = set_df_companies.intersection(set_df_people).intersection(
    set_df_fund
)

# Подсчитаем число общих ников
common_usernames_count = len(common_usernames)

print(f"Количество общих ников: {common_usernames_count}")
print(
    f'Доля общих ников в датасете "companies_df" {common_usernames_count / (companies_df['network_username'].nunique())}'
)
print(
    f'Доля общих ников в датасете "people_df" {common_usernames_count / (people_df['network_username'].nunique())}'
)
print(
    f'Доля общих ников в датасете "fund_df" {common_usernames_count / (fund_df['network_username'].nunique()) }'
)

На основе этих данных построим диаграмму Венна.

In [None]:
from matplotlib_venn import venn2, venn3

# Создаем множества
set_df_companies = set(companies_df["network_username"])
set_df_people = set(people_df["network_username"])
set_df_fund = set(fund_df["network_username"])

# Строим диаграмму Венна
plt.figure(figsize=(8, 8))
venn3(
    [set_df_companies, set_df_people, set_df_fund],
    ("companies_df", "people_df", "fund_df"),
)

plt.title("Пересечения между тремя датасетами")
plt.show()

#### Вывод 

На основе данных полученных в ходе исследования можно сделать следующий вывод:

Столбцы с названием `network_username`, который встречается в датасетах `companies_df`, `people_df` и `fund_df`, нельзя использовать для объединения этих датасетов, так как количество общих значений равно 8, что составляет менее 1% от всех значений столбца датасетов. Данного количества недостаточно для качественного объединения датасетов.

### Проблемный датасет и причина возникновения пропусков

Подготовим новый датасет `df_company` на основе данных датасета `companies_df`, в котором, максимальным образом сохраняя данные, сохранив их связность и исключив возможные возникающие при этом ошибки, подготовим данные о компаниях так, чтобы удобно было отобрать компании по параметрам и рассчитать показатели из расчёта на одну компанию без промежуточных агрегаций.

Выберем столбцы, которые содержат информацию о компаниях и сохраним их в датасет `df_company`, а данные о раундах финансирования сохраним в датасет `df_rounds`.

In [None]:
# Создаем таблицу с информацией о компаниях, выбирая нужные столбцы
company_info = companies_df[
    [
        "company_id",
        "name",
        "category_code",
        "status",
        "founded_at",
        "closed_at",
        "domain",
        "network_username",
        "country_code",
        "investment_rounds",
        "funding_rounds",
        "funding_total",
        "milestones",
    ]
]

# Удаляем дубли по выбранным столбцам
company_info = company_info.drop_duplicates()

# Создаем таблицу по раундам инвестирования
df_rounds = companies_df[
    [
        "company_id",
        "raised_amount",
        "funding_round_id",
        "funded_at",
        "funding_round_type",
        "pre_money_valuation",
        "participants",
        "is_first_round",
        "is_last_round",
    ]
]

# Удаляем пропуски в столбце funding_round_type
df_rounds = df_rounds.dropna(subset=["funding_round_type"])

# Просмотр общей информации о датасете с информацией о компаниях
company_info.info()

Полученный датасет `company_info` содержит 196554 строк и 13 столбцов. Все столбцы названы корректно и меют корректный тип данных. Для более удобной последующей работы с датасетом проведем следующие операции:

* Удалим строки, в которых в столбце `company_id` и `name` содержатся пропуски, так как невозможно идентифицировать эти компании.
* Найдем и обработаем строки, в которых дублируется идентификатор компании `company_id`.
* Оптимизируем тип данных в столбцах с числовым значением `investment_rounds`, `funding_rounds`, `milestones`.

In [None]:
# Удаляем строки, в которых в столбцах `company_id`, 'name' содержатся пропуски
company_info = company_info.dropna(subset=["company_id", "name"])

In [None]:
# Удаляем строки, в которых дублируется идентификатор компании `company_id`.
company_info = company_info.drop_duplicates(subset="company_id")

In [None]:
# Оптимизируем тип данных в столбцах с числовым значением
for column in ["investment_rounds", "funding_rounds", "milestones"]:
    company_info[column] = pd.to_numeric(
        company_info[column], downcast="integer", errors="coerce"
    )

In [None]:
# Выведем общую информацию о датасете `company_info`
company_info.info()

#### Вывод

В результате проведённой работы был сформирован новый датасет `companies_info` на основе исходных данных из `df_companies`. В результате получен датасет `company_info`, с корректно установленными типами данных и названиями столбцов, что обеспечивает удобство дальнейшего анализа и работы с информацией о компаниях.

##  Исследовательский анализ объединённых таблиц

###  Объединение данных

Объединим данные для ответа на вопросы заказчика о компаниях, которые меняли или готовы менять владельцев. Из датасета `company_info` выберем только те компании, у которых указаны значения `funding_rounds` или `investment_rounds` больше нуля, или те, у которых в колонке `status` указано `acquired`.

In [None]:
# Установим фильтры для строк датасета `company_info`
companies_acquired = company_info[
    (company_info["funding_rounds"] > 0)
    | (company_info["investment_rounds"] > 0)
    | (company_info["status"] == "acquired")
]

# Выведем общую информацию о датасете `companies_acquired`
companies_acquired.info()

Применили нужные для дальнейшего исследования данных фильтры к датасету `company_info` и сохранили данные в датасет `companies_acquired`. После этого шага можно приступать к более подробному исследованию данный компаний.

### Анализ выбросов

Проанализируем аномальные значения общего финансирования для одной компании. Для этого создадим боксплот, который графически покажет количество выбросов.

In [None]:
# Создадим боксплот по столбцу funding_total"
boxplot = company_info.boxplot(column="funding_total", vert=False, figsize=(12, 3))
boxplot.set_title(
    "Типичный размер общего финансирования для одной компании (млн. долларов)"
)
plt.show()

По данному боксплоту можно сделать следующий вывод: максимальные значения финансирования компании могут быть настолько аномально высоки, что исказят графическое отображение значений столбца `funding_total`. Выведем описание столбца `funding_total` методом `describe()` для оценки разности между средним значением и максимальным.

In [None]:
# Выведем описание столбца `funding_total`
company_info["funding_total"].describe()

Максимальное значение почти в 3 раза больше среднего значения, а высокое значение стандартного отклонения указывает на относительно высокий разброс значений. Минимальное значение равно 0, что также искажает график, так как в столбце `funding_total` хранится информация о компаниях, с которыми было проведен хотя бы один раунд инвестиций или финансирования.

Составим новый боксплот, откинув значения выше 0.99-перцентиль и равные нулю для того, чтобы избежать искажения графика. 

In [None]:
# Найдём 0.99-перцентиль
perc = company_info["funding_total"].quantile(0.99)

# Отфильтруем значения, оставив только те, что ниже или равны 0.99-перцентиль, а также равные 0
filtered_funding_total = company_info[
    (company_info["funding_total"] <= perc) & (company_info["funding_total"] > 0)
]["funding_total"]

# Построим боксплот по отфильтрованным данным
boxplot = filtered_funding_total.plot.box(vert=False, figsize=(12, 3))
boxplot.set_title(
    "Типичный размер общего финансирования для одной компании (млн. долларов)"
)
plt.show()

По графику можно сделать вывод о том, что количество выбросов все еще довольно значительно, но на данный момент можно заключить, что в среднем значения представлены до 1 млн. Выведем новое описание столбца `funding_total`, исключив нулевые значения.

#### Вывод

Отбросив нулевые значения и 0.99-перцентиль, заметили следующее о значениях общего финансирования для одной компании:

* В среднем представлены значения до 1 млн.
* В данных присутсвует значительно количество выбросов, что искажает графические изображения данных и такие показатели, как среднее значение и медиана.

### Компании, проданные за 0

Исследуем компании, которые были проданы за ноль или за один доллар, при этом у них был ненулевой общий объём финансирования. Для начала найдем сколько уникальных `company_id` из `company_info` удовлетворяют этим условиям. Для этого присоединим к `company_info` датасет `acquisition_df` с данными о сумме покупки компаний. Выберем способ присоединения 'left', так как нам нужно добавить соответствующую информацию, оставив при этом все компании в датасете `company_info`.

In [None]:
# Объединяем `company_info` с `acquisition_df` по ключу 'company_id' и 'acquired_company_id'
bought_company_info = company_info.merge(
    acquisition_df,
    left_on="company_id",  # ключ из company_info
    right_on="acquired_company_id",  # ключ из acquisition_df
    how="left",  # левое соединение
)

# Отбираем только те записи, у которых значение 'price_amount' равно 0 или 1
# Это фильтр для компаний с ценой приобретения 0 или 1
zero_company_info = bought_company_info[
    (
        (bought_company_info["price_amount"] == 0)
        | (bought_company_info["price_amount"] == 1)
    )
    & (bought_company_info["funding_total"] > 0)
]

# Создаем сводную таблицу
pivot_table = pd.pivot_table(
    zero_company_info, index="price_amount", values="company_id", aggfunc="count"
)

# Переименовываем колонку в таблице для более понятного отображения
pivot_table.columns = ["Количество компаний"]

# Выводим полученную сводную таблицу
pivot_table

Получется, что всего 1618 компаний было продано на 0 долларов, за 1 доллар продаж не было произведено. Выведем описание для этих компаний. 

In [None]:
zero_company_info["funding_total"].describe()

Рассчитаем `Q1` и `Q3` для столбца `funding_total` и оценим разброс данных о финансировании данных компаний.

In [None]:
# Вычисляем квартели
Q1 = zero_company_info["funding_total"].quantile(0.25)
Q3 = zero_company_info["funding_total"].quantile(0.75)

# Вычисляем межквартильный размах
IQR = Q3 - Q1

# Расчет границ выбросов
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"Нижняя граница: {lower_bound}")
print(f"Верхняя граница: {upper_bound}")

Нижняя граница отрицательная — отрицательный объем финансирования невозможен, значит, в реальности граница просто равна нулю. Отрицательное значение нижней границы также говорит о том, что большинство компаний имеют очень низкий объем финансирования. 

Значения выше верхней границы (35750000.0) считаются потенциальными выбросами — то есть очень крупные суммы финансирования, значительно превышающие межквартильный размах. Найдем, какому процентилю равно значение верхней границы.

In [None]:
# Сортируем данные по объему финансирования
sorted_data = zero_company_info["funding_total"].sort_values().reset_index(drop=True)

n = len(sorted_data)

# Находим индекс, соответствующий верхней границе
index = int(round((upper_bound / sorted_data.iloc[-1]) * (n - 1)))

# Ограничиваем индекс в диапазоне
index = min(max(index, 0), n - 1)

# Получаем значение по этому индексу
percentile_value = sorted_data.iloc[index]

# Вычисляем приблизительный процентиль
percentile = (index / (n - 1)) * 100

print(f"Приблизительный процентиль для верхней границы: {percentile:.2f}%")

На основе полученного результата, что верхняя граница соответствует примерно 0.62 процентилю данных, можно сделать следующий вывод:

Верхняя граница объема финансирования составляет значение, которое превышает примерно 99.38% всех наблюдаемых значений в наборе данных. Это означает, что большинство компаний имеют объем финансирования значительно ниже этой границы, а только очень немногие — находятся на самом высоком конце распределения. Такой высокий уровень выбросов указывает на наличие нескольких компаний с экстремально крупными суммами финансирования, которые существенно отличаются от основной массы данных. 

### Цены стартапов по категориям

Проведем исследование категорий стартапов с типично высокими ценами покупки и наибольшим разбросом цен за стартап. 

Выделим среди стартапов категории с типично высокими ценами и наибольшим разбросом цен за стартап. Для этого найдем все компании, цена покупки которых входит в диапазон от медианного значения до 3-го квартиля, так как в данный диапазон войдут значения, которые выше 50% всех значений, но все еще не считаются выбросами, поэтому их стоит ограничить 75-процентилем. Составим столбчатую диаграмму.

In [None]:
# Вычисляем медиану и квартиль
expensive_companies_median = bought_company_info["price_amount"].median()
expensive_companies_q3 = bought_company_info["price_amount"].quantile(0.75)

# Фильтруем компании с ценой выше или равной медиане и ниже или равной третьему квартилю
# с подсчетом количества компаний по категориям
expensive_companies = (
    bought_company_info[
        (bought_company_info["price_amount"] >= expensive_companies_median)
        & (bought_company_info["price_amount"] <= expensive_companies_q3)
    ]
    .groupby("category_code", observed=False)
    .size()
    .reset_index(name="expensive_companies")
)

# Сортируем по убыванию количества компаний и берем только топ-15
expensive_companies_sorted = expensive_companies.sort_values(
    by="expensive_companies", ascending=False
).head(15)

# Строим барплот
plt.figure(figsize=(10, 6))
plt.bar(
    expensive_companies_sorted["category_code"],
    expensive_companies_sorted["expensive_companies"],
)
plt.xlabel("Категория")
plt.ylabel("Количество компаний")
plt.title("Количество компаний по категориям")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

Для исследования оставили топ-15 категорий стартапов для того, чтобы избежать включения в исследование категорий с незначительным количеством стартапов. Распределили их по убыванию количества стартапов.

По данному графику можно сделать следующие выводы:

* Большинство типично дорогих стартапов связаны с темой информационных технологий.
* Наибольшее количество типично дорогих стартапов (больше 1000 стартапов) относятся к категории "software". На втором месте (около 800 стартапов) — "web", на третьем — "mobile", что делает данные категории наиболее привлекательными для крупных инвесторов.
* В топ-5 категорий стартапов с высокими ценами покупки также вошли категории предпринимательства и видео игр.
* В топ-15 также вошли не-технические категории "advertising", "public relations", "education" и "consulting".

Теперь можно провести исследование стартапов с наибольшим разбросом цен за стартап и сравнить с полученными ранее топ-15 категорий. Для этого найдем стандартное отклонение для каждой категории купленных стартапов и выделим из топ-15.

In [None]:
# Рассчитаем стандартное отклонение для каждой категории
std_per_category = bought_company_info.groupby("category_code", observed=False)[
    "price_amount"
].std()

# Отсортируем по убыванию и возьмем топ-15
top_15_categories = std_per_category.sort_values(ascending=False).head(15)

# Строим барплот
plt.figure(figsize=(12, 6))
plt.bar(top_15_categories.index, top_15_categories.values)
plt.xlabel("Категория")
plt.ylabel("Стандартное отклонение цены")
plt.title("Топ-15 категорий по разбросу цен")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

По данному графику можно сделать следующие выводы:

* Топ-1 категория с наибольшим разбросом цен за стартап — "enterprise". Среднее стандартное отклонение стартапов этой категории выше 1.2, в том время как у остальных категорий топ-15 среднее стандартное отклонение ниже 0.2.
* В топ-5 также вошли "public_relations", "real_estate", "automative" и "biotech" на примерно одинаковом значении стандартного отклонения.
* Топ-1 категорий по цене стартапов — "software" — на 14 месте.

#### Вывод

Из данного исследования можно заключить, что стартапы с типично высокими ценами и стартапы с наибольшим разбросом цен за стартап относятся к кардинально различающимся категориям. В то время как типично дорогие старпаты в большинстве своем относятся к tech-стартапам, стартапы с наибольшим разбросом цен относятся скорее к бизнесу и предпринимательству. 

### Сколько раундов продержится стартап перед покупкой

Исследуем значения столбца `funding_rounds`, для того чтобы выяснить типичное количество раундов для каждого возможного статуса стартапа. Найдем среднее количество раунда для каждого статуса  и построим столбчатую диаграмму.

In [None]:
# Группируем данные по статусу компании и считаем среднее количество раундов финансирования для каждого статуса
statuses_grouped = (
    company_info.groupby("status", observed=False)["funding_rounds"]
    .mean()
    .reset_index()
)

# Сортируем полученные группы по убыванию среднего количества раундов финансирования
statuses_sorted = statuses_grouped.sort_values(by="funding_rounds", ascending=False)

# Строим столбчатую диаграмму
plt.figure(figsize=(6, 4))
plt.bar(
    statuses_sorted["status"],
    statuses_sorted["funding_rounds"],
)
plt.xlabel("Статус")
plt.ylabel("Количество раундов")
plt.title("Количество раундов финансирования по статусам стартапа")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

Из данной диаграммы можно сделать следующие выводы:

* Наибольшее среднее количество раундов финансирования у статуса стартапа "closed" — немногим больше 1. Это закрытые продажи стартапов, поэтому логично предположить, что большое количество раундов финансирования связано с тем, что проект уже куплен.
* На втором месте статус IPO (Initial Public Offering) с таким же показзателем — больше 1. Initial Public Offering — это процесс, в ходе которого компания впервые выставляет акции для публичной торговли на фондовом рынке. Это означает, что компания, ранее не имевшая публичного статуса, позволяет частным инвесторам приобрести долю в ее собственности. Вероятно, данный статус привлекает инвесторов, что приводит к высокому среднему количеству раундов финансирования.
* Наименьшее значение — менее 0.4 раунда — принимает количество раундов у стартапов со статусом "operating", что неудивительно, учитывая то, что стартапы с этим статусом — это недавно появившиеся стартапы, еще находящиеся на ранних этапах развития.

##  Итоговый вывод и рекомендации

В ходе исследования проанализировали данные финансовой компании, предоставляющей льготные займы стартапами. Компания планирует войти на инвестиционный рынок с прицелом на покупку, развитие и последующую перепродажу перспективных стартапов. Данные включали информацию  о покупках одними компаниями других компаний, о самих компаниях и раундах финансирования,  о сотрудниках и их образовании, а также о фондах и раундах инвестирования. Акцент исследования был на выявлении основных тенденции в сфере развития и финансирования старпатов в различных профессиональных сферах деятельности.

В ходе предобработки данных в первую очередь, были выявлены и исправлены проблемы с названиями столбцов: они были приведены к стилю `snake case` для удобства дальнейшей работы. После этого все выбранные столбцы были преобразованы к типам данных `category` и `datetime`, что позволило повысить эффективность хранения данных и упростить последующий анализ. Анализ показал, что в датасете присутствует значительное количество пропусков: для третьей части данных отсутствует информация о категории деятельности компании, а у половины компаний — дата инвестирования, что ограничивает возможность исследования динамики инвестиций. Также было установлено, что у `98%` компаний отсутствует дата закрытия, что свидетельствует о том, что большинство компаний еще функционируют.

В результате работы был создан новый датасет `companies_info`, где были корректно установлены типы данных и переименованы столбцы для удобства дальнейшего анализа.

### Исследовательские вопросы

В ходе исследования были сделаны следующие выводы:

* В `2005` году средний размер финансирования в рамках одного раунда достигал максимума — около `5,5` млн., после чего наблюдался спад. В `2013` году впервые за семь лет зафиксирован рост среднего размера раунда с `1` до `1,2` млн., при этом количество раундов увеличилось с примерно `9 970` до `11 072`.
* Анализ показал также зависимость полноты данных о сотрудниках от размера компании: у стартапов с числом сотрудников от `4` до `10` более половины сотрудников (`51%`) имеют неполную информацию об образовании; у компаний с одним сотрудником доля таких сотрудников составляет около `46%`, а у крупных — более `11` человек — лишь около `43%`. Это говорит о том, что по мере роста компании информация о сотрудниках становится более полной.
* Было установлено, что использование столбца network_username для объединения данных недопустимо из-за очень низкой доли совпадений (менее `1%`), что делает его неподходящим ключом для объединения датасетов.
* По результатам анализа финансирования было замечено наличие значительных выбросов: верхняя граница объема финансирования достигает примерно значения `0.62` процентиля данных (около `99.38%`), что свидетельствует о наличии нескольких компаний с экстремально крупными суммами финансирования. Это существенно влияет на средние показатели и графические отображения данных. Такой разброс говорит о том, что большинство компаний получают значительно меньшие суммы финансирования — ниже этой границы.
* Также было отмечено различие по статусам компаний: у закрытых стартапов (статус `closed`) среднее число раундов чуть больше одного — логично предположить, что такие компании уже прошли через несколько этапов финансирования или были приобретены; у стартапов со статусом `operating` среднее число раундов менее `0.4` — это объясняется тем, что такие компании находятся на ранних стадиях развития или только начали привлекать инвестиции.

Проведенная работа позволила выявить основные тенденции и особенности данных при том, что значительная часть информации отсутствует или неполна, есть экстремальные выбросы  и различия в характеристиках компаний в зависимости от их статуса и размера. Эти результаты подтверждают друг друга: например, наличие выбросов в финансировании связано с экстремальными значениями отдельных компаний; низкая полнота данных о сотрудниках зависит от размера компании; а анализ статусов показывает закономерности в количестве раундов финансирования.

### Рекомендации

* Разделение данных по статусам компаний: Для более точного анализа рекомендуется отдельно рассматривать активные компании, закрытые и IPO-компании, так как их характеристики существенно различаются. Это поможет лучше понять динамику развития стартапов на разных этапах.
* Обратить внимание на стартапы в сфере информационных технологий: особенно в категории `Software` — наиболее привлекательная категория с точки зрения высоких цен и объема инвестиций. `Web` и `Mobile` — также занимают лидирующие позиции по количеству крупных сделок, что делает их перспективными для инвестиций.
* Обратить внимание на динамику роста и активности рынка: Рост среднего размера раундов в `2013` году и увеличение количества раундов свидетельствуют о возобновлении интереса к инвестициям, что создает дополнительные возможности для поиска перспективных стартапов.
* Учитывайте уровень полноты данных: поскольку данные о финансировании и характеристиках компаний в представленных датасетах могут быть неполными или содержать аномалии, рекомендуется проводить качественный исследовательский анализ перед принятием решений.