## Як дані розповідають історію успіху стартапів  
У сучасних умовах стартап-екосистема є ключовим драйвером інноваційної економіки. Інвестори, бізнес-акселератори й венчурні фонди постійно стикаються з проблемою: як на ранніх етапах оцінити, які стартапи мають високі шанси на успіх, а які, найімовірніше, зазнають невдачі.  

Завдання полягає у створенні аналітичної моделі, що прогнозує “успішність стартапу” на основі історичних даних — характеристик компаній, їхніх інвестиційних раундів, галузі, географії, дати заснування, тощо.  
Отримана модель може бути використана для:  
- підтримки інвестиційних рішень (відбір стартапів для фінансування);  
- оцінювання ризику портфеля венчурного фонду;  
- аналізу факторів, які найбільше впливають на виживання компаній.

У цій роботі ви працюватимете з набором даних, що містить інформацію про стартапи, їхні характеристики, фінансування та подальшу долю компаній, а саме:  
- Unnamed: 0 — порядковий номер запису.
- state_code — код штату США, у якому зареєстровано стартап.
- latitude — широта місцезнаходження компанії.
- longitude — довгота місцезнаходження компанії.
- zip_code — поштовий індекс.
- id — унікальний ідентифікатор компанії.
- city — місто, у якому зареєстровано стартап.
- Unnamed: 6 — текстове поле з адресою (може дублювати city або state).
- name — назва стартапу.
- **labels — цільова змінна, що відображає підсумковий стан компанії (1 — успішна, 0 — неуспішна).**
- founded_at — дата заснування компанії.
- closed_at — дата закриття компанії (якщо стартап припинив діяльність).
- first_funding_at — дата першого раунду фінансування.
- last_funding_at — дата останнього раунду фінансування.
- age_first_funding_year — кількість років від заснування до першого фінансування.
- age_last_funding_year — кількість років від заснування до останнього фінансування.
- age_first_milestone_year — вік компанії при досягненні першої важливої події (milestone).
- age_last_milestone_year — вік компанії при останній важливій події.
- relationships — кількість ділових зв’язків або партнерств у компанії.
- funding_rounds — кількість раундів фінансування, у яких компанія брала участь.
- funding_total_usd — загальна сума інвестицій, залучених компанією (у доларах США).
- milestones — кількість досягнутих важливих етапів розвитку стартапу.
- state_code.1 — дубль поля state_code (можна видалити).
- is_CA, is_NY, is_MA, is_TX, is_otherstate — бінарні змінні, що позначають штат, де розташовано компанію (1 — так, 0 — ні).
- category_code — галузь діяльності компанії (software, biotech, ecommerce тощо).
- is_software, is_web, is_mobile, is_enterprise, is_advertising, is_gamesvideo, is_ecommerce, is_biotech, is_consulting, is_othercategory — бінарні змінні, що відображають належність компанії до певної галузі.
- has_VC — наявність венчурного фінансування (1 — так, 0 — ні).
- has_angel — наявність інвестора-ангела.
- has_roundA, has_roundB, has_roundC, has_roundD — участь компанії у відповідних раундах фінансування.
- avg_participants — середня кількість інвесторів у раундах фінансування.
- is_top500 — ознака належності компанії до топ-500 найуспішніших стартапів.
- status — поточний статус компанії (наприклад: operating, acquired, closed).

### Завдання  
1. **Ознайомлення з даними**    
- Ознайомтеся зі структурою даних (кількість рядків, стовпців, типи змінних, наявність пропусків).  
- Визначте, які змінні є службовими або дублюють інші (наприклад: Unnamed: 0, state_code.1, Unnamed: 6, object_id, id). Видаліть усі зайві або дублюючі стовпці, залишивши лише ті, що мають значення для подальшого аналізу.    

2. **Розгляньте дані уважніше: які стартапи тут зібрано, чим вони відрізняються між собою, які спільні риси можна помітити?**    
- Загальні характеристики стартапів    
Скільки у наборі успішних і неуспішних компаній?  
У яких штатах або містах зосереджено найбільше стартапів?  
Які галузі (software, biotech, ecommerce тощо) найпоширеніші?  
  
- Характеристика успішних стартапів  
Які галузі або штати мають найбільшу частку успішних компаній?  
Які середні значення віку при першому фінансуванні (age_first_funding_year) у різних категорій стартапів?  
Які особливості у стартапів, що залучали венчурні інвестиції (has_VC) або мали ангельське фінансування (has_angel)?  
- Порівняння характеристик успішних і неуспішних стартапів  
Дослідіть, чим відрізняються успішні стартапи від тих, що зазнали невдачі. Оберіть кілька показників  і покажіть відмінності між групами.   
Зробіть висновки про те, які фактори можуть бути пов’язані з успіхом стартапу.  
- Виконайте групування компаній за схожістю характеристик, використавши числові змінні та виключивши цільову labels (бінарні індикатори бажано також прибрати). Охарактеризуйте отримані групи: розмір і середні за групами значення ключових показників  та дайте кожній групі інтерпретовану назву.  

Після проведеного дослідження перейдіть до створення моделі, яка прогнозує успіх або невдачу стартапу на основі доступних характеристик компанії.     

3. **Навчання моделі**  
- Навчіть модель передбачати, чи буде стартап успішним або неуспішним
- Оцініть якість побудованої моделі та зробіть висновки наскільки точно навчена модель може передбачає успіх стартапів
- Визначте, які фактори в моделі мають найбільший вплив на успіх або провал стартапу.
  
4. **Підведення підсумків**
- Порівняйте отримані аналітичні результати з вашими очікуваннями. Чи є у даних щось несподіване або суперечливе?  
- Визначте, які фактори, згідно з побудованою моделлю, найбільше впливають на ймовірність успіху стартапу. Як можна інтерпретувати ці результати з економічної точки зору?  
- Сформулюйте практичні рекомендації: як інвестори або підприємці могли б використати результати вашого аналізу на практиці?