Projects from courses "Data Science" and "Data Analyst"
Project | Description | Tools and Skills |
---|---|---|
Определение возраста по фото | Создать модель, которая по фотографии определит приблизительный возраст человека | Tensorflow , Keras , Python , ResNet , Seaborn , CV, обработка изображений |
Классификация текстов на позитивные и негативные | На основе набора текстов с разметкой о токсичности создать модель для классификации текстов на позитивные и негативные | Python , nltk , TfidfVectorizer , Pandas , Seaborn , Optuna , yellowbrick , NLP, TF-IDF, проверка разметки данных, токенизация, лемматизация |
Прогнозирование количества заказов такси: временные ряды | По историческим данным спрогнозировать потребность количества такси | Python , statsmodels , Pandas , Seaborn , Sklearn , Optuna , временные ряды: скользящие статистики, тренд, цикличность, стационарность, разность, автокорреляция |
Прогнозирование абсолютной температуры на поверхности звезды | По имеющимся ограниченным данным создать нейронную сеть для определения температры звезды | Torch Python , Pandas , Seaborn , Sklearn , сustom early stopping function |
Прогнозирование цен на подержанные автомобили | По ряду параметров подержанного автомобиля спрогнозировать его рыночную цену | Python , Pandas , Seaborn , Sklearn , Pipeline , Optuna , TransformedTargetRegressor , QuantileTransformer , LightGBM , CatBoost , SelectKBest , SequentialFeatureSelector , кастомные классы для пайплайна, кастомная функция для выбора лучшей модели |
Прогнозирование цены домовладения | По ряду параметров жилого массива спрогнозировать медианную цену домовладения | pySpark , MLlib , Pipeline , Python , big_data , polynomialExpansion , KMEans , заполнение пропусков по контексту, оконная функция, кластеризация, случайный поиск по сетке гиперпараметров |
Прогнозирование отказа от брони в отеле и расчет эффекта от внедрения | На основании ряда характеристик заказа создать систему, предсказывающую отказ от заказа | Python , Pandas , Seaborn , Sklearn , Pipeline , ColumnTransformer , OneHotEncoder , Optuna , permutation_importance , feature engineering, выбор и обоснование бизнес-метрики, сравнительное исследование моделей, визуализация важности признаков |
Прогнозирование оттока клиентов банка | На основании ряда характеристик создать портрет клиента, склонного к уходу из банка | Python , Pandas , Seaborn , Sklearn , Pipeline , ColumnTransformer , OneHotEncoder , Optuna , SVMSMOTE , imblearn , permutation_importance , сравнительное исследование моделей, визуализация важности признаков |
Модель для рекомендации тарифа мобильного оператора | На основании ряда характеристик порекомендовать клиенту архивного тарифа наиболее подходящий действующий тариф | Python , Pandas , Seaborn , Sklearn , Pipeline , RandomizedSearchCV , feature_importances , сравнительное исследование моделей, визуализация важности признаков |
Анализ оттока клиентов банка с применением ML | На основании ряда характеристик создать портрет клиента, склонного к уходу из банка | Python , Pandas , Matplotlib , Seaborn , Scipy , Sklearn , кластеризация, проверка статистических гипотез, визуализация данных |
Прогнозирование оттока клиентов фитнес-центра | На основании данных о посетителях сети фитнес-центров спрогнозировать вероятность оттока для каждого клиента в следующем месяце, сформировать с помощью кластеризации портреты пользователей | Python , Pandas , Matplotlib , Seaborn , Scipy , Sklearn , Scikit-learn , KMeans , RandomForestClassifier , LogisticRegression , машинное обучение, классификация, кластеризация, дендрограмма |
Анализ рынка российского кинопроката | Используя данные с сайта Министерства культуры и с сайта КиноПоиск, провести анализ трендов российского кинопроката в 2010-2019 годах | Python , Pandas , Matplotlib , Seaborn , исследовательский анализ |
Анализ результатов A/A/B-эксперимента пользователей мобильного приложения | На основе данных использования мобильного приложения для продажи продуктов питания проанализировать воронку продаж, а также оценить результаты A/A/B-тестирования | Python , Pandas , Matplotlib , Seaborn , Plotly , событийная аналитика, продуктовые метрики, проверка статистических гипотез, A/B-тестирование, визуализация данных |
Исследование рынка общественного питания Москвы | Исследование рынка общественного питания на основе открытых данных для принятия решения об открытии нового заведения; подготовка презентации для инвесторов | Python , Pandas , Matplotlib , Seaborn , Plotly , BeautifulSoup , визуализация данных, парсинг |
Проверка гипотез по увеличению выручки и оценка результатов A/B-теста | Используя данные интернет-магазина приоритезировать гипотезы, произвести оценку результатов A/B-тестирования различными методами | Python , Pandas , Matplotlib , Seaborn , Scipy , A/B-тестирование, проверка статистических гипотез, RICE, ICE |
Оптимизация маркетинговых затрат в Яндекс.Афише | На основе данных о посещениях сайта Яндекс.Афиши изучить, как люди пользуются продуктом, когда они начинают покупать, сколько денег приносит каждый клиент, когда он окупается | Python , Pandas , Matplotlib , Seaborn , когортный анализ, юнит-экономика, продуктовые метрики, LTV, CAC, Retention rate, DAU, WAU, MAU, ROMI |