Skip to content
ugapanyuk edited this page Mar 18, 2019 · 2 revisions

Рубежный контроль №1

Тема: Разведочный анализ и подготовка данных.

Вариант №1.

Для заданного набора данных проведите корреляционный анализ. В случае наличия пропусков в данных удалите строки или колонки, содержащие пропуски. Сделайте выводы о возможности построения моделей машинного обучения и о возможном вкладе признаков в модель.

Наборы данных:

  1. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.load_boston
  2. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris
  3. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine
  4. https://www.kaggle.com/carlolepelaars/toy-dataset
  5. https://www.kaggle.com/ronitf/heart-disease-uci
  6. https://www.kaggle.com/mohansacharya/graduate-admissions (файл Admission_Predict.csv)
  7. https://www.kaggle.com/mohansacharya/graduate-admissions (файл Admission_Predict_Ver1.1.csv)
  8. https://www.kaggle.com/lava18/google-play-store-apps

Вариант №2.

Для заданного набора данных проведите обработку пропусков в данных для одного категориального и одного количественного признака. Какие способы обработки пропусков в данных для категориальных и количественных признаков Вы использовали? Какие признаки Вы будете использовать для дальнейшего построения моделей машинного обучения и почему?

Наборы данных:

  1. https://www.kaggle.com/karangadiya/fifa19
  2. https://www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset (файл dc-wikia-data.csv)
  3. https://www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset (файл marvel-wikia-data.csv)
  4. https://www.kaggle.com/noriuk/us-education-datasets-unification-project (файл states_all.csv)
  5. https://www.kaggle.com/noriuk/us-education-datasets-unification-project (файл states_all_extended.csv)
  6. https://www.kaggle.com/mehdidag/black-friday
  7. https://www.kaggle.com/san-francisco/sf-restaurant-scores-lives-standard
  8. https://www.kaggle.com/mathan/fifa-2018-match-statistics

Вариант №3.

Для заданного набора данных произведите масштабирование данных (для одного признака) и преобразование категориальных признаков в количественные двумя способами (label encoding, one hot encoding) для одного признака. Какие методы Вы использовали для решения задачи и почему?

Наборы данных:

  1. https://www.kaggle.com/karangadiya/fifa19
  2. https://www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset (файл dc-wikia-data.csv)
  3. https://www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset (файл marvel-wikia-data.csv)
  4. https://www.kaggle.com/noriuk/us-education-datasets-unification-project (файл states_all.csv)
  5. https://www.kaggle.com/noriuk/us-education-datasets-unification-project (файл states_all_extended.csv)
  6. https://www.kaggle.com/mehdidag/black-friday
  7. https://www.kaggle.com/san-francisco/sf-restaurant-scores-lives-standard
  8. https://www.kaggle.com/mathan/fifa-2018-match-statistics

Вариант №4.

Для заданного набора данных постройте основные графики, входящие в этап разведочного анализа данных. В случае наличия пропусков в данных удалите строки или колонки, содержащие пропуски. Какие графики Вы построили и почему? Какие выводы о наборе данных Вы можете сделать на основании построенных графиков?

Наборы данных:

  1. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.load_boston
  2. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris
  3. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine
  4. https://www.kaggle.com/carlolepelaars/toy-dataset
  5. https://www.kaggle.com/ronitf/heart-disease-uci
  6. https://www.kaggle.com/mohansacharya/graduate-admissions (файл Admission_Predict.csv)
  7. https://www.kaggle.com/mohansacharya/graduate-admissions (файл Admission_Predict_Ver1.1.csv)
  8. https://www.kaggle.com/lava18/google-play-store-apps