Skip to content

LAB_PANDAS

ugapanyuk edited this page Feb 19, 2019 · 5 revisions

Лабораторная работа

Изучение библиотек обработки данных.

Цель лабораторной работы: изучение библиотек обработки данных Pandas и PandaSQL.

Требования к отчету:

Отчет по лабораторной работе должен содержать:

  1. титульный лист;
  2. описание задания;
  3. текст программы;
  4. экранные формы с примерами выполнения программы.

Задание:

Часть 1.

Выполните первое демонстрационное задание "demo assignment" под названием "Exploratory data analysis with Pandas" со страницы курса https://mlcourse.ai/assignments

Условие задания - https://nbviewer.jupyter.org/github/Yorko/mlcourse_open/blob/master/jupyter_english/assignments_demo/assignment01_pandas_uci_adult.ipynb?flush_cache=true

Набор данных можно скачать здесь - https://archive.ics.uci.edu/ml/datasets/Adult

Пример решения задания - https://www.kaggle.com/kashnitsky/a1-demo-pandas-and-uci-adult-dataset-solution

Часть 2.

Выполните следующие запросы с использованием двух различных библиотек - Pandas и PandaSQL:

  • один произвольный запрос на соединение двух наборов данных
  • один произвольный запрос на группировку набора данных с использованием функций агрегирования

Сравните время выполнения каждого запроса в Pandas и PandaSQL.

В качестве примеров можно использовать следующие статьи:

Пример сравнения Pandas и PandaSQL - https://github.com/miptgirl/udacity_engagement_analysis/blob/master/pandasql_example.ipynb

Набор упражнений по Pandas с решениями - https://github.com/guipsamora/pandas_exercises

Clone this wiki locally