-
Notifications
You must be signed in to change notification settings - Fork 11
LAB_PANDAS
Цель лабораторной работы: изучение библиотек обработки данных Pandas и PandaSQL.
Отчет по лабораторной работе должен содержать:
- титульный лист;
- описание задания;
- текст программы;
- экранные формы с примерами выполнения программы.
Выполните первое демонстрационное задание "demo assignment" под названием "Exploratory data analysis with Pandas" со страницы курса https://mlcourse.ai/assignments
Условие задания - https://nbviewer.jupyter.org/github/Yorko/mlcourse_open/blob/master/jupyter_english/assignments_demo/assignment01_pandas_uci_adult.ipynb?flush_cache=true
Набор данных можно скачать здесь - https://archive.ics.uci.edu/ml/datasets/Adult
Пример решения задания - https://www.kaggle.com/kashnitsky/a1-demo-pandas-and-uci-adult-dataset-solution
Выполните следующие запросы с использованием двух различных библиотек - Pandas и PandaSQL:
- один произвольный запрос на соединение двух наборов данных
- один произвольный запрос на группировку набора данных с использованием функций агрегирования
Сравните время выполнения каждого запроса в Pandas и PandaSQL.
В качестве примеров можно использовать следующие статьи:
- https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
- https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/ (в разделе "Example data" данной статьи содержится рекомендуемый набор данных для проведения экспериментов).
Пример сравнения Pandas и PandaSQL - https://github.com/miptgirl/udacity_engagement_analysis/blob/master/pandasql_example.ipynb
Набор упражнений по Pandas с решениями - https://github.com/guipsamora/pandas_exercises