Описание: В первый день мы поможем вам приобрести навыки использования инструментов командной строки UNIX для решения базовых задач по обработке и анализу данных. Вы узнаете, как использовать curl, sort, uniq, jq, sed и cat для сбора и предварительной обработки данных.
- Команда AWK в Linux с примерами часть 1, часть 2 и часть 3
- API hh.ru часть 1, часть 2 и часть 3
- Linux инструмент JQ
Чтобы работала JQ подключаем в ENV home brew, которую мы установли в папку goinfre
eval "$(~/goinfre/homebrew/bin/brew shellenv)"
Запускаем hh.sh с параметром data scientist
для нашего задания и любой профессией для парсинга остального
sh hh.sh "data scientist"
Сырые данне складываем в JSON файл и затем преобразовываем его в CSV файл, сортируем, заменяем строки и разделяем/объединяем по файлам.
Резюме: Сегодня мы поможем вам приобрести базовые знания о синтаксисе и семантикеиз Питона.
- Сортировака словаря в Python
Резюме: сегодня мы поможем вам получить базовые знания об ООП-подходе в Python.
Резюме: Сегодня мы поможем вам получить базовые знания о том, как управлять библиотеками в Python и работать с виртуальными средами (virtual environment venv
).
- Установка venv
python3.10 -m venv venv
- установка. venv/bin/activate
- запускаем такsource venv/bin/activate
- или такpip install --upgrade pip
- oбновляем pipdeactivate
- и выход из окружения
- Установка библиотек:
pip install termgraph
Termgraphpip install beautifulsoup4
Beautiful soup часть 1 + часть 2 и часть 3pip install lxml
lxml + ещеpip install pytest
PyTestpip install requests
requests + еще
- Полезное:
- Termgraph — консольная утилита для рисования графиков
- Модуль BeautifulSoup4 в Python, разбор HTML
- Профилирование и отладка Python, инструменты
- PyTest часть 1 и часть 2
Резюме: Сегодня мы поможем вам написать код, который работает быстрее.
- Руководство по использованию list comprehension
- Модуль timeit в Python
- Data Structures
- Функциональное программирование в Python: lambda, zip, filter, map reduce
- Основы функционального программирования на Python
- Класс Counter модуля collections в Python.
- Resource usage information
- Генераторы в Python и их отличие от списков и функций
Резюме: сегодня мы поможем вам приобрести навыки с Pandas.
- Подборка статей о работе с библиотеками для анализа данных на языке Python
- Обзор типов данных Pandas
- еще о Pandas
Резюме: сегодня мы поможем вам приобрести навыки работы с SQL
Резюме: Сегодня мы поможем вам с визуализацией данных в Matplotlib, Seaborn и Plotly.
Резюме: Сегодня мы поможем вам с основными задачами, связанными с машинным обучением в Python.
Резюме: сегодня мы поможем вам справиться с сложными задачами, связанными с машинным обучением в Python.
Резюме: Этот раш поможет вам укрепить навыки, полученные в предыдущие дни.
- Класс OrderedDict модуля collections в Python.
Резюме: Этот раш поможет вам укрепить навыки, полученные в предыдущие дни. Датасет epi_r.csv скачать здесь