Switch branches/tags
Nothing to show
Find file History
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
..
Failed to load latest commit information.
img
README.md

README.md

XGBoost rządzi

Vladimir Alekseichenko, architekt w General Electric

Opis warsztatu

W teorii nie ma różnicy pomiędzy teorią i praktyką. W praktyce - jest. © Einstein

XGBoost to jest jedna najlepszych implementacji "Gradient Boosting" z punktu widzenia praktycznego.

Dlaczego warto?

  1. Wynik (czyli zwykle jeden z najlepszych)
  2. Czas na naukę i predykcję (potrafi używać wszystkie dostępne rdzenie)
  3. Odporność na przeuczenia się (poprzez różne parametry regularyzacji)
  4. Stabilność (można spokojnie używać na produkcje)

Czas Dokładność

Źródło - benchmark-ml

Plan warsztatu

  1. Zrozumienie biznes problemu
  2. Zrozumienie danych
  3. Budowa bardzo prostego modelu (base-line)
  4. Przypomnienie co to jest drzewa decezyjne
  5. Uruchomienie prostego modelu xgboost
  6. Generowanie cech (feature engineering)
  7. Budowanie bardziej zaawansowanego modelu
  8. Optymalizacja hyperparametrów
  9. Inne (zaawansowane) triki (opcjonalnie)

Wymagane od uczestników umiejętności i wiedza

Warsztat może być ciekawy dla osób które dopiero zaczynają, jak i dla średnio-zaawansowanych (z mojej wiedzy mało osób kojarzy i tym bardziej używa XGBoost w praktyce, chociaż to zmienia się bardzo szybko w czasie).

Natomiast warto rozumieć podstawy:

Fajnie będzie jeżeli sprawdzisz (przypomnisz) jak działają drzewa decezyjne (decision trees).

Wymagane pakiety

Problem do rozwiązywania

Przewidywania kosztu szkody na podstawie danych historycznych. Allstate

Wymagania wstępne do wykonania przed warsztatem

  1. Mieć laptop z potrzebnymi pakietami (przede wszystkim xgboost)
  2. Pobrać dane z Kaggle
  3. Pomyśleć nad problemem przed warsztatem (może nawet spróbować go rozwiązać w najlepszy możliwy sposób - użyć dowolny model, który się zna)

Język warsztatu

Polski (ale mogę przejść na angielski, rosyjski, python, java, C#, javascript, php...)

Prowadzący

Vladimir lubi podróże (odwiedził około 30 krajów)... również w świecie IT. Zaczął programować ponad 10 lat temu i pracował w różnych dziedzinach informatyki (z różnymi technologiami). Przez ostatnie 4 lata zajmuję się tematami związanymi z danymi, takie jak machine learning czy data science. Był zaangażowany w budowę infrastruktury dla wyszukiwarek (TB danych). Przygotował ETL (oparty na stacku Hadoop/Kafka/Storm), robił prognozy sprzedaży i wiele innych. Jest trenerem w warsztatach DataWorkshop, gdzie wyjaśnia, jak korzystać z uczenia maszynowego w życiu realnym bez komplikacji teoretycznych i zawiłych wzorów. Ma podcast o sztucznej inteligencji dla biznesu - BiznesMyśli. Uczestniczy w konkursach Kaggle'a. Kocha dane i wyzwania.

Vladimir w sieciach społecznościowych: Facebook, Github, Twitter, LinkedIn.