A feladatokat notebook formájában kell beadni, amely nootbook minden blokkjának egymás után szekvenciálisa hiba nélkül kell futnia. A notebook-ok egyes részegységét pontosan definiálnia kell melyik rész mit csinál pontosan és mit akar megmutatni.A feladat megoldásának egy teljes működő pipline-t kell létrehoznia. Az egyes feladatoknál mindig kell lennie egy adatelőkészítési, modellezési és kiértékelési résznek. A feladatokat 1 vagy maximum 3-fő csapatokban lehet elvégezni. Azonban az elért eredményhez képest 2 személyes csapat esetén fél jegy még 3 személyes csapat esetén egy teljes jegy kerül levonásra.
Az elkészült feladatokat az óraadó email címére kell megküldeni a megadott sablon alapján. Az emailben fel kell tüntetni ki vagy kik készítették a feladatokat Név, Neptunkód megadásával. A sablont nem kell csatolni az emailhez, hanem azt fel kell tölteni valamilyen dokumentum megosztó helyre és csak az letöltési linket kell az email-ben megadni.
2022.12.04. (vasárnap) 23:59:59 (éjfél)
| Feladat | Értékelés | Érdemjegy |
|---|---|---|
| Szöveg beágyazás | 1. modellel | 2 |
| Szöveg beágyazás | 3. modellel | 3 |
| Szentiment analízis | 1. modellel | 2 |
| Szentiment analízis | 3. modellel | 3 |
| Szöveg osztályozás | 1. modellel | 3 |
| Szöveg osztályozás | 3. modellel | 4 |
| Szöveg multi-osztályozás | 1. modellel | 3 |
| Szöveg multi-osztályozás | 3. modellel | 4 |
| Szöveg generálás | 1. modellel | 3 |
| Szöveg generálás | 3. modellel | 4 |
| Téma modellezés | 1. modellel | 2 |
| Téma modellezés | 3. modellel | 4 |
| Vegyes | 3. modellel | 4 |
| Modell | Pont |
|---|---|
| Transformer | 10 |
| CNN | 9 |
| Naivebayes | 9 |
| Logisztikus regresszio | 6 |
| LDA | 8 |
| PCA | 6 |
| TSNE | 7 |
| Neurális hálók | 6 |
| RNN | 7 |
| LSTM | 8 |
| GRU | 8 |
| K-Mean | 7 |
| Embedding | 7 |
| Stopwords | 3 |
| Stemming | 3 |
| Lemmatization | 3 |
| n-gramm | 2 |
| BPE | 4 |
| Wordlevel | 2 |
| Wordpiece | 5 |
| Sentencepiece | 5 |
| tf | 2 |
| tfidf | 3 |
| szó vektor | 5 |
A tárgy keretein belül a hallgatók megismerkednek a természetes nyelvű szövegfeldolgozás (NLP) alapjaival. Ezen felül gyakorlati tapasztalatra is szert tesznek különböző feladatok megoldása során. Főbb témakörök: logisztikus regresszió, naiv Bayes modell, PCA, n-gram modellek, Word2Vec, klasszikus és rekurrens neurális hálók. Továbbá a tárgy elvégzése során a hallgatók betekintést nyerhetnek az éppen aktuális, korszerű neurális architektúrákba. A félév során a hallgatóknak arra is lehetőségük adódik majd, hogy ezen architektúrákat felhő alapú szolgáltatások felhasználásával (Azure, Google Collab stb.) valós adatokon is kipróbálhassák, betaníthassák.
A tárgy sikeres teljesítésével a hallgatók képesek lesznek különböző NLP architektúrák implementálására valós környezetekben. Emellett szert tehetnek a deeplarning.ai Natural Language Processing Specialization első két kurzusának sikeres teljesítéséhez szükséges ismeretekre, valamint közelebb kerülhetnek a Microsoft „Exam AI-900: Microsoft Azure AI Fundamentals” certificate megszerzéséhez.
- Jurafsky, Daniel, and James H. Martin. "Speech and language processing (draft)." Chapter A: Hidden Markov Models (Draft of September 11, 2018). Retrieved March 19 (2018): 2019.
- Eisenstein, Jacob. "Introduction to natural language processing." MIT press, 2019.
- Goldberg, Yoav. "A primer on neural network models for natural language processing." Journal of Artificial Intelligence Research 57 (2016): 345-420.
- Francois Chollet. "Deep Learning with Python"
- Stopwords
- Stemming
- Lemmatization
- n-gramm
- BPE
- Wordlevel
- Wordpiece
- Sentencepiece
- bag of word
- tf
- tfidf
- szó vektorok
- Skip-Gram
- CBOW
- Felügyelt
- Fél-felügyelt
- Nem felügyelt
- Naivebayes
- Logistic regression
- LDA
- PCA
- TSNE
- Neurális hálók
- RNN
- LSTM
- GRU
- CNN
- Transformer
- K-Mean
- Embedding
- Szentiment analízis
- Szöveg osztályozás
- Szöveg generálás
- Téma modellezés