multithreading in big data using Java and Python
Bu projede müşteri şikayetleri kayıtlarının tutulduğu bir veri seti içerisindeki benzer kayıtlar tespit edilecek ve tespit edilen kayıtlar masaüstü uygulamasında gösterilecektir. Multithreading kullanarak benzerlik arama suresini düşürmek amaçlanmaktadır.
- Veri seti içerisindeki arama işlem süresini multithreading kullanılarak azaltmak.
- Belirtilen sütun/sütunlar için her bir satırdaki kayıtların birbiriyle kelime bazlı karşılaştırılması ve aralarındaki benzerliğin tespit edilmesi.
- Uygulama içerisinde istenen özelliklere göre kayıtları filtrelemek ve kullanıcıya gostermek.
- Masaüstü uygulama geliştirme hakkında bilgi ve beceriye sahip olmak.
Projede verilen kapsamlı veri setinin düzenlenerek üstünde işlemler yapılması istenmektedir.Bu veri seti ilk başta 1.8 milyon veriye sahiptir.Bu veri seti içerisinde Null değerler barındırmayacak, noktalama işaaretleri ve stop wordler silinecek, 6 sütuna sahip bir şekilde tekrardan düzenlenmelidir. Yeni düzenlenen veri seti üzerinde benzerlik işlemleri yapılması gerekir.Bu benzerlik karşılaştırması sütun içerisinde yapılacaktır. İşlemlerin gerçekleştirilmesi için bir arayüz hazırlanmalıdır.Kullanıcı bu arayuz içerisinde benzerlik oranını, bu benzerlik oranının işlenecegi sütunu, kaç thread ile bu işlemi gerçekleştirecegini seçecektir.Daha sonra yapılan seçimlerin sonucu arayüz üzerinde bir tabloda gösterilecektir.Bu işlemlerin süresi de aynı şekilde arayüzde gösterilmelidir. Projemde Java programlama dilini kullanarak hem thread yapısını hem de Swing framework’u ile dinamik bir arayüz oluşturdum.