# Component 1 - REGON Scraper

This module is used to scrape information from the [REGON database](https://wyszukiwarkaregon.stat.gov.pl/appBIR/index.aspx). The REGON database is a register of entities operating in Poland, including companies, institutions, and organizations.

The module contains a class called "RegonScrapper" that is initialized with a [file path](test_data.txt). The class is used to create a web scraper that scrapes information about entities. The scraper is implemented using the Selenium package in Python, which allows for automated web browsing.

The module also contains a function called "check_nip_regon_krs" that checks whether a given string is a valid NIP, REGON, or KRS number.

Overall, the module can be used to automatically scrape information about entities operating in Poland from the REGON database, making it useful for research, data analysis, and other applications.

## Case 1
A simple example of the module's use. The input file contains one identifier - [input file](example.txt)

In [8]:
from component_1 import RegonScraper

scraper = RegonScraper('example.txt')

entities, local_entities, pkd = scraper.get_entity_info()

Download basic information about entities:   0%|                                                 | 0/1 [00:32<?, ?it/s]


NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":".tabelaZbiorczaListaJednostek"}
  (Session info: headless chrome=111.0.5563.147)
Stacktrace:
Backtrace:
	(No symbol) [0x00C9DCE3]
	(No symbol) [0x00C339D1]
	(No symbol) [0x00B44DA8]
	(No symbol) [0x00B7019F]
	(No symbol) [0x00B703AB]
	(No symbol) [0x00B9EE62]
	(No symbol) [0x00B8AF14]
	(No symbol) [0x00B9D57C]
	(No symbol) [0x00B8ACC6]
	(No symbol) [0x00B66F68]
	(No symbol) [0x00B680CD]
	GetHandleVerifier [0x00F13832+2506274]
	GetHandleVerifier [0x00F49794+2727300]
	GetHandleVerifier [0x00F4E36C+2746716]
	GetHandleVerifier [0x00D46690+617600]
	(No symbol) [0x00C3C712]
	(No symbol) [0x00C41FF8]
	(No symbol) [0x00C420DB]
	(No symbol) [0x00C4C63B]
	BaseThreadInitThunk [0x758E7D69+25]
	RtlInitializeExceptionChain [0x77C0B74B+107]
	RtlClearBits [0x77C0B6CF+191]


### Legal/Physical entities

In [2]:
entities

Unnamed: 0,regon,nip,nazwa,kod_i_nazwa_podstawowej_formy_prawnej,kod_i_nazwa_szczegolnej_formy_prawnej,kod_i_nazwa_formy_wlasnosci,kraj,wojewodztwo,powiat,gmina,miejscowosc,ulica,nr_nieruchomosci,kod_pocztowy
0,1608,7770003699,POLITECHNIKA POZNAŃSKA,1 - OSOBA PRAWNA,044 - UCZELNIE,112 - WŁASNOŚĆ PAŃSTWOWYCH OSÓB PRAWNYCH,POLSKA,WIELKOPOLSKIE,Poznań,Poznań-Wilda,Poznań,pl. Marii Skłodowskiej-Curie,5,60-965


### Local entities

In [3]:
local_entities

Unnamed: 0,regon,regon j.nadrzędnej,nip j.nadrzędnej,nazwa,kraj,wojewodztwo,powiat,gmina,miejscowosc,ulica,nr_nieruchomosci,kod_pocztowy
0,160800032,1608,7770003699,ZESPÓŁ DZIAŁALNOŚCI GOSPODARCZEJ POLITECHNIKI ...,POLSKA,WIELKOPOLSKIE,Poznań,Poznań-Nowe Miasto,Poznań,ul. Ludwika Zamenhofa,26,60-965


### PKD

In [4]:
pkd

Unnamed: 0,regon,kod,nazwa
0,1608,8542Z,SZKOŁY WYŻSZE
1,160800032,8532A,TECHNIKA
2,160800032,2562Z,OBRÓBKA MECHANICZNA ELEMENTÓW METALOWYCH
3,160800032,7111Z,DZIAŁALNOŚĆ W ZAKRESIE ARCHITEKTURY


## Case 2
A more complex example of module use. This time there are 7 identifiers of different types in the [input file.](test_data.txt)

In [5]:
from component_1 import RegonScraper

scraper = RegonScraper('test_data.txt')

entities, local_entities, pkd = scraper.get_entity_info()

Download basic information about entities: 100%|█████████████████████████████████████████| 7/7 [01:38<00:00, 14.13s/it]


In [6]:
entities

Unnamed: 0,regon,nip,nazwa,kod_i_nazwa_podstawowej_formy_prawnej,kod_i_nazwa_szczegolnej_formy_prawnej,kod_i_nazwa_formy_wlasnosci,kraj,wojewodztwo,powiat,gmina,miejscowosc,ulica,nr_nieruchomosci,kod_pocztowy
0,1608,7770003699,POLITECHNIKA POZNAŃSKA,1 - OSOBA PRAWNA,044 - UCZELNIE,112 - WŁASNOŚĆ PAŃSTWOWYCH OSÓB PRAWNYCH,POLSKA,WIELKOPOLSKIE,Poznań,Poznań-Wilda,Poznań,pl. Marii Skłodowskiej-Curie,5,60-965
1,1554,5250005834,POLITECHNIKA WARSZAWSKA,1 - OSOBA PRAWNA,044 - UCZELNIE,112 - WŁASNOŚĆ PAŃSTWOWYCH OSÓB PRAWNYCH,POLSKA,MAZOWIECKIE,Warszawa,Śródmieście,Warszawa,Plac Politechniki,1,00-661
2,1583,7270021895,POLITECHNIKA ŁÓDZKA,1 - OSOBA PRAWNA,044 - UCZELNIE,112 - WŁASNOŚĆ PAŃSTWOWYCH OSÓB PRAWNYCH,POLSKA,ŁÓDZKIE,Łódź,Łódź-Polesie,Łódź,ul. Stefana Żeromskiego,116,90-924
3,63650,5250009358,INSTYTUT TECHNIKI BUDOWLANEJ,1 - OSOBA PRAWNA,165 - INSTYTUTY BADAWCZE I INSTYTUTY DZIAŁAJĄC...,112 - WŁASNOŚĆ PAŃSTWOWYCH OSÓB PRAWNYCH,POLSKA,MAZOWIECKIE,Warszawa,Śródmieście,Warszawa,ul. Filtrowa,1,00-611
4,411347702,9231284232,"GOSPODARSTWO ROLNE DARIUSZ GROCHOLEWSKI,TŁOKI",9 - OSOBA FIZYCZNA PROWADZĄCA DZIAŁALNOŚĆ GOSP...,099 - OSOBY FIZYCZNE PROWADZĄCE DZIAŁALNOŚĆ GO...,214 - WŁASNOŚĆ KRAJOWYCH OSÓB FIZYCZNYCH,,WIELKOPOLSKIE,wolsztyński,Wolsztyn,Tłoki,,98A,64-200
5,411347702,9231284232,"UPRAWA GRZYBÓW DARIUSZ GROCHOLEWSKI,TŁOKI",9 - OSOBA FIZYCZNA PROWADZĄCA DZIAŁALNOŚĆ GOSP...,099 - OSOBY FIZYCZNE PROWADZĄCE DZIAŁALNOŚĆ GO...,214 - WŁASNOŚĆ KRAJOWYCH OSÓB FIZYCZNYCH,,WIELKOPOLSKIE,wolsztyński,Wolsztyn,Tłoki,,98A,64-200


In [7]:
local_entities.head()

Unnamed: 0,regon,regon j.nadrzędnej,nip j.nadrzędnej,nazwa,kraj,wojewodztwo,powiat,gmina,miejscowosc,ulica,nr_nieruchomosci,kod_pocztowy
0,160800032,1608,7770003699,ZESPÓŁ DZIAŁALNOŚCI GOSPODARCZEJ POLITECHNIKI ...,POLSKA,WIELKOPOLSKIE,Poznań,Poznań-Nowe Miasto,Poznań,ul. Ludwika Zamenhofa,26,60-965
1,155400020,1554,5250005834,POLITECHNIKA WARSZAWSKA FILIA W PŁOCKU,POLSKA,MAZOWIECKIE,Płock,Płock,Płock,ul. Ignacego Łukasiewicza,17,09-400
2,155400038,1554,5250005834,OFICYNA WYDAWNICZA POLITECHNIKI WARSZAWSKIEJ,POLSKA,MAZOWIECKIE,Warszawa,Śródmieście,Warszawa,ul. Polna,50,00-644
3,41134770200020,411347702,9231284232,"UPRAWA GRZYBÓW DARIUSZ GROCHOLEWSKI,TŁOKI",POLSKA,WIELKOPOLSKIE,wolsztyński,Wolsztyn,Tłoki,,98A,64-200
4,6365000021,63650,5250009358,INSTYTUT TECHNIKI BUDOWLANEJ ODDZIAŁ W GLIWICACH,POLSKA,ŚLĄSKIE,Gliwice,Gliwice,Gliwice,ul. Akademicka,5,44-101


In [8]:
pkd.head()

Unnamed: 0,regon,kod,nazwa
0,1608,8542Z,SZKOŁY WYŻSZE
1,160800032,8532A,TECHNIKA
2,160800032,2562Z,OBRÓBKA MECHANICZNA ELEMENTÓW METALOWYCH
3,160800032,7111Z,DZIAŁALNOŚĆ W ZAKRESIE ARCHITEKTURY
4,1554,8542Z,SZKOŁY WYŻSZE
