# Justice scraper 1.0

## created by Adam Tůma

Justice scraper can scrape information of companies once provided with a list of IČOs

The script will return dataset obtaining the following information, with index values as the IČO of given company:
- Company name / Název společnosti
- Date of registration / Datum vzniku
- File number / Spisová značka
- Address / Sídlo
- Legal form / Právní forma

The program will then draw a map with tags for all companies.

Next part of the program works for individual companies and it is capable of scraping all of the information and saving it as a dictionary, or additionaly into a docx document.


In [20]:
import scrapy
import requests
import pandas as pd
import geopy
import time
import folium
import docx
from scrapy.selector import Selector
from bs4 import BeautifulSoup
from geopy.geocoders import Nominatim
from docx import Document
from docx.shared import Inches
from docx.shared import Pt
from docx.enum.style import WD_STYLE_TYPE

In [None]:
text_icos = open('top100_icos.txt', 'r')
icos = [line.strip() for line in text_icos]
text_icos.close()

print(icos)

In [21]:
def get_url(ico):
    url_0 = f"https://or.justice.cz/ias/ui/rejstrik-$firma?ico={ico}&jenPlatne=PLATNE&polozek=1&typHledani=STARTS_WITH"
    html_subjektID = requests.get(url_0).content
    sel_id = Selector(text=html_subjektID)
    vypis = sel_id.xpath("//li/a[contains(text(),'Výpis platných')]/@href").extract()
    subjektID = vypis[0].split('subjektId=')[1].split('&')[0]
    url = f'https://or.justice.cz/ias/ui/rejstrik-firma.vysledky?subjektId={subjektID}&typ=PLATNY'
    return url

urls = []

def get_urls(icos):
    for i in icos:
        urls.append(get_url(i))

def get_soup(ico):
    url = get_url(ico)
    html = requests.get(url).content
    soup = BeautifulSoup(html, 'lxml')
    return soup




In [None]:
###some testing

ico = "27082440"
url = f"https://or.justice.cz/ias/ui/rejstrik-$firma?ico={ico}&jenPlatne=PLATNE&polozek=1&typHledani=STARTS_WITH"
url2 = "https://or.justice.cz/ias/ui/rejstrik-firma.vysledky?subjektId=701502&typ=PLATNY"
html = requests.get(url2).content
soup = BeautifulSoup(html, 'lxml')

match = soup.find(text="Obchodní firma: ").findNext('span')
match2 = match.findNext('span')


match3 = soup.find(text="Identifikační číslo: ").findNext('span').text

match4 = soup.findAll(class_="nounderline")
match4[5].findNext('span')
print(soup.prettify())



## The function getBasicInfo obtains basic 5 datapoints that are the same across all companies on justice.cz

In [22]:
def getBasicInfo(icos):
    df = pd.DataFrame(index=icos, columns = ['Název společnosti', 'Datum vzniku', 'Spisová značka', 'Sídlo', 'Právní forma'])
    for ico in icos:
        soup = get_soup(ico)

        date = soup.find(text="Datum vzniku a zápisu:").findNext('div').findNext('div').text
        df.loc[ico,'Datum vzniku'] = date

        spis = soup.find(text="Spisová značka: ").findNext('span').text
        df.loc[ico,'Spisová značka'] = spis

        nazev = soup.find(class_="nounderline").findNext(class_="nounderline").findNext('span').text    # here we take different approach as the object is sometimes Obchodní firma and sometimes different
        df.loc[ico,'Název společnosti'] = nazev

        sidlo = soup.find(text="Sídlo: ").findNext('span').findNext('span').text                        # address is in double span
        df.loc[ico,'Sídlo'] = sidlo

        pravni_forma = soup.find(text="Právní forma: ").findNext('span').text
        df.loc[ico,'Právní forma'] = pravni_forma
        time.sleep(1)   # added 1 second sleep as justice temporarily banned access for my IP, maybe this will help
    return df

#df = getBasicInfo(icos)
df

Unnamed: 0,Název společnosti,Datum vzniku,Spisová značka,Sídlo,Právní forma
00177041,ŠKODA AUTO a.s.,20. listopadu 1990,B 332 vedená u Městského soudu v Praze,"tř. Václava Klementa 869, Mladá Boleslav II, 2...",Akciová společnost
28356250,"Energetický a průmyslový holding, a.s.",10. srpna 2009,B 21747 vedená u Městského soudu v Praze,"Pařížská 130/26, Josefov, 110 00 Praha 1",Akciová společnost
45274649,"ČEZ, a. s.",6. května 1992,B 1581 vedená u Městského soudu v Praze,"Praha 4, Duhová 2/1444, PSČ 14053",Akciová společnost
26185610,"AGROFERT, a.s.",1. července 2000,B 6626 vedená u Městského soudu v Praze,"Pyšelská 2327/2, Chodov, 149 00 Praha 4",Akciová společnost
25938002,FOXCONN CZ s.r.o.,18. května 2000,C 16095 vedená u Krajského soudu v Hradci Králové,"U Zámečku 27, Pardubičky, 530 03 Pardubice",Společnost s ručením omezeným
...,...,...,...,...,...
63145936,Benteler ČR s.r.o.,12. července 1995,C 22895 vedená u Krajského soudu v Ústí nad Labem,"Školní 713, 463 31 Chrastava",Společnost s ručením omezeným
49284975,"KIEKERT-CS, s.r.o.",1. června 1993,C 4473 vedená u Krajského soudu v Hradci Králové,"Jaselská 593, 535 01 Přelouč",Společnost s ručením omezeným
02397811,Adient Bor s.r.o.,3. prosince 2013,C 36301 vedená u Krajského soudu v Plzni,"Nová Hospoda 29, 348 02 Bor",Společnost s ručením omezeným
26307391,Miele technika s.r.o.,13. prosince 2002,C 28029 vedená u Krajského soudu v Ostravě,"Uničov, Šumperská 1348, PSČ 78391",Společnost s ručením omezeným


In [None]:
def getCoordinates(df):
    ### FUNCTION TO OBTAIN GPS COORDINATES FROM ADDRES ###
    locator = Nominatim(user_agent='justice_scraper')
    list_address = df.loc[:,'Sídlo'].tolist()
    latitudes = []
    longitudes = []
    for i in list_address:
        split = i.split(',')                        # first we try to obtain coordinates from the first 2 splits in the addres, usually the street name and number + city
        address = split[0]+', '+split[1]
        location = locator.geocode(address)
        if not location:                            # sometimes the address is wierdly formatted and the second info is the postal code, which results in not finding any coordinates, we then try only from the first split
            split1 = i.split(',')
            address1 = split1[0]
            lat1 = locator.geocode(address1).latitude
            lon1 = locator.geocode(address1).longitude
            latitudes.append(lat1)
            longitudes.append(lon1)
        else: 
            lat = locator.geocode(address).latitude
            lon = locator.geocode(address).longitude
            latitudes.append(lat)
            longitudes.append(lon)
    df['latitude'] = latitudes
    df['longitude'] = longitudes
    return df

df = getCoordinates(df)
df

In [26]:
map1 = folium.Map(
    location=[49.861464, 15.496766],
    tiles='cartodbpositron',
    zoom_start=8,
)

df.apply(lambda row:folium.Marker(location=[row["latitude"], row["longitude"]], popup=row['Název společnosti']).add_to(map1), axis=1)

map1.save(outfile= "map.html")

## Obtaining more complex info that differs across companies

filtering the objects so they only include non-empty strings

In [None]:
# testing

soup2 = get_soup(27082440)
soup2

In [None]:
def getObjects(soup):
    object_list=[]
    for article in soup.findAll(class_="nounderline"):
        article_text = article.text
        if not article_text:
            pass
        else: 
            object_list.append(article)
    return object_list

def getTextObjects(list):
    text_obj_list = []
    for i in list:
        text = i.text.strip()
        text_obj_list.append(text)
    return text_obj_list

list_objects = getObjects(soup2)
text_objects = getTextObjects(list_objects)
list_objects[2].findNext('span').findNext('span').findChildren()
list_objects


In [None]:
def getInfo(ico):
    soup = get_soup(ico)
    data = {}
    # first getting the basic information which will be formatted differently
    nazev = soup.find(class_="nounderline").findNext(class_="nounderline").findNext('span').text    #here we take different approach as the object is sometimes Obchodní firma and sometimes different
    data['Název společnosti:'] = nazev

    date = soup.find(text="Datum vzniku a zápisu:").findNext('div').findNext('div').text
    data['Datum vzniku:'] = date

    spis = soup.find(text="Spisová značka: ").findNext('span').text
    data['Spisová značka:'] = spis

    sidlo = soup.find(text="Sídlo: ").findNext('span').findNext('span').text                      #address is in double span
    data['Sídlo:'] = sidlo

    data['IČO:'] = str(ico)

    pravni_forma = soup.find(text="Právní forma: ").findNext('span').text
    data['Právní forma:'] = pravni_forma
    # next get the rest of the information available, except the last one, which is ostatní skutečnosti
    list_objects = getObjects(soup)
    for o in list_objects[5:-1]:
        span = o.findNext('span')
        info = []
        while span not in list_objects:
            if span: #checks if span exists
                if span.parent.name == 'p': #break the loop after the last span of our interest
                    break
                else:
                    span_child = span.findChildren()
                    while span_child: #iterates until it hits the last child span
                        span = span.findNext('span')
                        span_child = span.findChildren()
                    if span.text.strip(): #if the span includes some text continues
                        span_parent = span.parent
                        span_next = span.findNext('span')
                        text = span.text
                        if span_next: #concatenating spans that fall under the same parent so they are shown on the same line
                            while span_parent == span_next.parent:
                                text = text + span_next.text
                                span_next = span_next.findNext('span')
                                span = span.findNext('span')
                        info.append(text)
                        span = span.findNext('span')
                    else: span = span.findNext('span')
            else: break
        key = o.text.strip()
        if key in data:  #checks if key already exists in dictionary, so it wont replace it
            key = key + '+'
        data[key] = info
    return data

data = getInfo(45316872) #27082440 alza
data

In [90]:
soup2 = get_soup(45316872)

# soup2.find(class_="aunp-content").findAll(class_='vr-child', recursive=False)[8].findAll(class_='nounderline')[3].findSibling('span')

parents = soup2.find(class_="aunp-content").findAll(class_='vr-child')[31].find_parents(class_='vr-child')  ##this is how to keep track of indents
len(parents)

2

In [1]:
# working on a different approach that will be hopefully able to overcome more inconsistencies in formatting of justice website

test = soup2.find(class_="aunp-content").findAll(class_='vr-child')[30].findNext(class_='aunp-udajPanel').findAll('span')

spans = []
for span in test: #getting all text spans
    span_child = span.findChildren()
    if span_child: 
        pass
    else:
        if span.text.strip():  #only save the spans which include some text
            spans.append(span)
        else: pass

parents = []
for span in spans:
    parent = span.parent
    parents.append(parent)

parents

i = 0
info = []
while i < len(spans):
    span = spans[i]
    text = span.text.strip()
    try:
        span_next = spans[i+1]
    except:
        info.append(text)
        break
    if span.parent == span_next.parent:
        while span.parent == span_next.parent:
            text = text + span_next.text.strip()
            i += 1
            span = spans[i]
            try:
                span_next = spans[i+1]
            except:
                break
        info.append(text)
        i += 1
    else:
        info.append(text)
        i += 1
        
info

    # if span_next:
    #             while span_parent == span_next.parent:
    #             text = text + span_next.text
    #             span_next = span_next.findNext('span')
    #             span = span.findNext('span')



NameError: name 'soup2' is not defined

In [31]:
def getInfo2(ico):
    soup = get_soup(icos)
    data = {}
    kids = soup.findChildren(class_='vr-child')


In [None]:
keys = list(data.keys())
keys

## Gettting docx output

In [405]:
def get_vypis_doc(ico):
    data = getInfo(ico)
    keys = list(data.keys())

    #define document and styles settings
    document = Document()

    style = document.styles['Normal']
    font = style.font
    font.name = 'Calibri'
    font.size = Pt(11)
    style.paragraph_format.first_line_indent = Inches(-1.4)
    style.paragraph_format.left_indent = Inches(1.4)
    style.paragraph_format.space_after = Inches(0)
    style.paragraph_format.space_before = Inches(0)

    styles = document.styles
    style1 = styles.add_style('Light', WD_STYLE_TYPE.CHARACTER)
    font1 = style1.font
    font1.name = 'Calibri Light'
    font1.size = Pt(11)

    #get the basic info, which is displayed on the same line:
    #název společnosti
    p = document.add_paragraph(style=document.styles['Normal'])
    p.add_run(keys[0]).bold=True
    p.add_run('\t'+data[keys[0]]).bold=True
    #datum vzniku
    p = document.add_paragraph(style=document.styles['Normal'])
    p.add_run(keys[1]).bold=True
    p.add_run('\t'+data[keys[1]], style=document.styles['Light'])
    #spisová značka
    p = document.add_paragraph(style=document.styles['Normal'])
    p.add_run(keys[2]).bold=True
    p.add_run('\t'+data[keys[2]], style=document.styles['Light'])
    #sídlo
    p = document.add_paragraph(style=document.styles['Normal'])
    p.add_run(keys[3]).bold=True
    p.add_run('\t'+data[keys[3]], style=document.styles['Light'])
    #ičo
    p = document.add_paragraph(style=document.styles['Normal'])
    p.add_run(keys[4]).bold=True
    p.add_run('\t'+data[keys[4]], style=document.styles['Light'])
    #právní forma
    p = document.add_paragraph(style=document.styles['Normal'])
    p.add_run(keys[5]).bold=True
    p.add_run('\t'+data[keys[5]], style=document.styles['Light'])
    #get the rest of the information
    for key in keys[6:]:
        p = document.add_paragraph(style=document.styles['Normal'])
        p.add_run(key.replace('+','')).bold=True
        values = data[key]
        for value in values:
            p.add_run('\n'+value, style=document.styles['Light'])

    document.save(f'výpis_{data[keys[0]]}_.docx')



In [None]:
def getVrChilds(soup):
    object_list=[]
    for article in soup.findAll(class="vr-child"):
        article_text = article.text
        if not article_text:
            pass
        else: 
            object_list.append(article)
    return object_list

getVrChilds(soup2)

In [32]:
level_1 = soup2.find(class_="aunp-content").findAll(class_='vr-child', recursive=False)

level_1[6].findAll(class_='vr-child')[1].findNext('span').parent





<div class="vr-hlavicka"><span class="nounderline"></span></div>

In [26]:
## This is the idea how to fill out the series for companies

d = {list_objects[1].text : ['alza'], list_objects[2].text : ['ahoj','nashle']}

series = pd.Series(data = d, index = text_objects)
series


Spisová značka:                     NaN
Obchodní firma:                  [alza]
Sídlo:                   [ahoj, nashle]
Identifikační číslo:                NaN
Právní forma:                       NaN
Předmět podnikání:                  NaN
Statutární orgán:                   NaN
jednatel:                           NaN
jednatel:                           NaN
Počet členů:                        NaN
Způsob jednání:                     NaN
Společníci:                         NaN
Společník:                          NaN
Podíl:                              NaN
Základní kapitál:                   NaN
Ostatní skutečnosti:                NaN
dtype: object

## Idea - !!OUTDATED!!
1. Pomocí soup.findAll(class_="nounderline") najdeme všechny typy informací, která má daná firma available - krom data vzniku a zapisu viz problem 1
2. Udělá se loop, který pro každý typ informace shromáždí info pomocí findNext('span'). V tom bude další loop, který bude findNext('span') opakovat, dokud se to nebude rovnat dalšímu typu informace (viz html tree)
3. Pro každý typ informace uděláme dict ve stylu {typ1 : [info1], typ2 : [info1, info2], typ3 : [info1, info2, info3]} atp... z čehož se následně udělá pdSeries
4. pak to nějak zpracuju :) 

## Problems to overcome

1. Datum vzniku a zápisu musí být zvlášť, není to (class_="nounderline")
2. Adresy (jak sídlo tak u lidí) jsou v dvojitém spanu, musí se udělat check, že list_objects[1].findNext('span').findChildren() nemá children, a když jo, tak zahodit ten span a vzít až další
3. sposta random prázdných <span>, udělat check a zahodit
4. na další problémy určitě narazíme

RANDOM BORDEL BELLOW


In [31]:
def getObjectInfo(soup):
    list_objects = getObjects(soup)
    text_objects = getTextObjects(list_objects)
    for object in list_objects:
        next_span = object.findNext('span')
        while next_span != object+1:



IndentationError: expected an indented block (<ipython-input-31-fb15e9407ecb>, line 7)

In [None]:
prvni = filter_list[16].findNext('span')
prvni_text = prvni.text
druhy = prvni.findNext('span')
druhy_text = druhy.text
treti = druhy.findNext('span')
treti_text = treti.text
prvni_text

In [86]:
testik = soup.find(class_="nounderline").findNext(class_="nounderline").findNext('span').text
print(testik)


Alza.cz a.s.


In [None]:
info = []

def info_attacher(list):
    for object in list:
        while True:
            if object.text == (object+1).text:
                pass
            elif not i.text:
                pass
            else:
                info.append(i.text)

info_attacher(filter_list)
            