In [1]:
import pandas as pd

In [2]:
# 1. URL sąrašas
urls = [
    "https://github.com/marukqs/techmuge/blob/85544144cb731577c29a76845a8e37d468c4a679/valstybiniai_numeriai_csv_part1.csv?raw=true",
    "https://github.com/marukqs/techmuge/blob/85544144cb731577c29a76845a8e37d468c4a679/valstybiniai_numeriai_csv_part2.csv?raw=true",
    "https://github.com/marukqs/techmuge/blob/85544144cb731577c29a76845a8e37d468c4a679/valstybiniai_numeriai_csv_part3.csv?raw=true",
]

# 2. Duomenų nuskaitymas ir apdorojimas
dataframes = []
for url in urls:

    # Nuskaitymas į DataFrame
    df = pd.read_csv(url, header=None, names=["numeris"])

    # Pridedamas stulpelis su failo vardu
    df["failo_vardas"] = url.split("/")[-1].split("?")[0]

    print(df.head(3),f"Ilgis {len(df)}.",sep='\n',end='\n\n')
    dataframes.append(df)
   

  numeris                         failo_vardas
0   24NLH  valstybiniai_numeriai_csv_part1.csv
1   04TPI  valstybiniai_numeriai_csv_part1.csv
2  BYL744  valstybiniai_numeriai_csv_part1.csv
Ilgis 3249307.

  numeris                         failo_vardas
0   11OUY  valstybiniai_numeriai_csv_part2.csv
1  NVL306  valstybiniai_numeriai_csv_part2.csv
2  YSJ932  valstybiniai_numeriai_csv_part2.csv
Ilgis 2758280.

  numeris                         failo_vardas
0   955SH  valstybiniai_numeriai_csv_part3.csv
1   52JFG  valstybiniai_numeriai_csv_part3.csv
2  033005  valstybiniai_numeriai_csv_part3.csv
Ilgis 1718682.



In [3]:
# 3. Sujungimas į vieną DataFrame
combined_df = pd.concat(dataframes, ignore_index=True)
print(f"Jungtinio ilgis {len(combined_df)}.")

Jungtinio ilgis 7726269.


In [4]:
# 6. Pridedame stulpelį 'tipas'
def classify_number(numeris):
    import re
    if re.fullmatch(r"[A-Z]{3}\d{3}", numeris):
        return "automobilis"
    elif re.fullmatch(r"[A-Z]{2}\d{3}", numeris):
        return "priekaba"
    elif re.fullmatch(r"\d{3}[A-Z]{2}", numeris):
        return "motociklas"
    elif re.fullmatch(r"\d{2}[A-Z]{3}", numeris):
        return "mopedas"
    elif re.fullmatch(r"[A-Z]{2}\d{2}", numeris):
        return "keturratis"
    elif re.fullmatch(r"T\d{5}", numeris, re.IGNORECASE):
        return "taksi"
    elif re.fullmatch(r"H\d{5}", numeris, re.IGNORECASE):
        return "istorinis"
    elif re.fullmatch(r"\d{4}H", numeris, re.IGNORECASE):
        return "istorinis mažasis"
    elif re.fullmatch(r"P\d{5}", numeris, re.IGNORECASE):
        return "prekyba"
    elif re.fullmatch(r"P\d{4}", numeris, re.IGNORECASE):
        return "prekyba mažasis"
    elif re.fullmatch(r"E[A-Z]\d{4}", numeris, re.IGNORECASE):
        return "EV"
    elif re.fullmatch(r"\d{6}", numeris):
        return "diplomatinis"
    elif re.fullmatch(r"\d{5}", numeris):
        return "diplomatinis mažasis"
    elif re.fullmatch(r"\d{4}[A-Z]{2}", numeris):
        return "tranzitinis"
    elif re.fullmatch(r"\d{4}[A-Z]", numeris):
        return "tranzitinis mažasis"
    else:
        return "neatpažintas"

combined_df["tipas"] = combined_df["numeris"].apply(classify_number)
print(combined_df.head(5),f"\nIlgis {len(combined_df)}.")

  numeris                         failo_vardas        tipas
0   24NLH  valstybiniai_numeriai_csv_part1.csv      mopedas
1   04TPI  valstybiniai_numeriai_csv_part1.csv      mopedas
2  BYL744  valstybiniai_numeriai_csv_part1.csv  automobilis
3  VRY997  valstybiniai_numeriai_csv_part1.csv  automobilis
4  ZKP768  valstybiniai_numeriai_csv_part1.csv  automobilis 
Ilgis 7726269.


In [5]:
combined_df['numeris'] = combined_df['numeris'].str.lower() 
print(combined_df.head(5),f"\nIlgis {len(combined_df)}.")

  numeris                         failo_vardas        tipas
0   24nlh  valstybiniai_numeriai_csv_part1.csv      mopedas
1   04tpi  valstybiniai_numeriai_csv_part1.csv      mopedas
2  byl744  valstybiniai_numeriai_csv_part1.csv  automobilis
3  vry997  valstybiniai_numeriai_csv_part1.csv  automobilis
4  zkp768  valstybiniai_numeriai_csv_part1.csv  automobilis 
Ilgis 7726269.


In [7]:
# 4.A. Numerių su pasikartojimais skaičiavimas
numeris_counts = combined_df["numeris"].value_counts()
pasikartojantys_numeriai = numeris_counts[numeris_counts > 1]
print(f"Pasikartojančių numerių skaičius: {len(pasikartojantys_numeriai)}.")
print("Dažniausiai kartojasi:")
print(numeris_counts[numeris_counts > 1].sort_values(ascending=False).head(5))

Pasikartojančių numerių skaičius: 859359.
Dažniausiai kartojasi:
numeris
513ja     3
lin45     3
yr4       3
tro545    3
nen300    2
Name: count, dtype: int64


In [8]:
# 4.B. Unikalių numerių su pasikartojimais skaičiavimas
numeris_counts = combined_df["numeris"].value_counts()
pasikartojantys_numeriai = numeris_counts[numeris_counts > 1]
print("5 dažniausiai pasikartojantys numeriai:")
print(pasikartojantys_numeriai.sort_values(ascending=False).head(5))

5 dažniausiai pasikartojantys numeriai:
numeris
513ja     3
lin45     3
yr4       3
tro545    3
nen300    2
Name: count, dtype: int64


In [9]:
# 5. Paliekame tik unikalius numerius
unikalus_df = combined_df.drop_duplicates(subset="numeris")
print(f"Sąrašo ilgis be pasikartojimų {len(unikalus_df)}.\n")

# 7. Pridedame stulpelį "eil_nr"
unikalus_df = unikalus_df.reset_index(drop=True)
unikalus_df["eil_nr"] = unikalus_df.index + 1
print(unikalus_df.head(5),f"\nlgis {len(unikalus_df)}.")

Sąrašo ilgis be pasikartojimų 6866906.

  numeris                         failo_vardas        tipas  eil_nr
0   24nlh  valstybiniai_numeriai_csv_part1.csv      mopedas       1
1   04tpi  valstybiniai_numeriai_csv_part1.csv      mopedas       2
2  byl744  valstybiniai_numeriai_csv_part1.csv  automobilis       3
3  vry997  valstybiniai_numeriai_csv_part1.csv  automobilis       4
4  zkp768  valstybiniai_numeriai_csv_part1.csv  automobilis       5 
lgis 6866906.


In [10]:
# 8. Įrašome į CSV failą
unikalus_df.to_csv("numeriai.csv", index=False)

In [11]:
# 9.A. Išvesti po du kiekvieno tipo numerius
sampled_df = (
    unikalus_df.groupby("tipas", group_keys=False)
    .apply(lambda x: x.head(2))
    .reset_index(drop=True)
)
print("Po du kiekvieno tipo numerius:")
print(sampled_df[["numeris", "tipas"]])

Po du kiekvieno tipo numerius:
   numeris                 tipas
0   ez8359                    EV
1   ev5781                    EV
2   byl744           automobilis
3   vry997           automobilis
4   413040          diplomatinis
5   344504          diplomatinis
6    10181  diplomatinis mažasis
7    90337  diplomatinis mažasis
8   h81939             istorinis
9   h89231             istorinis
10   4236h     istorinis mažasis
11   1336h     istorinis mažasis
12    nd75            keturratis
13    pd12            keturratis
14   24nlh               mopedas
15   04tpi               mopedas
16   089jn            motociklas
17   849ty            motociklas
18  gag4ra          neatpažintas
19   t3rba          neatpažintas
20  p73619               prekyba
21  p56089               prekyba
22   nb229              priekaba
23   ly597              priekaba
24  t12098                 taksi
25  t28460                 taksi
26  5415to           tranzitinis


  .apply(lambda x: x.head(2))


In [12]:
# 9.B. Išvesti po du kiekvieno tipo numerius
sampled_df = unikalus_df.groupby("tipas").apply(lambda x: x.head(2)).reset_index(drop=True)
print("Po du kiekvieno tipo numerius:")
print(sampled_df[["numeris", "tipas"]])

Po du kiekvieno tipo numerius:
   numeris                 tipas
0   ez8359                    EV
1   ev5781                    EV
2   byl744           automobilis
3   vry997           automobilis
4   413040          diplomatinis
5   344504          diplomatinis
6    10181  diplomatinis mažasis
7    90337  diplomatinis mažasis
8   h81939             istorinis
9   h89231             istorinis
10   4236h     istorinis mažasis
11   1336h     istorinis mažasis
12    nd75            keturratis
13    pd12            keturratis
14   24nlh               mopedas
15   04tpi               mopedas
16   089jn            motociklas
17   849ty            motociklas
18  gag4ra          neatpažintas
19   t3rba          neatpažintas
20  p73619               prekyba
21  p56089               prekyba
22   nb229              priekaba
23   ly597              priekaba
24  t12098                 taksi
25  t28460                 taksi
26  5415to           tranzitinis


  sampled_df = unikalus_df.groupby("tipas").apply(lambda x: x.head(2)).reset_index(drop=True)


In [14]:
# 10. Rezultatai
print("Pirmi 10 unikalių įrašų su tipu ir eilės numeriais:")
print(unikalus_df.head(10))

Pirmi 10 unikalių įrašų su tipu ir eilės numeriais:
  numeris                         failo_vardas        tipas  eil_nr
0   24nlh  valstybiniai_numeriai_csv_part1.csv      mopedas       1
1   04tpi  valstybiniai_numeriai_csv_part1.csv      mopedas       2
2  byl744  valstybiniai_numeriai_csv_part1.csv  automobilis       3
3  vry997  valstybiniai_numeriai_csv_part1.csv  automobilis       4
4  zkp768  valstybiniai_numeriai_csv_part1.csv  automobilis       5
5  fof615  valstybiniai_numeriai_csv_part1.csv  automobilis       6
6  fep597  valstybiniai_numeriai_csv_part1.csv  automobilis       7
7  ktf988  valstybiniai_numeriai_csv_part1.csv  automobilis       8
8  ugr863  valstybiniai_numeriai_csv_part1.csv  automobilis       9
9  fyr560  valstybiniai_numeriai_csv_part1.csv  automobilis      10


In [None]:
# 11. Papildoma analizė
# Perskaitome failą 'numeriai.csv'
unikalus_df = pd.read_csv("numeriai.csv")

In [15]:
# Skaičiuojame kiekvieno tipo numerių skaičių
count_by_type = unikalus_df["tipas"].value_counts()
print("Kiekvieno tipo numerių skaičius:")
print(count_by_type)

Kiekvieno tipo numerių skaičius:
tipas
automobilis             5475344
mopedas                  546979
motociklas               237932
priekaba                 237701
EV                       103766
diplomatinis              89841
prekyba                   45145
taksi                     45043
istorinis                 44751
keturratis                23795
diplomatinis mažasis       9007
istorinis mažasis          4505
neatpažintas               3096
tranzitinis                   1
Name: count, dtype: int64


In [26]:
# Įrašome neteisingus įrašus į 'neteisingi_df'
neteisingi_df = unikalus_df[unikalus_df["tipas"] == "neatpažintas"]
print("Neteisingi numeriai (sąrašo pradžia):")
# print(neteisingi_df.head(10)[['numeris']].values.tolist())
print(neteisingi_df.head(10)['numeris'].values.tolist())

Neteisingi numeriai (sąrašo pradžia):
['gag4ra', 't3rba', 'per45', 'rupt1', 'kuk51', '5k3ndi', 'kru5t', 'v1jo', 'glumt1', 'l3pina']


In [17]:
unikalus_df

Unnamed: 0,numeris,failo_vardas,tipas,eil_nr
0,24nlh,valstybiniai_numeriai_csv_part1.csv,mopedas,1
1,04tpi,valstybiniai_numeriai_csv_part1.csv,mopedas,2
2,byl744,valstybiniai_numeriai_csv_part1.csv,automobilis,3
3,vry997,valstybiniai_numeriai_csv_part1.csv,automobilis,4
4,zkp768,valstybiniai_numeriai_csv_part1.csv,automobilis,5
...,...,...,...,...
6866901,krb616,valstybiniai_numeriai_csv_part3.csv,automobilis,6866902
6866902,bps951,valstybiniai_numeriai_csv_part3.csv,automobilis,6866903
6866903,dni279,valstybiniai_numeriai_csv_part3.csv,automobilis,6866904
6866904,roplys,valstybiniai_numeriai_csv_part3.csv,neatpažintas,6866905


In [18]:
# Analizuojame 5 dažniausias raides kiekvieno tipo numeriuose
def extract_letters(numeris):
    return "".join(filter(str.isalpha, numeris))

unikalus_df["letters"] = unikalus_df["numeris"].apply(extract_letters)
analize_df = unikalus_df.groupby("tipas")["letters"].apply(
    lambda x: pd.Series(list("".join(x))).value_counts().head(5)
).reset_index()
analize_df.columns = ["tipas", "raidė", "dažnis"]

print("5 dažniausios raidės kiekvieno tipo numeriuose:")
print(analize_df)

5 dažniausios raidės kiekvieno tipo numeriuose:
                tipas raidė  dažnis
0                  EV     e  108165
1                  EV     k    4618
2                  EV     v    4616
3                  EV     m    4586
4                  EV     i    4578
5         automobilis     k  715415
6         automobilis     d  715224
7         automobilis     b  714954
8         automobilis     j  714852
9         automobilis     l  714755
10          istorinis     h   44751
11  istorinis mažasis     h    4505
12         keturratis     d    2134
13         keturratis     z    2118
14         keturratis     s    2106
15         keturratis     p    2098
16         keturratis     j    2098
17            mopedas     r   71788
18            mopedas     c   71679
19            mopedas     f   71658
20            mopedas     l   71508
21            mopedas     t   71508
22         motociklas     f   20952
23         motociklas     c   20833
24         motociklas     l   20824
25         motoc

In [29]:
print("Tipas: 'EV', sąrašo pradžia:")
print(unikalus_df[unikalus_df["tipas"]=="EV"].head(10)['numeris'].values.tolist())
print()
print("Tipas: 'tranzitinis', sąrašo pradžia:")
print(unikalus_df[unikalus_df["tipas"]=="tranzitinis"].head(10)['numeris'].values.tolist())
print()
print("Tipas: 'istorinis', sąrašo pradžia:")
print(unikalus_df[unikalus_df["tipas"]=="istorinis"].head(10)['numeris'].values.tolist())

Tipas: 'EV', sąrašo pradžia:
['ez8359', 'ev5781', 'ed0321', 'eg1437', 'ef0008', 'ee4322', 'et8609', 'eu3174', 'ep5118', 'ec1748']

Tipas: 'tranzitinis', sąrašo pradžia:
['5415to']

Tipas: 'istorinis', sąrašo pradžia:
['h81939', 'h89231', 'h56721', 'h82155', 'h36852', 'h55256', 'h80691', 'h29461', 'h58477', 'h41650']


In [30]:
# 10. Rezultatai
print("Pirmi 10 unikalių įrašų su tipu ir eilės numeriais:")
print(unikalus_df.head(10))

Pirmi 10 unikalių įrašų su tipu ir eilės numeriais:
  numeris                         failo_vardas        tipas  eil_nr letters
0   24nlh  valstybiniai_numeriai_csv_part1.csv      mopedas       1     nlh
1   04tpi  valstybiniai_numeriai_csv_part1.csv      mopedas       2     tpi
2  byl744  valstybiniai_numeriai_csv_part1.csv  automobilis       3     byl
3  vry997  valstybiniai_numeriai_csv_part1.csv  automobilis       4     vry
4  zkp768  valstybiniai_numeriai_csv_part1.csv  automobilis       5     zkp
5  fof615  valstybiniai_numeriai_csv_part1.csv  automobilis       6     fof
6  fep597  valstybiniai_numeriai_csv_part1.csv  automobilis       7     fep
7  ktf988  valstybiniai_numeriai_csv_part1.csv  automobilis       8     ktf
8  ugr863  valstybiniai_numeriai_csv_part1.csv  automobilis       9     ugr
9  fyr560  valstybiniai_numeriai_csv_part1.csv  automobilis      10     fyr
