In [76]:
import os
from pathlib import Path

import pandas as pd
import geopandas as gpd
from dbfread import DBF

In [77]:
DATA_PATH = Path(os.getcwd()) / "dataset"

In [None]:
list(DATA_PATH.iterdir())

In [79]:
names = set()
for file in DATA_PATH.iterdir():
    names.add(file.suffix)
names

{'.cpg', '.dbf', '.docx', '.prj', '.qmd', '.shp', '.shx'}

In [91]:
for record in DBF(DATA_PATH / "House_1очередь_ЖК.dbf", encoding="utf-8"):
    print(record)

OrderedDict({'Type': 'Жилые дома', 'Purpose': 'Малоэтажный жилой дом', 'Elevation': 3, 'Entrances': 4, 'Apartments': 86, 'District': 'Коммунарка', 'Street': 'Потаповская Роща', 'Number': '2 к3'})
OrderedDict({'Type': 'Жилые дома', 'Purpose': 'Малоэтажный жилой дом', 'Elevation': 3, 'Entrances': 4, 'Apartments': 86, 'District': 'Коммунарка', 'Street': 'Потаповская Роща', 'Number': '1 к2'})
OrderedDict({'Type': 'Жилые дома', 'Purpose': 'Малоэтажный жилой дом', 'Elevation': 3, 'Entrances': 4, 'Apartments': 86, 'District': 'Коммунарка', 'Street': 'Потаповская Роща', 'Number': '1 к1'})
OrderedDict({'Type': 'Жилые дома', 'Purpose': 'Малоэтажный жилой дом', 'Elevation': 3, 'Entrances': 4, 'Apartments': 86, 'District': 'Коммунарка', 'Street': 'Потаповская Роща', 'Number': '3 к1'})
OrderedDict({'Type': 'Жилые дома', 'Purpose': 'Малоэтажный жилой дом', 'Elevation': 3, 'Entrances': 3, 'Apartments': 98, 'District': 'Коммунарка', 'Street': 'Потаповская Роща', 'Number': '2 к4'})
OrderedDict({'Type':

In [92]:
import os
from pathlib import Path
import geopandas as gpd
import pandas as pd
from dbfread import DBF
from typing import Dict, List, Union
from collections import OrderedDict

# .cpg parser
def parse_cpg(file_path: str) -> str:
    with open(file_path, 'r') as f:
        return f.read().strip()

# .dbf parser
def parse_dbf(file_path: str) -> DBF:
    return DBF(file_path, encoding='utf-8')

# .prj parser
def parse_prj(file_path: str) -> str:
    with open(file_path, 'r') as f:
        return f.read().strip()

# .qmd parser
def parse_qmd(file_path: str) -> str:
    with open(file_path, 'r') as f:
        return f.read()

# .shp parser
def parse_shp(file_path: str) -> gpd.GeoDataFrame:
    return gpd.read_file(file_path)

# .shx parser
def parse_shx(file_path: str) -> bytes:
    with open(file_path, 'rb') as f:
        return f.read()

# Process all files in folder
def parse_files_in_folder(folder_path: str) -> Dict[str, Union[str, pd.DataFrame, gpd.GeoDataFrame, bytes]]:
    parsed_data = {}
    for file in os.listdir(folder_path):
        file_path = Path(folder_path) / file
        print(f"Checking {file_path.name}...")
        ext = file_path.suffix.lower()
        match ext:
            case '.cpg':
                item  = parse_cpg(file_path)
            case '.dbf':
                item = parse_dbf(file_path)
            case '.prj':
                item = parse_prj(file_path)
            case '.qmd':
                item = parse_qmd(file_path)
            case '.shp':
                item = parse_shp(file_path)
            case '.shx':
                item = parse_shx(file_path)
            case _:
                item = None
        parsed_data[file_path.stem] = item
    return parsed_data

In [None]:
df = parse_files_in_folder(DATA_PATH)

In [84]:
df.keys()

dict_keys(['House_3очередь_ЖК', 'Остановки_ОТ', 'Streets_2очередь', 'Streets_1очередь', 'Дома_исходные', 'Выходы_метро', 'Streets_исходные', 'House_1очередь_ЖК', 'Streets_3очередь', 'House_2очередь_ЖК', 'ЦОДД_описание атрибутов'])

In [85]:
df['Streets_3очередь']

Unnamed: 0,ST_NAME,ST_TYP_BEF,ST_NM_BASE,ROAD_CATEG,RoadDirect,RbndStght,RbndBck,Width,MaxSpdDrct,AvgSpdDrct,MaxSpdRvrs,AvgSpdRvrs,Foot,Car,geometry
0,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4169313.05 7459602.18, 4169363.29 ..."
1,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4169368.91 7459679.52, 4169357.17 ..."
2,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4167431.36 7459646.24, 4167516.42 ..."
3,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4169499.07 7459820.14, 4169493.58 ..."
4,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4169053.72 7459877.54, 4169260.2 7..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28812,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4171555.24 7477440.42, 4171562.64 ..."
28813,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4171562.64 7477460.78, 4171587.9 7..."
28814,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4171773.99 7477765.8, 4171810.92 7..."
28815,,,,Внутриквартальные проезды,Any,1.0,1.0,6.0,20,20,20,20,1,1,"LINESTRING (4171773.99 7477765.8, 4171906.15 7..."


In [86]:
gpd.read_file(DATA_PATH / "House_1очередь_ЖК.shp")

Unnamed: 0,Type,Purpose,Elevation,Entrances,Apartments,District,Street,Number,geometry
0,Жилые дома,Малоэтажный жилой дом,3,4.0,86.0,Коммунарка,Потаповская Роща,2 к3,"POLYGON ((4174099 7468553.82, 4174054.11 74684..."
1,Жилые дома,Малоэтажный жилой дом,3,4.0,86.0,Коммунарка,Потаповская Роща,1 к2,"POLYGON ((4173865 7468327.02, 4173908.89 74683..."
2,Жилые дома,Малоэтажный жилой дом,3,4.0,86.0,Коммунарка,Потаповская Роща,1 к1,"POLYGON ((4174008.05 7468232.57, 4173991.51 74..."
3,Жилые дома,Малоэтажный жилой дом,3,4.0,86.0,Коммунарка,Потаповская Роща,3 к1,"POLYGON ((4173744.26 7468440.36, 4173741.92 74..."
4,Жилые дома,Малоэтажный жилой дом,3,3.0,98.0,Коммунарка,Потаповская Роща,2 к4,"POLYGON ((4174166.95 7468519.72, 4174167.88 74..."
5,Жилые дома,Малоэтажный жилой дом,3,4.0,66.0,Коммунарка,Потаповская Роща,2 к2,"POLYGON ((4173924.73 7468487.08, 4173936.06 74..."
6,Жилые дома,Малоэтажный жилой дом,3,4.0,96.0,Коммунарка,Потаповская Роща,2 к1,"POLYGON ((4173799.11 7468576.63, 4173812.73 74..."
7,Жилые дома,Малоэтажный жилой дом,3,4.0,86.0,Коммунарка,Потаповская Роща,3 к2,"POLYGON ((4173594.11 7468544.83, 4173564.48 74..."
8,Жилые дома,Жилой дом,18,6.0,399.0,Коммунарка,Александры Монаховой,88 к1,"MULTIPOLYGON (((4172984.27 7468324.11, 4172933..."
9,Жилые дома,Жилой дом,18,6.0,382.0,Коммунарка,Александры Монаховой,88 к2,"MULTIPOLYGON (((4172836.3 7468190.05, 4172861...."


In [87]:
gpd.read_file(DATA_PATH / "House_3очередь_ЖК.shp")

Unnamed: 0,Type,Purpose,Elevation,Entrances,Apartments,District,Street,Number,geometry
0,Школы,Школа,2,,,Коммунарка,Потаповская Роща,2 к5,"POLYGON ((4173932.77 7468595.71, 4173947.46 74..."
1,Школы,Школа,3,,,Коммунарка,Александры Монаховой,96а,"MULTIPOLYGON (((4173174.84 7467838.91, 4173121..."
2,Школы,Школа,4,,,Коммунарка,Куприна проспект,24 ст4,"POLYGON ((4171929.5 7468434.42, 4171913.59 746..."


In [88]:
gpd.read_file(DATA_PATH / "House_3очередь_ЖК.shx")

Unnamed: 0,Type,Purpose,Elevation,Entrances,Apartments,District,Street,Number,geometry
0,Школы,Школа,2,,,Коммунарка,Потаповская Роща,2 к5,"POLYGON ((4173932.77 7468595.71, 4173947.46 74..."
1,Школы,Школа,3,,,Коммунарка,Александры Монаховой,96а,"MULTIPOLYGON (((4173174.84 7467838.91, 4173121..."
2,Школы,Школа,4,,,Коммунарка,Куприна проспект,24 ст4,"POLYGON ((4171929.5 7468434.42, 4171913.59 746..."


In [89]:
import os
import geopandas as gpd

def parse_gis_data(data_dir):
    """
    Parse a GIS dataset located in the given directory.
    
    Parameters:
    data_dir (str): Path to the directory containing the GIS files.
    
    Returns:
    geopandas.GeoDataFrame: A GeoDataFrame containing the GIS data.
    """
    # Find all the relevant GIS files in the directory
    gis_files = [f for f in os.listdir(data_dir) if any(f.endswith(ext) for ext in ['.shp', '.dbf', '.shx', '.prj'])]

    # Load the GIS data into a GeoDataFrame
    gdf = gpd.read_file(os.path.join(data_dir, [f for f in gis_files if f.endswith('.shp')][0]))

    return gdf


gdf = parse_gis_data(DATA_PATH)

# Explore the GeoDataFrame
print(gdf.head())
print(gdf.info())


                 TrType                      Name          TrStopId  \
0  Автобусная остановка                д. Дудкино  4504282527175082   
1  Автобусная остановка        Академика Семёнова  4504282527177280   
2  Автобусная остановка           СНТ Гавриково-1  4504282527177281   
3  Автобусная остановка  СНТ Берёзка-Коммунарка-1  4504282549350453   
4  Автобусная остановка  СНТ Берёзка-Коммунарка-1  4504282549350455   

                        geometry  
0   POINT (4169298.8 7486206.48)  
1  POINT (4175492.12 7468089.68)  
2  POINT (4174773.19 7467701.78)  
3  POINT (4173317.02 7470985.86)  
4  POINT (4173231.61 7471209.38)  
<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 61 entries, 0 to 60
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   TrType    61 non-null     object  
 1   Name      61 non-null     object  
 2   TrStopId  61 non-null     object  
 3   geometry  61 non-null     geometry
dtypes: geome

In [90]:
gdf

Unnamed: 0,TrType,Name,TrStopId,geometry
0,Автобусная остановка,д. Дудкино,4504282527175082,POINT (4169298.8 7486206.48)
1,Автобусная остановка,Академика Семёнова,4504282527177280,POINT (4175492.12 7468089.68)
2,Автобусная остановка,СНТ Гавриково-1,4504282527177281,POINT (4174773.19 7467701.78)
3,Автобусная остановка,СНТ Берёзка-Коммунарка-1,4504282549350453,POINT (4173317.02 7470985.86)
4,Автобусная остановка,СНТ Берёзка-Коммунарка-1,4504282549350455,POINT (4173231.61 7471209.38)
...,...,...,...,...
56,Автобусная остановка,Метро Новомосковская · 2B,70030076182590875,POINT (4171359.52 7471032.31)
57,Автобусная остановка,Остановочный пункт,70030076948540367,POINT (4174177.65 7470593.46)
58,Автобусная остановка,Остановочный пункт,70030076948540429,POINT (4174474.04 7470894.07)
59,Автобусная остановка,Остановочный пункт,70030076948540491,POINT (4174353.06 7470784.1)
