In [23]:
import pandas as pd
import os

# Definiowanie ścieżek do plików i folderów
archive_path = "../data/raw/archive/"
output_path = "../data/processed/"
output_file = "Chicago_Crimes_Merged.csv"

csv_files = [
    "Chicago_Crimes_2001_to_2004.csv",
    "Chicago_Crimes_2005_to_2007.csv",
    "Chicago_Crimes_2008_to_2011.csv",
    "Chicago_Crimes_2012_to_2017.csv",
]

print("Sprawdzanie plików:")
for file in csv_files:
    file_path = os.path.join(archive_path, file)
    print(f"  - {file_path} - istnieje: {os.path.exists(file_path)}")

try:
    dataframes = []
    print("Wczytywanie plików...")
    for file in csv_files:
        file_path = os.path.join(archive_path, file)
        if os.path.exists(file_path):
            try:
                # Wczytaj CSV z ignorowaniem błędów w wierszach
                df = pd.read_csv(file_path, low_memory=False, on_bad_lines="skip")
                dataframes.append(df)
                print(f"  - Wczytano plik: {file}")
            except Exception as e:
                print(f"  - Błąd wczytywania pliku {file}: {str(e)}")
        else:
            print(f"  - Plik nie istnieje: {file}")

    print("Scalanie plików...")
    merged_data = pd.concat(dataframes, ignore_index=True)

    print("Podgląd danych po scaleniu:")
    print(merged_data.head())

    os.makedirs(output_path, exist_ok=True)
    merged_file_path = os.path.join(output_path, output_file)
    merged_data.to_csv(merged_file_path, index=False)
    print(f"Plik wynikowy został zapisany w: {merged_file_path}")

except Exception as e:
    print(f"Wystąpił błąd: {str(e)}")

Sprawdzanie plików:
  - ../data/raw/archive/Chicago_Crimes_2001_to_2004.csv - istnieje: True
  - ../data/raw/archive/Chicago_Crimes_2005_to_2007.csv - istnieje: True
  - ../data/raw/archive/Chicago_Crimes_2008_to_2011.csv - istnieje: True
  - ../data/raw/archive/Chicago_Crimes_2012_to_2017.csv - istnieje: True
Wczytywanie plików...
  - Wczytano plik: Chicago_Crimes_2001_to_2004.csv
  - Wczytano plik: Chicago_Crimes_2005_to_2007.csv
  - Wczytano plik: Chicago_Crimes_2008_to_2011.csv
  - Wczytano plik: Chicago_Crimes_2012_to_2017.csv
Scalanie plików...
Podgląd danych po scaleniu:
   Unnamed: 0       ID Case Number                    Date  \
0         879  4786321    HM399414  01/01/2004 12:01:00 AM   
1        2544  4676906    HM278933  03/01/2003 12:00:00 AM   
2        2919  4789749    HM402220  06/20/2004 11:00:00 AM   
3        2927  4789765    HM402058  12/30/2004 08:00:00 PM   
4        3302  4677901    HM275615  05/01/2003 01:00:00 AM   

                 Block  IUCR              