In [2]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Skrypt do ≈ÇƒÖczenia plik√≥w CSV dla ka≈ºdej strony ze wszystkich lat
"""

import pandas as pd
import os
from pathlib import Path

# Lista stron
ALLOWED_SITES = [
    "forsal.pl",
    "businessinsider.com.pl",
    "pap.pl",
    "tvn24.pl",
    "obserwatorfinansowy.pl",
    "pie.net.pl"
]

# Lata
YEARS = [2021, 2022, 2023]

# Folder ≈∫r√≥d≈Çowy i wyj≈õciowy
SOURCE_FOLDER = "csv ze stron"
OUTPUT_FOLDER = "csv ze stron"

def concatenate_site_csvs(site: str, years: list, source_folder: str = ".", output_folder: str = "."):
    """
    ≈ÅƒÖczy pliki CSV dla danej strony ze wszystkich lat.
    
    Args:
        site: nazwa strony (np. 'forsal.pl')
        years: lista lat do po≈ÇƒÖczenia
        source_folder: folder gdzie znajdujƒÖ siƒô pliki CSV
        output_folder: folder gdzie zapisaƒá wynikowy plik
    """
    site_normalized = site.replace('.', '_')
    dataframes = []
    
    print(f"\n[INFO] ≈ÅƒÖczenie plik√≥w dla {site}...")
    
    for year in years:
        filename = os.path.join(source_folder, f"{site_normalized}_{year}.csv")
        
        if os.path.exists(filename):
            try:
                df = pd.read_csv(filename)
                # Dodaj kolumnƒô z rokiem dla ≈Çatwiejszej analizy
                df['year'] = year
                dataframes.append(df)
                print(f"[INFO]  ‚úì Wczytano {filename}: {len(df)} rekord√≥w")
            except Exception as e:
                print(f"[ERROR]  ‚úó B≈ÇƒÖd przy wczytywaniu {filename}: {e}")
        else:
            print(f"[WARN]  ‚ö† Plik {filename} nie istnieje")
    
    if not dataframes:
        print(f"[WARN] Brak plik√≥w do po≈ÇƒÖczenia dla {site}")
        return None
    
    # Po≈ÇƒÖcz wszystkie dataframe'y
    combined_df = pd.concat(dataframes, ignore_index=True)
    
    # Usu≈Ñ duplikaty na podstawie URL
    initial_count = len(combined_df)
    combined_df = combined_df.drop_duplicates(subset=['url'], keep='first')
    duplicates_removed = initial_count - len(combined_df)
    
    if duplicates_removed > 0:
        print(f"[INFO]  Usuniƒôto {duplicates_removed} duplikat√≥w")
    
    # Sortuj wed≈Çug daty (je≈õli istnieje) lub roku
    if 'google_detected_date' in combined_df.columns:
        combined_df = combined_df.sort_values('google_detected_date')
    else:
        combined_df = combined_df.sort_values('year')
    
    # Zapisz po≈ÇƒÖczony plik jako full_{site}.csv
    output_filename = os.path.join(output_folder, f"full_{site_normalized}.csv")
    combined_df.to_csv(output_filename, index=False, encoding='utf-8')
    
    print(f"[INFO]  ‚úì Zapisano {output_filename}: {len(combined_df)} rekord√≥w")
    
    return combined_df

def main():
    # Utw√≥rz folder wyj≈õciowy je≈õli nie istnieje
    os.makedirs(OUTPUT_FOLDER, exist_ok=True)
    
    print("[INFO] üöÄ Rozpoczynam ≈ÇƒÖczenie plik√≥w CSV...")
    print(f"[INFO] üìÇ Pliki ≈∫r√≥d≈Çowe: {SOURCE_FOLDER}")
    print(f"[INFO] üìÅ Pliki wynikowe zostanƒÖ zapisane w: {OUTPUT_FOLDER}")
    
    total_files = 0
    total_records = 0
    
    # Po≈ÇƒÖcz pliki dla ka≈ºdej strony
    for site in ALLOWED_SITES:
        result = concatenate_site_csvs(site, YEARS, SOURCE_FOLDER, OUTPUT_FOLDER)
        if result is not None:
            total_files += 1
            total_records += len(result)
    
    print(f"\n[INFO] ‚úÖ Zako≈Ñczono ≈ÇƒÖczenie plik√≥w!")
    print(f"[INFO] üìä Utworzono {total_files} plik√≥w full_*.csv")
    print(f"[INFO] üìù ≈ÅƒÖcznie {total_records} unikalnych artyku≈Ç√≥w")

if __name__ == "__main__":
    main()


[INFO] üöÄ Rozpoczynam ≈ÇƒÖczenie plik√≥w CSV...
[INFO] üìÇ Pliki ≈∫r√≥d≈Çowe: csv ze stron
[INFO] üìÅ Pliki wynikowe zostanƒÖ zapisane w: csv ze stron

[INFO] ≈ÅƒÖczenie plik√≥w dla forsal.pl...
[WARN]  ‚ö† Plik csv ze stron/forsal_pl_2021.csv nie istnieje
[WARN]  ‚ö† Plik csv ze stron/forsal_pl_2022.csv nie istnieje
[WARN]  ‚ö† Plik csv ze stron/forsal_pl_2023.csv nie istnieje
[WARN] Brak plik√≥w do po≈ÇƒÖczenia dla forsal.pl

[INFO] ≈ÅƒÖczenie plik√≥w dla businessinsider.com.pl...
[INFO]  ‚úì Wczytano csv ze stron/businessinsider_com_pl_2021.csv: 100 rekord√≥w
[INFO]  ‚úì Wczytano csv ze stron/businessinsider_com_pl_2022.csv: 100 rekord√≥w
[INFO]  ‚úì Wczytano csv ze stron/businessinsider_com_pl_2023.csv: 100 rekord√≥w
[INFO]  Usuniƒôto 118 duplikat√≥w
[INFO]  ‚úì Zapisano csv ze stron/full_businessinsider_com_pl.csv: 182 rekord√≥w

[INFO] ≈ÅƒÖczenie plik√≥w dla pap.pl...
[INFO]  ‚úì Wczytano csv ze stron/pap_pl_2021.csv: 82 rekord√≥w
[INFO]  ‚úì Wczytano csv ze stron/pap_pl_2022

In [None]:
money_df = 