In [1]:
import pandas as pd
import tarfile
import os
from io import StringIO

# Proces zmiany nazw plików danych pogodowych

W celu lepszego zarządzania i identyfikacji danych klimatycznych, które pierwotnie były oznaczone za pomocą identyfikatorów stacji i lat, przeprowadzono proces automatycznej zmiany nazw plików na bardziej czytelne. 

---

## Przebieg procesu

1. Przygotowano mapowanie unikalnych identyfikatorów stacji pomiarowych na odpowiadające im nazwy miast, co pozwala na łatwe powiązanie danych z konkretnymi lokalizacjami.

2. Następnie dokonano przeglądu wszystkich plików znajdujących się w wyznaczonym katalogu, które reprezentują dane poszczególnych stacji i lat.

3. Każdy plik został zweryfikowany pod kątem zgodności z ustalonym formatem nazwy zawierającym identyfikator stacji i rok.

4. Dla plików spełniających ten warunek, na podstawie mapowania identyfikatorów na nazwy miast, zmieniono nazwy plików tak, aby zawierały nazwę miasta zamiast identyfikatora.

5. W przypadku plików, dla których brak było mapowania, pozostawiono oryginalne nazwy i odnotowano tę sytuację.

6. Ostatecznie, dzięki temu procesowi, uzyskano uporządkowany zestaw plików z nazwami odzwierciedlającymi lokalizację oraz rok, co ułatwia dalszą analizę i pracę z danymi.

---

## Podsumowanie

Automatyczna zmiana nazw plików na czytelne i intuicyjne formaty znacznie usprawnia organizację danych oraz ułatwia identyfikację i selekcję informacji w dalszych etapach projektu analizy zmian klimatycznych.
etne lokalizacje pomiarowe.


In [16]:
DATA_DIR = "Data"  # Directory containing Year.tar.gz files
# STATIONS_OF_INTEREST = ["12375099999",
#                         "11035099999",
#                         "06451099999",
#                         "11518099999",
#                         "07156099999",
#                         "10384099999",
#                         "16716199999",
#                         "12840099999",
#                         "08579099999",
#                         "03775099999",
#                         "08221099999",
#                         "27612099999"]  # Your target stations

STATIONS_OF_INTEREST = ["16741099999"]
OUTPUT_DIR = "Extracted_Stations"
YEARS = range(1929, 2024)

In [3]:
os.makedirs(OUTPUT_DIR, exist_ok=True)

In [4]:
def extract_station_from_tar(tar_path, station_name):
    """Extract a specific station's data from a tar.gz file"""
    # Otwieramy archiwum tar.gz w trybie do odczytu skompresowanego gzipem
    with tarfile.open(tar_path, 'r:gz') as tar:
        # Tworzymy nazwę pliku CSV, który chcemy wyciągnąć (np. "Warszawa.csv")
        csv_name = f"{station_name}.csv"
        try:
            # Szukamy w archiwum pliku o takiej nazwie
            member = tar.getmember(csv_name)
            # Wyciągamy plik z archiwum jako strumień bajtów
            csv_file = tar.extractfile(member)
            # Wczytujemy dane CSV do Pandas DataFrame (po zamianie bajtów na string)
            return pd.read_csv(StringIO(csv_file.read().decode('utf-8')))
        except KeyError:
            # Jeśli pliku o takiej nazwie nie ma w archiwum, wypisujemy komunikat i zwracamy None
            print(f"Station {station_name} not found in {tar_path}")
            return None
            

In [17]:
for year in YEARS:
    # Budujemy ścieżkę do pliku archiwum .tar.gz dla danego roku
    tar_path = os.path.join(DATA_DIR, f"{year}.tar.gz")
    
    # Sprawdzamy, czy plik istnieje – jeśli nie, wypisujemy komunikat i przechodzimy do kolejnego roku
    if not os.path.exists(tar_path):
        print(f"File not found: {tar_path}")
        continue
    
    print(f"Processing {year}...")
    
    # Dla każdej wybranej stacji w STATIONS_OF_INTEREST
    for station in STATIONS_OF_INTEREST:
        # Wyciągamy dane stacji z archiwum za pomocą funkcji extract_station_from_tar
        df = extract_station_from_tar(tar_path, station)
        
        # Jeśli dane zostały pomyślnie wczytane (nie są None)
        if df is not None:
            # Budujemy ścieżkę do zapisu pliku CSV z danymi danej stacji i roku
            output_path = os.path.join(OUTPUT_DIR, f"{station}_{year}.csv")
            # Zapisujemy DataFrame do pliku CSV bez indeksu
            df.to_csv(output_path, index=False)
            print(f"Saved {station} data for {year}")

print("Extraction complete!")


Processing 1929...
Station 16741099999 not found in Data\1929.tar.gz
Processing 1930...
Station 16741099999 not found in Data\1930.tar.gz
Processing 1931...
Station 16741099999 not found in Data\1931.tar.gz
Processing 1932...
Station 16741099999 not found in Data\1932.tar.gz
Processing 1933...
Station 16741099999 not found in Data\1933.tar.gz
Processing 1934...
Station 16741099999 not found in Data\1934.tar.gz
Processing 1935...
Station 16741099999 not found in Data\1935.tar.gz
Processing 1936...
Station 16741099999 not found in Data\1936.tar.gz
Processing 1937...
Station 16741099999 not found in Data\1937.tar.gz
Processing 1938...
Station 16741099999 not found in Data\1938.tar.gz
Processing 1939...
Station 16741099999 not found in Data\1939.tar.gz
Processing 1940...
Station 16741099999 not found in Data\1940.tar.gz
Processing 1941...
Station 16741099999 not found in Data\1941.tar.gz
Processing 1942...
Station 16741099999 not found in Data\1942.tar.gz
Processing 1943...
Station 1674109