In [None]:
import pandas as pd
from PIL import Image
import os
import numpy as np

In [None]:
images_path = '../images'
population_data_path = '../data/full_data.csv'

In [None]:
def crop_and_resize(image: Image.Image, size: int) -> Image.Image:
    """
    Crop a PIL image to a square by trimming the longer side and centering,
    then resize it to the designated resolution.
    
    :param image: Input PIL Image
    :param size: Target resolution (size x size)
    :return: Processed PIL Image
    """
    width, height = image.size
    min_side = min(width, height)
    
    # Calculate crop box for center cropping
    left = (width - min_side) // 2
    top = (height - min_side) // 2
    right = left + min_side
    bottom = top + min_side
    
    # Crop to square
    cropped_image = image.crop((left, top, right, bottom))
    
    # Resize to designated resolution
    resized_image = cropped_image.resize((size, size), Image.LANCZOS)
    
    return resized_image

In [None]:
images = []

for dir in os.listdir(images_path):
    if not dir.endswith('.png'):
        continue
    
    full_path = f'{images_path}/{dir}'
    image = Image.open(full_path)
    square_image = crop_and_resize(image, 512)
    images.append(square_image)
    
print(f'Loaded {len(images)} images')
images[0]

In [None]:
# tutaj zamieniam listę zdjęć na np.array
# dzielę zdjęcia przez 255 żeby mieć wartości między 0 i 1
# array ma wymiary [ilość zdjęć, 512, 512, 3]

X = np.array([np.array(img) / 255 for img in images])
print(X.shape)
print(X[0])

In [None]:
# żeby użyć dane w klasycznych modelach, trzeba prawdopodobnie zamienić je na wektory
# taki format powinien zadziałać dla regresji i drzew
# być może są jakieś modele które działają na zdjęciach
# w razie czego, sprawdź jakie wymiary są wymagane (bo być może liczba kanałów jest jako druga a nie ostatnia jak jest teraz zapisane)

X = X.reshape(-1, 512 * 512 * 3)
X.shape

In [None]:
y = pd.read_csv(population_data_path)
y = np.array(y['population']).reshape(-1, 1)
y