# Zadanie: Albumy wszechczasów

Analiza najlepiej sprzedających się albumów w historii UK Chart.

In [None]:
import pandas as pd
import numpy as np

## Wczytanie danych ze strony HTML

In [None]:
url = 'https://www.officialcharts.com/chart-news/the-best-selling-albums-of-all-time-on-the-official-uk-chart__15551/'
tables = pd.read_html(url)
df = tables[0]

print(f"Wczytano {len(df)} albumów")
print("\nPierwsze wiersze:")
df.head(10)

## 1. Zamień nagłówki kolumn na polskie odpowiedniki

In [None]:
print(f"Liczba kolumn: {len(df.columns)}")
print(f"Obecne kolumny: {df.columns.tolist()}")

df.columns = ['POZ', 'TYTUŁ', 'ARTYSTA', 'ROK', 'MAX POZ']
print("\nNowe nazwy kolumn:")
print(df.columns.tolist())
df.head()

## 2. Ilu pojedynczych artystów znajduje się na liście?

In [None]:
unique_artists = df['ARTYSTA'].nunique()
print(f"Liczba unikalnych artystów: {unique_artists}")

## 3. Które zespoły pojawiają się najczęściej na liście?

In [None]:
artist_counts = df['ARTYSTA'].value_counts()
print("Najczęściej występujący artyści:")
print(artist_counts.head(10))

## 4. Zmień nagłówki kolumn - pierwsza wielka, reszta małe

In [None]:
df = df.drop('POZ', axis=1)
print(f"Kolumny po usunięciu POZ: {list(df.columns)}")

df.columns = [col.capitalize() for col in df.columns]
print(f"\nNowe kolumny: {list(df.columns)}")
df.head()

## 5. Wyrzuć z tabeli kolumnę 'Max poz'

In [None]:
df = df.drop('Max poz', axis=1)
print(f"Kolumny po usunięciu: {list(df.columns)}")
df.head()

## 6. W którym roku wyszło najwięcej albumów znajdujących się na liście?

In [None]:
year_counts = df['Rok'].value_counts()
print(f"Rok z najwięcej albumami: {year_counts.index[0]} ({year_counts.iloc[0]} albumów)")
print("\nTop 10 lat:")
print(year_counts.head(10))

## 7. Ile albumów wydanych między 1960 a 1990 rokiem włącznie znajduje się na liście?

In [None]:
albums_1960_1990 = df[(df['Rok'] >= 1960) & (df['Rok'] <= 1990)]
print(f"Liczba albumów z lat 1960-1990: {len(albums_1960_1990)}")
print("\nAlbumy z tego okresu:")
albums_1960_1990

## 8. W którym roku wydany został najmłodszy album na liście?

In [None]:
youngest_year = df['Rok'].max()
youngest_albums = df[df['Rok'] == youngest_year]
print(f"Najmłodszy album wydany w roku: {youngest_year}")
print("\nAlbum(y):")
youngest_albums[['Tytuł', 'Artysta', 'Rok']]

## 9. Przygotuj listę najwcześniej wydanych albumów każdego artysty

In [None]:
earliest_albums = df.loc[df.groupby('Artysta')['Rok'].idxmin()][['Artysta', 'Tytuł', 'Rok']]
earliest_albums = earliest_albums.sort_values('Artysta').reset_index(drop=True)
print("Najwcześniej wydane albumy każdego artysty:")
earliest_albums

## 10. Zapisz listę do pliku CSV

In [None]:
earliest_albums.to_csv('najwczesniejsze_albumy_artystow.csv', index=False, encoding='utf-8')
print("Lista zapisana do pliku: najwczesniejsze_albumy_artystow.csv")

## Podsumowanie

In [None]:
print("="*50)
print("PODSUMOWANIE ANALIZY")
print("="*50)
print(f"Unikalnych artystów: {unique_artists}")
print(f"Najczęściej występujący artysta: {artist_counts.index[0]} ({artist_counts.iloc[0]} albumy)")
print(f"Rok z najwięcej albumami: {year_counts.index[0]}")
print(f"Albumy z lat 1960-1990: {len(albums_1960_1990)}")
print(f"Najmłodszy album: {youngest_year}")