# Analiza listy najlepiej sprzedających się albumów w UK

## 1. Wczytanie danych i zamiana nagłówków na polskie odpowiedniki: ['TYTUŁ','ARTYSTA','ROK','MAX POZ']

In [None]:
import pandas as pd
import numpy as np

url = 'https://www.officialcharts.com/chart-news/the-best-selling-albums-of-all-time-on-the-official-uk-chart__15551/'
tables = pd.read_html(url)
df = tables[0]

df.columns = ['POZ', 'TYTUŁ', 'ARTYSTA', 'ROK', 'MAX POZ']
df['ROK'] = pd.to_numeric(df['ROK'], errors='coerce')
df['ARTYSTA'] = df['ARTYSTA'].astype(str).str.strip().str.title()
df['TYTUŁ'] = df['TYTUŁ'].astype(str).str.strip()

df = df.dropna(subset=['TYTUŁ', 'ARTYSTA'])
df = df[~df['ARTYSTA'].str.lower().isin(['artist'])]
df = df[~df['TYTUŁ'].str.lower().isin(['title'])]

df.head()

## 2. Ilu pojedynczych artystów znajduje się na liście?

In [None]:
df['ARTYSTA'].nunique()

## 3. Które zespoły pojawiają się najczęściej na liście?

In [None]:
df['ARTYSTA'].value_counts().head(20)

## 4. Zmień nagłówki kolumn, tak aby zaczynały się wielką literą, a reszta była małymi literami

In [None]:
df.columns = [col.capitalize() for col in df.columns]
df.head()

## 5. Wyrzuć z tabeli kolumnę 'Max poz'

In [None]:
df = df.drop('Max poz', axis=1)
df.head()

## 6. W którym roku wyszło najwięcej albumów znajdujących się na liście?

In [None]:
df['Rok'].value_counts().idxmax()

## 7. Ile albumów wydanych między 1960 a 1990 rokiem włącznie znajduje się na liście?

In [None]:
len(df[(df['Rok'] >= 1960) & (df['Rok'] <= 1990)])

## 8. W którym roku wydany został najmłodszy album na liście?

In [None]:
df[df['Rok'] == df['Rok'].max()]

## 9. Najwcześniej wydane albumy każdego artysty

In [None]:
df = df.dropna(subset=['Rok'])
earliest = df.loc[df.groupby('Artysta')['Rok'].idxmin()][['Artysta', 'Tytuł', 'Rok']]
earliest = earliest.sort_values('Artysta').reset_index(drop=True)
earliest

## 10. Zapis listy do pliku CSV

In [None]:
earliest.to_csv('najwczesniejsze_albumy_artystow.csv', index=False, encoding='utf-8')
print('Zapisano plik CSV.')