In [456]:
# 1. Ładowanie biblioteki Pandas
import pandas as pd

In [None]:
# 2. Tworzenie ramki danych ze słownika
dane_slownik = {
    "Kraj": ["Polska", "Niemcy", "Francja"],
    "Ludność (mln)": [38, 83, 67],
    "PKB (mld)": [600, 4000, 3000]
}
ramka_danych_slownik = pd.DataFrame(dane_slownik)

print("Ramka danych utworzona ze słownika:")
print(ramka_danych_slownik)

In [None]:
# 3. Zachowanie ramki danych pobranych z pliku w formacie .csv
plik_csv = "IHME_GDP_1960_2050_Y2021M09D22.CSV"
ramka_danych_csv = pd.read_csv(plik_csv)
print("\nRamka danych wczytana z pliku CSV:")
print(ramka_danych_csv.head())

In [None]:
# 4. Tworzenie ramki danych z listy list
dane_lista = [
    ["Polska", 38, 600],
    ["Niemcy", 83, 4000],
    ["Francja", 67, 3000]
]
ramka_danych_lista = pd.DataFrame(dane_lista, columns=["Kraj", "Ludność (mln)", "PKB (mld)"])

print("\nRamka danych utworzona z listy list:")
print(ramka_danych_lista)

In [None]:
# 5. Transponowanie (wymiana kolumny a wierszy)
ramka_danych_slownik_transponowany = ramka_danych_slownik.T
print(ramka_danych_slownik_transponowany)

In [None]:
# 6. Wyświetlić pierwsze 10 wierszy ramki danych
print(ramka_danych_csv.head(10))

In [None]:
# 7. Wyświetlić ostatnie 10 wierszy ramki danych 
print(ramka_danych_csv.tail(10))

In [None]:
# 8. Wyświetlić informacje o ramce danych
print(ramka_danych_csv.info())

In [None]:
# 9. Wyświetlić ile wierszy i kolumn znajduje się w ramce danych
print(ramka_danych_csv.shape)

In [None]:
# 10. Wyświetlić informacje statyczną o kolumnach liczbowych (wartości niepowtarzalne, średnia, odchylenie standardowe, minimum, kwartyle, maksimum)
print(ramka_danych_csv.describe())

In [None]:
# 11. Wyświetlić informacje statyczną o kolumnach kategoryzowanych (ile unikalnych wartości, top - jaka jest najpopularniejsza wartość, freq - jak często najpopularniejsza)
print(ramka_danych_csv.describe(include=['object']))

In [467]:
# 12. Usunąć brakujące wartości w ramce danych
ramka_danych_csv = ramka_danych_csv.dropna()

In [None]:
# 13. Przedstawić wybór wierszy i kolumny używając nazw oraz indeksów na różne sposoby
print(ramka_danych_csv.loc[0:5, ['location_name', 'gdp_ppp_mean']]) # Nazwy kolumn
print(ramka_danych_csv.iloc[0:5, 1:3]) # Indeksy kolumn

In [None]:
# 14. Przedstawić wybór wierszy z ramki danych pod warunkiem określonej wartości kolumny
print(ramka_danych_csv[ramka_danych_csv['location_name'] == 'Poland'])

In [None]:
# 15. Przedstawić wybór wierszy z ramki danych pod warunkiem spełnienia kilku warunków jednocześnie
print(ramka_danych_csv[(ramka_danych_csv['location_name'] == 'Poland') & (ramka_danych_csv['year'] > 2024)])

In [None]:
# 16. Wybrać wiersze które zawierają w kolumnie skategoryzowanej określone słowo
print(ramka_danych_csv[ramka_danych_csv['location_name'].str.contains('United', na=False)])

In [None]:
# 17. Wybrać wiersze które nie zawierają w kolumnie skategoryzowanej określonego słowa
print(ramka_danych_csv[~ramka_danych_csv['location_name'].str.contains('United', na=False)])

In [None]:
# 18. Utwórz kolumnę na podstawie istniejącej
ramka_danych_csv['gdp_ppp_diff'] = ramka_danych_csv['gdp_ppp_upper'] - ramka_danych_csv['gdp_ppp_lower'] # Utworzenie kolumny z różnicą między gdp_ppp_upper i gdp_ppp_lower
print(ramka_danych_csv['gdp_ppp_diff'].head(10))

In [474]:
# 19. Usuń kolumnę
# ramka_danych_csv = ramka_danych_csv.drop(columns=['gdp_ppp_diff']) # Nie usuwamy kolumy, bo operujemy na niej niżej!

In [475]:
# 20. Zmień nazwę kolumny
ramka_danych_csv = ramka_danych_csv.rename(columns={'gdp_ppp_diff': 'gdp_ppp_difference'})

In [476]:
# 21. Zachowaj ramkę danych jako plik csv na komputerze
ramka_danych_csv.to_csv('updated_data.csv', index=False)

In [None]:
# 22. Wyświetlić liczbę wierszy
print(len(ramka_danych_csv))

In [None]:
# 23. Wyświetlić wartości unikatowe w kolumnie
print(ramka_danych_csv['location_name'].unique())

In [None]:
# 24. Wyświetlić liczby rekordów odpowiadających do wartości
print(ramka_danych_csv['location_name'].value_counts())

In [480]:
# 25. Sortowanie wierszy ramki danych według wartości określonej kolumny (malejąco, rosnąco)
ramka_danych_csv = ramka_danych_csv.sort_values(by='location_name', ascending=False)

In [None]:
# 26. Wyświetlić wierszy dla 10 największych (najmniejszych) wartości określonej kolumny
print(ramka_danych_csv.nlargest(10, 'gdp_ppp_difference'))
print(ramka_danych_csv.nsmallest(10, 'gdp_ppp_difference'))

In [None]:
# 27. Wyświetlić wierszy dla 10 największych wartości określonej kolumny pod warunkiem określonych wartości innej kolumny
filtered_data = ramka_danych_csv[ramka_danych_csv['location_name'] == 'Global']
print(filtered_data.nlargest(10, 'gdp_ppp_mean'))


In [None]:
# 28. Grupowanie wierszy według wartości kolumny skategoryzowanej, potem uśrednienie wartości wszystkich kolumn w grupie - MultiIndex
grouped_mean = ramka_danych_csv.groupby(['location_name', 'year']).mean(numeric_only=True)
print(grouped_mean)

In [None]:
# 29. Grupowanie wierszy według wartości kolumny skategoryzowanej, potem uśrednienie wartości dla pewnych kolumn, liczba wartości i mediana dla pozostałych kolumn w grupach
grouped_stats = ramka_danych_csv.groupby('location_name').agg({
    'gdp_ppp_mean': ['mean', 'count'],
    'gdp_usd_mean': 'median',
    'year': 'max'
})
print(grouped_stats)

In [None]:
# 30. Wyświetlić nazwy kolumn indeksu złożonego
print(grouped_mean.index.names)

In [None]:
# 31. Posortować kolumnę˛ indeksu złożonego
sorted_index = grouped_mean.sort_index()
print(sorted_index)

In [None]:
# 32. Stworzyć tabele przestawną (pivot table) na podstawie ramki danych
pivot_table = pd.pivot_table(ramka_danych_csv, values='gdp_ppp_mean', index=['location_name'], columns=['year'], aggfunc='mean')
print(pivot_table)

In [None]:
# 33. Wyświetlić indeksy i kolumny tabeli przestawnej
print(pivot_table.index)
print(pivot_table.columns)

In [None]:
# 34. Utwórz indeks złożony tabeli przestawnej i wyświetl go
pivot_table = pivot_table.reset_index()
pivot_table.set_index(['location_name'] + list(pivot_table.columns[1:]), inplace=True)
print(pivot_table.index)

In [490]:
# 35. Zaimportuj moduł pyplot z biblioteki matplotlib
import matplotlib.pyplot as plt

In [491]:
# 36. Wskazać, że wykresy należy rysować bezpośrednio w zeszycie, a nie w osobnej zakładce
%matplotlib inline

In [None]:
# 37. Wyświetlić wykres na podstawie tabeli przestawnej
pivot_table_reset = pivot_table.reset_index()  # Resetowanie indeksu, aby "year" i "location_name" były kolumnami
pivot_table_numeric = pivot_table_reset.select_dtypes(include=['float64', 'int64'])  # Wybieramy tylko dane numeryczne
pivot_table_numeric.plot(kind='line', figsize=(10,6))
plt.title('GDP PPP Mean by Location and Year')
plt.xlabel('Year')
plt.ylabel('GDP PPP Mean')
plt.show()

In [None]:
# 38. Narysować histogram na podstawie wartości kolumny
ramka_danych_csv['year'].hist(bins=30, figsize=(10,6))
plt.title('Histogram')
plt.xlabel('Year')
plt.ylabel('Częstotliwość')
plt.show()

In [None]:
# 39. Przedstawić sposoby łączenia ramek danych za pomocą metod merge i concat
# Metoda merge:
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value2': [4, 5, 6]})
merged_df = pd.merge(df1, df2, on='key', how='inner')
print(merged_df)
# Metoda konkatenacji:
df3 = pd.DataFrame({'key': ['A', 'B'], 'value1': [7, 8]})
df4 = pd.DataFrame({'key': ['C', 'D'], 'value1': [9, 10]})
concatenated_df = pd.concat([df3, df4], ignore_index=True)
print(concatenated_df)

In [None]:
# 40. Pokazać dodawanie nowych kolumn za pomocą operacji matematycznych
ramka_danych_csv['gdp_growth'] = ramka_danych_csv['gdp_ppp_mean'] / ramka_danych_csv['gdp_ppp_mean'].shift(1) - 1
print(ramka_danych_csv[['location_name', 'year', 'gdp_growth']].head())


In [None]:
# 41. Przedstawić na przykładzie dodawanie nowych kolumn z pomocą funkcji lambda
ramka_danych_csv['gdp_per_capita'] = ramka_danych_csv.apply(lambda row: row['gdp_ppp_mean'] / row['gdp_usd_mean'], axis=1)
print(ramka_danych_csv[['location_name', 'year', 'gdp_per_capita']].head())


In [None]:
# 42. Przedstawić możliwości pracy z dużymi plikami przy użyciu argumentu chunksize
chunksize = 10000
for chunk in pd.read_csv('IHME_GDP_1960_2050_Y2021M09D22.CSV', chunksize=chunksize):
    print(chunk.head(4))  # Wyświetlanie pierwszych 5 wierszy z każdej części