Celem projektu było praktyczne utrwalenie umiejętności w zakresie przetwarzania i wizualizacji danych tabelarycznych oraz analizy trendów w nadawaniu imion w Stanach Zjednoczonych i Polsce.
Dane amerykańskie pochodziły z bazy Social Security Administration:
➡️ https://www.ssa.gov/oact/babynames/names.zip
Dane polskie pochodziły z bazy imiona_pl:
➡️ https://chmura.put.poznan.pl/s/foC9qaKz7B8cQBK
Projekt został w całości zrealizowany w języku Python, z wykorzystaniem bibliotek:
pandasmatplotlibsqlite3os
Zostały wczytane wszystkie pliki z katalogu ./data/names, zawierające dane o imionach nadawanych w USA w latach 1880–2024.
Pliki CSV zostały scalone w jeden zbiór danych, w którym każdemu rekordowi przypisano rok nadania imienia.
Została określona całkowita liczba unikalnych imion nadanych w badanym okresie.
Dodatkowo dokonano podziału na imiona męskie i żeńskie oraz porównano ich liczność.
Dla każdego imienia obliczono jego popularność względną, będącą stosunkiem liczby nadań do całkowitej liczby urodzeń danej płci w danym roku.
W wyniku tego procesu powstały kolumny frequency_male oraz frequency_female.
Zostały wygenerowane dwa wykresy:
- całkowitej liczby urodzeń w każdym roku,
- stosunku liczby narodzin dziewczynek do chłopców.
Na wykresie oznaczono lata, w których różnica między płciami była najmniejsza oraz największa.
Na podstawie średniej popularności w całym okresie czasu wyznaczono 1000 najpopularniejszych imion dla każdej płci.
Dla dwóch imion (najpopularniejszego żeńskiego oraz drugiego najpopularniejszego męskiego) przedstawiono zmiany liczby nadań oraz ich popularności w czasie.
Na wykresie wyróżniono wartości dla lat 1934, 1980 i 2024.
Został wykreślony wykres udziału imion z rankingu Top 1000 w całkowitej liczbie urodzeń w każdym roku.
Określono rok o największej różnicy różnorodności między płciami oraz przedstawiono wnioski dotyczące ewolucji trendów w nadawaniu imion.
Przeanalizowano zmiany popularności ostatnich liter imion męskich w latach 1900, 1975 i 2024.
Dane zostały znormalizowane względem liczby urodzeń.
Zidentyfikowano litery o największym wzroście i spadku popularności oraz przedstawiono ich przebieg w czasie.
Zostały zidentyfikowane imiona występujące u obu płci.
Porównano dwa okresy — 1880–1920 oraz 2000–2024 — i wyłoniono dwa imiona:
- które przeszło z typowo męskiego na żeńskie,
- które przeszło z typowo żeńskiego na męskie.
Dla tych imion przedstawiono przebieg zmiany konotacji płciowej w czasie.
Zostały wczytane dane z bazy imiona_pl i przekształcone do formatu zgodnego z amerykańskim zbiorem.
Przeprowadzono:
- analizę Top 200 najpopularniejszych imion w Polsce,
- porównanie trendów w latach 2000, 2013 i 2024,
- analizę liter końcowych imion,
- identyfikację liter o największych zmianach popularności.
- Liczba unikalnych imion systematycznie rosła, co świadczy o wzroście różnorodności imion.
- Różnorodność imion żeńskich była większa niż męskich przez cały okres analizy.
- Wzrosła popularność imion o końcówkach miękkich, np. „a”, „n”.
- Część imion zmieniła konotację płciową, co można wiązać ze zmianami społecznymi i kulturowymi.
- W Polsce obserwowane są podobne tendencje jak w USA, choć o mniejszej dynamice zmian.