In [1]:
import pandas as pd
import plotly.express as px

In [2]:
data_path_ludnosc = "../ludnosc.csv"
data_path_gminy = "../gminy.csv"

# ludnosc

## przegląd danych

In [3]:
df_ludnosc = pd.read_csv(data_path_ludnosc, sep=";", decimal=".")

In [4]:
df_ludnosc.Wartosc = df_ludnosc.Wartosc.str.replace(',', '').astype(float)

In [5]:
df_ludnosc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25874 entries, 0 to 25873
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Kategoria        25874 non-null  object 
 1   Kod              25874 non-null  int64  
 2   Nazwa            25874 non-null  object 
 3   Zmienna          25874 non-null  object 
 4   Rok              25874 non-null  int64  
 5   Wartosc          19142 non-null  float64
 6   Jednostka miary  25874 non-null  object 
 7   Atrybut          66 non-null     object 
 8   Unnamed: 8       0 non-null      float64
dtypes: float64(2), int64(2), object(5)
memory usage: 1.8+ MB


In [6]:
# print unique values foreach column
for column in df_ludnosc.columns:
    print(f"{column}: {df_ludnosc[column].unique()} \n")

Kategoria: ['Gospodarstwa' 'Osoby' 'Wyposażenie' 'Artykuły' 'Dochody' 'Wydatki'] 

Kod: [      0  200000  400000  600000  800000 1000000 1200000 1400000 1600000
 1800000 2000000 2200000 2400000 2600000 2800000 3000000 3200000] 

Nazwa: ['POLSKA' 'DOLNOŚLĄSKIE' 'KUJAWSKO-POMORSKIE' 'LUBELSKIE' 'LUBUSKIE'
 'ŁÓDZKIE' 'MAŁOPOLSKIE' 'MAZOWIECKIE' 'OPOLSKIE' 'PODKARPACKIE'
 'PODLASKIE' 'POMORSKIE' 'ŚLĄSKIE' 'ŚWIĘTOKRZYSKIE' 'WARMIŃSKO-MAZURSKIE'
 'WIELKOPOLSKIE' 'ZACHODNIOPOMORSKIE'] 

Zmienna: ['gospodarstwa domowe objęte badaniem' 'ogółem' 'pracujących'
 'pobierający świadczenia społeczne' 'emerytury i renty'
 'pozostających na utrzymaniu'
 'przeciętna liczba osób pobierających  świadczenia społeczne w relacji do przeciętnej liczby osób w gospodarstwie domowym'
 'chłodziarka' 'automat pralniczy' 'zmywarka do naczyń'
 'kuchenka mikrofalowa'
 'kuchenka elektryczna z płytą ceramiczną, indukcyjną' 'samochód osobowy'
 'odtwarzacz płyt kompaktowych'
 'zestaw do odbioru, rejestracji i odtwarzania

## zarobki

In [None]:
df_ludnosc[(df_ludnosc.Kategoria == "Dochody") & (df_ludnosc.Zmienna == "ogółem")]

In [None]:
df_ludnosc[(df_ludnosc.Kategoria == "Dochody") & (df_ludnosc.Zmienna == "ogółem")].groupby("Nazwa").Wartosc.describe()

### średnie dochody per województwo na przestrzeni lat

In [None]:
mean_income_annually = pd.DataFrame(
    df_ludnosc[(df_ludnosc.Kategoria == "Dochody") & (df_ludnosc.Zmienna == "ogółem")].groupby(
        ["Nazwa", "Rok"]).Wartosc.mean())
mean_income_annually.reset_index(inplace=True)
mean_income_annually

In [None]:
fig = px.line(mean_income_annually,
              x="Rok", y="Wartosc", color="Nazwa", hover_name="Nazwa",
              line_shape="spline", render_mode="svg")

fig.show()

### zmienność w dochodach na przestrzeni lat

In [None]:
incomes_variability = pd.DataFrame(df_ludnosc[(df_ludnosc.Kategoria == "Dochody") & (df_ludnosc.Zmienna == "ogółem")].groupby(
    "Nazwa").Wartosc.std().sort_values(ascending=False))
incomes_variability.reset_index(inplace=True)
incomes_variability

In [None]:
fig = px.bar(incomes_variability, x='Nazwa', y='Wartosc', title="zmienność w dochodach na przestrzeni lat", labels={'Nazwa':"województwo"})
fig.show()

### zmiana wydatków poszczególnych wojewóctw na przestrzeni lat

#### zmiana ilościowa

In [None]:
pd.DataFrame(df_ludnosc[(df_ludnosc.Kategoria == "Dochody") & (df_ludnosc.Zmienna == "ogółem")].groupby(
    ["Nazwa", "Rok"]).Wartosc.mean().diff())

#### procentowa

In [None]:
incomes_change_percent = pd.DataFrame(df_ludnosc[(df_ludnosc.Kategoria == "Dochody") & (df_ludnosc.Zmienna == "ogółem")].groupby(
    ["Nazwa", "Rok"]).Wartosc.mean().pct_change())
incomes_change_percent.reset_index(inplace=True)
incomes_change_percent

In [None]:
# zmiana wydatków poszczególnych wojewóctw na przestrzeni lat
fig = px.line(incomes_change_percent[incomes_change_percent.Rok != 1999],
              x="Rok", y="Wartosc", color="Nazwa", hover_name="Nazwa",
              line_shape="spline", render_mode="svg")

fig.show()

## wydatki

In [None]:
df_ludnosc[(df_ludnosc.Kategoria == "Wydatki") & (df_ludnosc.Zmienna == "ogółem")]

In [None]:
df_ludnosc[(df_ludnosc.Kategoria == "Wydatki") & (df_ludnosc.Zmienna == "ogółem")].groupby("Nazwa").Wartosc.describe()

### średnie wydatki per województwo na przestrzeni lat

In [None]:
# to mean() jest niepotrzebne, ponieważ jest tylko jedna obserwacja per wojewódzwto, per rok, ale inaczej nie umiem.
mean_spendings_annually = pd.DataFrame(
    df_ludnosc[(df_ludnosc.Kategoria == "Wydatki") & (df_ludnosc.Zmienna == "ogółem")].groupby(
        ["Nazwa", "Rok"]).Wartosc.mean())
mean_spendings_annually.reset_index(inplace=True)
mean_spendings_annually

In [None]:
fig = px.line(mean_spendings_annually,
              x="Rok", y="Wartosc", color="Nazwa", hover_name="Nazwa",
              line_shape="spline", render_mode="svg")

fig.show()

### zmienność w wydatkach na przestrzeni lat

In [None]:
spendings_variability = pd.DataFrame(df_ludnosc[(df_ludnosc.Kategoria == "Wydatki") & (df_ludnosc.Zmienna == "ogółem")].groupby(
    "Nazwa").Wartosc.std().sort_values(ascending=False))
spendings_variability.reset_index(inplace=True)


In [None]:
fig = px.bar(spendings_variability, x='Nazwa', y='Wartosc', title="zmienność w wydatkach na przestrzeni lat", labels={'Nazwa':"województwo"})
fig.show()

### zmiana wydatków poszczególnych wojewóctw na przestrzeni lat

#### zmiana ilościowa

In [None]:
pd.DataFrame(df_ludnosc[(df_ludnosc.Kategoria == "Wydatki") & (df_ludnosc.Zmienna == "ogółem")].groupby(
    ["Nazwa", "Rok"]).Wartosc.mean().diff())

#### zmiana procentowa

In [None]:
spendings_change_percent = pd.DataFrame(df_ludnosc[(df_ludnosc.Kategoria == "Wydatki") & (df_ludnosc.Zmienna == "ogółem")].groupby(
    ["Nazwa", "Rok"]).Wartosc.mean().pct_change())
spendings_change_percent.reset_index(inplace=True)
spendings_change_percent

In [None]:
fig = px.line(spendings_change_percent[spendings_change_percent.Rok != 1998],
              x="Rok", y="Wartosc", color="Nazwa", hover_name="Nazwa",
              line_shape="spline", render_mode="svg")

fig.show()

## zarobki vs wydatki

In [None]:
# źle
mean_income_annually.merge(mean_spendings_annually, how='inner', on='Rok', suffixes=('_Wydatki', '_Zarobki'))

In [None]:
mean_income_annually

In [None]:
mean_spendings_annually

In [None]:
incomes_vs_spendings = pd.concat([mean_income_annually.Wartosc, mean_spendings_annually.Wartosc], axis=1,
                                 keys=['Dochody', 'Wydatki'])
incomes_vs_spendings["Oszczędności"] = incomes_vs_spendings["Dochody"] - incomes_vs_spendings["Wydatki"]
incomes_vs_spendings = incomes_vs_spendings.reset_index()
incomes_vs_spendings

In [None]:
fig = px.line(incomes_vs_spendings,
              x="Rok", y="Oszczędności", color="Nazwa", hover_name="Nazwa",
              line_shape="spline", render_mode="svg")

fig.show()

# gminy

In [None]:
df_gminy = pd.read_csv(data_path_gminy, sep=";", thousands=',')

In [None]:
df_gminy

In [None]:
# print unique values foreach column
for column in df_gminy.columns:
    print(f"{column}: {df_gminy[column].unique()} \n")

In [None]:
def create_frequency_df(src_df):
  temp_df = pd.DataFrame()
  temp_df['Rok'] = src_df.Rok.unique()
  temp_df.set_index('Rok', inplace=True)
  p_k = src_df[src_df['Zmienna'] == 'kobiety'].set_index('Rok')['Wartosc'] / 100
  p_o = src_df[src_df['Zmienna'] == 'ogółem'].set_index('Rok')['Wartosc'] / 100
  l_k = df_gminy[(df_gminy['Kategoria'] == 'Kobiety wg grup wieku') & (df_gminy['Zmienna'] == 'ogółem') & (df_gminy['Kod'] == src_df['Kod'].unique()[0])].set_index('Rok')['Wartosc']
  l_m = df_gminy[(df_gminy['Kategoria'] == 'Mężczyźni wg grup wieku') & (df_gminy['Zmienna'] == 'ogółem') & (df_gminy['Kod'] == src_df['Kod'].unique()[0])].set_index('Rok')['Wartosc']
  temp_df['udział kobiet w bezrobociu'] = p_k * l_k / (p_o * (l_k + l_m))
  temp_df['udział mężczyzn w bezrobociu'] = 1 - temp_df['udział kobiet w bezrobociu']

  return temp_df

In [None]:
create_frequency_df(df_gminy)