1. Imports

In [1]:
from time import struct_time

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

2. Loading data

In [2]:
beds_df = pd.read_csv("data/Specjalnosci_lozka.csv")
beds_df.head()

Unnamed: 0,Rok,Województwo,Powiat,Gmina,Poziom sieci PSZ,Rodzaj Świadczeń,Nazwa Specjalności komórki,Kod specjalności komórki,Liczba oddziałów,Liczba łóżek 31.12,Średnioroczna liczba łóżek
0,2017,dolnośląskie,bolesławiecki,Nowogrodziec,Poza siecią,Ośrodki (Zespoły) Opieki Pozaszpitalnej,Hospicjum stacjonarne/stacjonarny ośrodek opie...,2184,1,15,15
1,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział chorób wewnętrznych,4000,1,31,31
2,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział neurologiczny,4220,1,12,12
3,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział anestezjologii i intensywnej terapii,4260,1,7,7
4,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział chorób zakaźnych,4340,1,11,11


3. Data description

In [None]:
print(beds_df.dtypes)
beds_df.describe()

4. Type conversion

since we have some columns with numeric values as strings, I will convert them to the numeric data types

plan:
- take only the object columns
- for each column: check if every value is numeric
- if so, then change the data type to int of float

In [None]:
strings_df = beds_df.select_dtypes(include=['object'])
strings_df

In [None]:
# for column in strings_df.columns:
# 	if all(value.isdigit() for value in list(strings_df[column])):
# 		strings_df[column] = strings_df[column].astype(int)

for column in strings_df.columns:
	if strings_df[column].dtype == 'object':
		try:
			numeric_series = pd.to_numeric(strings_df[column], errors='coerce')

			if not numeric_series.isna().any():
				if numeric_series.equals(numeric_series.astype(int)):
					strings_df[column] = numeric_series.astype(int)
					print(f"Converted {column} to int64")
				else:
					strings_df[column] = numeric_series.astype('float64')
					print(f"Converted {column} to float64")
			else:
				print(f"Column {column} contains non-numeric values")
		except:
			print(f"Could not convert {column}")



print(strings_df.dtypes)

5. Different approach

Since changing data types seems not to work. First, I am gonna remove null values and duplicates

In [None]:
beds_df.shape

In [None]:
print(beds_df.isnull().sum())

In [None]:
beds_df.count()

In [None]:
duplicate_rows_df = beds_df[beds_df.duplicated()]
print("number of duplicate rows: ", duplicate_rows_df.shape)

In [None]:
beds_df.dtypes

In [None]:
beds_df.info()

In [None]:
beds_df

In [None]:
beds_df.astype({'Liczba oddziałów': 'int64', 'Liczba łóżek 31.12': 'int64', 'Średnioroczna liczba łóżek': 'float64'}).dtypes

it appears that some values are 'brak danych'

In [3]:
missing_values = ['brak danych', 'brak', 'n/a', 'N/A', '']
beds_df.replace(missing_values, pd.NA, inplace=True)

In [None]:
print(beds_df.isna().sum())

In [4]:
beds_df = beds_df.dropna()

In [None]:
beds_df.count()

In [None]:
beds_df

In [None]:
departments = beds_df['Liczba oddziałów']
print(list(set(list(departments))))

In [None]:
beds_df['Liczba oddziałów'] = beds_df['Liczba oddziałów'].astype('int64')
beds_df

In [None]:
departments = beds_df['Średnioroczna liczba łóżek']
print(list(set(list(departments))))

In [5]:
beds_df['Średnioroczna liczba łóżek'] = beds_df['Średnioroczna liczba łóżek'].astype(str).str.replace(',', '.').astype('float64')
beds_df

Unnamed: 0,Rok,Województwo,Powiat,Gmina,Poziom sieci PSZ,Rodzaj Świadczeń,Nazwa Specjalności komórki,Kod specjalności komórki,Liczba oddziałów,Liczba łóżek 31.12,Średnioroczna liczba łóżek
0,2017,dolnośląskie,bolesławiecki,Nowogrodziec,Poza siecią,Ośrodki (Zespoły) Opieki Pozaszpitalnej,Hospicjum stacjonarne/stacjonarny ośrodek opie...,2184,1,15,15.0
1,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział chorób wewnętrznych,4000,1,31,31.0
2,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział neurologiczny,4220,1,12,12.0
3,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział anestezjologii i intensywnej terapii,4260,1,7,7.0
4,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział chorób zakaźnych,4340,1,11,11.0
...,...,...,...,...,...,...,...,...,...,...,...
51148,2023,opolskie,m. Opole,Opole,Poza siecią,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,26,26.0
51149,2023,śląskie,m. Katowice,Katowice,Szpital onkologiczny,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,5,5.0
51150,2023,wielkopolskie,m. Poznań,Poznań,Szpital onkologiczny,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,5,5.0
51151,2023,wielkopolskie,m. Poznań,Poznań,Szpital ogólnopolski,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,0,0.0


In [None]:
departments = beds_df['Kod specjalności komórki']
print(list(set(list(departments))))

In [None]:
beds_df.replace('4180-4181', pd.NA, inplace=True)

In [None]:
beds_df.dropna()

In [8]:
beds_df.count()

Rok                           51053
Województwo                   51053
Powiat                        51053
Gmina                         51053
Poziom sieci PSZ              51053
Rodzaj Świadczeń              51053
Nazwa Specjalności komórki    51053
Kod specjalności komórki      51053
Liczba oddziałów              51053
Liczba łóżek 31.12            51053
Średnioroczna liczba łóżek    51053
dtype: int64

In [None]:
print(beds_df.isnull().sum())

In [None]:
beds_df.dropna(inplace=True)

In [6]:
beds_df = beds_df.astype({'Liczba oddziałów': 'int64', 'Liczba łóżek 31.12': 'int64', 'Średnioroczna liczba łóżek': 'float64'})

In [7]:
beds_df

Unnamed: 0,Rok,Województwo,Powiat,Gmina,Poziom sieci PSZ,Rodzaj Świadczeń,Nazwa Specjalności komórki,Kod specjalności komórki,Liczba oddziałów,Liczba łóżek 31.12,Średnioroczna liczba łóżek
0,2017,dolnośląskie,bolesławiecki,Nowogrodziec,Poza siecią,Ośrodki (Zespoły) Opieki Pozaszpitalnej,Hospicjum stacjonarne/stacjonarny ośrodek opie...,2184,1,15,15.0
1,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział chorób wewnętrznych,4000,1,31,31.0
2,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział neurologiczny,4220,1,12,12.0
3,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział anestezjologii i intensywnej terapii,4260,1,7,7.0
4,2017,dolnośląskie,bolesławiecki,Bolesławiec,Szpital I stopnia,Oddziały Szpitalne i Inne Komórki Opieki Szpit...,Oddział chorób zakaźnych,4340,1,11,11.0
...,...,...,...,...,...,...,...,...,...,...,...
51148,2023,opolskie,m. Opole,Opole,Poza siecią,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,26,26.0
51149,2023,śląskie,m. Katowice,Katowice,Szpital onkologiczny,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,5,5.0
51150,2023,wielkopolskie,m. Poznań,Poznań,Szpital onkologiczny,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,5,5.0
51151,2023,wielkopolskie,m. Poznań,Poznań,Szpital ogólnopolski,Inne Komórki Organizacyjne Działalnosci Medycznej,Inna i nieokreślona komórka działalności medyc...,9000,1,0,0.0
