In [1]:
# Importowanie bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Ustawienia wizualizacji
plt.style.use('default')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Wczytanie danych
df = pd.read_csv('housing.csv')

print("Podstawowe informacje o zbiorze danych:")
print(f"Liczba wierszy: {df.shape[0]}")
print(f"Liczba kolumn: {df.shape[1]}")
print("\nNazwy kolumn:")
print(df.columns.tolist())


ModuleNotFoundError: No module named 'pandas'

In [None]:
# Podstawowa diagnostyka danych
print("=== DIAGNOSTYKA DANYCH ===")
print("\n1. Informacje o typach danych:")
print(df.info())

print("\n2. Podstawowe statystyki:")
print(df.describe())

print("\n3. Analiza braków danych:")
missing_data = df.isnull().sum()
missing_percentage = (missing_data / len(df)) * 100

missing_summary = pd.DataFrame({
    'Braki': missing_data,
    'Procent': missing_percentage
})
missing_summary = missing_summary[missing_summary['Braki'] > 0].sort_values('Braki', ascending=False)

if len(missing_summary) > 0:
    print(missing_summary)
else:
    print("Brak brakujących danych!")


In [None]:
# Wizualizacja 1: Rozkład cen nieruchomości według bliskości oceanu
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Histogram cen
df['median_house_value'].hist(bins=50, ax=axes[0], alpha=0.7, color='skyblue', edgecolor='black')
axes[0].set_title('Rozkład cen nieruchomości')
axes[0].set_xlabel('Mediana wartości domu ($)')
axes[0].set_ylabel('Częstość')
axes[0].axvline(df['median_house_value'].mean(), color='red', linestyle='--', 
                label=f'Średnia: ${df["median_house_value"].mean():,.0f}')
axes[0].legend()

# Boxplot według bliskości oceanu
sns.boxplot(data=df, x='ocean_proximity', y='median_house_value', ax=axes[1])
axes[1].set_title('Ceny według bliskości oceanu')
axes[1].set_xlabel('Bliskość oceanu')
axes[1].set_ylabel('Mediana wartości domu ($)')
axes[1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

print("Wykres pokazuje rozkład cen i wyraźne różnice według bliskości oceanu.")


In [None]:
# Analiza 1: Statystyki opisowe według bliskości oceanu
print("=== ANALIZA WEDŁUG BLISKOŚCI OCEANU ===")

ocean_stats = df.groupby('ocean_proximity')['median_house_value'].agg([
    'count', 'mean', 'median', 'std', 'min', 'max'
]).round(2)

ocean_stats.columns = ['Liczba', 'Średnia', 'Mediana', 'Odch. std', 'Min', 'Max']
print(ocean_stats)

# Test ANOVA
groups = [group['median_house_value'].values for name, group in df.groupby('ocean_proximity')]
f_stat, p_value = stats.f_oneway(*groups)

print(f"\nTEST ANOVA:")
print(f"F-statystyka: {f_stat:.3f}")
print(f"p-wartość: {p_value:.2e}")
print("\nINTERPRETACJA: Test ANOVA potwierdza statystycznie istotne różnice między grupami.")
