Första steget är att ladda datasetet och få en översikt över datan.

In [None]:
import pandas as pd

# Ladda datasetet
housing = pd.read_csv('housing.csv')

# Visa de första 5 raderna för att få en översikt
housing.head()


Här undersöker vi saknade värden, datatyper och allmän struktur i datasetet.

In [None]:
# Kontrollera datatyper och saknade värden
housing.info()

# Kontrollera om det finns några saknade värden
housing.isnull().sum()


För att få en överblick över variablernas fördelning, kan vi använda describe() för att få en statistisk sammanfattning av datan.

In [None]:
# Statistisk sammanfattning
housing.describe()

Histogram för att titta på fördelningen av huspriser

In [None]:
import matplotlib.pyplot as plt

# Histogram för pris
plt.figure(figsize=(10, 6))
plt.hist(housing['price'], bins=30, edgecolor='black')
plt.title('Fördelning av Huspriser')
plt.xlabel('Pris')
plt.ylabel('Frekvens')
plt.show()


Boxplot för att visa fördelningen av huspriser i olika regioner
Om datasetet har en kolumn för region eller städer kan en boxplot visa fördelningen av huspriser i olika områden.

In [None]:
import seaborn as sns

# Boxplot för huspriser per region (om det finns en 'region' kolumn)
plt.figure(figsize=(12, 8))
sns.boxplot(x='region', y='price', data=housing)
plt.title('Huspriser per Region')
plt.xlabel('Region')
plt.ylabel('Pris')
plt.xticks(rotation=90)
plt.show()


Scatterplot för att undersöka relationen mellan antal rum och huspris

In [None]:
# Scatterplot för antal rum vs pris
plt.figure(figsize=(10, 6))
sns.scatterplot(x='rooms', y='price', data=housing)
plt.title('Antal Rum vs Huspris')
plt.xlabel('Antal Rum')
plt.ylabel('Pris')
plt.show()


För att undersöka om det finns några starka samband mellan variabler kan vi beräkna korrelationen mellan numeriska kolumner.

In [None]:
# Korrelation mellan variabler
correlation_matrix = housing.corr()

# Värmebild för att visa korrelationen
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Korrelation mellan variabler')
plt.show()


För att identifiera de dyrare och billigare husen kan vi helt enkelt sortera datasetet baserat på pris.

In [None]:
# Sortera för att få de dyraste husen
top_expensive_houses = housing.sort_values(by='price', ascending=False).head(10)
print(top_expensive_houses[['price', 'location', 'rooms', 'area']])

# Sortera för att få de billigaste husen
top_cheap_houses = housing.sort_values(by='price', ascending=True).head(10)
print(top_cheap_houses[['price', 'location', 'rooms', 'area']])


Efter att ha utfört den explorativa analysen, kan vi dra några slutsatser om de dyrare eller billigare husen. Exempelvis:

Dyra hus tenderar att ha fler rum, större yta eller finare läge.
Billigare hus kan ha färre rum eller ligga längre bort från städer eller viktiga bekvämligheter.