Trin 1: Indlæsning af Data
Først vil jeg indlæse de forskellige CSV-filer, du har uploadet, i pandas dataframes.
Når jeg kører dette script, vil det indlæse hver CSV-fil og vise de første par rækker af hver dataframe med en passende overskrift for at identificere dem. Dette hjælper mig med at få et hurtigt overblik over strukturen af hver enkelt datasæt.

In [15]:
import pandas as pd

# Liste over filnavne og deres labels
files = [
    ('MPS Borough Level Crime (Historical).csv', 'Historical Crime Data'),
    ('MPS Borough Level Crime (most recent 24 months).csv', 'Recent Crime Data'),
    ('MPS LSOA Level Crime (Historical).csv', 'Historical LSOA Crime Data'),
    ('MPS LSOA Level Crime (most recent 24 months).csv', 'Recent LSOA Crime Data'),
    ('MPS Ward Level Crime (Historical).csv', 'Historical Ward Crime Data'),
    ('MPS Ward Level Crime (most recent 24 months).csv', 'Recent Ward Crime Data'),
    ('reported.csv', 'Reported Crime Data'),
    ('SYB63_328_202009_Intentional Homicides and Other Crimes.csv', 'Homicides Crime Data')
]

# Indlæsning af CSV-filer og visning af de første par rækker
for file, label in files:
    df = pd.read_csv(file)
    print(f"--- {label} ---")
    print(df.head(), '\n')



--- Historical Crime Data ---
                   MajorText                        MinorText  \
0  ARSON AND CRIMINAL DAMAGE                            ARSON   
1  ARSON AND CRIMINAL DAMAGE                  CRIMINAL DAMAGE   
2                   BURGLARY  BURGLARY BUSINESS AND COMMUNITY   
3                   BURGLARY           BURGLARY IN A DWELLING   
4              DRUG OFFENCES              POSSESSION OF DRUGS   

            BoroughName  201004  201005  201006  201007  201008  201009  \
0  Barking and Dagenham       6       5      11      10       6       6   
1  Barking and Dagenham     204     190     218     217     203     161   
2  Barking and Dagenham      48      58      58      46      46      51   
3  Barking and Dagenham     116     102     124     137     153     136   
4  Barking and Dagenham      76      64      82      72      98      87   

   201010  ...  202107  202108  202109  202110  202111  202112  202201  \
0      13  ...       3      12       5       7       5

Trin 2: Forstå Dataene
Nu hvor dataene er indlæst, kan jeg udforske dem for at forstå deres struktur, manglende værdier og eventuelle nødvendige transformationsprocesser.

In [3]:
# overblik over datasæts struktur og manglende værdier
print("Historical Crime Data Info:")
print(historical_crime_data.info())
print("\nRecent Crime Data Info:")
print(recent_crime_data.info())
print("\nHistorical LSOA Crime Data Info:")
print(historical_lsoa_crime_data.info())
print("\nRecent LSOA Crime Data Info:")
print(recent_lsoa_crime_data.info())
print("\nHistorical Ward Crime Data Info:")
print(historical_ward_crime_data.info())
print("\nRecent Ward Crime Data Info:")
print(recent_ward_crime_data.info())
print("\nReported Crime Data Info:")
print(reported_crime_data.info())
print("\nHomicides Crime Data Info:")
print(homicides_crime_data.info())

# Descriptive statistics for at forstå datafordelingen
print("\nHistorical Crime Data Description:")
print(historical_crime_data.describe())
print("\nRecent Crime Data Description:")
print(recent_crime_data.describe())
print("\nHistorical LSOA Crime Data Description:")
print(historical_lsoa_crime_data.describe())
print("\nRecent LSOA Crime Data Description:")
print(recent_lsoa_crime_data.describe())
print("\nHistorical Ward Crime Data Description:")
print(historical_ward_crime_data.describe())
print("\nRecent Ward Crime Data Description:")
print(recent_ward_crime_data.describe())
print("\nReported Crime Data Description:")
print(reported_crime_data.describe())
print("\nHomicides Crime Data Description:")
print(homicides_crime_data.describe())

Historical Crime Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 931 entries, 0 to 930
Columns: 148 entries, MajorText to 202204
dtypes: int64(145), object(3)
memory usage: 1.1+ MB
None

Recent Crime Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 27 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   MajorText    999 non-null    object
 1   MinorText    999 non-null    object
 2   BoroughName  999 non-null    object
 3   202205       999 non-null    int64 
 4   202206       999 non-null    int64 
 5   202207       999 non-null    int64 
 6   202208       999 non-null    int64 
 7   202209       999 non-null    int64 
 8   202210       999 non-null    int64 
 9   202211       999 non-null    int64 
 10  202212       999 non-null    int64 
 11  202301       999 non-null    int64 
 12  202302       999 non-null    int64 
 13  202303       999 non-null    int64 
 14  202304    

Trin 3: Håndtering af Manglende Værdier
jeg vil rense dataene ved at håndtere manglende værdier. Dette kan gøres ved at udfylde manglende værdier med forrige/efterfølgende værdier eller ved at fjerne rækker/kolonner med mange manglende værdier.

In [5]:
# Funktion til at tjekke manglende værdier i et datasæt
def check_missing_values(df, name):
    missing = df.isnull().sum()
    missing = missing[missing > 0]
    if missing.empty:
        print(f"{name} har ingen manglende værdier.")
    else:
        print(f"{name} har manglende værdier:\n{missing}")

# Kontrollér alle datasæt
check_missing_values(historical_crime_data, 'Historical Crime Data')
check_missing_values(recent_crime_data, 'Recent Crime Data')
check_missing_values(historical_lsoa_crime_data, 'Historical LSOA Crime Data')
check_missing_values(recent_lsoa_crime_data, 'Recent LSOA Crime Data')
check_missing_values(historical_ward_crime_data, 'Historical Ward Crime Data')
check_missing_values(recent_ward_crime_data, 'Recent Ward Crime Data')
check_missing_values(reported_crime_data, 'Reported Crime Data')
check_missing_values(homicides_crime_data, 'Homicides Crime Data')


Historical Crime Data har ingen manglende værdier.
Recent Crime Data har ingen manglende værdier.
Historical LSOA Crime Data har ingen manglende værdier.
Recent LSOA Crime Data har ingen manglende værdier.
Historical Ward Crime Data har ingen manglende værdier.
Recent Ward Crime Data har ingen manglende værdier.
Reported Crime Data har manglende værdier:
house.theft             15
vehicle.theft            7
out.of.vehicle.theft    15
shop.theft              15
dtype: int64
Homicides Crime Data har manglende værdier:
Intentional homicides and other crimes    1
dtype: int64


Data Cleaning Process
1. Håndtering af Manglende Værdier i Reported Crime Data
Jeg vil udfylde de manglende værdier med medianen for hver kolonne, der har manglende værdier.

In [7]:
# Udfyldning af manglende værdier i reported_crime_data ved brug af median
reported_crime_data['house.theft'] = reported_crime_data['house.theft'].fillna(reported_crime_data['house.theft'].median())
reported_crime_data['vehicle.theft'] = reported_crime_data['vehicle.theft'].fillna(reported_crime_data['vehicle.theft'].median())
reported_crime_data['out.of.vehicle.theft'] = reported_crime_data['out.of.vehicle.theft'].fillna(reported_crime_data['out.of.vehicle.theft'].median())
reported_crime_data['shop.theft'] = reported_crime_data['shop.theft'].fillna(reported_crime_data['shop.theft'].median())


2. Håndtering af Manglende Værdier i Homicides Crime Data
Jeg vil udfylde den manglende værdi med medianen for Intentional homicides and other crimes.

Trin 1: Indlæsning af Data og Forståelse af Strukturen
Indlæsning af Data og Forståelse af Strukturen: Jeg indlæser dataene og undersøger de første par rækker for at forstå dataens struktur og identificere relevante kolonner.

In [9]:
# Undersøg kolonnen for ikke-numeriske værdier
print(homicides_crime_data['Intentional homicides and other crimes'].unique())


[nan 'Total, all countries or areas' 'Africa' 'Americas'
 'Northern America' 'Caribbean' 'Central America' 'South America' 'Asia'
 'Central Asia' 'Eastern Asia' 'South-eastern Asia' 'Southern Asia'
 'Western Asia' 'Europe' 'Eastern Europe' 'Northern Europe'
 'Southern Europe' 'Western Europe' 'Oceania' 'Australia and New Zealand'
 'Afghanistan' 'Albania' 'Algeria' 'American Samoa' 'Andorra' 'Angola'
 'Anguilla' 'Antigua and Barbuda' 'Argentina' 'Armenia' 'Aruba'
 'Australia' 'Austria' 'Azerbaijan' 'Bahamas' 'Bahrain' 'Bangladesh'
 'Barbados' 'Belarus' 'Belgium' 'Belize' 'Benin' 'Bermuda' 'Bhutan'
 'Bolivia (Plurin. State of)' 'Bosnia and Herzegovina' 'Botswana' 'Brazil'
 'British Virgin Islands' 'Brunei Darussalam' 'Bulgaria' 'Burkina Faso'
 'Burundi' 'Cabo Verde' 'Cambodia' 'Cameroon' 'Canada' 'Cayman Islands'
 'Central African Republic' 'Channel Islands' 'Chile' 'China'
 'China, Hong Kong SAR' 'China, Macao SAR' 'Colombia' 'Cook Islands'
 'Costa Rica' 'Côte d’Ivoire' 'Croatia' 'Cuba'

Trin 2: Konvertering til Numerisk
Konvertering til Numerisk: Vi konverterer kolonnen "Intentional homicides and other crimes" til numeriske værdier. Ikke-numeriske værdier tvinges til NaN for at sikre, at kun numeriske data behandles.

In [10]:
# Forsøg at konvertere kolonnen til numerisk og tving ikke-numeriske værdier til NaN
homicides_crime_data['Intentional homicides and other crimes'] = pd.to_numeric(homicides_crime_data['Intentional homicides and other crimes'], errors='coerce')

# Undersøg de første par rækker for at kontrollere resultatet
print(homicides_crime_data.head())


                   T11  Intentional homicides and other crimes Unnamed: 2  \
0  Region/Country/Area                                     NaN       Year   
1                    1                                     NaN       2005   
2                    1                                     NaN       2005   
3                    1                                     NaN       2005   
4                    1                                     NaN       2010   

                                          Unnamed: 3 Unnamed: 4 Unnamed: 5  \
0                                             Series      Value  Footnotes   
1             Intentional homicide rates per 100,000     6.2935  Footnotes   
2  Percentage of male and female intentional homi...    10.0798  Footnotes   
3  Percentage of male and female intentional homi...     2.4473  Footnotes   
4             Intentional homicide rates per 100,000     6.0228  Footnotes   

                                          Unnamed: 6  
0            

Trin 3: Filtrering af Relevante Rækker
Filtrering af Relevante Rækker: Vi fjerner rækker, hvor kolonnen "Intentional homicides and other crimes" indeholder NaN. Dette sikrer, at vi kun arbejder med relevante numeriske værdier.

In [12]:
# Filtrér rækker hvor "Intentional homicides and other crimes" ikke er NaN
homicides_crime_data = homicides_crime_data.dropna(subset=['Intentional homicides and other crimes'])

# Undersøg de første par rækker igen for at kontrollere resultatet
print(homicides_crime_data.head())



Empty DataFrame
Columns: [T11, Intentional homicides and other crimes, Unnamed: 2, Unnamed: 3, Unnamed: 4, Unnamed: 5, Unnamed: 6]
Index: []


3. Validering af Data Cleaning
Efter at have udfyldt de manglende værdier, validerer Jeg, at der ikke er flere manglende værdier.

Trin 4: Udfyldning af Manglende Værdier
Udfyldning af Manglende Værdier: Vi udfylder eventuelle manglende værdier med medianen. Medianen bruges, fordi den er robust over for outliers og giver en repræsentativ værdi for dataene.

In [13]:
# Udfyldning af manglende værdier med median
homicides_crime_data['Intentional homicides and other crimes'] = homicides_crime_data['Intentional homicides and other crimes'].fillna(homicides_crime_data['Intentional homicides and other crimes'].median())

# Validering af manglende værdier
print("Homicides Crime Data Missing Values efter rengøring:\n", homicides_crime_data.isnull().sum())


Homicides Crime Data Missing Values efter rengøring:
 T11                                       0
Intentional homicides and other crimes    0
Unnamed: 2                                0
Unnamed: 3                                0
Unnamed: 4                                0
Unnamed: 5                                0
Unnamed: 6                                0
dtype: int64


In [24]:
# Validering af manglende værdier
print("Reported Crime Data Missing Values efter rengøring:\n", reported_crime_data.isnull().sum())
print("Homicides Crime Data Missing Values efter rengøring:\n", homicides_crime_data.isnull().sum())

# Gemme rensede versioner af CSV-filerne
historical_crime_data.to_csv('Cleaned_MPS_Borough_Level_Crime_Historical.csv', index=False)
recent_crime_data.to_csv('Cleaned_MPS_Borough_Level_Crime_Recent.csv', index=False)
historical_lsoa_crime_data.to_csv('Cleaned_MPS_LSOA_Level_Crime_Historical.csv', index=False)
recent_lsoa_crime_data.to_csv('Cleaned_MPS_LSOA_Level_Crime_Recent.csv', index=False)
historical_ward_crime_data.to_csv('Cleaned_MPS_Ward_Level_Crime_Historical.csv', index=False)
recent_ward_crime_data.to_csv('Cleaned_MPS_Ward_Level_Crime_Recent.csv', index=False)
homicides_crime_data.to_csv('Cleaned_Intentional_Homicides_and_Other_Crimes.csv', index=False)
reported_crime_data.to_csv('Cleaned_Reported_Crime_Data.csv', index=False)


print("Alle rensede filer er gemt.")

Reported Crime Data Missing Values efter rengøring:
 Year                    0
crimes.total            0
crimes.penal.code       0
crimes.person           0
murder                  0
assault                 0
sexual.offenses         0
rape                    0
stealing.general        0
burglary                0
house.theft             0
vehicle.theft           0
out.of.vehicle.theft    0
shop.theft              0
robbery                 0
fraud                   0
criminal.damage         0
other.penal.crimes      0
narcotics               0
drunk.driving           0
population              0
dtype: int64
Homicides Crime Data Missing Values efter rengøring:
 T11                                       0
Intentional homicides and other crimes    0
Unnamed: 2                                0
Unnamed: 3                                0
Unnamed: 4                                0
Unnamed: 5                                0
Unnamed: 6                                0
dtype: int64
Alle rensede 