# Verkeersdata Analyse Porfolio

In [1]:
# Libraries inladen
import pandas as pd

In [2]:
# Datasets inladen
accidents = pd.read_csv("datasets/accident_data.csv")
roads = pd.read_csv("datasets/road_data.csv")
weather = pd.read_csv("datasets/weather_data.csv")

## Onvolledige data verwijderen of aanvullen

In [3]:
# Overzicht Data
def overzicht(df, name):
    print(f"\n {name} \n")
    print("-------------------------")
    print(df.head())

overzicht(accidents, "Accident Data")
overzicht(weather, "Weather Data")
overzicht(roads, "Road Data")


 Accident Data 

-------------------------
          ID   Source  Severity                     Start_Time  \
0  A-2047758  Source2         2            2019-06-12 10:10:56   
1  A-4694324  Source1         2  2022-12-03 23:37:14.000000000   
2  A-5006183  Source1         2  2022-08-20 13:13:00.000000000   
3  A-4237356  Source1         2            2022-02-21 17:43:04   
4  A-6690583  Source1         2            2020-12-04 01:46:00   

                        End_Time  Start_Lat   Start_Lng    End_Lat  \
0            2019-06-12 10:55:58  30.641211  -91.153481        NaN   
1  2022-12-04 01:56:53.000000000  38.990562  -77.399070  38.990037   
2  2022-08-20 15:22:45.000000000  34.661189 -120.492822  34.661189   
3            2022-02-21 19:43:23  43.680592  -92.993317  43.680574   
4            2020-12-04 04:13:09  35.395484 -118.985176  35.395476   

      End_Lng  Distance(mi)  \
0         NaN         0.000   
1  -77.398282         0.056   
2 -120.492442         0.022   
3  -92.972223 

In [4]:
# Missende waarden detecteren
def missende_waardes(df, name):
    print(f"\n Missende waarden in: {name}")
    print((df.isnull().sum() / len(df) * 100))

missende_waardes(accidents, "Accident Data")
missende_waardes(weather, "Weather Data")
missende_waardes(roads, "Road Data")


 Missende waarden in: Accident Data
ID               0.0000
Source           0.0000
Severity         0.0000
Start_Time       0.0000
End_Time         0.0000
Start_Lat        0.0000
Start_Lng        0.0000
End_Lat         44.0754
End_Lng         44.0754
Distance(mi)     0.0000
Description      0.0002
City             0.0038
County           0.0000
State            0.0000
Zipcode          0.0232
dtype: float64

 Missende waarden in: Weather Data
Start_Time            0.0000
Weather_Timestamp     1.5348
Temperature(F)        2.0932
Wind_Chill(F)        25.8034
Humidity(%)           2.2260
Pressure(in)          1.7856
Visibility(mi)        2.2582
Wind_Direction        2.2394
Wind_Speed(mph)       7.3974
Precipitation(in)    28.5232
Weather_Condition     2.2202
Sunrise_Sunset        0.2966
dtype: float64

 Missende waarden in: Road Data
ID                 0.0
Amenity            0.0
Bump               0.0
Crossing           0.0
Give_Way           0.0
Junction           0.0
No_Exit           

### Accidents Data

In de kolommen End_lat en End_lng zitten ook heel veel missende waardes. Aangezien ik al de coordinaten van de incident locaties heb (Start_Lat - Start_Lng) heb ik deze twee kolommen niet nodig.

In [5]:
# End_Lat en End_Lng kolommen verwijderen met  veel missende waardes (indien niet nodig)
accidents.drop(['End_Lat', 'End_Lng'], axis=1, inplace=True)

In de description en city kolommen zitten heel weininig nan waardes, hierbij kunnen we heel makkelijk deze rijen veranderen, want het zal geen effect hebben op de analyse.

In [6]:
# Rijen met nan waardes verwijderen
accidents.dropna(subset=["Description", "City", "Zipcode"], inplace=True)

### Weather Data

In de kolom 'Precipitation(in)' zitten veel missende waarden. Aangezien waarschijnlijk in de meeste geval niet regenen of sneeuwen betekent dat er geen regen of sneeuw is gevallen, besloot ik om de missende waarden met '0.0' te invullen. Zo heb ik geen dataverlies en kan werken met deze kolom.

In [7]:
# None waardes veranderen met 0
weather.fillna({"Precipitation(in)": 0.0}, inplace=True)

Als je kijkt naar de Wind_Chill(F) kolom, zie je dat het meestaal heel dichtbij of soms helemaal hetzelfde is met de Temperature(F) kolom. Dit betekent dat de NaN waardes gewoon met de waardes van Temperature(F) opgevuld kan worden. Dit geldt ook voor de kolom Temperature(F).

In [8]:
weather[["Wind_Chill(F)","Temperature(F)"]].head()

Unnamed: 0,Wind_Chill(F),Temperature(F)
0,77.0,77.0
1,43.0,45.0
2,68.0,68.0
3,15.0,27.0
4,42.0,42.0


In [9]:
# Opvullen met dichtstbijzijnde waardes
weather.fillna({"Wind_Chill(F)": "Temperature(F)"}, inplace=True)
weather.fillna({"Temperature(F)": "Wind_Chill(F)"}, inplace=True)

Omdat de resterende kolommen heel weinig NaN waardes bevatten, kunnen de rijen met de NaN values gelijk werwijderd kan worden. Dit heeft geen effect op de analyse en de data begrijpelijker.

In [10]:
# De rijen met weinig missende waardes verwijderen
weather.dropna(subset=["Humidity(%)", "Pressure(in)" 
                       ,"Visibility(mi)", "Wind_Direction", 
                       "Wind_Speed(mph)", "Weather_Condition", "Sunrise_Sunset"], 
               inplace=True)

### Roads Data

In [11]:
weather.isnull().sum()

Start_Time           0
Weather_Timestamp    0
Temperature(F)       0
Wind_Chill(F)        0
Humidity(%)          0
Pressure(in)         0
Visibility(mi)       0
Wind_Direction       0
Wind_Speed(mph)      0
Precipitation(in)    0
Weather_Condition    0
Sunrise_Sunset       0
dtype: int64

Alle missende waardes zijn nu verwijderd.

In [12]:
missende_waardes(accidents, "Accident Data")
missende_waardes(weather, "Weather Data")
missende_waardes(roads, "Road Data")


 Missende waarden in: Accident Data
ID              0.0
Source          0.0
Severity        0.0
Start_Time      0.0
End_Time        0.0
Start_Lat       0.0
Start_Lng       0.0
Distance(mi)    0.0
Description     0.0
City            0.0
County          0.0
State           0.0
Zipcode         0.0
dtype: float64

 Missende waarden in: Weather Data
Start_Time           0.0
Weather_Timestamp    0.0
Temperature(F)       0.0
Wind_Chill(F)        0.0
Humidity(%)          0.0
Pressure(in)         0.0
Visibility(mi)       0.0
Wind_Direction       0.0
Wind_Speed(mph)      0.0
Precipitation(in)    0.0
Weather_Condition    0.0
Sunrise_Sunset       0.0
dtype: float64

 Missende waarden in: Road Data
ID                 0.0
Amenity            0.0
Bump               0.0
Crossing           0.0
Give_Way           0.0
Junction           0.0
No_Exit            0.0
Railway            0.0
Roundabout         0.0
Station            0.0
Stop               0.0
Traffic_Calming    0.0
Traffic_Signal     0.0
dtype

## Onnodige Kolommen verwijderen
Om de data overzichtelijk te houden, onnodig geheugengebruik te voorkomen en alleen met kolommen te werken die relevant zijn voor de analyse, is het handig om een paar overbodige kolommen te verwijderen.

In [13]:
# Accidents
accidents.drop(columns=[
    "Description", "Source", "Zipcode", "Distance(mi)"
]
               , inplace=True)

# Weather
weather.drop(columns=[
    "Start_Time", "Wind_Chill(F)", "Visibility(mi)", "Wind_Direction"
]
            , inplace=True)

In [14]:
print(weather.columns)
print("-------------")
print(accidents.columns)

Index(['Weather_Timestamp', 'Temperature(F)', 'Humidity(%)', 'Pressure(in)',
       'Wind_Speed(mph)', 'Precipitation(in)', 'Weather_Condition',
       'Sunrise_Sunset'],
      dtype='object')
-------------
Index(['ID', 'Severity', 'Start_Time', 'End_Time', 'Start_Lat', 'Start_Lng',
       'City', 'County', 'State'],
      dtype='object')


## Onrealistische waarden filtreren
Uitschieters of fout waardes verwijderen.

In [15]:
# Kijken of er foute waarden tussen zitten
def inzicht_waarden(df, name):
    print(f"{name} data:")
    print(df.describe())

inzicht_waarden(weather, "Weather")
inzicht_waarden(accidents, "Accidents")

Weather data:
         Humidity(%)   Pressure(in)  Wind_Speed(mph)  Precipitation(in)
count  456838.000000  456838.000000    456838.000000      456838.000000
mean       64.418735      29.510880         7.686263           0.005813
std        22.771445       1.018249         5.424766           0.064346
min         1.000000      19.360000         0.000000           0.000000
25%        48.000000      29.330000         4.600000           0.000000
50%        67.000000      29.830000         7.000000           0.000000
75%        84.000000      30.020000        10.400000           0.000000
max       100.000000      38.440000       822.800000          10.090000
Accidents data:
            Severity      Start_Lat      Start_Lng
count  499864.000000  499864.000000  499864.000000
mean        2.212732      36.206719     -94.736331
std         0.486630       5.071011      17.404941
min         1.000000      24.562117    -124.497420
25%         2.000000      33.417772    -117.232848
50%         2.00

### Weather Data
#### Wind-luchtdruk (Pressure)
Winddruk kan niet minder dan 25 of meer dan 32 zijn. Meer informatie kun je [hier](https://www.rovary.com/pages/luchtdruk) vinden. Daarom filtreer ik de waarden in Pressure kolom tussen 25 en 32 inch.

In [16]:
# Waarden filtreren tussen 25 en 32
weather = weather[(weather['Pressure(in)'] >= 25) & (weather['Pressure(in)'] <= 32)]

#### Windsnelheid (Wind_speed)
Volgens de [Saffir-Simpson orkaanschaal](https://www.nhc.noaa.gov/aboutsshws.php) beginnen orkanen bij windsnelheden van 74 mph. Zelfs de zwaarste orkanen (categorie 5) hebben windsnelheden van 157 mph of hoger. Dus waarden zoals 822mph zijn fysiek onmogelijk en dus fout. Om het realistisch te houden zal ik de windsnelheid filtreren tot 120 mph.

In [17]:
# Windsnelheid filtreren tot 120 mph
weather = weather[(weather['Wind_Speed(mph)'] <= 120)]

## Datatypes Corrigeren 
Elke kolom in de datasets moet het juiste datatype hebben, zodat verdere analyses soepel verlopen en foutmeldingen worden voorkomen.

### Accidents

In [18]:
accidents.info()

<class 'pandas.core.frame.DataFrame'>
Index: 499864 entries, 0 to 499999
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   ID          499864 non-null  object 
 1   Severity    499864 non-null  int64  
 2   Start_Time  499864 non-null  object 
 3   End_Time    499864 non-null  object 
 4   Start_Lat   499864 non-null  float64
 5   Start_Lng   499864 non-null  float64
 6   City        499864 non-null  object 
 7   County      499864 non-null  object 
 8   State       499864 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 38.1+ MB


In [19]:
# City, COuntry en State zijn ook string type kolommen
accidents[['City', 'County', 'State']] = accidents[['City', 'County', 'State']].astype('string')

# Om datatypes te veranderen, moeten de nanoseconden in deze kolommen verwijderd worden
accidents['Start_Time'] = accidents['Start_Time'].str.extract(r'^(.{19})')[0]
accidents['End_Time'] = accidents['End_Time'].str.extract(r'^(.{19})')[0]

# Start_Time en End_Time moeten worden omgezet naar datetime
accidents['Start_Time'] = pd.to_datetime(accidents['Start_Time'])
accidents['End_Time'] = pd.to_datetime(accidents['End_Time'])

### Weather

In [20]:
weather.info()

<class 'pandas.core.frame.DataFrame'>
Index: 450642 entries, 0 to 499999
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   Weather_Timestamp  450642 non-null  object 
 1   Temperature(F)     450642 non-null  object 
 2   Humidity(%)        450642 non-null  float64
 3   Pressure(in)       450642 non-null  float64
 4   Wind_Speed(mph)    450642 non-null  float64
 5   Precipitation(in)  450642 non-null  float64
 6   Weather_Condition  450642 non-null  object 
 7   Sunrise_Sunset     450642 non-null  object 
dtypes: float64(4), object(4)
memory usage: 30.9+ MB


In [21]:
# Weather_Timestamp moet datetime worden
weather['Weather_Timestamp'] = pd.to_datetime(weather['Weather_Timestamp'])

# Temperature moet float worden
weather['Temperature(F)'] = pd.to_numeric(weather['Temperature(F)'], errors='coerce')

# Weather_Condition en Sunrise_Sunset zijn ook strings
weather[['Sunrise_Sunset', 'Weather_Condition']] = weather[['Sunrise_Sunset', 'Weather_Condition']].astype('string')

### Roads

In [22]:
roads.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500000 entries, 0 to 499999
Data columns (total 13 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   ID               500000 non-null  object
 1   Amenity          500000 non-null  bool  
 2   Bump             500000 non-null  bool  
 3   Crossing         500000 non-null  bool  
 4   Give_Way         500000 non-null  bool  
 5   Junction         500000 non-null  bool  
 6   No_Exit          500000 non-null  bool  
 7   Railway          500000 non-null  bool  
 8   Roundabout       500000 non-null  bool  
 9   Station          500000 non-null  bool  
 10  Stop             500000 non-null  bool  
 11  Traffic_Calming  500000 non-null  bool  
 12  Traffic_Signal   500000 non-null  bool  
dtypes: bool(12), object(1)
memory usage: 9.5+ MB


Roads ziet er goed uit

### Laatste check

In [23]:
print(accidents.info())
print("----------------")
print(weather.info())
print("----------------")
print(roads.info())

<class 'pandas.core.frame.DataFrame'>
Index: 499864 entries, 0 to 499999
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   ID          499864 non-null  object        
 1   Severity    499864 non-null  int64         
 2   Start_Time  499864 non-null  datetime64[ns]
 3   End_Time    499864 non-null  datetime64[ns]
 4   Start_Lat   499864 non-null  float64       
 5   Start_Lng   499864 non-null  float64       
 6   City        499864 non-null  string        
 7   County      499864 non-null  string        
 8   State       499864 non-null  string        
dtypes: datetime64[ns](2), float64(2), int64(1), object(1), string(3)
memory usage: 38.1+ MB
None
----------------
<class 'pandas.core.frame.DataFrame'>
Index: 450642 entries, 0 to 499999
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   Weather_Timestamp  