In [3]:
import pandas as pd
from  tqdm.notebook import tqdm

# Eksploracja danych nypd-motor-vehicle-collisions.csv

## Wczytanie danch
Wczytanie danych o wypadkach i kolizjach w mieście Nowy Jork z pliku csv.
Plik posiada nagłówek z nazwami kolumn a jako separatora użyto znaku ','

In [None]:
# Wczytuję dana z pliku csv
ny_collisions = pd.read_csv("data/nypd-motor-vehicle-collisions.csv")

In [None]:
ny_collisions.head(3)

In [None]:
# Z powodu komunikatu Columns (3) have mixed types. Specify dtype option on import or set low_memory=False.
# przyglądam się kolumnie (3) "ZIP CODE"
ny_collisions["ZIP CODE"]

Pandas potraktował wartości kolumny ZIP CODE jako liczby. Bezpośrednio w pliku CSV jest to głównie 5 cyfr, ponadto kolumna posiada wartości puste lub wypełnione białymi znakami.
Traktuję kolumnę **ZIP CODE** jako ciąg znaków (typ str) a kolumnę **ACCIDENT DATE** jako dane typu datetime i wczytuję dane ponownie.

In [4]:
# kolumna ZIP CODE jako str, a ACCIDENT DATE jako datetime
ny_collisions = pd.read_csv("data/nypd-motor-vehicle-collisions.csv",dtype={"ZIP CODE":'str'}, parse_dates=["ACCIDENT DATE"])
ny_collisions.head(3)

Unnamed: 0,ACCIDENT DATE,ACCIDENT TIME,BOROUGH,ZIP CODE,LATITUDE,LONGITUDE,LOCATION,ON STREET NAME,CROSS STREET NAME,OFF STREET NAME,...,CONTRIBUTING FACTOR VEHICLE 2,CONTRIBUTING FACTOR VEHICLE 3,CONTRIBUTING FACTOR VEHICLE 4,CONTRIBUTING FACTOR VEHICLE 5,COLLISION_ID,VEHICLE TYPE CODE 1,VEHICLE TYPE CODE 2,VEHICLE TYPE CODE 3,VEHICLE TYPE CODE 4,VEHICLE TYPE CODE 5
0,2019-08-05,16:30,QUEENS,11434,40.676052,-73.790184,"{'type': 'Point', 'coordinates': [-73.790184, ...",,,150-08 123 AVENUE,...,Unspecified,,,,4184637,Sedan,Pick-up Truck,,,
1,2019-08-27,16:02,BROOKLYN,11225,40.65778,-73.951096,"{'type': 'Point', 'coordinates': [-73.951096, ...",,,288 HAWTHORNE STREET,...,Unspecified,,,,4195773,Station Wagon/Sport Utility Vehicle,Station Wagon/Sport Utility Vehicle,,,
2,2019-08-15,17:57,MANHATTAN,10002,40.718143,-73.993835,"{'type': 'Point', 'coordinates': [-73.993835, ...",CHRYSTIE STREET,GRAND STREET,,...,,,,,4202457,Sedan,,,,


## Podstawowe informacje o wczytanym DataFrame
Wczytany DataFrame ny_collisions posiada 1 612 178 wierszy w 29 kolumnach.

Dane o kolumnach DataFrame ny_collisions:
* **ACCIDENT DATE**: Data wypadku, podczas wczytywania kolumna przekształcona na typ danych 'datetime64[ns]'
* **ZIP CODE**: Kod pocztowy, typ danych ciąg znaków 'str'

In [None]:
# Podstawowe informacje o DataFrame ny_colision
# 1612178 wierszy i 29 kolumn
ny_collisions.shape

In [None]:
ny_collisions.describe

In [None]:
ny_collisions.info

In [None]:
# Nazwy kolumn DataFrame ny_colision
ny_collisions.columns

In [5]:
# Typy danych kolumn
print("ACCIDENT DATE: ",ny_collisions["ACCIDENT DATE"].dtype)
print("ZIP CODE: ",ny_collisions["ZIP CODE"].dtype)
print("COLLISION_ID: ",ny_collisions["COLLISION_ID"].dtype)
print("LATITUDE: ",ny_collisions["LATITUDE"].dtype)
print("LONGITUDE: ",ny_collisions["LONGITUDE"].dtype)
print("LOCATION: ",ny_collisions["LOCATION"].dtype)

ACCIDENT DATE:  datetime64[ns]
ZIP CODE:  object
COLLISION_ID:  int64
LATITUDE:  float64
LONGITUDE:  float64
LOCATION:  object


## Exploracja danych w poszczególnych kolumnach
### Kolumna COLLISION_ID
Sprawdzam czy kolumnę COLLISION_ID można użyć jako klucza głównego DataFrame, jednoznacznie wskazującego wiersz

In [None]:
# typ danych
ny_collisions["COLLISION_ID"].dtype

In [None]:
# czy są komórki nie uzupełnione
ny_collisions["COLLISION_ID"].isna().sum()

In [None]:
# Czy wartości w kolumnie są unikalne ?
cnt_no_uniq = (ny_collisions["COLLISION_ID"].value_counts() > 1).sum()
cnt_no_uniq
# Niestety nie, jest jak poniżej pewna liczba zduplikowanych wartości w kolumnie COLLISION_ID

In [None]:
# rozpiętość ilości nie unikalnych wartości w kolumnie COLLISION_ID
ny_collisions["COLLISION_ID"].value_counts().agg(["min","max"])
# Kolumna posiada maksymalnie dwie powielone wartości w COLLISION_ID.

Wyświetlam wiersze DataFrame z powielonymi wartościami w kolumnie COLLISION_ID

In [None]:
coll_id_s = ny_collisions["COLLISION_ID"].value_counts() > 1
coll_id_s[coll_id_s].index
# dataframe ny_collisions z powielonymi wartościami w kolumnie COLLISION_ID

In [None]:
# Wyświetlam jeden z wierzy aby przyjżeć się kolumnom 
ny_collisions.loc[ny_collisions["COLLISION_ID"] == 3126615]

Z 2 wierszy wyświetlonych powyżej wygląda że kolumny prawdopodobnie mają te same wartości w wszystkich dwóch wierszach i będzie można wyczyścić dane w DataFrame Korzystając z funkcji drop_duplicates(). Najpierw trochę zabawy z funkcją sprawdzającą czy kolumny w dataframe z zduplikowanymi wartościami COLLISION_ID, posiadją te same wartości.

In [None]:
# "COLLISION_ID"
# Funkcja grupuje DataFrame df po kolumnie col, wyszukuje grupy które zawierają więcej niż 1 wiersz i
# sprawdza czy wartości w zgrupowanych kolumnach są różne.
# Funkcja zwraca słownik gdzie klucz to wartość grupowanej kolumny, a wrtość to lista kolumn, które się różnią
# W przypadku gdy funkcja zwróci pusty słownik, dataframe df albo nie posiada zduplikowanych wierszy albo wszystkie kolumny
# w zduplikowanych wierszach posiadają identyczne wartości
def no_unique_columns(df,col):
    no_uniq = {} # {zduplikowana_wartość:[nazwa_kolumy_1_z_róznymi_wartościami,nazwa_kolumy_2_z_róznymi_wartościami,...}
    for g in tqdm(df.groupby(col)):
        if len(g[1]) > 1:
            # Jeżeli są duplikaty badamy wartości w odpowiednich kolumnach
            for c in g[1].columns:
                if len(g[1][c].unique()) > 1:
                    # wartość zduplikowana (g[0]), posiada rózne wartości w dopowiednich kolumnach. Dodajemy informacje do słownika
                    if g[0] in no_uniq:
                        no_uniq[g[0]].append(c)
                    else:
                        no_uniq[g[0]] = [c]
    return no_uniq

In [None]:
# test unikalności wartości. Chwilkę może potrwać ... (4 min.)
nuq = no_unique_columns(ny_collisions,"COLLISION_ID")
nuq

In [None]:
# Wszystkie wiersze z zdupliownymi wartościami COLLISION_ID mają również zduplikowane wartości w wszystkich kolumnach.
# Czyszczę DataFrame
cnt_before = len(ny_collisions)
ny_collisions = ny_collisions.drop_duplicates("COLLISION_ID")
cnt_after = len(ny_collisions)
print(f"Ilość wierszy przed czyszczeniem: {cnt_before}\nIlość wierszy po wyczyszczeniu: {cnt_after}\nIlość wierszy usuniętych: {cnt_before-cnt_after}")
print(f"Wierszy z nieunikalnymi wartościami w kolumnie COLLISION_ID było {cnt_no_uniq}")

In [None]:
# Liczba zduplikowanych wartości w kolumnie COLLISION_ID
(ny_collisions["COLLISION_ID"].value_counts() > 1).sum()
# Kolumny można użyć jako klucza głównego, jednoznacznie identyfikującego wiersze DataFrame

### Kolumna "ZIP CODE"

[Kod pocztowy USA](https://en.wikipedia.org/wiki/ZIP_Code) w podstawowej formie składa się z 5 cyfr, ale może posiadać więcej niż 5 znaków.
Ponadto kod pocztowy stanu NY rozpoczyna się od znaku '1'.

In [None]:
# Wyczyszczenie kolumny z początkowych i końcowych białych znków
ny_collisions.loc[:,"ZIP CODE"] = ny_collisions["ZIP CODE"].str.strip()

Liczba wierszy w których kolumna "ZIP CODE" posiada wartość nieuzupełnioną wynosi:

In [None]:
# liczba wierszy z kolumną ZIP CODE równym NaN lub pystym ciągiem znanków ''
# Jeżeli kolumna ZIP CODE w pliku csv jest w postaci ,, to ma wartość NaN, jeżeli ,\s+, (,jedna lub więcej znaków białych,) ma wartość ''
count_zip_code_nan = len(ny_collisions.loc[ny_collisions["ZIP CODE"].isna() | (ny_collisions["ZIP CODE"] == '')])
count_zip_code_nan

Zgodnie z informacją o kodach pocztowych w USA, kdoy NYC powinny rozpoczynać się od znaku cyfry jeden ('1').
Liczba kodów pocztowych w kolumnie "ZIP CODE" w formacie podstawowym (5 znaków) i rozpoczynająca się od znaku cyfry '1' wynosi:

In [None]:
# Liczba wierszy w której kolumna ZIP CODE składa się z 5 cyfr, przyczym pierwsza rozpoczyna się od znaku '1'
count_zip_code_basic = ny_collisions["ZIP CODE"].str.count("1\d{4}").sum()
count_zip_code_basic

Suma ilości wierszy w której kolumna ZIP CODE ma wartość NaN i poprawny ZIP CODE stanu NY rozpoczynający się od
znaku '1', składjący się z 5 cyfr, powinna być równa ilości wierszy DataFrame ny_collision

In [None]:
len(ny_collisions) - count_zip_code_nan - count_zip_code_basic

Operacje poniżej normalizują kolumnę ZIP CODE, tylko i wyłącznie do typu str, dla późniejszych analiz. Pozbywam się wartości NaN przez zamianę jej na pusty ciąg znaków ''.

In [None]:
ny_collisions.loc[ny_collisions["ZIP CODE"].isna(),"ZIP CODE"] = ''

In [None]:
len(ny_collisions["COLLISION_ID"].loc[ny_collisions["ZIP CODE"]==''])

### Kolumny "LATITUDE", "LONGITUDE", "LOCATION"

Sprawdzam jak wypełnieone są zależne od siebie kolumny LATITUDE, LONGITUDE i LOCATION.

Przypadki:
* wszystkie trzy komórki w wierszu dla poszczególnych kolumn posiadają dane
* wszystkie trzy komórki w wierszu dla poszczególnych kolumny są nieuzupełnione
* część komórek w wierszu dla poszczególnych kolumn jest wypełniona a część nie

In [None]:
# Wyświetlenie nieuzupełnionych kolumn "LATITUDE","LONGITUDE","LOCATION"
# False: komórka w kolumnie uzupełniona, True: komórka w kolumnie nie uzupełniona
ny_collisions[["LATITUDE","LONGITUDE","LOCATION"]].isna()

Wartość False komórki w odpowiadającej kolumnie oznacza że jest uzupełniona, True nie uzupełniona

Sumowanie po osi X wartości boolen (False=0, True=1) w celu określenia statusu uzupełnienia kolumn.

Znczenie sumy wartości logicznych trzech kolumn "LATITUDE","LONGITUDE","LOCATION" w poszczególnych wierszach:

0 - wszystkie kolumny zostały wypełnione\
1 - jedna z trzech komórek wiersza nie została uzupełniona\
2 - dwie z trzech komórek wiersza nie zostały uzupełnione\
3 - wszystkie trzy komórki w wierszu nie zostały uzupełnione

In [None]:
ny_collisions[["LATITUDE","LONGITUDE","LOCATION"]].isna().sum(axis=1)

Sprawdzenie z jakiego typu "brakami" w danych o lokalizacji kolizji/wypadku mamy doczynienia

In [None]:
(ny_collisions[["LATITUDE","LONGITUDE","LOCATION"]].isna().sum(axis=1)).unique()

In [None]:
# liczba wierszy bez współrzędnych geograficznych
((ny_collisions[["LATITUDE","LONGITUDE","LOCATION"]].isna().sum(axis=1)) == 3).sum()

W tym przypadku posiadamy tylko wartości 0 i 3 co oznacza że mamy wiersze w kolumnach "LATITUDE","LONGITUDE","LOCATION" albo wszystkie uzupełnione albo wszystkie nie uzupełnione. Brak przypadków mieszanych (jedna lub dwie kolumny są uzupełnione a reszta nie), co oszczędzi głębszej analizy, które komórki można uzupełnić na podstawie zawartości inych komórek (np. LATITUDE na podstawie uzupełnionej komórki LOCATION).

Komórka LOCATION zapisana jest jako typ danych str i wygląda jak rekord danych python dictionary:\
`{'type': 'Point', 'coordinates': [-73.790184, 40.676052]}`\
gdzie klucz 'type' określa prawdopodobnie kształt (w tym przypadku punkt) i 'coordinates' współrzędne geograficzne, 
co daje możliwość weryfikacji spójności danych komórek w kolumnach LATITUDE i LONGITUDE na podstawie informacji zawartych w komórkach kolumny LOCATION.

W celu wykonania takiej weryfikacji należy z komórki kolumny LOCATION "wyciągnąć" informacje o współrzędnych geograficznych.
Aby to osiągnąć można potraktować zawartość wierszy kolumny LOCATION jako dane typu json, zamieniając znak ' na znak ", lub bezpośrednio zamienić funkcją eval() ciąg znaków na słownik.

In [None]:
# Funkcja sprawdza czy współrzędne geograficzne w kolumnie LATITUDE i LONGITUDE są zgodne z
# współrzędnymi geograficznymi w strukturze zawartej w kolumnie LOCATION
# Przeznaczenie: dla DataFrame.apply()
# wejście: wiersz danych dataframe z kolumnami LATITUDE,LONGITUDE,LOCATION
# wyjście: zwraca True jeżeli współrzędne geograficzne w strukturze z kolumny LOCATION są niezgodene z danymi w kolumnach LATITUDE i LONGITUDE
def check_coordinate(row):
    try:
        data = eval(row["LOCATION"])
        # Sprawdzam czy zmienna data jest typu słownik i czy słownik zawiera klucze type i coordinates
        if isinstance(data,dict) and (data.keys() >= {"type", "coordinates"}):
            if data["type"].strip().upper() == 'POINT':
                # Sprawdzanie czy klucz 'coordinates' zawiera listę z przynjmniej dwoma elementami nie ma sensu, zdziała wyjątek
                loc_latitude = data["coordinates"][1]
                loc_longitude = data["coordinates"][0]
                return not ((loc_latitude-row["LATITUDE"]==0) and (loc_longitude-row["LONGITUDE"]==0))
    except:
        return True
    return True

In [None]:
# tworzę kopię z dataframe ny_collision, która jest wycinkiem z oryginalnego dataframe składającego się z 
# kolumn "LATITUDE","LONGITUDE","LOCATION" bez LOCATION = NaN.
test = ny_collisions[["LATITUDE","LONGITUDE","LOCATION"]].loc[~ny_collisions["LOCATION"].isna()]

In [None]:
# Testowanie zgodności wartości LONGITUDE, LATITUDE i LOCATION.coordinates.
test["check"] = test.apply(check_coordinate,axis=1)
test

In [None]:
# Jeżeli są nizgodności to wiersz w kolumnie check ma wartość True
test.loc[test["check"]]

W tym przypadku brak niezgodności pomiędzy LATITUDE,LONGITUDE a kluczem coordinates w LOCATION. 
Z powyższej analizy wynika że kolumna LOCATION w dataframe ny_collision jest nadmiarowa.

In [None]:
# Usuwam test aby nie zajmować pamięci
del(test)