<a href="https://colab.research.google.com/github/Vektor79/Zadania_samodzielne/blob/main/data_breaches.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [9]:
import pandas as pd
import seaborn as sns
from google.colab import drive

## Wycieki danych

W tym zeszycie będziemy omawiać informacje na temat największych wycieków danych odnotowanych w latach 2004-2021.

Dane zostały udostępnione na podstawie licencji CC0 na [tej stronie kaggle](https://www.kaggle.com/hishaamarmghan/list-of-top-data-breaches-2004-2021) i wstępnie przez nas przygotowane.

Zapoznajmy się z materiałem dostępnym w notebooku i na podstawie instrukcji przygotujmy dane, które będą potrzebne podczas zajęć.

**Uwaga.** Wracając do dokumentu, pamiętaj o ponownym wywołaniu komórek z kodem.

### Zawartość zbioru danych

W zbiorze znajdują się informacje o tym:

* **Year** - w którym roku doszło do wycieku danych
* **Organization type** - do jakiego sektora należała pokrzywdzona organizacja
* **Method** - w wyniku jakiego zdarzenia doszło do wycieku.
* **Records** - ilu pozycji dotyczył wyciek
* **Count of Breaches** - do ilu wycieków doszło.

Potrzebne nam dane zostały udostępnione wraz z dokumentem - poniższy kod importuje plik.

In [10]:
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [12]:
data_breaches = pd.read_csv('/content/drive/My Drive/Vis/02_Data_Breaches/data_breaches.csv')
data_breaches

Unnamed: 0,Year,Organization type,Method,Total No Records (M),Count of Breaches
0,2016,healthcare,hacked,2.200000,1
1,2020,media,hacked,14.870304,1
2,2020,healthcare,poor security,0.566600,2
3,2013,tech,hacked,3350.159298,14
4,2019,tech,poor security,592.500000,4
...,...,...,...,...,...
163,2010,academic / educational,accidentally exposed,0.043000,1
164,2019,media,hacked,173.000000,1
165,2019,financial,hacked,0.098000,1
166,2020,financial,accidentally exposed,200.000000,1


## Przygotowanie zeszytu

Na początku chcemy upewnić się, że dane zostały poprawnie rozpoznane i dokonać potrzebnych konwersji.

Na podstawie podglądu danych powyżej spodziewamy się, że pierwsza kolumna zawiera liczby całkowite, kolejne dwie zawierają dane w postaci tekstowej i odpowiadają dwóm rodzajom kategorii, obok mamy liczby rekordów w postaci numerycznej, na końcu ponownie znajduje się liczba całkowita odpowiadająca liczbie wycieków.

#### Sprawdzenie typów danych

Poniżej potrzebujemy wykonać dołączone instrukcje, aby otrzymać ramki danych wykorzystywane na zajęciach.

Na początek sprawdźmy jak zostały rozpoznane dane podczas importu.

In [13]:
data_breaches.dtypes

Unnamed: 0,0
Year,int64
Organization type,object
Method,object
Total No Records (M),float64
Count of Breaches,int64


### Próbuję inny *sposób*

In [32]:
# sprawdzenie pierwszych wierszy i struktury danych
print(data_breaches.head())

# pokaże jakie typy danych występują w poszczególnych kolumnach
print(data_breaches.info())


   Year Organization type         Method  Total No Records (M)  \
0  2016        healthcare         hacked              2.200000   
1  2020             media         hacked             14.870304   
2  2020        healthcare  poor security              0.566600   
3  2013              tech         hacked           3350.159298   
4  2019              tech  poor security            592.500000   

   Count of Breaches  
0                  1  
1                  1  
2                  2  
3                 14  
4                  4  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168 entries, 0 to 167
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Year                  168 non-null    int64  
 1   Organization type     168 non-null    object 
 2   Method                168 non-null    object 
 3   Total No Records (M)  168 non-null    float64
 4   Count of Breaches     168 non-null    int64  
dtyp

In [33]:
# sprawdzenie liczby brakujących wartości w każdej kolumnie
print(data_breaches.isnull().sum())

Year                    0
Organization type       0
Method                  0
Total No Records (M)    0
Count of Breaches       0
dtype: int64


Określmy, czy w danych znajdują się rekordy, dla których brakuje informacji w którejkolwiek z kolumn.

### Konwersja typów organizacji do kategorii

In [14]:
"complete records: " + str(len(data_breaches.dropna(how="any"))) + "; total records: " + str(len(data_breaches))

'complete records: 168; total records: 168'

Year                    0
Organization type       0
Method                  0
Total No Records (M)    0
Count of Breaches       0
dtype: int64


Przyjrzyjmy się informacjom dotyczącym typów pokrzywdzonych organizacji w kolumnie **Organization type**.

In [None]:
data_breaches["Organization type"].value_counts()

Unnamed: 0_level_0,count
Organization type,Unnamed: 1_level_1
tech,30
financial,30
government,24
healthcare,23
telecom,17
retail,15
media,10
other,10
academic / educational,9


W tym przypadku jedynie rozpoznamy typ danych jako kategoryczny.

In [None]:
data_breaches["Organization type"] = data_breaches["Organization type"].astype("category")

### Konwersja metod do kategorii

Przyjrzyjmy się informacjom dotyczącym typów pokrzywdzonych organizacji w kolumnie **Method**.

In [None]:
data_breaches["Method"].value_counts()

Unnamed: 0_level_0,count
Method,Unnamed: 1_level_1
hacked,76
poor security,28
lost / stolen media,24
inside job,16
accidentally exposed,14
unknown,4
misconfiguration,4
rogue contractor,1
social engineering,1


Również w tym przypadku jedynynie upewnimy się, że typ danych to Kategoria.

In [None]:
data_breaches["Method"] = data_breaches["Method"].astype("category")
data_breaches.dtypes

NameError: name 'data_breaches' is not defined

## Zadania