### Wstęp
Celem tego projektu jest analiza danych dotyczących bioróżnorodności pochodzących z National Parks Service, w szczególności dotyczących różnych gatunków obserwowanych w różnych lokalizacjach parków narodowych.

Projekt ten będzie obejmował zakres, analizę, przygotowanie, wykreślenie danych i próbę wyjaśnienia wniosków z analizy.

Oto kilka pytań, na które ten projekt starał się odpowiedzieć:
- Jaki jest rozkład statusu ochrony gatunków?
- Czy pewne rodzaje gatunków są bardziej narażone na niebezpieczeństwo?
- Czy różnice między gatunkami i ich statusem ochrony są znaczące?
- Które zwierzę jest najbardziej rozpowszechnione i jakie jest ich rozmieszczenie wśród parków?

**Źródła Danych:**

Zarówno `Observations.csv` jak i `Species_info.csv` zostały dostarczone przez [Codecademy.com.](https://www.codecademy.com)

Uwaga: Dane do tego projektu są inspirowane prawdziwymi danymi, ale w większości są fikcyjne.

### Cel Projektu

Ten projekt będzie realizowany z perspektywy analityka bioróżnorodności dla Służby Parków Narodowych. Służba Parków Narodowych chce zapewnić przetrwanie zagrożonych gatunków, aby utrzymać poziom różnorodności biologicznej w swoich parkach. Dlatego głównymi celami jako analityka będzie zrozumienie cech o gatunkach i ich statusie ochrony, a także tych gatunków i ich związku z parkami narodowymi. 

### Dane
Ten projekt posiada dwa zestawy danych. Pierwszy plik csv zawiera informacje o każdym gatunku, a drugi zawiera obserwacje gatunków wraz z lokalizacjami parków. Dane te zostaną wykorzystane do analizy celów projektu.

### Analiza
W tej części zostaną zastosowane statystyki opisowe i techniki wizualizacji danych, aby lepiej zrozumieć dane. Wnioskowanie statystyczne zostanie również wykorzystane do sprawdzenia, czy obserwowane wartości są statystycznie istotne. Niektóre z kluczowych metryk, które zostaną obliczone to:

1. Rozkłady
1. liczebności
1. relacje między gatunkami
1. stan ochrony gatunków
1. obserwacje gatunków w parkach.

### Ocena
Na koniec nastąpi powrót do celów i sprawdzenie, czy wyniki analizy odpowiadają pytaniom, na które należało odpowiedzieć.

### Zaimportuj moduły Pythona
Najpierw zaimportowano podstawowe moduły, które będą używane w tym projekcie:

In [3]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as snŁadowanie danych
%matplotlib inline

### Ładowanie danych
Aby przeanalizować stan ochrony gatunków i ich obserwacje w parkach narodowych, należy załadować zbiory danych do DataFrames. Po załadowaniu do DataFrames dane mogą być eksplorowane i wizualizowane za pomocą Pythona.

W kolejnych krokach pliki `Observations.csv` i `Species_info.csv` są wczytywane jako DataFrames nazwane odpowiednio `observations` i `species`. Nowo utworzone DataFrames są przeglądane za pomocą `.head()`, aby sprawdzić ich zawartość.

#### gatunki
Plik `species_info.csv` zawiera informacje o poszczególnych gatunkach występujących w Parkach Narodowych. Kolumny w zbiorze danych obejmują:

- **category** - Kategoria taksonomiczna dla każdego gatunku
- **scientific_name** - Nazwa naukowa każdego gatunku
- **common_names** - nazwy zwyczajowe każdego gatunku
- **conservation_status** - stan ochrony gatunku

In [5]:
species = pd.read_csv('species_info.csv', encoding = 'utf-8')
species.head()

Unnamed: 0,category,scientific_name,common_names,conservation_status
0,Mammal,Clethrionomys gapperi gapperi,Gapper's Red-Backed Vole,
1,Mammal,Bos bison,"American Bison, Bison",
2,Mammal,Bos taurus,"Aurochs, Aurochs, Domestic Cattle (Feral), Dom...",
3,Mammal,Ovis aries,"Domestic Sheep, Mouflon, Red Sheep, Sheep (Feral)",
4,Mammal,Cervus elaphus,Wapiti Or Elk,


#### obserwacje
Plik `Observations.csv` zawiera informacje z zarejestrowanych obserwacji różnych gatunków na terenie parków narodowych w ciągu ostatnich 7 dni. Zawarte kolumny to:

- **scientific_name** - Nazwa naukowa każdego gatunku.
- **park_name** - nazwa parku narodowego
- **observations** - liczba obserwacji w ciągu ostatnich 7 dni

In [9]:
observations = pd.read_csv('observations.csv', encoding = 'utf-8')
observations.head()

Unnamed: 0,scientific_name,park_name,observations
0,Vicia benghalensis,Great Smoky Mountains National Park,68
1,Neovison vison,Great Smoky Mountains National Park,77
2,Prunus subcordata,Yosemite National Park,138
3,Abutilon theophrasti,Bryce National Park,84
4,Githopsis specularioides,Great Smoky Mountains National Park,85


### Charakterystyka danych
Następnie nastąpi sprawdzenie wymiarów zbiorów danych, dla gatunków jest 5 824 wierszy i 4 kolumny, natomiast obserwacje mają 23 296 wierszy i 3 kolumny.

In [13]:
print('Obserwacje: ' + str(observations.shape))
print('Gatunki: ' + str(species.shape))

Obserwacje: (23296, 3)
Gatunki: (5824, 4)


### Eksploracja danych
Pierwszą rzeczą jest znalezienie liczby odrębnych gatunków w danych. Użyto kolumny `scientific_name`, aby uzyskać 5,541 unikalnych gatunków.

In [15]:
liczba_gatunkow = species['scientific_name'].nunique()
print("Liczba unikalnych gatunków: ", liczba_gatunkow)

Liczba unikalnych gatunków:  5541


Następnie należy znaleźć liczbę kategorii, które są reprezentowane w danych i jest ich 7, w tym zwierząt i roślin.

In [19]:
print(f"Liczba kategorii: {species.category.nunique()}")
print(f"Kategorie: {', '.join(species.category.unique())}")

Liczba kategorii: 7
Kategorie: Mammal, Bird, Reptile, Amphibian, Fish, Vascular Plant, Nonvascular Plant


Tutaj mamy szansę wgłębić się o jeden poziom głębiej i zobaczyć liczbę gatunkow z każdej kategorii. Rośliny naczyniowe jest zdecydowanie najwięcej bo aż 4,470 , przy czym gadów jest najmniej a konkretnie 79.

In [23]:
species['category'].value_counts()

Vascular Plant       4470
Bird                  521
Nonvascular Plant     333
Mammal                214
Fish                  127
Amphibian              80
Reptile                79
Name: category, dtype: int64

Kolejną kolumną do zbadania jest `conservation_status`. Kolumna posiada 4 kategorie, `Species of Concern`, `Endangered`, `Threatened`, `In Recovery` oraz wartości `nan`.

In [26]:
print(f"Liczba kategorii: {species.conservation_status.nunique()}")
print(f"Status wyginięcia: {(species.conservation_status.unique())}")

Liczba kategorii: 4
Status wyginięcia: [nan 'Species of Concern' 'Endangered' 'Threatened' 'In Recovery']


Następnie dokonano zliczenia liczby obserwacji w podziale na kategorie w `conservation_status`. Wartości nan jest 5 633, co oznacza, że są to gatunki niezagrożone.  Z drugiej strony, istnieje 161 gatunków wymagających ochrony, 16 zagrożonych, 10 zagrożonych wyginięciem i 4 objęte procesem odzyskiwania.

Uwaga: W większości przypadków natrafiając na wartości `nan` należy zachować ostrożność, jednak brak danych w tym miejscu oznacza, że gatunki te nie są objęte żadnym statusem ochronnym.

In [35]:
print (f" Liczba wartości Na : {species['conservation_status'].isna().sum()}")
species['conservation_status'].value_counts()

 Liczba wartości Na : 5633


Species of Concern    161
Endangered             16
Threatened             10
In Recovery             4
Name: conservation_status, dtype: int64