# Projekt 1 z przedmiotu DS&CC
Przeanalizowanie zbioru danych, dotyczących wynajmu lokali poprzez platformę **Airbnb**.
W moim przypadku wykorzystane są dane dla miasta ***Neapol, Kampania, Włochy***.

### Krok 0 - Importowanie niezbędnych modułów do dalszej pracy

- **Pandas** – biblioteka Python do pracy z danymi, posiada pomocne funkcje do obsługi brakujących danych, wykonywania operacji na kolumnach i wierszach oraz przekształcania danych.
- **NumPy** – biblioteka Python, która ułatwia wydajne przeprowadzanie operacji numerycznych na dużych ilościach danych.
- **Matplotlib** – niskopoziomowa biblioteka do tworzenia wykresów w Pythonie, która służy jako narzędzie do wizualizacji.

In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Krok 1 - Załadowanie
Poprawne załadowanie danych ze źródła internetowego do ramki danych (*DataFrame*).

Aby poprawnie załadować dane dotyczące wynajmu lokali, w moim przypadku to jest miasto Neapol, ze strony Airbnb z uwzględnieniem nagłówków, kodowania zbioru, separatorów itd. - należy użyć funkcji `pd.read_csv()`.

Warto także pamiętać o poprawnym wpisaniu adresu **URL**.

In [27]:
url = "http://data.insideairbnb.com/italy/campania/naples/2023-09-13/data/listings.csv.gz"

Jak można zauważyć na stronie z danymi oraz w adresie URL, plik z danymi CSV jest pobierany w formacie `.gz`.
<br/>
![Format danych](./gz-ext.png)
<br/>
Żeby poprawnie wczytać i rozpakować dane, używam parametru `compression='gzip'`.
Do określenia kodowania danych używam parametru `encoding='utf-8'`.
Pandas także automatycznie wykrywa nagłówki, jeżeli dane ich zawierają.

Tak wygląda funkcja poprawnego załadowania danych:

In [28]:
df = pd.read_csv(url, compression='gzip', encoding='utf-8')

### Krok 2 - Poznanie
Poznanie rozmiaru zbioru danych (liczby obserwacji i liczby zmiennych, które je opisują) i oszacowanie czasochłonności procesu analizy.

Za pomocą funkcji `df.shape` można dostać krotkę reprezentującą wymiarowość ramki ***DataFrame***.

In [29]:
df.shape

(9754, 75)

W moim przypadku dostałem dwuelementową krotkę, w której *0* element reprezentuje wierszy (liczba obserwacji) i *1* element reprezentuje kolumny (liczba zmiennych). 

Prostymi poleceniami poznaję liczbę obserwacji, liczbę zmiennych oraz całkowity rozmiar zbioru danych:

In [30]:
liczba_obserwacji = df.shape[0]
liczba_zmiennych = df.shape[1]
print("Liczba obserwacji:", liczba_obserwacji, "\nLiczba zmiennych:", liczba_zmiennych)

rozmiar_zbioru = df.size
print("\nRozmiar zbioru danych:", rozmiar_zbioru)

Liczba obserwacji: 9754 
Liczba zmiennych: 75

Rozmiar zbioru danych: 731550


### Krok 3 - Wyświetlenie
Wyświetlenie próbki surowych danych w celu wyrobienia sobie wyobrażenia o nich – poznania struktury danych i wstępnej oceny przydatności poszczególnych zmiennych.

Po pobraniu danych ze źródła należy sprawdzić, czy dane są poprawnie wyświetlane oraz zapoznać się z ich strukturą. Za pomocą funkcji `df.head()` zostanie wyświetlona próbka surowych danych (pierwsze 5 obserwacji).

Od razu po poprawnym wyświetleniu można zapoznać się ze strukturą danych oraz zobaczyć zmienne zawierające w tych danych.

In [31]:
df.head()

Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,30466,https://www.airbnb.com/rooms/30466,20230913045323,2023-09-13,city scrape,Bed and breakfast in Naples · 1 bedroom · 1 be...,Right in the heart of Napoli you can walk any...,"close to 2 underground lines, next to bus stop...",https://a0.muscache.com/pictures/miso/Hosting-...,14169118,...,5.0,5.0,5.0,,f,8,1,7,0,0.42
1,30536,https://www.airbnb.com/rooms/30536,20230913045323,2023-09-13,city scrape,Condo in Naples · ★4.74 · 1 bedroom · 1 bed · ...,Oriental decorated apartment with wonderful te...,"Centrally located,close to public transport, i...",https://a0.muscache.com/pictures/171280/92fe69...,14169118,...,4.78,4.44,4.56,,f,8,1,7,0,0.12
2,36016,https://www.airbnb.com/rooms/36016,20230913045323,2023-09-13,city scrape,Rental unit in Naples · ★4.57 · 1 bedroom · 1 ...,Nel cuore del centro storico di napoli l'appar...,,https://a0.muscache.com/pictures/23981786/4de5...,154638,...,4.8,4.72,4.55,,t,2,2,0,0,0.91
3,63413,https://www.airbnb.com/rooms/63413,20230913045323,2023-09-13,city scrape,Rental unit in Naples · ★4.68 · 1 bedroom · 1 ...,Centrally located and at walking distance to t...,,https://a0.muscache.com/pictures/389538/99361e...,309483,...,4.83,4.71,4.72,,t,1,1,0,0,0.84
4,74364,https://www.airbnb.com/rooms/74364,20230913045323,2023-09-13,city scrape,Rental unit in Naples · ★4.91 · 1 bedroom · 1 ...,A really cozy studio (24 square meters) in a p...,The flat is in the OLD TOWN od Napoli with 2 m...,https://a0.muscache.com/pictures/c8a48f3d-1be3...,289412,...,4.97,4.86,4.9,,f,8,8,0,0,1.61


Dla wygody utworzę osobną zmienną `surowe_dane` i za pomocą funkcji `.info()` zostanie wyświetlone krótkie podsumowanie ramki ***DataFrame*** (*index dtype and columns, non-null values and memory usage*).

In [32]:
surowe_dane = df.head()
surowe_dane.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 75 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   id                                            5 non-null      int64  
 1   listing_url                                   5 non-null      object 
 2   scrape_id                                     5 non-null      int64  
 3   last_scraped                                  5 non-null      object 
 4   source                                        5 non-null      object 
 5   name                                          5 non-null      object 
 6   description                                   5 non-null      object 
 7   neighborhood_overview                         3 non-null      object 
 8   picture_url                                   5 non-null      object 
 9   host_id                                       5 non-null      int64  

In [33]:
surowe_dane.describe()

Unnamed: 0,id,scrape_id,host_id,host_listings_count,host_total_listings_count,neighbourhood_group_cleansed,latitude,longitude,accommodates,bathrooms,...,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
count,5.0,5.0,5.0,5.0,5.0,0.0,5.0,5.0,5.0,0.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
mean,46959.0,20230910000000.0,5818354.0,5.8,8.0,,40.849216,14.250938,2.2,,...,4.756,4.918,4.876,4.746,4.746,5.4,2.6,2.8,0.0,0.78
std,20513.72326,0.0,7623402.0,4.024922,4.242641,,0.010049,0.013917,1.095445,,...,0.201196,0.068337,0.101637,0.208038,0.201196,3.577709,3.04959,3.834058,0.0,0.564491
min,30466.0,20230910000000.0,154638.0,1.0,2.0,,40.83216,14.22642,1.0,,...,4.52,4.83,4.78,4.44,4.55,1.0,1.0,0.0,0.0,0.12
25%,30536.0,20230910000000.0,289412.0,2.0,5.0,,40.84967,14.25297,2.0,,...,4.62,4.87,4.8,4.71,4.56,2.0,1.0,0.0,0.0,0.42
50%,36016.0,20230910000000.0,309483.0,8.0,11.0,,40.85107,14.25781,2.0,,...,4.72,4.93,4.83,4.72,4.72,8.0,1.0,0.0,0.0,0.84
75%,63413.0,20230910000000.0,14169120.0,8.0,11.0,,40.85602,14.25835,2.0,,...,4.92,4.96,4.97,4.86,4.9,8.0,2.0,7.0,0.0,0.91
max,74364.0,20230910000000.0,14169120.0,10.0,11.0,,40.85716,14.25914,4.0,,...,5.0,5.0,5.0,5.0,5.0,8.0,8.0,7.0,0.0,1.61


### Krok 4 - Weryfikacja
Weryfikacja typów poszczególnych zmiennych (całkowite, zmiennoprzecinkowe, kategoryczne porządkowe, kategoryczne nominalne, zmienne typu logicznego, daty) i ich ewentualna korekta (zamiana typu string na float, interpretacja zmiennych numerycznych jako kategorii itp.).

### Zamiana typu danych
Jeśli zmienna powinna być numeryczna, ale jest traktowana jako ciąg znaków (object), możesz użyć funkcji astype() do zmiany typu danych.