## Pandas

Python posiada wiele bibliotek do szekoro rozumianej analizy danych. Do najbardziej popularniejszych należą:
 * pandas,
 * scipy,
 * scikit-learn
 
Dziś poznamy pierwszą z nich.

In [None]:
# Render our plots inline
%matplotlib inline

import pandas as pd
import matplotlib.pyplot as plt

import matplotlib
matplotlib.style.use('ggplot')

plt.rcParams['figure.figsize'] = (15, 5)

Powyższe instrukcje importują odpowiednie moduły. Jeżeli wystąpił błąd z powodu braku odpowiedniego modułu, należy zainstalować bibliotekę pandas ręcznie:

```$ pip install pandas --user```

## Wczytywanie danych

W pliku **bikes.csv** znajdują się dane dotyczące 7 ścieżek rowerowych w Montrealu (liczba rowerzystów).

In [None]:
bike_data = pd.read_csv('bikes.csv')

Wyświetlmy kilka początkowych wierszy:

In [None]:
bike_data[:5]

Mamy kilka potencjalnych problemów:
 * dane są rozdzielone przy pomocy średnika ```;```,
 * złe kodowanie znaków (latin1,
 * w pierwszej kolumnie są daty 

In [None]:
bike_data = pd.read_csv('bikes.csv', # ścieżka  do pliku
                        sep=';', # separator
                        encoding='latin1', # kodowanie
                        parse_dates=['Date'], # kolumny, w których występują daty
                        dayfirst=True, # format dzień - miesiąc - rok
                        index_col='Date') # ustawienie indeksu na kolumnę Date

In [None]:
bike_data[:5]

Podstawowym typem w Pandasie jest ```DataFrame``` -- ramka danych, podobna do tej, którą znasz z języka R.
Ramka danych jest podobna w obsłudze do zwykłego słownika ```dict```.

In [None]:
type(bike_data)

Żeby wyświetlić dane umieszczone w w kolumnie **Berri 1**, należy:

In [None]:
bike_data['Berri 1']

Mamy dwie kolumny: indeks i zawartość kolumny **Berri 1**. 

Żeby wyświetlić wykres z tych danych należy wywołać metodę ```plot```:

In [None]:
bike_data["Berri 1"].plot()

**Zadanie: ** Jakie wnioski możesz wyciągnąć z na podstawie tego wykresu?

**Zadanie: ** Narysuj wykres na dwóch dowolnych innych ścieżek.

Możemy narysować wszystkie wykresy na raz:

In [None]:
bike_data.plot()

**Zadanie:** Co możesz powiedzieć na podstawie powyższego wykresu?

**Zadanie:** Wczytaj dane z arkusza *311-service-requests.csv* do zmiennej ```complaints```.

In [None]:
complaints[:5]

**Zadanie:** Wyświetl zawartość kolumny ```"Complaint Type"```.

Typ ```DataFrame``` pozwala na stosowanie obu indeksowań jednocześnie. Jeżeli chcemy wyświetlić 10 pierwszych elementów z kolumny ```"Complaint Type"```, to wystarczy:

In [None]:
complaints["Complaint Type"][:10]

Kolejność indeksowania nie ma znaczenia:

In [None]:
complaints[:10]["Complaint Type"]

**Zadanie:** Podaj nazwy ulic (kolumna ```Street Name```) 3 ostatnich incydntów.

Często interesują nas zależności pomiedzy dwoma kolumnami. Żeby wyświetlić dane z kilku kolumn musimy podać listę z nazwami kolun, które nas interesują. Na przykład, chcąc wyświetlić dane z kolumn: ```Complaint Type``` i ```Borough```:

In [None]:
 complaints[['Complaint Type', 'Borough']]

Niektóre typy danych mogą przyjmować skończony zbiór wartości: np. dzień tygodnia, próg podatkowy, dzielnica w mieście. Możemy w takim przypadku zrobić podsumowanie:

In [None]:
complaints['Complaint Type'].value_counts()

Jaki typ danych zwróciłą metoda ```complaints['Complaint Type'].value_counts()```? Jest to oczywiście ```DataFrame```. 

**Zadanie:** 
 * przypisz 10 naczęstszych zażaleń (wraz z krotnościami) do zmiennej most_common_complaints.
 * Narysuj wykres słupkowy, który będzie wizualizował te dane.
 
*Uwaga:* Żeby narysować wykres słupkowy należy podać do metody ```plot``` argument ```kind='bar'```.

Żeby wybrać tylko te wiersze, które zawierają ```Noise - Street/Sidewalk``` jako ```Complaint Type``` należy:

In [None]:
complaints[complaints['Complaint Type'] == "Noise - Street/Sidewalk"]

Co zwraca ```complaints['Complaint Type'] == "Noise - Street/Sidewalk"```?

Wynikiem tej operacji jest tablica **True/False**, zwracająca **True** gdy ```Complaint Type``` jest równa ```Noise - Street/Sidewalk```


Możemy składać zapytania, np. ograczając się tylko do tych wypadków, które miały miejsce na Brooklynie:

In [None]:
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
in_brooklyn = complaints['Borough'] == "BROOKLYN"
complaints[is_noise & in_brooklyn][:5]

**Zadanie:** Ile było wypadków, które miały miejsce na *Manhattanie*, a które zarejestrowała policja (*NYPD*)? (odp. 3657)

**Zadanie:**
 * przypisz do zmiennej is_noise_complaints ramkę danych, która zawiera tylko te dane, które mają "Complaint Type" równy "Noise - Street/Sidewalk". 
 * Dodaj wykres słupkowy, który wyświetli podział powyższych danych po dzielnicach (kolumna Borough).

### Dodawanie kolumn

In [None]:
berri_bikes = bike_data[['Berri 1']].copy()
bike_data['Berri 1'].plot()

Dodamy teraz nową kolumnę "weekday", która będzie przechowywać informację o dniu tygodnia.
Data badania jest przechowywana w indeksie:

berri_bikes.index

Podczas wczytywania arkusza, pandas przetworzył daty do obiektu Date. Stąd możemy w prosty sposób otrzymać dzień tygodnia badania:

In [None]:
berri_bikes.index.weekday

```DataFrame``` zachowuje się jak słowniki, więc dodanie nowej kolumny wygląda podobnie:

In [None]:
berri_bikes['weekday'] = berri_bikes.index.weekday
berri_bikes[:5]

Możemy teraz uzyskać nowe informację, np. zliczyć liczbę rowerzystów per dzień dnia:

In [None]:
weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)
weekday_counts

Możemy dodać bardziej czytelny indeks:

In [None]:
weekday_counts.index = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekday_counts

## Zadanie domowe

1. Wczytaj zestaw danych z pliku "train.csv". Plik zawiera informacje o mieszkaniach na sprzedaż na terenie Poznania.
2. Ilu pokojowe mieszkania są najczęstsze?
3. Wyświetl 5 najdroższych i 5 najtańszych mieszkań, które są usytuowane na I piętrze.
4. Dodaj kolumnę ```Borough```, która będzie zawierać informacje o dzielnicach i powstanie z kolumny ```Localization```. Rozpatrz tylko następujące dzielnice: Stare Miasto, Wilda, Jeżyce, Rataje, Piątkowo, Winogrady, Miłostowo, Dębiec. Jeżeli ogłoszenie nie zawiera się w żadnym w powyższych, ustal jego wartość na ```Inne```.
5. Narysuj wykres słupkowy pokazujący ile jest ogłoszeń mieszkań z podziałem na dzielnice.
6. Jaka jest średnia cena mieszkania na Wildzie? Jaka jest średnia cena mieszkania 3-pokojowego?
7. W której dzielnicy znajduje się mieszkanie na 13-piętrze?
8. Wyświetl wszystkie ogłoszenia mieszkań, które znajdują się na Winogradach, mają 3 pokoje i są położone na 1 piętrze.
9. *(dodatkowe)*: Korzystając z pakietu *sklearn* zbuduj model regresji logistycznej, która będzie przewidywała cenę mieszkania na podstawie pozostałych parametrów.