# Numpy

Numpy to biblioteka wykorzystywana do obliczeń numerycznych, udostępniająca wydajne implementacje operacji na wielowymiarowych tablicach.
## Tworzenie tablic `np.array`

In [1]:
import numpy as np

A = np.array([1, 2, 3])
print(A)

B = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(B)

C = np.zeros(5)
print(C)

D = np.arange(5)
print(D)

E = np.arange(12).reshape(4, 3)
print(E)

[1 2 3]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[0. 0. 0. 0. 0.]
[0 1 2 3 4]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


## Indeksowanie

In [None]:
print(A[1])

print(B[1, 1])

print(E[1:3, 1:])

## Operacje na tablicach numpy
Większość operacji na tablicach numpy jest zwektoryzowanych - działają poszczególnych na elementach tablic, a nie całych tablicach.

In [None]:
X = np.arange(1, 10).reshape(3, 3)
Y = np.arange(10, 19).reshape(3, 3)
print("X:\n", X)
print("Y:\n", Y)
print("X + Y:\n", X + Y)
print("X * Y:\n", X * Y)
print("X / Y:\n", X / Y)
print("X @ Y:\n", X @ Y)

In [None]:
print("np.log(X):\n", np.log(X))
print("np.exp(X):\n", np.exp(X))
print("np.sin(X):\n", np.sin(X))

In [None]:
print("np.sum(X):\n", np.sum(X))
print("np.prod(X):\n", np.prod(X))
print("np.min(X):\n", np.min(X))
print("np.max(X):\n", np.max(X))

In [None]:
X = list(np.random.randn(10**6))

In [2]:
%%timeit
sum(X)

NameError: name 'X' is not defined

In [None]:
X = np.random.randn(10**6)

In [None]:
%%timeit
np.sum(X)

# Pandas: podstawy

## Tworzenie `DataFrame`
`DataFrame` możemy stworzyć procedurą `pd.DataFrame()` podając `dict` zawierający kolumny, lub dwuwymiarową strukturę danych ([więcej informacji](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe)). Alternatywą jest wczytanie z pliku, np. `pd.read_csv()`.

In [3]:
import pandas as pd
fruit = pd.DataFrame({"fruit": ["Apple", "Banana", "Orange"], "weight": [98.2, 116.5, 138.9], "kcal": [52, 88, 66]})
fruit

Unnamed: 0,fruit,weight,kcal
0,Apple,98.2,52
1,Banana,116.5,88
2,Orange,138.9,66


In [None]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

In [None]:
df1 = pd.DataFrame(np.arange(11, 20).reshape(3,3))
df1

In [8]:
mtcars = pd.read_csv("mtcars.csv") # Source: R (https://www.rdocumentation.org/packages/datasets/versions/3.6.2/topics/mtcars)
mtcars

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


## Sprawdzanie zawartości `DataFrame`
`pandas` zawiera kilka użytecznych funkcji, które pozwalają wstępnie zbadać zawartość `DataFrame`:
- `df.head()` - wyświetla kilka pierwszych wierszy,
- `df.info()` - podaje informacje o kolumnach,
- `df.describe()` - podaje statystyki opisowe dotyczące kolumn. 

In [2]:
mtcars.head()

NameError: name 'mtcars' is not defined

In [None]:
mtcars.info()

In [None]:
mtcars.describe()

Domyślnie, `describe()` podaje tylko statystyki dotyczące kolumn numerycznych. Możemy otrzymać też statystyki dla kolumn nienumerycznych podając `include='all'` lub `include='object`.

In [None]:
mtcars.describe(include='all')

In [None]:
mtcars.describe(include='object')

## Indeksowanie
### Wybieranie kolumn
Pojedyncze kolumny lub zbiory kolumn można wybierać na kilka sposobów:

In [None]:
mtcars.mpg

In [7]:
mtcars["mpg"]

NameError: name 'mtcars' is not defined

In [None]:
mtcars[["mpg", "wt", "hp"]]

## Wybieranie wierszy
Wiersze możemy wybierać także za pomocą operatora `[]` podając zakresy `low:high`.

In [None]:
mtcars[3:4]

In [None]:
mtcars[0:5]

## Wybieranie wierszy i kolumn
Zakresy wierszy i kolumn możemy wybierać za pomocą:
- `loc[]` - wybieramy za pomocą nazw
- `iloc[]` - wybieramy za pomocą indeksów liczbowych.

Przykładowo, wybierzmy wiersze 0-4 i kolumny `mpg`, `cyl`, `disp`.

In [None]:
mtcars.loc[0:4, "mpg":"disp"]

In [None]:
mtcars.iloc[0:5, 1:4]

Zwróćmy uwagę, że w `loc[]` podajemy zakresy domknięte, a w `iloc[]` otwarte. Możliwe jest też pominięcie jednej lub obu stron zakresu. W `loc[]` możemy podać też listę wierszy lub kolumn.

In [None]:
mtcars.loc[:4, :"hp"]

In [None]:
mtcars.loc[:, ["mpg", "hp"]]

## Indeksy
Etykiety wierszy i kolumn `DataFrame` przechowywane są w indeksach. Domyślnie, wczytując plik, pandas interpretuje pierwszy wiersz jako etykiety kolumn, a dla wierszy tworzy indeks liczbowy.

In [None]:
mtcars.columns # Index zawiera etykiety kolumn

In [None]:
mtcars.index # Index zawiera etykiety wierszy

Indeks wierszy nie musi być numeryczny. Mogą to być nazwy, lub np. daty. Jako indeks możemy wykorzystać jedną z kolumn, w tym przypadku `model`.

In [27]:
mtcars = mtcars.set_index("model")
mtcars.head()

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


Teraz w `loc[]` możemy podać nazwę modelu.

In [29]:
mtcars.loc["Mazda RX4"]

mpg      21.00
cyl       6.00
disp    160.00
hp      110.00
drat      3.90
wt        2.62
qsec     16.46
vs        0.00
am        1.00
gear      4.00
carb      4.00
Name: Mazda RX4, dtype: float64

Możemy przywrócić domyślny indeks za pomocą `reset_index()`. Stary indeks zostanie zachowany jako kolumna.

In [None]:
mtcars = mtcars.reset_index()
mtcars.head()

## Filtrowanie
Oprócz wybierania przy użyciu etykiet (`loc[]`) i indeksów liczbowych (`iloc[]`) pandas umożliwia także wybieranie przy użyciu wektorów binarnych (typu `bool`) o długości równej liczbie wierszy (lub kolumn). Wybrane zostaną te wiersze (lub kolumny), dla których w wektorze znajdzie się `True`. Umożliwia to filtrowanie danych względem zadanego kryterium. Przykładowo, wybrać wszystkie samochody dla których `hp >= 200` można w następujący sposób:

In [None]:
mtcars[mtcars.hp >= 200]

W powyższym przykładzie, `mtcars.hp >= 200` tworzy wektor binarny, który następnie wykorzystuje do indeksowania `DataFrame`.

In [None]:
vec = mtcars.hp >= 200
vec

In [None]:
mtcars[vec]

Operacja `>=` jest **zwektoryzowana**, tak jak większość operacji na `DataFrame` i `Series`. To znaczy, że wykonywana jest na każdym elemencie ciągu, a nie na ciągu jako całości. Zwracaną wartością także jest ciąg. Podobnie działają np. operacje arytmetyczne. Przykładowo, poniższa operacja tworzy ciąg zawierający liczbę km/tonę dla każdego samochodu:

In [None]:
mtcars.hp / mtcars.wt

Jeśli chcemy uwzględnić wiele kryteriów filtrowania, możemy wykorzystać operacje logiczne `&`, `|`, `~`. Uwaga: korzystamy tu z operatorów bitowych, a nie zwykłych (niezwektoryzowanych) operatorów logicznych (`and`, `or`, `not`). W poniższym przykładzie wybierzemy samochody o mocy powyżej 100 KM i wadze poniżej 3.5 t:

In [None]:
mtcars[(mtcars.hp >= 100) & (mtcars.wt < 3.5)]

## Typy danych
Podstawowe typy danych obsługiwane przez pandas to:
- `int64` - liczby całkowite,
- `float64` - liczby zmiennoprzecinkowe,
- `bool` - wartości logiczne `True`/`False`
- `datetime64` - daty
- `object` - zwykle przechowuje `str` (napisy), ale może przechowywać obiekty dowolnego typu, lub różnych typów.
Więcej informacji na temat typów danych znajduje się w [dokumentacji](https://pandas.pydata.org/docs/user_guide/basics.html#basics-dtypes).

Typy danych możemy sprawdzić w następujący sposób:

In [None]:
mtcars.dtypes

## Operacje na napisach
Operacje na napisach dostępne są po wybraniu danej kolumny a następnie `.str`. Przykładowo, aby zmienić nazwy modeli na wielkie litery, mogę użyć następującej metody:

In [None]:
mtcars.model.str.upper().head(10)

Pełna lista dostępnych operacji znajduje się [tutaj](https://pandas.pydata.org/docs/reference/series.html#string-handling).
Przydatne są zwłaszcza operacje pozwalające filtrować przy użyciu RegEx. Na przykład, w następujący sposób można wybrać wszystkie Mercedesy i Mazdy:

In [None]:
mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]

## Dodawanie i usuwanie danych
### Dodawanie kolumn
Nowe kolumny możemy tworzyć w następujący sposób:

In [None]:
mtcars["n_wheels"] = 4
mtcars.head()

W powyższym przykładzie przypisujemy nowej kolumnie przypisujemy wartość skalarną, która jest propagowana na wszystkie wiersze.
Możemy też stworzyć nową kolumnę z Series lub innej sekwencji:

In [None]:
mtcars["hp_per_ton"] = mtcars.hp / mtcars.wt
mtcars.head()

### Usuwanie wierszy i kolumn
Wiersze i kolumny możemy usuwać metodą `drop()` podając jako argument listę etykiet. 

In [None]:
mtcars.drop([0, 1, 2]).head()

W poniższym przykładzie usuwane są wszystkie Mercedesy i Mazdy:

In [None]:
merc_maz = mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]
mtcars = mtcars.drop(merc_maz.index)
mtcars.head()

Kolumny usuwamy dodając parametr `axis='columns'` lub `axis=1`.

In [None]:
mtcars.drop(["n_wheels", "hp_per_ton"], axis='columns').head()

### Dodawanie wierszy
Wiersze najlepiej dodawać metodą `pd.concat()`.

In [None]:
mtcars = pd.concat([mtcars, merc_maz])
mtcars

Nowe wiersze zostały dodane na końcu. Ponieważ zachowane zostały wartości indeksu, można przywrócić pierwotną kolejność sortując względem indeksu:

In [None]:
mtcars = mtcars.sort_index()
mtcars

# Zadania
### Zadanie 1
Plik `SP500.csv` zawiera ceny otwarcia (`Open`), zamknięcia (`Close`), minimalną (`Low`), maksymalną (`High`) oraz wolumen obrotów (`Volume`) indeksu S&P 500 w latach 2018-2022.

1. Wczytaj plik jako `DataFrame` metodą `pd.read_csv()`.
2. Zbadaj zawartość metodami `head()`, `info()`, `describe()`.
3. Wybieranie:
    - Wybierz tylko kolumnę `Close`.
    - Wybierz kolumny `Date`, `Open`, `Close`
    - Wybierz 30. dzień notowań.
    - Wybierz 30 pierwszych dni notowań.
    - Wybierz ceny otwarcia i zamknięcia dla 30 pierwszych dni notowań.
4. Filtrowanie:
    - Znajdź dni, w których cena minimalna nie przekroczyła 2800.
    - Znajdź dni, w których wolumen obrotów przekroczył 2 500 000 000 a cena minimalna nie przekroczyła 3000.
    - Znajdź dni, w których wartość indeksu osiągnęła najwyższą i najniższą wartość. Wskazówka: skorzystaj z funkcji `max()` i `min()`.
    - Znajdź dni, w których cena otwarcia przekroczyła średnią cenę otwarcia. Wskazówka: skorzystaj z funkcji `mean()`.
5. Dodawanie i usuwanie:
    - Stwórz nową kolumnę zawierającą różnicę między ceną maksymalną a minimalną danego dnia.
    - Stwórz nową kolumnę zawierającą odchylenie ceny otwarcia od średniej ceny otwarcia.
    - Usuń kolumnę `Volume`.
    - Usuń wiersze zawierające notowania z roku 2018.
    - W pliku `SP500Jan2023.csv` znajdują się dane ze stycznia 2023. Wczytaj go i dodaj zawartość do zbioru. Pamiętaj o kolumnach dodanych i usuniętych we wcześniejszych podpunktach. Co dzieje się w przypadku braku zgodności kolumn? Sprawdź w dokumentacji [`pd.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html#pandas.concat), który parametr kontroluje to, co metoda robi w tej sytuacji.

### Zadanie 2
Wczytaj zbiory w plikach `life_expectancy_years.csv` i `housing.csv`. Eksploruj je za pomocą poznanych metod. Zanotuj swoje obserwacje.


In [4]:
ley = pd.read_csv('life_expectancy_years.csv')
ley.head()

Unnamed: 0,country,1800,1801,1802,1803,1804,1805,1806,1807,1808,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,Afghanistan,28.2,28.2,28.2,28.2,28.2,28.2,28.1,28.1,28.1,...,75.5,75.7,75.8,76.0,76.1,76.2,76.4,76.5,76.6,76.8
1,Angola,27.0,27.0,27.0,27.0,27.0,27.0,27.0,27.0,27.0,...,78.8,79.0,79.1,79.2,79.3,79.5,79.6,79.7,79.9,80.0
2,Albania,35.4,35.4,35.4,35.4,35.4,35.4,35.4,35.4,35.4,...,87.4,87.5,87.6,87.7,87.8,87.9,88.0,88.2,88.3,88.4
3,Andorra,,,,,,,,,,...,,,,,,,,,,
4,United Arab Emirates,30.7,30.7,30.7,30.7,30.7,30.7,30.7,30.7,30.7,...,82.4,82.5,82.6,82.7,82.8,82.9,83.0,83.1,83.2,83.3


In [5]:
ley.describe()

Unnamed: 0,1800,1801,1802,1803,1804,1805,1806,1807,1808,1809,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
count,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,...,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0
mean,31.503763,31.463441,31.480108,31.385484,31.460753,31.586559,31.644086,31.598387,31.385484,31.313441,...,83.361828,83.476344,83.600538,83.717742,83.838172,83.955376,84.076344,84.193548,84.312903,84.430645
std,3.80951,3.801217,3.932344,3.955872,3.928388,4.003874,4.102694,3.974506,4.08023,4.033412,...,5.803782,5.797854,5.788922,5.777904,5.770755,5.766333,5.756555,5.750616,5.743805,5.741341
min,23.4,23.4,23.4,19.6,23.4,23.4,23.4,23.4,12.5,13.4,...,66.4,66.5,66.7,66.8,66.9,67.0,67.1,67.2,67.3,67.4
25%,29.025,28.925,28.9,28.9,28.925,29.025,29.025,29.025,28.925,28.825,...,79.65,79.75,79.925,80.025,80.15,80.325,80.425,80.525,80.7,80.8
50%,31.75,31.65,31.55,31.5,31.55,31.65,31.75,31.75,31.55,31.5,...,84.0,84.1,84.25,84.3,84.5,84.6,84.7,84.8,84.9,85.0
75%,33.875,33.9,33.875,33.675,33.775,33.875,33.975,33.975,33.775,33.675,...,87.775,87.875,87.975,88.075,88.175,88.3,88.4,88.5,88.675,88.775
max,42.9,40.3,44.4,44.8,42.8,44.3,45.8,43.6,43.5,41.7,...,93.4,93.5,93.6,93.7,93.8,94.0,94.1,94.2,94.3,94.4


In [12]:
ley[['country', '1800', '1900', '2000', '2023', '2100']].head()

Unnamed: 0,country,1800,1900,2000,2023,2100
0,Afghanistan,28.2,33.3,54.7,64.6,76.8
1,Angola,27.0,32.6,52.8,66.4,80.0
2,Albania,35.4,34.9,75.4,79.0,88.4
3,Andorra,,,80.8,,
4,United Arab Emirates,30.7,35.4,69.1,74.4,83.3


In [13]:
ley[['country', '1800', '1900', '2000', '2023', '2100']].describe()

Unnamed: 0,1800,1900,2000,2023,2100
count,186.0,186.0,195.0,186.0,186.0
mean,31.503763,34.215054,67.489231,73.645161,84.430645
std,3.80951,6.19234,9.487188,6.818734,5.741341
min,23.4,20.1,43.8,53.3,67.4
25%,29.025,30.45,60.8,68.25,80.8
50%,31.75,33.7,70.3,74.4,85.0
75%,33.875,36.325,74.7,78.575,88.775
max,42.9,53.6,81.6,85.4,94.4


In [17]:
some_years = ley[['country', '1800', '1900', '2000', '2023', '2100']]
some_years[some_years['2023'].notnull()].sort_values(by=['2023'])

Unnamed: 0,country,1800,1900,2000,2023,2100
102,Lesotho,32.8,36.1,48.5,53.3,69.2
28,Central African Republic,30.0,33.8,43.8,53.6,67.4
165,Eswatini,32.3,33.1,48.3,59.5,71.8
157,Somalia,29.4,33.1,51.4,59.6,73.0
153,Solomon Islands,25.1,24.6,57.0,59.6,67.7
...,...,...,...,...,...,...
30,Switzerland,38.0,47.5,80.3,84.5,93.3
82,Iceland,42.9,46.8,80.3,84.7,93.4
72,"Hong Kong, China",34.9,34.9,80.4,85.0,93.8
87,Japan,36.4,38.7,81.6,85.3,94.0


In [18]:
some_years[some_years['1900'].notnull()].sort_values(by=['1900'])

Unnamed: 0,country,1800,1900,2000,2023,2100
78,India,25.4,20.1,62.9,71.7,83.3
15,Bangladesh,25.5,21.2,65.5,75.7,88.7
134,Pakistan,25.8,23.3,61.0,66.5,76.1
172,Turkmenistan,24.0,24.0,66.3,71.3,81.3
148,Rwanda,31.8,24.3,50.5,69.8,83.1
...,...,...,...,...,...,...
79,Ireland,38.3,49.2,76.8,82.6,91.5
8,Australia,34.0,50.0,79.7,83.5,92.3
47,Denmark,37.4,52.0,77.2,81.7,90.8
164,Sweden,32.2,52.3,80.0,83.4,92.1


In [19]:
some_years[some_years['2000'].notnull()].sort_values(by=['2000'])

Unnamed: 0,country,1800,1900,2000,2023,2100
28,Central African Republic,30.0,33.8,43.8,53.6,67.4
11,Burundi,31.5,32.0,44.7,65.2,80.1
193,Zambia,32.6,34.3,45.3,64.2,77.1
27,Botswana,33.6,35.4,45.5,62.7,71.6
122,Malawi,30.3,29.8,45.9,66.3,82.1
...,...,...,...,...,...,...
82,Iceland,42.9,46.8,80.3,84.7,93.4
72,"Hong Kong, China",34.9,34.9,80.4,85.0,93.8
3,Andorra,,,80.8,,
156,San Marino,,,81.5,,


In [42]:
some_years = some_years.set_index('country')

In [43]:
some_years.loc['India']

1800    25.4
1900    20.1
2000    62.9
2023    71.7
2100    83.3
Name: India, dtype: float64

In [45]:
some_years[some_years['2023'].notnull()].sort_values(by=['2023']).index.get_loc('Ukraine')

93