# Numpy

Numpy to biblioteka wykorzystywana do obliczeń numerycznych, udostępniająca wydajne implementacje operacji na wielowymiarowych tablicach.
## Tworzenie tablic `np.array`

In [1]:
import numpy as np

A = np.array([1, 2, 3])
print(A)

B = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(B)

C = np.zeros(5)
print(C)

D = np.arange(5)
print(D)

E = np.arange(12).reshape(4, 3)
print(E)

[1 2 3]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[0. 0. 0. 0. 0.]
[0 1 2 3 4]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


## Indeksowanie

In [3]:
print(A[1])

print(B[1, 1])

print(E[1:3, 1:])

2
5
[[4 5]
 [7 8]]


## Operacje na tablicach numpy
Większość operacji na tablicach numpy jest zwektoryzowanych - działają poszczególnych na elementach tablic, a nie całych tablicach.

In [4]:
X = np.arange(1, 10).reshape(3, 3)
Y = np.arange(10, 19).reshape(3, 3)
print("X:\n", X)
print("Y:\n", Y)
print("X + Y:\n", X + Y)
print("X * Y:\n", X * Y)
print("X / Y:\n", X / Y)
print("X @ Y:\n", X @ Y)

X:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
Y:
 [[10 11 12]
 [13 14 15]
 [16 17 18]]
X + Y:
 [[11 13 15]
 [17 19 21]
 [23 25 27]]
X * Y:
 [[ 10  22  36]
 [ 52  70  90]
 [112 136 162]]
X / Y:
 [[0.1        0.18181818 0.25      ]
 [0.30769231 0.35714286 0.4       ]
 [0.4375     0.47058824 0.5       ]]
X @ Y:
 [[ 84  90  96]
 [201 216 231]
 [318 342 366]]


In [5]:
print("np.log(X):\n", np.log(X))
print("np.exp(X):\n", np.exp(X))
print("np.sin(X):\n", np.sin(X))

np.log(X):
 [[0.         0.69314718 1.09861229]
 [1.38629436 1.60943791 1.79175947]
 [1.94591015 2.07944154 2.19722458]]
np.exp(X):
 [[2.71828183e+00 7.38905610e+00 2.00855369e+01]
 [5.45981500e+01 1.48413159e+02 4.03428793e+02]
 [1.09663316e+03 2.98095799e+03 8.10308393e+03]]
np.sin(X):
 [[ 0.84147098  0.90929743  0.14112001]
 [-0.7568025  -0.95892427 -0.2794155 ]
 [ 0.6569866   0.98935825  0.41211849]]


In [6]:
print("np.sum(X):\n", np.sum(X))
print("np.prod(X):\n", np.prod(X))
print("np.min(X):\n", np.min(X))
print("np.max(X):\n", np.max(X))

np.sum(X):
 45
np.prod(X):
 362880
np.min(X):
 1
np.max(X):
 9


In [7]:
X = list(np.random.randn(10**6))

In [8]:
%%timeit
sum(X)

178 ms ± 87.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [9]:
X = np.random.randn(10**6)

In [10]:
%%timeit
np.sum(X)

The slowest run took 5.77 times longer than the fastest. This could mean that an intermediate result is being cached.
2.49 ms ± 1.77 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Pandas: podstawy

## Tworzenie `DataFrame`
`DataFrame` możemy stworzyć procedurą `pd.DataFrame()` podając `dict` zawierający kolumny, lub dwuwymiarową strukturę danych ([więcej informacji](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe)). Alternatywą jest wczytanie z pliku, np. `pd.read_csv()`.

In [11]:
import pandas as pd
fruit = pd.DataFrame({"fruit": ["Apple", "Banana", "Orange"], "weight": [98.2, 116.5, 138.9], "kcal": [52, 88, 66]})
fruit

Unnamed: 0,fruit,weight,kcal
0,Apple,98.2,52
1,Banana,116.5,88
2,Orange,138.9,66


In [12]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [13]:
df1 = pd.DataFrame(np.arange(11, 20).reshape(3,3))
df1

Unnamed: 0,0,1,2
0,11,12,13
1,14,15,16
2,17,18,19


In [14]:
mtcars = pd.read_csv("mtcars.csv") # Source: R (https://www.rdocumentation.org/packages/datasets/versions/3.6.2/topics/mtcars)
mtcars

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


## Sprawdzanie zawartości `DataFrame`
`pandas` zawiera kilka użytecznych funkcji, które pozwalają wstępnie zbadać zawartość `DataFrame`:
- `df.head()` - wyświetla kilka pierwszych wierszy,
- `df.info()` - podaje informacje o kolumnach,
- `df.describe()` - podaje statystyki opisowe dotyczące kolumn. 

In [15]:
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [16]:
mtcars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   model   32 non-null     object 
 1   mpg     32 non-null     float64
 2   cyl     32 non-null     int64  
 3   disp    32 non-null     float64
 4   hp      32 non-null     int64  
 5   drat    32 non-null     float64
 6   wt      32 non-null     float64
 7   qsec    32 non-null     float64
 8   vs      32 non-null     int64  
 9   am      32 non-null     int64  
 10  gear    32 non-null     int64  
 11  carb    32 non-null     int64  
dtypes: float64(5), int64(6), object(1)
memory usage: 3.1+ KB


In [19]:
mtcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0
max,33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


Domyślnie, `describe()` podaje tylko statystyki dotyczące kolumn numerycznych. Możemy otrzymać też statystyki dla kolumn nienumerycznych podając `include='all'` lub `include='object`.

In [18]:
mtcars.describe(include='all')

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
unique,32,,,,,,,,,,,
top,Mazda RX4,,,,,,,,,,,
freq,1,,,,,,,,,,,
mean,,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0


In [17]:
mtcars.describe(include='object')

Unnamed: 0,model
count,32
unique,32
top,Mazda RX4
freq,1


## Indeksowanie
### Wybieranie kolumn
Pojedyncze kolumny lub zbiory kolumn można wybierać na kilka sposobów:

In [20]:
mtcars.mpg

0     21.0
1     21.0
2     22.8
3     21.4
4     18.7
5     18.1
6     14.3
7     24.4
8     22.8
9     19.2
10    17.8
11    16.4
12    17.3
13    15.2
14    10.4
15    10.4
16    14.7
17    32.4
18    30.4
19    33.9
20    21.5
21    15.5
22    15.2
23    13.3
24    19.2
25    27.3
26    26.0
27    30.4
28    15.8
29    19.7
30    15.0
31    21.4
Name: mpg, dtype: float64

In [21]:
mtcars["mpg"]

0     21.0
1     21.0
2     22.8
3     21.4
4     18.7
5     18.1
6     14.3
7     24.4
8     22.8
9     19.2
10    17.8
11    16.4
12    17.3
13    15.2
14    10.4
15    10.4
16    14.7
17    32.4
18    30.4
19    33.9
20    21.5
21    15.5
22    15.2
23    13.3
24    19.2
25    27.3
26    26.0
27    30.4
28    15.8
29    19.7
30    15.0
31    21.4
Name: mpg, dtype: float64

In [22]:
mtcars[["mpg", "wt", "hp"]]

Unnamed: 0,mpg,wt,hp
0,21.0,2.62,110
1,21.0,2.875,110
2,22.8,2.32,93
3,21.4,3.215,110
4,18.7,3.44,175
5,18.1,3.46,105
6,14.3,3.57,245
7,24.4,3.19,62
8,22.8,3.15,95
9,19.2,3.44,123


## Wybieranie wierszy
Wiersze możemy wybierać także za pomocą operatora `[]` podając zakresy `low:high`.

In [23]:
mtcars[3:4]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1


In [24]:
mtcars[0:5]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## Wybieranie wierszy i kolumn
Zakresy wierszy i kolumn możemy wybierać za pomocą:
- `loc[]` - wybieramy za pomocą nazw
- `iloc[]` - wybieramy za pomocą indeksów liczbowych.

Przykładowo, wybierzmy wiersze 0-4 i kolumny `mpg`, `cyl`, `disp`.

In [25]:
mtcars.loc[0:4, "mpg":"disp"]

Unnamed: 0,mpg,cyl,disp
0,21.0,6,160.0
1,21.0,6,160.0
2,22.8,4,108.0
3,21.4,6,258.0
4,18.7,8,360.0


In [26]:
mtcars.iloc[0:5, 1:4]

Unnamed: 0,mpg,cyl,disp
0,21.0,6,160.0
1,21.0,6,160.0
2,22.8,4,108.0
3,21.4,6,258.0
4,18.7,8,360.0


Zwróćmy uwagę, że w `loc[]` podajemy zakresy domknięte, a w `iloc[]` otwarte. Możliwe jest też pominięcie jednej lub obu stron zakresu. W `loc[]` możemy podać też listę wierszy lub kolumn.

In [None]:
mtcars.loc[:4, :"hp"]

In [27]:
mtcars.loc[:, ["mpg", "hp"]]

Unnamed: 0,mpg,hp
0,21.0,110
1,21.0,110
2,22.8,93
3,21.4,110
4,18.7,175
5,18.1,105
6,14.3,245
7,24.4,62
8,22.8,95
9,19.2,123


## Indeksy
Etykiety wierszy i kolumn `DataFrame` przechowywane są w indeksach. Domyślnie, wczytując plik, pandas interpretuje pierwszy wiersz jako etykiety kolumn, a dla wierszy tworzy indeks liczbowy.

In [28]:
mtcars.columns # Index zawiera etykiety kolumn

Index(['model', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am',
       'gear', 'carb'],
      dtype='object')

In [None]:
mtcars.index # Index zawiera etykiety wierszy

Indeks wierszy nie musi być numeryczny. Mogą to być nazwy, lub np. daty. Jako indeks możemy wykorzystać jedną z kolumn, w tym przypadku `model`.

In [None]:
mtcars = mtcars.set_index("model")
mtcars.head()

Teraz w `loc[]` możemy podać nazwę modelu.

In [None]:
mtcars.loc["Merc 240D":"Merc 450SLC"]

Możemy przywrócić domyślny indeks za pomocą `reset_index()`. Stary indeks zostanie zachowany jako kolumna.

In [None]:
mtcars = mtcars.reset_index()
mtcars.head()

## Filtrowanie
Oprócz wybierania przy użyciu etykiet (`loc[]`) i indeksów liczbowych (`iloc[]`) pandas umożliwia także wybieranie przy użyciu wektorów binarnych (typu `bool`) o długości równej liczbie wierszy (lub kolumn). Wybrane zostaną te wiersze (lub kolumny), dla których w wektorze znajdzie się `True`. Umożliwia to filtrowanie danych względem zadanego kryterium. Przykładowo, wybrać wszystkie samochody dla których `hp >= 200` można w następujący sposób:

In [29]:
mtcars[mtcars.hp >= 200]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
15,Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
23,Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8


W powyższym przykładzie, `mtcars.hp >= 200` tworzy wektor binarny, który następnie wykorzystuje do indeksowania `DataFrame`.

In [None]:
vec = mtcars.hp >= 200
vec

In [None]:
mtcars[vec]

Operacja `>=` jest **zwektoryzowana**, tak jak większość operacji na `DataFrame` i `Series`. To znaczy, że wykonywana jest na każdym elemencie ciągu, a nie na ciągu jako całości. Zwracaną wartością także jest ciąg. Podobnie działają np. operacje arytmetyczne. Przykładowo, poniższa operacja tworzy ciąg zawierający liczbę km/tonę dla każdego samochodu:

In [None]:
mtcars.hp / mtcars.wt

Jeśli chcemy uwzględnić wiele kryteriów filtrowania, możemy wykorzystać operacje logiczne `&`, `|`, `~`. Uwaga: korzystamy tu z operatorów bitowych, a nie zwykłych (niezwektoryzowanych) operatorów logicznych (`and`, `or`, `not`). W poniższym przykładzie wybierzemy samochody o mocy powyżej 100 KM i wadze poniżej 3.5 t:

In [None]:
mtcars[(mtcars.hp >= 100) & (mtcars.wt < 3.5)]

## Typy danych
Podstawowe typy danych obsługiwane przez pandas to:
- `int64` - liczby całkowite,
- `float64` - liczby zmiennoprzecinkowe,
- `bool` - wartości logiczne `True`/`False`
- `datetime64` - daty
- `object` - zwykle przechowuje `str` (napisy), ale może przechowywać obiekty dowolnego typu, lub różnych typów.
Więcej informacji na temat typów danych znajduje się w [dokumentacji](https://pandas.pydata.org/docs/user_guide/basics.html#basics-dtypes).

Typy danych możemy sprawdzić w następujący sposób:

In [None]:
mtcars.dtypes

## Operacje na napisach
Operacje na napisach dostępne są po wybraniu danej kolumny a następnie `.str`. Przykładowo, aby zmienić nazwy modeli na wielkie litery, mogę użyć następującej metody:

In [None]:
mtcars.model.str.upper().head(10)

Pełna lista dostępnych operacji znajduje się [tutaj](https://pandas.pydata.org/docs/reference/series.html#string-handling).
Przydatne są zwłaszcza operacje pozwalające filtrować przy użyciu RegEx. Na przykład, w następujący sposób można wybrać wszystkie Mercedesy i Mazdy:

In [None]:
mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]

## Dodawanie i usuwanie danych
### Dodawanie kolumn
Nowe kolumny możemy tworzyć w następujący sposób:

In [None]:
mtcars["n_wheels"] = 4
mtcars.head()

W powyższym przykładzie przypisujemy nowej kolumnie przypisujemy wartość skalarną, która jest propagowana na wszystkie wiersze.
Możemy też stworzyć nową kolumnę z Series lub innej sekwencji:

In [None]:
mtcars["hp_per_ton"] = mtcars.hp / mtcars.wt
mtcars.head()

### Usuwanie wierszy i kolumn
Wiersze i kolumny możemy usuwać metodą `drop()` podając jako argument listę etykiet. 

In [None]:
mtcars.drop([0, 1, 2]).head()

W poniższym przykładzie usuwane są wszystkie Mercedesy i Mazdy:

In [None]:
merc_maz = mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]
mtcars = mtcars.drop(merc_maz.index)
mtcars.head()

Kolumny usuwamy dodając parametr `axis='columns'` lub `axis=1`.

In [None]:
mtcars.drop(["n_wheels", "hp_per_ton"], axis='columns').head()

### Dodawanie wierszy
Wiersze najlepiej dodawać metodą `pd.concat()`.

In [None]:
mtcars = pd.concat([mtcars, merc_maz])
mtcars

Nowe wiersze zostały dodane na końcu. Ponieważ zachowane zostały wartości indeksu, można przywrócić pierwotną kolejność sortując względem indeksu:

In [None]:
mtcars = mtcars.sort_index()
mtcars

# Zadania
### Zadanie 1
Plik `SP500.csv` zawiera ceny otwarcia (`Open`), zamknięcia (`Close`), minimalną (`Low`), maksymalną (`High`) oraz wolumen obrotów (`Volume`) indeksu S&P 500 w latach 2018-2022.

1. Wczytaj plik jako `DataFrame` metodą `pd.read_csv()`.
2. Zbadaj zawartość metodami `head()`, `info()`, `describe()`.
3. Wybieranie:
    - Wybierz tylko kolumnę `Close`.
    - Wybierz kolumny `Date`, `Open`, `Close`
    - Wybierz 30. dzień notowań.
    - Wybierz 30 pierwszych dni notowań.
    - Wybierz ceny otwarcia i zamknięcia dla 30 pierwszych dni notowań.
4. Filtrowanie:
    - Znajdź dni, w których cena minimalna nie przekroczyła 2800.
    - Znajdź dni, w których wolumen obrotów przekroczył 2 500 000 000 a cena minimalna nie przekroczyła 3000.
    - Znajdź dni, w których wartość indeksu osiągnęła najwyższą i najniższą wartość. Wskazówka: skorzystaj z funkcji `max()` i `min()`.
    - Znajdź dni, w których cena otwarcia przekroczyła średnią cenę otwarcia. Wskazówka: skorzystaj z funkcji `mean()`.
5. Dodawanie i usuwanie:
    - Stwórz nową kolumnę zawierającą różnicę między ceną maksymalną a minimalną danego dnia.
    - Stwórz nową kolumnę zawierającą odchylenie ceny otwarcia od średniej ceny otwarcia.
    - Usuń kolumnę `Volume`.
    - Usuń wiersze zawierające notowania z roku 2018.
    - W pliku `SP500Jan2023.csv` znajdują się dane ze stycznia 2023. Wczytaj go i dodaj zawartość do zbioru. Pamiętaj o kolumnach dodanych i usuniętych we wcześniejszych podpunktach. Co dzieje się w przypadku braku zgodności kolumn? Sprawdź w dokumentacji [`pd.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html#pandas.concat), który parametr kontroluje to, co metoda robi w tej sytuacji
  



      



### Zadanie 2
Wczytaj zbiory w plikach `life_expectancy_years.csv` i `housing.csv`. Eksploruj je za pomocą poznanych metod. Zanotuj swoje obserwacje.


In [33]:
'''Zadanie 1'''
# 1-2 ---------
sp500 = pd.read_csv('SP500.csv')
sp500.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0


In [35]:
sp500.describe()

Unnamed: 0,Open,High,Low,Close,Volume
count,1259.0,1259.0,1259.0,1259.0,1259.0
mean,3449.673415,3470.86606,3426.301168,3449.724766,2286974000.0
std,668.795604,672.278346,665.154072,668.903627,592235000.0
min,2290.71,2300.73,2191.86,2237.4,720300000.0
25%,2842.39,2857.675,2825.45,2844.115,1902161000.0
50%,3280.61,3288.13,3253.22,3276.02,2149094000.0
75%,4038.645,4077.88,3995.845,4028.935,2515425000.0
max,4804.51,4818.62,4780.04,4796.56,5061430000.0


In [41]:
#3 ---------
sp500['Close'].head()

Unnamed: 0,Date,Open,Close
0,2018-01-02,2683.73,2695.81
1,2018-01-03,2697.85,2713.06
2,2018-01-04,2719.31,2723.99
3,2018-01-05,2731.33,2743.15
4,2018-01-08,2742.67,2747.71


In [42]:
sp500[['Date','Open','Close']].head()

Unnamed: 0,Date,Open,Close
0,2018-01-02,2683.73,2695.81
1,2018-01-03,2697.85,2713.06
2,2018-01-04,2719.31,2723.99
3,2018-01-05,2731.33,2743.15
4,2018-01-08,2742.67,2747.71


In [48]:
# sp500.iloc[29]
sp500[29:30]
# cause index starts from 0

Unnamed: 0,Date,Open,High,Low,Close,Volume
29,2018-02-13,2646.27,2668.84,2637.08,2662.94,1929372000.0


In [50]:
sp500[:30]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0
5,2018-01-09,2751.15,2759.14,2747.86,2751.29,1918600000.0
6,2018-01-10,2745.55,2750.8,2736.06,2748.23,1986861000.0
7,2018-01-11,2752.97,2767.56,2752.78,2767.56,2022956000.0
8,2018-01-12,2770.18,2787.85,2769.64,2786.24,1985539000.0
9,2018-01-16,2798.96,2807.54,2768.64,2776.42,2403317000.0


In [55]:
sp500.loc[:29, ['Open', 'Close']]

Unnamed: 0,Open,Close
0,2683.73,2695.81
1,2697.85,2713.06
2,2719.31,2723.99
3,2731.33,2743.15
4,2742.67,2747.71
5,2751.15,2751.29
6,2745.55,2748.23
7,2752.97,2767.56
8,2770.18,2786.24
9,2798.96,2776.42


In [60]:
# 4 ---------
sp500[(sp500['Low'] <= 2800)]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1.870694e+09
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1.965922e+09
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2.052922e+09
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1.798122e+09
4,2018-01-08,2742.67,2748.51,2737.60,2747.71,1.801472e+09
...,...,...,...,...,...,...
580,2020-04-23,2810.42,2844.90,2794.26,2797.80,3.198067e+09
581,2020-04-24,2812.64,2842.71,2791.76,2836.74,2.985822e+09
587,2020-05-04,2815.01,2844.24,2797.85,2842.74,2.623967e+09
594,2020-05-13,2865.86,2874.14,2793.15,2820.00,3.538682e+09


In [62]:
sp500[(sp500['Volume'] > 2_500_000_000) & (sp500['Low'] <= 3000)]

Unnamed: 0,Date,Open,High,Low,Close,Volume
23,2018-02-05,2741.06,2763.39,2638.17,2648.94,2.935256e+09
24,2018-02-06,2614.78,2701.04,2593.07,2695.14,3.273144e+09
25,2018-02-07,2690.95,2727.67,2681.33,2681.66,2.570317e+09
26,2018-02-08,2685.01,2685.27,2580.56,2581.00,2.947467e+09
27,2018-02-09,2601.78,2638.67,2532.69,2619.55,3.155594e+09
...,...,...,...,...,...,...
605,2020-05-29,3025.17,3049.17,2998.61,3044.31,4.372836e+09
614,2020-06-11,3123.53,3123.53,2999.49,3002.10,4.119365e+09
615,2020-06-12,3071.04,3088.42,2984.47,3041.31,3.379015e+09
616,2020-06-15,2993.76,3079.76,2965.66,3066.59,3.208286e+09


In [69]:
# sp500['Close'].max()
sp500.loc[sp500["Close"].idxmax()]

Date        2022-01-03
Open           4778.14
High           4796.64
Low            4758.17
Close          4796.56
Volume    2241373299.0
Name: 1008, dtype: object

In [71]:
# sp500['Close'].min()
sp500.loc[sp500["Close"].idxmin()]

Date        2020-03-23
Open           2290.71
High           2300.73
Low            2191.86
Close           2237.4
Volume    4112322222.0
Name: 558, dtype: object

In [75]:
mean = sp500['Open'].mean()
print(mean)
sp500[(sp500['Open'] > mean)]

3449.673415409055


Unnamed: 0,Date,Open,High,Low,Close,Volume
667,2020-08-26,3449.97,3481.07,3444.15,3478.73,2.020852e+09
668,2020-08-27,3485.14,3501.38,3468.35,3484.55,2.327432e+09
669,2020-08-28,3494.69,3509.23,3484.32,3508.01,2.047771e+09
670,2020-08-31,3509.73,3514.77,3493.25,3500.31,2.545948e+09
671,2020-09-01,3507.44,3528.03,3494.60,3526.65,2.246656e+09
...,...,...,...,...,...,...
1254,2022-12-23,3815.11,3845.80,3797.01,3844.82,1.579203e+09
1255,2022-12-27,3843.34,3846.65,3813.22,3829.25,1.753562e+09
1256,2022-12-28,3829.56,3848.32,3780.78,3783.22,1.741219e+09
1257,2022-12-29,3805.45,3858.19,3805.45,3849.28,1.734475e+09


In [80]:
sp500['Variance'] = sp500['High'] - sp500['Low']
sp500.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Variance
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0,13.53
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0,16.6
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0,10.22
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0,15.53
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0,10.91


In [83]:
mean = sp500['Open'].mean()
print(mean)
sp500['OpenMed'] = sp500['Open'] - mean
sp500.head()

3449.673415409055


Unnamed: 0,Date,Open,High,Low,Close,Volume,Variance,OpenMed
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0,16.6,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0,10.91,-707.003415


In [89]:
sp500.drop(['Volume'], axis='columns').head()

Unnamed: 0,Date,Open,High,Low,Close,Variance,OpenMed
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,16.6,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,10.91,-707.003415


In [93]:
date2018 = sp500[sp500.Date.str.contains("2018")]
sp500.drop(date2018.index)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Variance,OpenMed
251,2019-01-02,2476.96,2519.49,2467.47,2510.03,2.073978e+09,52.02,-972.713415
252,2019-01-03,2491.92,2493.14,2443.96,2447.89,2.123811e+09,49.18,-957.753415
253,2019-01-04,2474.33,2538.07,2474.33,2531.94,2.340783e+09,63.74,-975.343415
254,2019-01-07,2535.61,2566.16,2524.56,2549.69,2.280394e+09,41.60,-914.063415
255,2019-01-08,2568.11,2579.82,2547.56,2574.41,2.268350e+09,32.26,-881.563415
...,...,...,...,...,...,...,...,...
1254,2022-12-23,3815.11,3845.80,3797.01,3844.82,1.579203e+09,48.79,365.436585
1255,2022-12-27,3843.34,3846.65,3813.22,3829.25,1.753562e+09,33.43,393.666585
1256,2022-12-28,3829.56,3848.32,3780.78,3783.22,1.741219e+09,67.54,379.886585
1257,2022-12-29,3805.45,3858.19,3805.45,3849.28,1.734475e+09,52.74,355.776585


In [95]:
sp500Jan = pd.read_csv('SP500Jan2023.csv')
sp500 = pd.concat([sp500,sp500Jan])

In [98]:
sp500

Unnamed: 0,Date,Open,High,Low,Close,Volume,Variance,OpenMed
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1.870694e+09,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1.965922e+09,16.60,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2.052922e+09,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1.798122e+09,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.60,2747.71,1.801472e+09,10.91,-707.003415
...,...,...,...,...,...,...,...,...
15,2023-01-25,3982.71,4019.55,3949.06,4016.22,2.427959e+09,,
16,2023-01-26,4036.08,4061.57,4013.29,4060.43,2.436722e+09,,
17,2023-01-27,4053.72,4094.21,4048.70,4070.56,2.573674e+09,,
18,2023-01-30,4049.27,4063.85,4015.55,4017.77,2.323118e+09,,


In [99]:
'''Zadanie 2'''
life_exp = pd.read_csv('life_expectancy_years.csv')
housing = pd.read_csv('housing.csv')

In [100]:
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [102]:
life_exp.head()

Unnamed: 0,country,1800,1801,1802,1803,1804,1805,1806,1807,1808,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,Afghanistan,28.2,28.2,28.2,28.2,28.2,28.2,28.1,28.1,28.1,...,75.5,75.7,75.8,76.0,76.1,76.2,76.4,76.5,76.6,76.8
1,Angola,27.0,27.0,27.0,27.0,27.0,27.0,27.0,27.0,27.0,...,78.8,79.0,79.1,79.2,79.3,79.5,79.6,79.7,79.9,80.0
2,Albania,35.4,35.4,35.4,35.4,35.4,35.4,35.4,35.4,35.4,...,87.4,87.5,87.6,87.7,87.8,87.9,88.0,88.2,88.3,88.4
3,Andorra,,,,,,,,,,...,,,,,,,,,,
4,United Arab Emirates,30.7,30.7,30.7,30.7,30.7,30.7,30.7,30.7,30.7,...,82.4,82.5,82.6,82.7,82.8,82.9,83.0,83.1,83.2,83.3


In [106]:
house_corr = housing['total_rooms'].corr(housing['median_house_value'])
print(f"Korelacja total_rooms vs median_house_value: {house_corr:.2f}")

Korelacja total_rooms vs median_house_value: 0.13


In [108]:
housing[['total_rooms', 'median_house_value']]

Unnamed: 0,total_rooms,median_house_value
0,880.0,452600.0
1,7099.0,358500.0
2,1467.0,352100.0
3,1274.0,341300.0
4,1627.0,342200.0
...,...,...
20635,1665.0,78100.0
20636,697.0,77100.0
20637,2254.0,92300.0
20638,1860.0,84700.0


In [111]:
house_proximity = housing.groupby('ocean_proximity')['median_house_value'].median()
house_proximity

ocean_proximity
<1H OCEAN     214850.0
INLAND        108500.0
ISLAND        414700.0
NEAR BAY      233800.0
NEAR OCEAN    229450.0
Name: median_house_value, dtype: float64

In [113]:
long_year = life_exp.melt(id_vars=["country"], var_name="year", value_name="lifespan")
long_year['year'] = pd.to_numeric(life_exp['year'])


KeyError: 'year'

In [115]:
mean_lifespans = life_exp.drop(columns=['country']).mean()
mean_lifespans_table = pd.DataFrame(mean_lifespans).reset_index()
mean_lifespans_table.columns = ['Year', 'Mean Lifespan']
mean_lifespans_table

Unnamed: 0,Year,Mean Lifespan
0,1800,31.503763
1,1801,31.463441
2,1802,31.480108
3,1803,31.385484
4,1804,31.460753
...,...,...
296,2096,83.955376
297,2097,84.076344
298,2098,84.193548
299,2099,84.312903
