# Numpy

Numpy to biblioteka wykorzystywana do obliczeń numerycznych, udostępniająca wydajne implementacje operacji na wielowymiarowych tablicach.
## Tworzenie tablic `np.array`

In [1]:
import numpy as np

A = np.array([1, 2, 3])
print(A)

B = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(B)

C = np.zeros(5)
print(C)

D = np.arange(5)
print(D)

E = np.arange(12).reshape(4, 3)
print(E)

ModuleNotFoundError: No module named 'numpy'

## Indeksowanie

In [2]:
print(A[1])

print(B[1, 1])

print(E[1:3, 1:])

2
5
[[4 5]
 [7 8]]


## Operacje na tablicach numpy
Większość operacji na tablicach numpy jest zwektoryzowanych - działają poszczególnych na elementach tablic, a nie całych tablicach.

In [3]:
X = np.arange(1, 10).reshape(3, 3)
Y = np.arange(10, 19).reshape(3, 3)
print("X:\n", X)
print("Y:\n", Y)
print("X + Y:\n", X + Y)
print("X * Y:\n", X * Y)
print("X / Y:\n", X / Y)
print("X @ Y:\n", X @ Y)

X:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
Y:
 [[10 11 12]
 [13 14 15]
 [16 17 18]]
X + Y:
 [[11 13 15]
 [17 19 21]
 [23 25 27]]
X * Y:
 [[ 10  22  36]
 [ 52  70  90]
 [112 136 162]]
X / Y:
 [[0.1        0.18181818 0.25      ]
 [0.30769231 0.35714286 0.4       ]
 [0.4375     0.47058824 0.5       ]]
X @ Y:
 [[ 84  90  96]
 [201 216 231]
 [318 342 366]]


In [4]:
print("np.log(X):\n", np.log(X))
print("np.exp(X):\n", np.exp(X))
print("np.sin(X):\n", np.sin(X))

np.log(X):
 [[0.         0.69314718 1.09861229]
 [1.38629436 1.60943791 1.79175947]
 [1.94591015 2.07944154 2.19722458]]
np.exp(X):
 [[2.71828183e+00 7.38905610e+00 2.00855369e+01]
 [5.45981500e+01 1.48413159e+02 4.03428793e+02]
 [1.09663316e+03 2.98095799e+03 8.10308393e+03]]
np.sin(X):
 [[ 0.84147098  0.90929743  0.14112001]
 [-0.7568025  -0.95892427 -0.2794155 ]
 [ 0.6569866   0.98935825  0.41211849]]


In [5]:
print("np.sum(X):\n", np.sum(X))
print("np.prod(X):\n", np.prod(X))
print("np.min(X):\n", np.min(X))
print("np.max(X):\n", np.max(X))

np.sum(X):
 45
np.prod(X):
 362880
np.min(X):
 1
np.max(X):
 9


In [6]:
X = list(np.random.randn(10**6))

In [7]:
%%timeit
sum(X)

49 ms ± 14 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [8]:
X = np.random.randn(10**6)

In [9]:
%%timeit
np.sum(X)

316 μs ± 1.67 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


# Pandas: podstawy

## Tworzenie `DataFrame`
`DataFrame` możemy stworzyć procedurą `pd.DataFrame()` podając `dict` zawierający kolumny, lub dwuwymiarową strukturę danych ([więcej informacji](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe)). Alternatywą jest wczytanie z pliku, np. `pd.read_csv()`.

In [10]:
import pandas as pd
fruit = pd.DataFrame({"fruit": ["Apple", "Banana", "Orange"], "weight": [98.2, 116.5, 138.9], "kcal": [52, 88, 66]})
fruit

Unnamed: 0,fruit,weight,kcal
0,Apple,98.2,52
1,Banana,116.5,88
2,Orange,138.9,66


In [11]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
df1 = pd.DataFrame(np.arange(11, 20).reshape(3,3))
df1

Unnamed: 0,0,1,2
0,11,12,13
1,14,15,16
2,17,18,19


In [13]:
mtcars = pd.read_csv("mtcars.csv") # Source: R (https://www.rdocumentation.org/packages/datasets/versions/3.6.2/topics/mtcars)
mtcars

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


## Sprawdzanie zawartości `DataFrame`
`pandas` zawiera kilka użytecznych funkcji, które pozwalają wstępnie zbadać zawartość `DataFrame`:
- `df.head()` - wyświetla kilka pierwszych wierszy,
- `df.info()` - podaje informacje o kolumnach,
- `df.describe()` - podaje statystyki opisowe dotyczące kolumn. 

In [14]:
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [15]:
mtcars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   model   32 non-null     object 
 1   mpg     32 non-null     float64
 2   cyl     32 non-null     int64  
 3   disp    32 non-null     float64
 4   hp      32 non-null     int64  
 5   drat    32 non-null     float64
 6   wt      32 non-null     float64
 7   qsec    32 non-null     float64
 8   vs      32 non-null     int64  
 9   am      32 non-null     int64  
 10  gear    32 non-null     int64  
 11  carb    32 non-null     int64  
dtypes: float64(5), int64(6), object(1)
memory usage: 3.1+ KB


In [16]:
mtcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0
max,33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


Domyślnie, `describe()` podaje tylko statystyki dotyczące kolumn numerycznych. Możemy otrzymać też statystyki dla kolumn nienumerycznych podając `include='all'` lub `include='object`.

In [17]:
mtcars.describe(include='all')

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
unique,32,,,,,,,,,,,
top,Mazda RX4,,,,,,,,,,,
freq,1,,,,,,,,,,,
mean,,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0


In [18]:
mtcars.describe(include='object')

Unnamed: 0,model
count,32
unique,32
top,Mazda RX4
freq,1


## Indeksowanie
### Wybieranie kolumn
Pojedyncze kolumny lub zbiory kolumn można wybierać na kilka sposobów:

In [19]:
mtcars.mpg

0     21.0
1     21.0
2     22.8
3     21.4
4     18.7
5     18.1
6     14.3
7     24.4
8     22.8
9     19.2
10    17.8
11    16.4
12    17.3
13    15.2
14    10.4
15    10.4
16    14.7
17    32.4
18    30.4
19    33.9
20    21.5
21    15.5
22    15.2
23    13.3
24    19.2
25    27.3
26    26.0
27    30.4
28    15.8
29    19.7
30    15.0
31    21.4
Name: mpg, dtype: float64

In [20]:
mtcars["mpg"]

0     21.0
1     21.0
2     22.8
3     21.4
4     18.7
5     18.1
6     14.3
7     24.4
8     22.8
9     19.2
10    17.8
11    16.4
12    17.3
13    15.2
14    10.4
15    10.4
16    14.7
17    32.4
18    30.4
19    33.9
20    21.5
21    15.5
22    15.2
23    13.3
24    19.2
25    27.3
26    26.0
27    30.4
28    15.8
29    19.7
30    15.0
31    21.4
Name: mpg, dtype: float64

In [21]:
mtcars[["mpg", "wt", "hp"]]

Unnamed: 0,mpg,wt,hp
0,21.0,2.62,110
1,21.0,2.875,110
2,22.8,2.32,93
3,21.4,3.215,110
4,18.7,3.44,175
5,18.1,3.46,105
6,14.3,3.57,245
7,24.4,3.19,62
8,22.8,3.15,95
9,19.2,3.44,123


## Wybieranie wierszy
Wiersze możemy wybierać także za pomocą operatora `[]` podając zakresy `low:high`.

In [22]:
mtcars[3:4]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1


In [23]:
mtcars[0:5]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## Wybieranie wierszy i kolumn
Zakresy wierszy i kolumn możemy wybierać za pomocą:
- `loc[]` - wybieramy za pomocą nazw
- `iloc[]` - wybieramy za pomocą indeksów liczbowych.

Przykładowo, wybierzmy wiersze 0-4 i kolumny `mpg`, `cyl`, `disp`.

In [24]:
mtcars.loc[0:4, "mpg":"disp"]

Unnamed: 0,mpg,cyl,disp
0,21.0,6,160.0
1,21.0,6,160.0
2,22.8,4,108.0
3,21.4,6,258.0
4,18.7,8,360.0


In [25]:
mtcars.iloc[0:5, 1:4]

Unnamed: 0,mpg,cyl,disp
0,21.0,6,160.0
1,21.0,6,160.0
2,22.8,4,108.0
3,21.4,6,258.0
4,18.7,8,360.0


Zwróćmy uwagę, że w `loc[]` podajemy zakresy domknięte, a w `iloc[]` otwarte. Możliwe jest też pominięcie jednej lub obu stron zakresu. W `loc[]` możemy podać też listę wierszy lub kolumn.

In [26]:
mtcars.loc[:4, :"hp"]

Unnamed: 0,model,mpg,cyl,disp,hp
0,Mazda RX4,21.0,6,160.0,110
1,Mazda RX4 Wag,21.0,6,160.0,110
2,Datsun 710,22.8,4,108.0,93
3,Hornet 4 Drive,21.4,6,258.0,110
4,Hornet Sportabout,18.7,8,360.0,175


In [27]:
mtcars.loc[:, ["mpg", "hp"]]

Unnamed: 0,mpg,hp
0,21.0,110
1,21.0,110
2,22.8,93
3,21.4,110
4,18.7,175
5,18.1,105
6,14.3,245
7,24.4,62
8,22.8,95
9,19.2,123


## Indeksy
Etykiety wierszy i kolumn `DataFrame` przechowywane są w indeksach. Domyślnie, wczytując plik, pandas interpretuje pierwszy wiersz jako etykiety kolumn, a dla wierszy tworzy indeks liczbowy.

In [28]:
mtcars.columns # Index zawiera etykiety kolumn

Index(['model', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am',
       'gear', 'carb'],
      dtype='object')

In [29]:
mtcars.index # Index zawiera etykiety wierszy

RangeIndex(start=0, stop=32, step=1)

Indeks wierszy nie musi być numeryczny. Mogą to być nazwy, lub np. daty. Jako indeks możemy wykorzystać jedną z kolumn, w tym przypadku `model`.

In [30]:
mtcars = mtcars.set_index("model")
mtcars.head()

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


Teraz w `loc[]` możemy podać nazwę modelu.

In [31]:
mtcars.loc["Merc 240D":"Merc 450SLC"]

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
Merc 280C,17.8,6,167.6,123,3.92,3.44,18.9,1,0,4,4
Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
Merc 450SLC,15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3


Możemy przywrócić domyślny indeks za pomocą `reset_index()`. Stary indeks zostanie zachowany jako kolumna.

In [32]:
mtcars = mtcars.reset_index()
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## Filtrowanie
Oprócz wybierania przy użyciu etykiet (`loc[]`) i indeksów liczbowych (`iloc[]`) pandas umożliwia także wybieranie przy użyciu wektorów binarnych (typu `bool`) o długości równej liczbie wierszy (lub kolumn). Wybrane zostaną te wiersze (lub kolumny), dla których w wektorze znajdzie się `True`. Umożliwia to filtrowanie danych względem zadanego kryterium. Przykładowo, wybrać wszystkie samochody dla których `hp >= 200` można w następujący sposób:

In [33]:
mtcars[mtcars.hp >= 200]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
15,Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
23,Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8


W powyższym przykładzie, `mtcars.hp >= 200` tworzy wektor binarny, który następnie wykorzystuje do indeksowania `DataFrame`.

In [34]:
vec = mtcars.hp >= 200
vec

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14     True
15     True
16     True
17    False
18    False
19    False
20    False
21    False
22    False
23     True
24    False
25    False
26    False
27    False
28     True
29    False
30     True
31    False
Name: hp, dtype: bool

In [35]:
mtcars[vec]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
15,Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
23,Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8


Operacja `>=` jest **zwektoryzowana**, tak jak większość operacji na `DataFrame` i `Series`. To znaczy, że wykonywana jest na każdym elemencie ciągu, a nie na ciągu jako całości. Zwracaną wartością także jest ciąg. Podobnie działają np. operacje arytmetyczne. Przykładowo, poniższa operacja tworzy ciąg zawierający liczbę km/tonę dla każdego samochodu:

In [36]:
mtcars.hp / mtcars.wt

0     41.984733
1     38.260870
2     40.086207
3     34.214619
4     50.872093
5     30.346821
6     68.627451
7     19.435737
8     30.158730
9     35.755814
10    35.755814
11    44.226044
12    48.257373
13    47.619048
14    39.047619
15    39.638643
16    43.030870
17    30.000000
18    32.198142
19    35.422343
20    39.350913
21    42.613636
22    43.668122
23    63.802083
24    45.513654
25    34.108527
26    42.523364
27    74.686054
28    83.280757
29    63.176895
30    93.837535
31    39.208633
dtype: float64

Jeśli chcemy uwzględnić wiele kryteriów filtrowania, możemy wykorzystać operacje logiczne `&`, `|`, `~`. Uwaga: korzystamy tu z operatorów bitowych, a nie zwykłych (niezwektoryzowanych) operatorów logicznych (`and`, `or`, `not`). W poniższym przykładzie wybierzemy samochody o mocy powyżej 100 KM i wadze poniżej 3.5 t:

In [37]:
mtcars[(mtcars.hp >= 100) & (mtcars.wt < 3.5)]

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
10,Merc 280C,17.8,6,167.6,123,3.92,3.44,18.9,1,0,4,4
22,AMC Javelin,15.2,8,304.0,150,3.15,3.435,17.3,0,0,3,2
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4


## Typy danych
Podstawowe typy danych obsługiwane przez pandas to:
- `int64` - liczby całkowite,
- `float64` - liczby zmiennoprzecinkowe,
- `bool` - wartości logiczne `True`/`False`
- `datetime64` - daty
- `object` - zwykle przechowuje `str` (napisy), ale może przechowywać obiekty dowolnego typu, lub różnych typów.
Więcej informacji na temat typów danych znajduje się w [dokumentacji](https://pandas.pydata.org/docs/user_guide/basics.html#basics-dtypes).

Typy danych możemy sprawdzić w następujący sposób:

In [38]:
mtcars.dtypes

model     object
mpg      float64
cyl        int64
disp     float64
hp         int64
drat     float64
wt       float64
qsec     float64
vs         int64
am         int64
gear       int64
carb       int64
dtype: object

## Operacje na napisach
Operacje na napisach dostępne są po wybraniu danej kolumny a następnie `.str`. Przykładowo, aby zmienić nazwy modeli na wielkie litery, mogę użyć następującej metody:

In [39]:
mtcars.model.str.upper().head(10)

0            MAZDA RX4
1        MAZDA RX4 WAG
2           DATSUN 710
3       HORNET 4 DRIVE
4    HORNET SPORTABOUT
5              VALIANT
6           DUSTER 360
7            MERC 240D
8             MERC 230
9             MERC 280
Name: model, dtype: object

Pełna lista dostępnych operacji znajduje się [tutaj](https://pandas.pydata.org/docs/reference/series.html#string-handling).
Przydatne są zwłaszcza operacje pozwalające filtrować przy użyciu RegEx. Na przykład, w następujący sposób można wybrać wszystkie Mercedesy i Mazdy:

In [40]:
mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]

  mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]


Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
10,Merc 280C,17.8,6,167.6,123,3.92,3.44,18.9,1,0,4,4
11,Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
12,Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
13,Merc 450SLC,15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3


## Dodawanie i usuwanie danych
### Dodawanie kolumn
Nowe kolumny możemy tworzyć w następujący sposób:

In [41]:
mtcars["n_wheels"] = 4
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,n_wheels
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,4
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,4


W powyższym przykładzie przypisujemy nowej kolumnie przypisujemy wartość skalarną, która jest propagowana na wszystkie wiersze.
Możemy też stworzyć nową kolumnę z Series lub innej sekwencji:

In [42]:
mtcars["hp_per_ton"] = mtcars.hp / mtcars.wt
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,n_wheels,hp_per_ton
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,4,41.984733
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,4,38.26087
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4,40.086207
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,4,34.214619
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,4,50.872093


### Usuwanie wierszy i kolumn
Wiersze i kolumny możemy usuwać metodą `drop()` podając jako argument listę etykiet. 

In [43]:
mtcars.drop([0, 1, 2]).head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,n_wheels,hp_per_ton
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,4,34.214619
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,4,50.872093
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1,4,30.346821
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,4,68.627451
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2,4,19.435737


W poniższym przykładzie usuwane są wszystkie Mercedesy i Mazdy:

In [44]:
merc_maz = mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]
mtcars = mtcars.drop(merc_maz.index)
mtcars.head()

  merc_maz = mtcars[mtcars.model.str.contains("(Merc)|(Mazda)")]


Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,n_wheels,hp_per_ton
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4,40.086207
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,4,34.214619
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,4,50.872093
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1,4,30.346821
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,4,68.627451


Kolumny usuwamy dodając parametr `axis='columns'` lub `axis=1`.

In [45]:
mtcars.drop(["n_wheels", "hp_per_ton"], axis='columns').head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4


### Dodawanie wierszy
Wiersze najlepiej dodawać metodą `pd.concat()`.

In [46]:
mtcars = pd.concat([mtcars, merc_maz])
mtcars

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,n_wheels,hp_per_ton
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4,40.086207
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,4,34.214619
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,4,50.872093
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1,4,30.346821
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,4,68.627451
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4,4,39.047619
15,Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4,4,39.638643
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4,4,43.03087
17,Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1,4,30.0
18,Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2,4,32.198142


Nowe wiersze zostały dodane na końcu. Ponieważ zachowane zostały wartości indeksu, można przywrócić pierwotną kolejność sortując względem indeksu:

In [47]:
mtcars = mtcars.sort_index()
mtcars

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,n_wheels,hp_per_ton
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,4,41.984733
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,4,38.26087
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4,40.086207
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,4,34.214619
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,4,50.872093
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1,4,30.346821
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,4,68.627451
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2,4,19.435737
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2,4,30.15873
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4,4,35.755814


# Zadania
### Zadanie 1
Plik `SP500.csv` zawiera ceny otwarcia (`Open`), zamknięcia (`Close`), minimalną (`Low`), maksymalną (`High`) oraz wolumen obrotów (`Volume`) indeksu S&P 500 w latach 2018-2022.

1. Wczytaj plik jako `DataFrame` metodą `pd.read_csv()`.
2. Zbadaj zawartość metodami `head()`, `info()`, `describe()`.
3. Wybieranie:
    - Wybierz tylko kolumnę `Close`.
    - Wybierz kolumny `Date`, `Open`, `Close`
    - Wybierz 30. dzień notowań.
    - Wybierz 30 pierwszych dni notowań.
    - Wybierz ceny otwarcia i zamknięcia dla 30 pierwszych dni notowań.
4. Filtrowanie:
    - Znajdź dni, w których cena minimalna nie przekroczyła 2800.
    - Znajdź dni, w których wolumen obrotów przekroczył 2 500 000 000 a cena minimalna nie przekroczyła 3000.
    - Znajdź dni, w których wartość indeksu osiągnęła najwyższą i najniższą wartość. Wskazówka: skorzystaj z funkcji `max()` i `min()`.
    - Znajdź dni, w których cena otwarcia przekroczyła średnią cenę otwarcia. Wskazówka: skorzystaj z funkcji `mean()`.
5. Dodawanie i usuwanie:
    - Stwórz nową kolumnę zawierającą różnicę między ceną maksymalną a minimalną danego dnia.
    - Stwórz nową kolumnę zawierającą odchylenie ceny otwarcia od średniej ceny otwarcia.
    - Usuń kolumnę `Volume`.
    - Usuń wiersze zawierające notowania z roku 2018.
    - W pliku `SP500Jan2023.csv` znajdują się dane ze stycznia 2023. Wczytaj go i dodaj zawartość do zbioru. Pamiętaj o kolumnach dodanych i usuniętych we wcześniejszych podpunktach. Co dzieje się w przypadku braku zgodności kolumn? Sprawdź w dokumentacji [`pd.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html#pandas.concat), który parametr kontroluje to, co metoda robi w tej sytuacji.

### Zadanie 2
Wczytaj zbiory w plikach `life_expectancy_years.csv` i `housing.csv`. Eksploruj je za pomocą poznanych metod. Zanotuj swoje obserwacje.


## Zadanie 1

### Zadanie 1.1

In [48]:
sp500 = pd.read_csv("SP500.csv")

### Zadanie 1.2

In [49]:
sp500.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0
5,2018-01-09,2751.15,2759.14,2747.86,2751.29,1918600000.0
6,2018-01-10,2745.55,2750.8,2736.06,2748.23,1986861000.0
7,2018-01-11,2752.97,2767.56,2752.78,2767.56,2022956000.0
8,2018-01-12,2770.18,2787.85,2769.64,2786.24,1985539000.0
9,2018-01-16,2798.96,2807.54,2768.64,2776.42,2403317000.0


In [50]:
sp500.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1259 entries, 0 to 1258
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    1259 non-null   object 
 1   Open    1259 non-null   float64
 2   High    1259 non-null   float64
 3   Low     1259 non-null   float64
 4   Close   1259 non-null   float64
 5   Volume  1259 non-null   float64
dtypes: float64(5), object(1)
memory usage: 59.1+ KB


In [51]:
sp500.describe()

Unnamed: 0,Open,High,Low,Close,Volume
count,1259.0,1259.0,1259.0,1259.0,1259.0
mean,3449.673415,3470.86606,3426.301168,3449.724766,2286974000.0
std,668.795604,672.278346,665.154072,668.903627,592235000.0
min,2290.71,2300.73,2191.86,2237.4,720300000.0
25%,2842.39,2857.675,2825.45,2844.115,1902161000.0
50%,3280.61,3288.13,3253.22,3276.02,2149094000.0
75%,4038.645,4077.88,3995.845,4028.935,2515425000.0
max,4804.51,4818.62,4780.04,4796.56,5061430000.0


### Zadanie 1.3

In [52]:
sp500.Close

0       2695.81
1       2713.06
2       2723.99
3       2743.15
4       2747.71
         ...   
1254    3844.82
1255    3829.25
1256    3783.22
1257    3849.28
1258    3839.50
Name: Close, Length: 1259, dtype: float64

In [53]:
sp500[["Date", "Open", "Close"]]

Unnamed: 0,Date,Open,Close
0,2018-01-02,2683.73,2695.81
1,2018-01-03,2697.85,2713.06
2,2018-01-04,2719.31,2723.99
3,2018-01-05,2731.33,2743.15
4,2018-01-08,2742.67,2747.71
...,...,...,...
1254,2022-12-23,3815.11,3844.82
1255,2022-12-27,3843.34,3829.25
1256,2022-12-28,3829.56,3783.22
1257,2022-12-29,3805.45,3849.28


In [76]:
sp500.iloc[29]

Date        2018-02-13
Open           2646.27
High           2668.84
Low            2637.08
Close          2662.94
Volume    1929372222.0
Diff             31.76
Div        -803.403415
Name: 29, dtype: object

In [77]:
sp500.iloc[:30]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Diff,Div
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0,16.6,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0,10.91,-707.003415
5,2018-01-09,2751.15,2759.14,2747.86,2751.29,1918600000.0,11.28,-698.523415
6,2018-01-10,2745.55,2750.8,2736.06,2748.23,1986861000.0,14.74,-704.123415
7,2018-01-11,2752.97,2767.56,2752.78,2767.56,2022956000.0,14.78,-696.703415
8,2018-01-12,2770.18,2787.85,2769.64,2786.24,1985539000.0,18.21,-679.493415
9,2018-01-16,2798.96,2807.54,2768.64,2776.42,2403317000.0,38.9,-650.713415


In [56]:
sp500.loc[:29, ["Open", "Close"]]

Unnamed: 0,Open,Close
0,2683.73,2695.81
1,2697.85,2713.06
2,2719.31,2723.99
3,2731.33,2743.15
4,2742.67,2747.71
5,2751.15,2751.29
6,2745.55,2748.23
7,2752.97,2767.56
8,2770.18,2786.24
9,2798.96,2776.42


### Zadanie 1.4

In [57]:
sp500[sp500.Low <= 2800].Date

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1.870694e+09
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1.965922e+09
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2.052922e+09
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1.798122e+09
4,2018-01-08,2742.67,2748.51,2737.60,2747.71,1.801472e+09
...,...,...,...,...,...,...
580,2020-04-23,2810.42,2844.90,2794.26,2797.80,3.198067e+09
581,2020-04-24,2812.64,2842.71,2791.76,2836.74,2.985822e+09
587,2020-05-04,2815.01,2844.24,2797.85,2842.74,2.623967e+09
594,2020-05-13,2865.86,2874.14,2793.15,2820.00,3.538682e+09


In [58]:
sp500[(sp500.Volume > 2_500_000) & (sp500.Low <= 3000)].Date

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1.870694e+09
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1.965922e+09
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2.052922e+09
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1.798122e+09
4,2018-01-08,2742.67,2748.51,2737.60,2747.71,1.801472e+09
...,...,...,...,...,...,...
605,2020-05-29,3025.17,3049.17,2998.61,3044.31,4.372836e+09
614,2020-06-11,3123.53,3123.53,2999.49,3002.10,4.119365e+09
615,2020-06-12,3071.04,3088.42,2984.47,3041.31,3.379015e+09
616,2020-06-15,2993.76,3079.76,2965.66,3066.59,3.208286e+09


In [59]:
sp500[(sp500.High == np.max(sp500.High)) | (sp500.Low == np.min(sp500.Low))].Date

Unnamed: 0,Date,Open,High,Low,Close,Volume
558,2020-03-23,2290.71,2300.73,2191.86,2237.4,4112322000.0
1009,2022-01-04,4804.51,4818.62,4774.27,4793.54,2841121000.0


In [60]:
sp500[sp500.Open > np.mean(sp500.Open)].Date

Unnamed: 0,Date,Open,High,Low,Close,Volume
667,2020-08-26,3449.97,3481.07,3444.15,3478.73,2.020852e+09
668,2020-08-27,3485.14,3501.38,3468.35,3484.55,2.327432e+09
669,2020-08-28,3494.69,3509.23,3484.32,3508.01,2.047771e+09
670,2020-08-31,3509.73,3514.77,3493.25,3500.31,2.545948e+09
671,2020-09-01,3507.44,3528.03,3494.60,3526.65,2.246656e+09
...,...,...,...,...,...,...
1254,2022-12-23,3815.11,3845.80,3797.01,3844.82,1.579203e+09
1255,2022-12-27,3843.34,3846.65,3813.22,3829.25,1.753562e+09
1256,2022-12-28,3829.56,3848.32,3780.78,3783.22,1.741219e+09
1257,2022-12-29,3805.45,3858.19,3805.45,3849.28,1.734475e+09


### Zadanie 1.5

In [61]:
sp500["Diff"] = sp500.High - sp500.Low
sp500.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Diff
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0,13.53
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0,16.6
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0,10.22
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0,15.53
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0,10.91
5,2018-01-09,2751.15,2759.14,2747.86,2751.29,1918600000.0,11.28
6,2018-01-10,2745.55,2750.8,2736.06,2748.23,1986861000.0,14.74
7,2018-01-11,2752.97,2767.56,2752.78,2767.56,2022956000.0,14.78
8,2018-01-12,2770.18,2787.85,2769.64,2786.24,1985539000.0,18.21
9,2018-01-16,2798.96,2807.54,2768.64,2776.42,2403317000.0,38.9


In [62]:
sp500["Div"] = sp500.Open - np.mean(sp500.Open)
sp500.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Diff,Div
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0,16.6,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0,10.91,-707.003415
5,2018-01-09,2751.15,2759.14,2747.86,2751.29,1918600000.0,11.28,-698.523415
6,2018-01-10,2745.55,2750.8,2736.06,2748.23,1986861000.0,14.74,-704.123415
7,2018-01-11,2752.97,2767.56,2752.78,2767.56,2022956000.0,14.78,-696.703415
8,2018-01-12,2770.18,2787.85,2769.64,2786.24,1985539000.0,18.21,-679.493415
9,2018-01-16,2798.96,2807.54,2768.64,2776.42,2403317000.0,38.9,-650.713415


In [63]:
sp500.drop(["Volume"], axis = "columns").head()

Unnamed: 0,Date,Open,High,Low,Close,Diff,Div
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,16.6,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,10.91,-707.003415


In [64]:
sp500[~(sp500.Date.str.contains("2018"))]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Diff,Div
251,2019-01-02,2476.96,2519.49,2467.47,2510.03,2.073978e+09,52.02,-972.713415
252,2019-01-03,2491.92,2493.14,2443.96,2447.89,2.123811e+09,49.18,-957.753415
253,2019-01-04,2474.33,2538.07,2474.33,2531.94,2.340783e+09,63.74,-975.343415
254,2019-01-07,2535.61,2566.16,2524.56,2549.69,2.280394e+09,41.60,-914.063415
255,2019-01-08,2568.11,2579.82,2547.56,2574.41,2.268350e+09,32.26,-881.563415
...,...,...,...,...,...,...,...,...
1254,2022-12-23,3815.11,3845.80,3797.01,3844.82,1.579203e+09,48.79,365.436585
1255,2022-12-27,3843.34,3846.65,3813.22,3829.25,1.753562e+09,33.43,393.666585
1256,2022-12-28,3829.56,3848.32,3780.78,3783.22,1.741219e+09,67.54,379.886585
1257,2022-12-29,3805.45,3858.19,3805.45,3849.28,1.734475e+09,52.74,355.776585


In [65]:
sp500jan = pd.read_csv("sp500Jan2023.csv")
sp500jan.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2023-01-03,3853.29,3878.46,3794.33,3824.14,2351704257
1,2023-01-04,3840.36,3873.16,3815.77,3852.97,2574150675
2,2023-01-05,3839.74,3839.74,3802.42,3808.1,2254045861
3,2023-01-06,3823.37,3906.19,3809.56,3895.08,2462500481
4,2023-01-09,3910.82,3950.57,3890.42,3892.09,2498158582
5,2023-01-10,3888.57,3919.83,3877.29,3919.25,2140005783
6,2023-01-11,3932.35,3970.07,3928.54,3969.61,2353913282
7,2023-01-12,3977.57,3997.76,3937.56,3983.17,2468086405
8,2023-01-13,3960.6,4003.95,3947.67,3999.09,2305645309
9,2023-01-17,3999.28,4015.39,3984.57,3990.97,2561165091


In [66]:
sp500all = pd.concat([sp500, sp500jan], join="outer")
sp500all.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Diff,Div
0,2018-01-02,2683.73,2695.89,2682.36,2695.81,1870694000.0,13.53,-765.943415
1,2018-01-03,2697.85,2714.37,2697.77,2713.06,1965922000.0,16.6,-751.823415
2,2018-01-04,2719.31,2729.29,2719.07,2723.99,2052922000.0,10.22,-730.363415
3,2018-01-05,2731.33,2743.45,2727.92,2743.15,1798122000.0,15.53,-718.343415
4,2018-01-08,2742.67,2748.51,2737.6,2747.71,1801472000.0,10.91,-707.003415
5,2018-01-09,2751.15,2759.14,2747.86,2751.29,1918600000.0,11.28,-698.523415
6,2018-01-10,2745.55,2750.8,2736.06,2748.23,1986861000.0,14.74,-704.123415
7,2018-01-11,2752.97,2767.56,2752.78,2767.56,2022956000.0,14.78,-696.703415
8,2018-01-12,2770.18,2787.85,2769.64,2786.24,1985539000.0,18.21,-679.493415
9,2018-01-16,2798.96,2807.54,2768.64,2776.42,2403317000.0,38.9,-650.713415


## Zadanie 2

### Zadanie 2.1

In [67]:
life_exp = pd.read_csv("life_expectancy_years.csv")

In [68]:
life_exp.head(10)

Unnamed: 0,country,1800,1801,1802,1803,1804,1805,1806,1807,1808,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,Afghanistan,28.2,28.2,28.2,28.2,28.2,28.2,28.1,28.1,28.1,...,75.5,75.7,75.8,76.0,76.1,76.2,76.4,76.5,76.6,76.8
1,Angola,27.0,27.0,27.0,27.0,27.0,27.0,27.0,27.0,27.0,...,78.8,79.0,79.1,79.2,79.3,79.5,79.6,79.7,79.9,80.0
2,Albania,35.4,35.4,35.4,35.4,35.4,35.4,35.4,35.4,35.4,...,87.4,87.5,87.6,87.7,87.8,87.9,88.0,88.2,88.3,88.4
3,Andorra,,,,,,,,,,...,,,,,,,,,,
4,United Arab Emirates,30.7,30.7,30.7,30.7,30.7,30.7,30.7,30.7,30.7,...,82.4,82.5,82.6,82.7,82.8,82.9,83.0,83.1,83.2,83.3
5,Argentina,33.2,33.2,33.2,33.2,33.2,33.2,33.2,33.2,33.2,...,86.2,86.3,86.5,86.5,86.7,86.8,86.9,87.0,87.1,87.2
6,Armenia,34.0,34.0,34.0,34.0,34.0,34.0,34.0,34.0,34.0,...,85.2,85.3,85.4,85.5,85.6,85.7,85.8,86.0,86.1,86.2
7,Antigua and Barbuda,33.5,33.5,33.5,33.5,33.5,33.5,33.5,33.5,33.5,...,85.0,85.1,85.2,85.3,85.4,85.5,85.6,85.7,85.8,85.9
8,Australia,34.0,34.0,34.0,34.0,34.0,34.0,34.0,34.0,34.0,...,91.3,91.4,91.5,91.6,91.7,91.8,91.9,92.0,92.1,92.3
9,Austria,34.4,34.4,34.4,34.4,34.4,34.4,34.4,34.4,34.4,...,91.0,91.1,91.2,91.3,91.5,91.6,91.7,91.8,91.9,92.0


In [69]:
life_exp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Columns: 302 entries, country to 2100
dtypes: float64(301), object(1)
memory usage: 460.2+ KB


In [70]:
life_exp.describe()

Unnamed: 0,1800,1801,1802,1803,1804,1805,1806,1807,1808,1809,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
count,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,...,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0,186.0
mean,31.503763,31.463441,31.480108,31.385484,31.460753,31.586559,31.644086,31.598387,31.385484,31.313441,...,83.361828,83.476344,83.600538,83.717742,83.838172,83.955376,84.076344,84.193548,84.312903,84.430645
std,3.80951,3.801217,3.932344,3.955872,3.928388,4.003874,4.102694,3.974506,4.08023,4.033412,...,5.803782,5.797854,5.788922,5.777904,5.770755,5.766333,5.756555,5.750616,5.743805,5.741341
min,23.4,23.4,23.4,19.6,23.4,23.4,23.4,23.4,12.5,13.4,...,66.4,66.5,66.7,66.8,66.9,67.0,67.1,67.2,67.3,67.4
25%,29.025,28.925,28.9,28.9,28.925,29.025,29.025,29.025,28.925,28.825,...,79.65,79.75,79.925,80.025,80.15,80.325,80.425,80.525,80.7,80.8
50%,31.75,31.65,31.55,31.5,31.55,31.65,31.75,31.75,31.55,31.5,...,84.0,84.1,84.25,84.3,84.5,84.6,84.7,84.8,84.9,85.0
75%,33.875,33.9,33.875,33.675,33.775,33.875,33.975,33.975,33.775,33.675,...,87.775,87.875,87.975,88.075,88.175,88.3,88.4,88.5,88.675,88.775
max,42.9,40.3,44.4,44.8,42.8,44.3,45.8,43.6,43.5,41.7,...,93.4,93.5,93.6,93.7,93.8,94.0,94.1,94.2,94.3,94.4


In [83]:
life_exp_T = life_exp.T
life_exp_T = life_exp_T.rename(columns=life_exp_T.iloc[0]).drop(life_exp_T.index[0])

In [84]:
life_exp_T.info()

<class 'pandas.core.frame.DataFrame'>
Index: 301 entries, 1800 to 2100
Columns: 195 entries, Afghanistan to Zimbabwe
dtypes: object(195)
memory usage: 460.9+ KB


In [85]:
life_exp_T.describe()

Unnamed: 0,Afghanistan,Angola,Albania,Andorra,United Arab Emirates,Argentina,Armenia,Antigua and Barbuda,Australia,Austria,...,Uzbekistan,St. Vincent and the Grenadines,Venezuela,Vietnam,Vanuatu,Samoa,Yemen,South Africa,Zambia,Zimbabwe
count,301.0,301.0,301.0,70.0,301.0,301.0,301.0,301.0,301.0,301.0,...,301.0,301.0,301.0,301.0,301.0,301.0,301.0,301.0,301.0,301.0
unique,221.0,216.0,170.0,60.0,217.0,198.0,215.0,167.0,211.0,216.0,...,197.0,175.0,174.0,167.0,183.0,203.0,227.0,212.0,184.0,188.0
top,27.9,27.0,35.4,82.1,30.7,33.2,34.0,33.5,34.0,34.4,...,26.9,26.0,32.2,32.0,24.3,25.4,23.4,33.5,32.6,33.7
freq,12.0,71.0,74.0,3.0,71.0,77.0,65.0,75.0,71.0,71.0,...,64.0,73.0,72.0,88.0,71.0,71.0,71.0,71.0,71.0,71.0


In [88]:
pl_de = life_exp_T.loc[:, ["Poland", "Germany"]]
pl_de = pl_de[~(pl_de.isnull())]

In [91]:
pl_de.astype(np.float64).describe()

Unnamed: 0,Poland,Germany
count,301.0,301.0
mean,58.584718,62.192359
std,20.512001,20.283125
min,15.4,28.8
25%,35.9,38.4
50%,57.9,66.5
75%,79.0,82.1
max,88.3,91.0


### Zadanie 2.2

In [92]:
housing = pd.read_csv("housing.csv")

In [93]:
housing.head(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0,NEAR BAY


In [94]:
housing.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [95]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB
