In [135]:
import pandas as pd

# WAŻNE INFORMACJE NA START
- w 'Pandas' mówi się o 'tabelach' oraz 'komórkach', 
- bibliotekę 'Pandas' jest tworem programistycznym, więc obowiązują w niej takie same zasady, jak w normalnym programowaniu:
    * oczywiście całość jest napisana w sposób obiektory, więc jeżeli utorzymy jakiś obiekt to posiada on swoje pola oraz metody, z których możemy skorzystać,
    * naturalnie niektóre metody zwracają całkowicie nowy, zrekonstruowany obiekt, który należy zapisać do nowej zmiennej, aby go nie utracić,
    * ale inne metody mogą wpływać tylko na aktualny stan obiektu, który jest sobie zapisany gdzieś w pamięci, więc nic nie zwracają (tylko modyfikują już istnijący obiekt)
- należy pamiętać, że wiersze zarówno w Series, jak i DataFrame numerowane są od 0. W pliku excelowym numerowane są od 1, ale wszystko co jest tutaj wykonywane należy uznać za programowanie, a wiadomo jaka panuje w nim konwencja,
- uzyskanie szybkiej podpowiedzi odnośnie dostępnych pól oraz metod dla danego obiektu ---> po nazwie obiektu stawiamy kropkę i następnie klikamy szybko 2 razy 'Tab',

# Różnica między plikami .csv, a plikami .xml, .xlsx
### Pliki .csv:
- są to pliki tekstowe, w których dane są od siebie oddzielone separatorem (najczęściej przecinkiem),
- mogą być otwierane przez excela, ale to nie oznacza, że są plikami excelowymi,
### Pliki .xls, .xlsx
- są to pliki typowo excelowe, które oprócz jawnego tekstu mogą też zawierać np. wykresy,
- nie można ich otworzyć w notatniku (zostaną wyświetlone śmieci)

# Typy danych w Pandas

### Series (1-dimensional):
- jest to kolumna (bez nazwy) wypełniona jednoelementowymi wierszami (danymi),
- przy każdym wierszu znajduje się index, 

In [136]:
series = pd.Series(['BMW', 'Toyota', 'Honda'])
series

0       BMW
1    Toyota
2     Honda
dtype: object

In [137]:
colours = pd.Series(['red', 'blue', 'white'])
colours

0      red
1     blue
2    white
dtype: object

### DataFrame (2-dimensional)
- jest to zwykła tabelka, w której każda kolumna ma nazwę, a każdy wiersz posiada index,
- w zasadzie jest to zbiór Series,
- WIERSZ = 'axis=0', KOLUMNA = 'axis=1' !!!

![](pandas-anatomy-of-a-dataframe.png)

In [138]:
car_data = pd.DataFrame({'Car make': series, 'Colour': colours})
car_data

Unnamed: 0,Car make,Colour
0,BMW,red
1,Toyota,blue
2,Honda,white


# Import pliku .csv

In [139]:
car_sales = pd.read_csv('car-sales.csv')
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


# Eksport pliku .csv

In [140]:
car_sales.to_csv('exported-car-sales.csv', index=False) # 'index=False' - brak eksportu kolumny z indexami
# car_sales.to_excel() # export do excela

# Podstawowe informacje na temat danych
- obiekty, jak to w OOP, posiadają pola oraz metody, do których można się odwoływać

### Typ danych przechowywanych w każdej kolumnie

In [141]:
car_sales.dtypes 

Make             object
Colour           object
Odometer (KM)     int64
Doors             int64
Price            object
dtype: object

### Nazwy wszystkich kolumn

In [142]:
car_sales.columns 

Index(['Make', 'Colour', 'Odometer (KM)', 'Doors', 'Price'], dtype='object')

### Zakres indexów wierszy: start, stop (nie wchodzi więć -1), step

In [143]:
car_sales.index 

RangeIndex(start=0, stop=10, step=1)

### Podstawowe informacje na temat DataFrame'u

In [144]:
car_sales.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Make           10 non-null     object
 1   Colour         10 non-null     object
 2   Odometer (KM)  10 non-null     int64 
 3   Doors          10 non-null     int64 
 4   Price          10 non-null     object
dtypes: int64(2), object(3)
memory usage: 528.0+ bytes


### Dane statystyczne dla kolumn numerycznych

In [145]:
car_sales.describe()

Unnamed: 0,Odometer (KM),Doors
count,10.0,10.0
mean,78601.4,4.0
std,61983.471735,0.471405
min,11179.0,3.0
25%,35836.25,4.0
50%,57369.0,4.0
75%,96384.5,4.0
max,213095.0,5.0


### Średnie wartości dla kolumn numerycznych

In [146]:
car_sales.mean(numeric_only=True)

Odometer (KM)    78601.4
Doors                4.0
dtype: float64

### Zsumowanie wszystkich wartości przechowywanych w danej kolumnie (bez znaczenia, czy są to dane numeryczne, czy nie)

In [147]:
car_sales.sum() 

Make             ToyotaHondaToyotaBMWNissanToyotaHondaHondaToyo...
Colour               WhiteRedBlueBlackWhiteGreenBlueBlueWhiteWhite
Odometer (KM)                                               786014
Doors                                                           40
Price            $4,000.00$5,000.00$7,000.00$22,000.00$3,500.00...
dtype: object

### zsumowanie wszystkich komórek danej kolumny

In [148]:
car_sales['Doors'].sum()

np.int64(40)

# Wybieranie oraz przeglądanie danych

## Podstawy

In [149]:
car_sales.head() # domyślnie wyświetla 5 pierszych wierszy

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"


In [150]:
car_sales.tail() # domyślnie wyświetla 5 ostatnich wierszy

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


In [151]:
car_sales.loc[5] # wyświetlenie wszystkich komórek wiersza o zadanym indexie

Make                Toyota
Colour               Green
Odometer (KM)        99213
Doors                    4
Price            $4,500.00
Name: 5, dtype: object

## .loc vs .iloc

In [152]:
animals = pd.Series(['cat', 'dog', 'bird', 'panda', 'snake'], 
                   index=[0, 3, 9, 8, 3])
animals

0      cat
3      dog
9     bird
8    panda
3    snake
dtype: object

In [153]:
animals.loc[3] # odnosi się do indexów

3      dog
3    snake
dtype: object

In [154]:
animals.iloc[3] # odnosi sie do pozycji wiersza w tabeli (liczonej od 0), która nie musi być taka jak index

'panda'

In [155]:
animals.iloc[:3] # list slicing dla iloc[]

0     cat
3     dog
9    bird
dtype: object

## Odwoływanie się do danej kolumny
- w 'DataFrame'ie' sposób odwoływania się do kolumn ma znaczenie. W zależności od metody odwołania zwrócona może zostać 'Series' (jeden wymiar) lub kolejny 'DataFrame' (dwa wymiary). Ma to znaczenie przy różnych późniejszych operacjach na danych, a różnicę w dostępie do danych stanowi odpowiednia liczba nawiasów,

In [156]:
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"


### OPCJA-1: zwrócenie 'Series' z 'DataFrame' (pojedynczy nawias)

In [157]:
print(type(car_sales['Make'])) # Series
car_sales['Make']              # pierwszy sposób odwołania

<class 'pandas.core.series.Series'>


0    Toyota
1     Honda
2    Toyota
3       BMW
4    Nissan
5    Toyota
6     Honda
7     Honda
8    Toyota
9    Nissan
Name: Make, dtype: object

In [158]:
print(type(car_sales.Make)) # Series
car_sales.Make              # drugi sposób odwołania

<class 'pandas.core.series.Series'>


0    Toyota
1     Honda
2    Toyota
3       BMW
4    Nissan
5    Toyota
6     Honda
7     Honda
8    Toyota
9    Nissan
Name: Make, dtype: object

### OPCJA-2: zwrócenie 'DataFrame' z 'DataFrame' (podwójny nawias)
- podwójny nawias jest tak naprawdę listą kolumn, które przekazujemy podczas odwołania,
- kolejność przekazywanych kolumn może być dowolna, co tworzy duże możliwości manipulacji DataFrame'em, 

In [159]:
print(type(car_sales[['Make']])) # DataFrame
car_sales[['Make']]              # jedna kolumna

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Make
0,Toyota
1,Honda
2,Toyota
3,BMW
4,Nissan
5,Toyota
6,Honda
7,Honda
8,Toyota
9,Nissan


In [160]:
print(type(car_sales[['Make', 'Price']])) # DataFrame
car_sales[['Make', 'Price', 'Doors']]     # trzy kolumny

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Make,Price,Doors
0,Toyota,"$4,000.00",4
1,Honda,"$5,000.00",4
2,Toyota,"$7,000.00",3
3,BMW,"$22,000.00",5
4,Nissan,"$3,500.00",4
5,Toyota,"$4,500.00",4
6,Honda,"$7,500.00",4
7,Honda,"$7,000.00",4
8,Toyota,"$6,250.00",4
9,Nissan,"$9,700.00",4


## Boolen indexing
- działa praktycznie ze wszystkimi operatorami dostępnymi w pythonie, takimi jak np. '<', '>', '==', itd.

In [161]:
car_sales['Make'] == 'Toyota'  # zwrócenie wartości logicznej, jeżeli warunek został spełniony dla danej komórki

0     True
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8     True
9    False
Name: Make, dtype: bool

In [162]:
car_sales[car_sales['Make'] == 'Toyota'] # w zależności od wartości logicznej wyświetlenie konkretnego wiersza

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
5,Toyota,Green,99213,4,"$4,500.00"
8,Toyota,White,60000,4,"$6,250.00"


In [163]:
car_sales[car_sales['Odometer (KM)'] > 100000] # przykład operatora '>'

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
4,Nissan,White,213095,4,"$3,500.00"


## Takie jakieś ciekawostki 

In [164]:
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


In [165]:
pd.crosstab(car_sales['Make'], car_sales['Doors']) # zestawienie ze sobą dwóch kolumn - lepiej na to spojrzeć i pomyśleć

Doors,3,4,5
Make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BMW,0,0,1
Honda,0,3,0
Nissan,0,2,0
Toyota,1,3,0


In [166]:
car_sales.groupby(['Make']).mean(numeric_only=True)

Unnamed: 0_level_0,Odometer (KM),Doors
Make,Unnamed: 1_level_1,Unnamed: 2_level_1
BMW,11179.0,5.0
Honda,62778.333333,4.0
Nissan,122347.5,4.0
Toyota,85451.25,3.75


# Manipulacja danymi

## Nadpisywanie kolumn
- nadpisywanie całych kolumn odbywa się w taki sam sposób jak nadpisywanie zmiennych w programowaniu,
- niektóre funkcje posiadają parametr 'inplace', który nadpisuje starą kolumnę, ale nie trzeba wtedy wykorzystywać 'nadpisywania zmiennej' ---> patrz sekcja 'Praca z brakującymi danymi' -> tam to jest zakomentowane

In [167]:
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


In [168]:
car_sales['Odometer (KM)'] = car_sales['Odometer (KM)'] + 0.999 # modyfikacja wszystkich wartości kolumny 'Odomenter (KM)'
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043.999,4,"$4,000.00"
1,Honda,Red,87899.999,4,"$5,000.00"
2,Toyota,Blue,32549.999,3,"$7,000.00"
3,BMW,Black,11179.999,5,"$22,000.00"
4,Nissan,White,213095.999,4,"$3,500.00"
5,Toyota,Green,99213.999,4,"$4,500.00"
6,Honda,Blue,45698.999,4,"$7,500.00"
7,Honda,Blue,54738.999,4,"$7,000.00"
8,Toyota,White,60000.999,4,"$6,250.00"
9,Nissan,White,31600.999,4,"$9,700.00"


## Praca na stringach
- aby pracować na stringach znajdujacych się w polach danej kolumny należy skorzystać z interface'u tekstowego, do którego dostaje się poprzez użycie operatora 'str'

In [169]:
car_sales['Make'] = car_sales['Make'].str.lower() # zamiana na małe litery
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,toyota,White,150043.999,4,"$4,000.00"
1,honda,Red,87899.999,4,"$5,000.00"
2,toyota,Blue,32549.999,3,"$7,000.00"
3,bmw,Black,11179.999,5,"$22,000.00"
4,nissan,White,213095.999,4,"$3,500.00"
5,toyota,Green,99213.999,4,"$4,500.00"
6,honda,Blue,45698.999,4,"$7,500.00"
7,honda,Blue,54738.999,4,"$7,000.00"
8,toyota,White,60000.999,4,"$6,250.00"
9,nissan,White,31600.999,4,"$9,700.00"


In [170]:
car_sales['Colour'] = car_sales['Colour'].str.upper() # zamiana na wielkie litery
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,toyota,WHITE,150043.999,4,"$4,000.00"
1,honda,RED,87899.999,4,"$5,000.00"
2,toyota,BLUE,32549.999,3,"$7,000.00"
3,bmw,BLACK,11179.999,5,"$22,000.00"
4,nissan,WHITE,213095.999,4,"$3,500.00"
5,toyota,GREEN,99213.999,4,"$4,500.00"
6,honda,BLUE,45698.999,4,"$7,500.00"
7,honda,BLUE,54738.999,4,"$7,000.00"
8,toyota,WHITE,60000.999,4,"$6,250.00"
9,nissan,WHITE,31600.999,4,"$9,700.00"


## Praca z brakującymi danymi
- puste pola opisywane są jako 'NaN',
- zaprezentowanie działania parametru 'inplace', 

In [171]:
car_sales_missing = pd.read_csv('car-sales-missing-data.csv')
car_sales_missing 

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,,4.0,"$4,500"
6,Honda,,,4.0,"$7,500"
7,Honda,Blue,,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


### Puste komórki w kolumnie numerycznej
- jeżeli kolumna, w której występują puste komórki przechowuje dane numeryczne, to w te puste miejsca można wpisać uśrednioną wartość wszystkich wypełnionych komórek,

In [172]:
car_sales_missing['Odometer'].mean() # wartość średnia

np.float64(92302.66666666667)

In [173]:
car_sales_missing['Odometer'].fillna(car_sales_missing['Odometer'].mean()) # wypełnienie pustych miejsc wartością średnią

0    150043.000000
1     87899.000000
2     92302.666667
3     11179.000000
4    213095.000000
5     92302.666667
6     92302.666667
7     92302.666667
8     60000.000000
9     31600.000000
Name: Odometer, dtype: float64

In [174]:
car_sales_missing['Odometer'] = car_sales_missing['Odometer'].fillna(car_sales_missing['Odometer'].mean()) # nadpisanie kolumny
# car_sales_missing['Odometer'].fillna(car_sales_missing['Odometer'].mean(), inplace=True) # dzięki wykorzystaniu parametru 'inplace=True' nie trzeba wykonywwać klasycznego nadpisania
car_sales_missing

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"
6,Honda,,92302.666667,4.0,"$7,500"
7,Honda,Blue,92302.666667,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


### Usunięcie WYBRANYCH wierszy ze względu na pustą komórkę w danej kolumnie
- brak przeławania indexów ---> zostają widoczne dziury

In [175]:
car_sales_missing = car_sales_missing.dropna(subset=['Price']) # usunięcie wierszy, które w kolumnie 'Price' są 'NaN'
car_sales_missing

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"
6,Honda,,92302.666667,4.0,"$7,500"
9,,White,31600.0,4.0,"$9,700"


### Usunięcie WSZYSTKICH wierszy, w których występuje pusta komórka/komórki
- automatyczne przeładowanie indeksów

In [176]:
car_sales_missing = car_sales_missing.dropna() # usunięcie wszystkich wierszy z przynajmniej jednym polem 'NaN'
car_sales_missing

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"


## Dodawanie kolumn
- kolumny domyślnie dodają się po prawej stronie DataFrame'u,
- jeżeli rozmiar nowej kolumny nie jest zgodny z rozmiarem DataFrame'u, do którego jest dodawana, to taka operacja i tak zakończy się sukcesem - w niedopasowane miejsca zostaną utowrzone puste komórki - 'NaN', 

### Utworzenie nowej kolumny z 'Series'

In [177]:
seats_column = pd.Series([5, 5, 5, 5, 5])
car_sales['Seats'] = seats_column
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0
1,honda,RED,87899.999,4,"$5,000.00",5.0
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0
5,toyota,GREEN,99213.999,4,"$4,500.00",
6,honda,BLUE,45698.999,4,"$7,500.00",
7,honda,BLUE,54738.999,4,"$7,000.00",
8,toyota,WHITE,60000.999,4,"$6,250.00",
9,nissan,WHITE,31600.999,4,"$9,700.00",


In [178]:
car_sales['Seats'] = car_sales['Seats'].fillna(5) # uzupełnienie pustych komórek
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0
1,honda,RED,87899.999,4,"$5,000.00",5.0
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0
6,honda,BLUE,45698.999,4,"$7,500.00",5.0
7,honda,BLUE,54738.999,4,"$7,000.00",5.0
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0


### Utworzenie nowej kolumny z listy pythonowej

In [179]:
fuel_economy = [7.5, 9.2, 5.0, 9.6, 8.7, 4.7, 7.6, 8.7, 3.0, 4.5]
car_sales['Fuel per 100km'] = fuel_economy
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7
6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6
7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5


### Utworzenie nowej kolumny z już istniejącej kolumny

In [180]:
car_sales['Total fuel used'] = car_sales['Odometer (KM)'] / 100 * car_sales['Fuel per 100km']
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953
6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924
7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955


### Utworzenie nowej kolumny ze stałą wartością liczbową

In [181]:
car_sales['Number of wheels'] = 4 
car_sales['Passed road safety'] = True
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels,Passed road safety
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4,True
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4,True
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4,True
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4,True
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4,True
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953,4,True
6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924,4,True
7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913,4,True
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997,4,True
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955,4,True


## Usuwanie kolumn

In [182]:
car_sales = car_sales.drop('Passed road safety', axis=1)
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953,4
6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924,4
7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913,4
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997,4
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955,4


## Łączenie kolumn (DataFrame'ów)
- jest to bardzo przydatna operacja, która jest możliwa do wykonania jedynie poprzez skorzystanie z funkcji concat(),
- jeżeli liczba wierszy w obu DataFrame'ach się nie zgadza to i tak można je do siebie dodać. Brakujące komórki zostaną utworzone i wypełnione wartością 'NaN' (czyli brak wartości)

In [183]:
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4


In [184]:
# nowy DataFrame
new_df = pd.DataFrame({
    'New column nr 1': [num for num in range(10, 20)],
    'New column nr 2': [num for num in range(20, 30)]
})
new_df

Unnamed: 0,New column nr 1,New column nr 2
0,10,20
1,11,21
2,12,22
3,13,23
4,14,24
5,15,25
6,16,26
7,17,27
8,18,28
9,19,29


In [185]:
# połączenie dwóch DataFrame'ów ze względu na oś kolumn (OY)
final_df = pd.concat([car_sales, new_df], axis=1)
final_df

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels,New column nr 1,New column nr 2
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4,10,20
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4,11,21
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4,12,22
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4,13,23
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4,14,24
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953,4,15,25
6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924,4,16,26
7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913,4,17,27
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997,4,18,28
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955,4,19,29


# Przetasowanie danych
- podczas tworzenie zbiorów danych, na których będzie trenowany nasz model (treningowy, walidacyjny, testowy) należy najpierw wymieszać cały zbiór podstawowy ze względu na indexy wierszy. Taka operacja jest wymagana ze względu na zniszczenie potencjalnych wzorców, które mogę istnieć w zbiorze podstawowym. W wyniku podziału niektóre wzorce mogłyby trafić np. tylko do zbioru treningowego, co zaburzyłoby proces treningu modelu, ponieważ pozostałe zbiory (walidacyjny oraz testowy) nie rozpoznawałyby wyuczonych wcześniej wzorów,
- takie podejście nie jest praktykowane w każdym przypadku, np. przy szeregach czasowych, 

In [186]:
car_sales_shuffled = car_sales.sample(frac=1) # frac=1 -> 1 = 100% danych, 0.3 = 30% danych, itd.
car_sales_shuffled # sample() -> wycięcie danego procenta danych ze zbioru podstawowego oraz ich przetasowanie

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913,4
5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953,4
1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4
6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924,4
8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997,4
0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4
9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955,4
4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4
2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4
3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4


## Ujednolicenie indexów wierszy 
- po przetasowaniu danych indexy wierszy nie są w kolejności od najmniejszego do największego, więc należy je ujednolicić, aby dalsze przetwarzanie danych było łatwiejsze,

In [187]:
car_sales_shuffled = car_sales_shuffled.reset_index()
car_sales_shuffled

Unnamed: 0,index,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
0,7,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913,4
1,5,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953,4
2,1,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4
3,6,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924,4
4,8,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997,4
5,0,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4
6,9,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955,4
7,4,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4
8,2,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4
9,3,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4


- nowa kolumna z indexami dodaje się automatycznie po lewej stronie DataFrame'u,
- jednak stare, porozrzucane indexy ze starej kolumny same nie znikają. Trzeba usunąć tą kolumnę, a można to zrobić na dwa sposoby:

In [188]:
car_sales_shuffled = car_sales_shuffled.drop('index', axis=1) # standardowe rozwiązanie
car_sales_shuffled
# car_sales_shuffled = car_sales_shuffled.reset_index(drop=True) # nadpisanie starej kolumny już w momencie mieszania wierszy

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
0,honda,BLUE,54738.999,4,"$7,000.00",5.0,8.7,4762.292913,4
1,toyota,GREEN,99213.999,4,"$4,500.00",5.0,4.7,4663.057953,4
2,honda,RED,87899.999,4,"$5,000.00",5.0,9.2,8086.799908,4
3,honda,BLUE,45698.999,4,"$7,500.00",5.0,7.6,3473.123924,4
4,toyota,WHITE,60000.999,4,"$6,250.00",5.0,3.0,1800.02997,4
5,toyota,WHITE,150043.999,4,"$4,000.00",5.0,7.5,11253.299925,4
6,nissan,WHITE,31600.999,4,"$9,700.00",5.0,4.5,1422.044955,4
7,nissan,WHITE,213095.999,4,"$3,500.00",5.0,8.7,18539.351913,4
8,toyota,BLUE,32549.999,3,"$7,000.00",5.0,5.0,1627.49995,4
9,bmw,BLACK,11179.999,5,"$22,000.00",5.0,9.6,1073.279904,4


# Wykorzystanie customowej funkcji do modyfikacji kolumny
- chyba standardem jest w tym miejscu korzystanie z lambdy, ale możliwe jest też zdefiniowanie własnej funkcji, 

In [189]:
# car_sales_shuffled['Odometer (KM)'] = car_sales_shuffled['Odometer (KM)'].apply(lambda x: x / 1.6) # lambda

In [190]:
def func(field):
    return field / 1.6

car_sales_shuffled['Odometer (KM)'] = car_sales_shuffled['Odometer (KM)'].apply(func)
car_sales_shuffled
# opis działania funkcji 'apply()':
# zabiera ona referencję do zdefiniowanej funkcji. Zdefiniowana funkcja przyjmuje argument, a jest nim jedna 
# komórka, czyli ta funkcja jest wykonywana tyle razy ile komórek w danej kolumnie. Na każdej komórce
# zachodzi operacja i następnie jest ona zwracana i nadpisuje swój stary odpowiednik, 

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
0,honda,BLUE,34211.874375,4,"$7,000.00",5.0,8.7,4762.292913,4
1,toyota,GREEN,62008.749375,4,"$4,500.00",5.0,4.7,4663.057953,4
2,honda,RED,54937.499375,4,"$5,000.00",5.0,9.2,8086.799908,4
3,honda,BLUE,28561.874375,4,"$7,500.00",5.0,7.6,3473.123924,4
4,toyota,WHITE,37500.624375,4,"$6,250.00",5.0,3.0,1800.02997,4
5,toyota,WHITE,93777.499375,4,"$4,000.00",5.0,7.5,11253.299925,4
6,nissan,WHITE,19750.624375,4,"$9,700.00",5.0,4.5,1422.044955,4
7,nissan,WHITE,133184.999375,4,"$3,500.00",5.0,8.7,18539.351913,4
8,toyota,BLUE,20343.749375,3,"$7,000.00",5.0,5.0,1627.49995,4
9,bmw,BLACK,6987.499375,5,"$22,000.00",5.0,9.6,1073.279904,4


# Zmiana nazwy kolumny

In [191]:
car_sales_shuffled = car_sales_shuffled.rename(columns={'Odometer (KM)': 'Odomenter (mi)'})
car_sales_shuffled

Unnamed: 0,Make,Colour,Odomenter (mi),Doors,Price,Seats,Fuel per 100km,Total fuel used,Number of wheels
0,honda,BLUE,34211.874375,4,"$7,000.00",5.0,8.7,4762.292913,4
1,toyota,GREEN,62008.749375,4,"$4,500.00",5.0,4.7,4663.057953,4
2,honda,RED,54937.499375,4,"$5,000.00",5.0,9.2,8086.799908,4
3,honda,BLUE,28561.874375,4,"$7,500.00",5.0,7.6,3473.123924,4
4,toyota,WHITE,37500.624375,4,"$6,250.00",5.0,3.0,1800.02997,4
5,toyota,WHITE,93777.499375,4,"$4,000.00",5.0,7.5,11253.299925,4
6,nissan,WHITE,19750.624375,4,"$9,700.00",5.0,4.5,1422.044955,4
7,nissan,WHITE,133184.999375,4,"$3,500.00",5.0,8.7,18539.351913,4
8,toyota,BLUE,20343.749375,3,"$7,000.00",5.0,5.0,1627.49995,4
9,bmw,BLACK,6987.499375,5,"$22,000.00",5.0,9.6,1073.279904,4
