# Pandas
## Podstawowe typy danych

In [1]:
import pandas as pd

### Series

Series, czyli szereg, jest typem danych, który można interpretować jako pojedyncza kolumna w tabeli - ma nazwę oraz listę wartości. Nazwa nie jest obowiązkowa.

Dokumentacja:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [2]:
my_list = [8, 2, -3, 0, 1]

pd.Series(my_list)

0    8
1    2
2   -3
3    0
4    1
dtype: int64

In [3]:
my_series = pd.Series(my_list)

type(my_series)

pandas.core.series.Series

In [4]:
my_series.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
my_series.values

array([ 8,  2, -3,  0,  1])

In [6]:
my_series.dtype

dtype('int64')

Indeksy szeregu można zmienić. Domyślnie są to liczby całkowite 0, 1, 2, ...

In [7]:
index_labels = ["a", "b", "c", "d", "e"]

pd.Series(my_list, index=index_labels)

a    8
b    2
c   -3
d    0
e    1
dtype: int64

In [8]:
pd.Series(my_list, index=index_labels).index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

---
Series można utworzyć również z wektora numpy

In [9]:
import numpy as np 
array = np.array([5, 6, 7, 8, 9])
pd.Series(array)

0    5
1    6
2    7
3    8
4    9
dtype: int64

Series może zawierać różne typy danych, również stringi

In [10]:
pd.Series(["a", "b", "c", "d", "e"])

0    a
1    b
2    c
3    d
4    e
dtype: object

### DataFrame

DataFrame to typ danych, który można utożsamić z tabelą. Każda jej kolumna to odrębny Series.

Dokumentacja:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

Istnieje kilka sposobów na utworzenie data frame'a. Można zrobić to na przykład na bazie słownika. Listy, które stanowią wartości słownika to kolumny a nie wiersze.

In [11]:
my_dict = {"a": [12, 23, 34], "b": [45, 56, 67]}

my_df = pd.DataFrame(my_dict)
my_df

Unnamed: 0,a,b
0,12,45
1,23,56
2,34,67


In [12]:
type(my_df)

pandas.core.frame.DataFrame

Możemy również zdefiniować indeks df-a (analogicznie jak dla series)

In [13]:
my_df = pd.DataFrame(my_dict, index=[1, 2, 3])
my_df

Unnamed: 0,a,b
1,12,45
2,23,56
3,34,67


In [14]:
my_df.index

Index([1, 2, 3], dtype='int64')

In [15]:
my_df.values

array([[12, 45],
       [23, 56],
       [34, 67]])

---

Typ DataFrame jest najczęściej wykorzystywany do analizy danych tabelarycznych. Jeśli chcemy analizować takie dane to zwykle mamy je dostarczone, np. w pliku o rozszerzeniu .csv (comma separated values). Wykorzystajmy dołączony plik .csv żeby utworzyć DataFrame

In [16]:
df = pd.read_csv("data/cars.csv")   # więcej info w dokumentacji --> https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [17]:
df.head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
2,7900,PLN,Fiat,Auta małe,1242.0,Benzyna,Przód,69.0,True,2012,Polska,2610000.0,Szary,Fiat Panda 1.2,2021-02-28 12:50:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00


In [18]:
df.head(7)

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
2,7900,PLN,Fiat,Auta małe,1242.0,Benzyna,Przód,69.0,True,2012,Polska,2610000.0,Szary,Fiat Panda 1.2,2021-02-28 12:50:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
5,19400,PLN,BMW,Kombi,2497.0,Benzyna+LPG,Tył,177.0,True,2005,Niemcy,274000.0,Czarny,BMW Seria 5 523i,2021-02-28 12:52:00
6,106600,PLN,Renault,SUV,1332.0,Benzyna,Przód,140.0,False,2020,Polska,7.0,Szary,Renault Kadjar 1.3,2021-02-28 12:56:00


In [19]:
df.tail()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
99995,83990,PLN,Ford,Kombi,1499.0,Diesel,Przód,120.0,True,2020,,5.0,Srebrny,Ford Focus,2021-04-21 14:58:00
99996,7400,PLN,Audi,Kombi,1781.0,Benzyna,Przód,125.0,True,1999,Niemcy,259000.0,Niebieski,Audi A4 Avant,2021-04-21 19:45:00
99997,30000,PLN,BMW,Sedan,3901.0,Diesel,Tył,245.0,False,1999,,307000.0,Inny kolor,BMW Seria 7 740d,2021-04-21 15:53:00
99998,69000,PLN,Peugeot,Auta małe,1199.0,Benzyna,Przód,101.0,True,2020,,1000.0,Biały,Peugeot 208 PureTech,2021-04-21 13:42:00
99999,18000,PLN,Volkswagen,Sedan,1390.0,Benzyna,Przód,140.0,True,2007,Szwajcaria,165600.0,Szary,Volkswagen Touran 1.4,2021-04-21 13:03:00


In [20]:
type(df)

pandas.core.frame.DataFrame

###### Zadanie 1

(czas: 2 min.)

---

Utwórz listę liczb a następnie na jej podstawie utwórz szereg. Przypisz mu jako indeks liczby całkowite rozpoczynające się od 1.

In [21]:
# ...

###### Zadanie 2

(czas: 4 min.)

---

Utwórz słownik zawierający kilka kluczy typu `str`, pod którymi znajdą się listy wartości liczbowych. Na podstawie tego słownika utwórz data frame.

In [22]:
# ...

###### Zadanie 3:

(czas: 4 min.)

---

Wczytaj data frame z pliku `cars.csv` wybierając za pomocą parametru `usecols` jedynie kolumny `price`, `drive` oraz `gearbox_is_manual`. Sprawdź co się stanie jeśli zmienisz separator (parametr `sep`) na średnik.

Możesz skorzystać z dokumentacji funkcji `read_csv`.

In [23]:
# ...

## Badanie zawartości dataframe'a
Data frame'y zawierają zwykle duże ilości danych. Żeby lepiej zrozumieć, co kryje się wewnątrz, stosujemy pewne metody pozwalające podsumować zawarte tam informacje.

### Podstawowe informacje na temat dataframe'a

In [24]:
df.shape       # ile wierszy, ile kolumn

(100000, 15)

In [25]:
len(df)        # długość, czyli liczba wierszy

100000

In [26]:
df.columns     # "lista" kolumn

Index(['price', 'currency', 'brand', 'body', 'engine_vol', 'fuel', 'drive',
       'power', 'gearbox_is_manual', 'prod_year', 'orig_country', 'mileage',
       'color', 'title', 'offer_timestamp'],
      dtype='object')

In [27]:
df.index       # informacje o indeksie

RangeIndex(start=0, stop=100000, step=1)

In [28]:
df.dtypes      # dtypes czyli data types - typy danych poszczególnych kolumn

price                  int64
currency              object
brand                 object
body                  object
engine_vol           float64
fuel                  object
drive                 object
power                float64
gearbox_is_manual     object
prod_year              int64
orig_country          object
mileage              float64
color                 object
title                 object
offer_timestamp       object
dtype: object

In [29]:
df.isna()      # brakujące wartości

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False
99996,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
99997,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False
99998,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False


In [30]:
df.isna().sum()

price                    0
currency                 0
brand                    0
body                     0
engine_vol             699
fuel                     0
drive                19919
power                  672
gearbox_is_manual      607
prod_year                0
orig_country         44509
mileage                172
color                    0
title                    0
offer_timestamp          0
dtype: int64

In [31]:
df.isna().sum().sum()

np.int64(66578)

In [32]:
pd.isnull(132)

False

In [33]:
pd.isnull(np.nan)

True

In [34]:
pd.isnull(None)

True

In [35]:
pd.isnull("")

False

In [36]:
df.describe()      # dla kolumn numerycznych - statystyki opisowe: liczebność, średnia, odchylenie standardowe itp.

Unnamed: 0,price,engine_vol,power,prod_year,mileage
count,100000.0,99301.0,99328.0,100000.0,99828.0
mean,39499.09,1802.313904,136.591575,2010.93553,159446.6
std,143202.8,598.744998,54.965202,5.820637,409114.6
min,585.0,400.0,1.0,1900.0,1.0
25%,15400.0,1461.0,102.0,2007.0,93460.0
50%,26900.0,1686.0,129.0,2011.0,160004.5
75%,49500.0,1995.0,150.0,2015.0,215077.0
max,14320830.0,8200.0,1203.0,2021.0,123456800.0


In [37]:
df.memory_usage()  # pamięć zajmowana przez poszczególne kolumny (w bajtach)

Index                   132
price                800000
currency             800000
brand                800000
body                 800000
engine_vol           800000
fuel                 800000
drive                800000
power                800000
gearbox_is_manual    800000
prod_year            800000
orig_country         800000
mileage              800000
color                800000
title                800000
offer_timestamp      800000
dtype: int64

In [38]:
df.memory_usage().sum()

np.int64(12000132)

In [39]:
df.info()          # połączenie type(), .index, .isnull(), .dtypes oraz .memory_usage()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   price              100000 non-null  int64  
 1   currency           100000 non-null  object 
 2   brand              100000 non-null  object 
 3   body               100000 non-null  object 
 4   engine_vol         99301 non-null   float64
 5   fuel               100000 non-null  object 
 6   drive              80081 non-null   object 
 7   power              99328 non-null   float64
 8   gearbox_is_manual  99393 non-null   object 
 9   prod_year          100000 non-null  int64  
 10  orig_country       55491 non-null   object 
 11  mileage            99828 non-null   float64
 12  color              100000 non-null  object 
 13  title              100000 non-null  object 
 14  offer_timestamp    100000 non-null  object 
dtypes: float64(3), int64(2), object(10)
memory usage: 11

###### Zadanie 1

(czas: 5 min.)

---

Wykonaj powyżej przedstawione operacje na data framie utworzonym ręcznie w jednym z poprzednich zadań

In [40]:
# ...

### Wyciąganie kolumn, wierszy oraz pojedynczych wartości

***Wyciąganie pojedynczej kolumny***

In [41]:
df["mileage"]

0         175000.0
1         228000.0
2        2610000.0
3         138123.0
4         175962.0
           ...    
99995          5.0
99996     259000.0
99997     307000.0
99998       1000.0
99999     165600.0
Name: mileage, Length: 100000, dtype: float64

In [42]:
type(df["mileage"])

pandas.core.series.Series

In [43]:
df.mileage

0         175000.0
1         228000.0
2        2610000.0
3         138123.0
4         175962.0
           ...    
99995          5.0
99996     259000.0
99997     307000.0
99998       1000.0
99999     165600.0
Name: mileage, Length: 100000, dtype: float64

***Wyciąganie kilku kolumn***

In [44]:
df[["body", "color", "title"]]

Unnamed: 0,body,color,title
0,Sedan,Srebrny,Škoda RAPID
1,Kompakt,Biały,BMW Seria 1 116d
2,Auta małe,Szary,Fiat Panda 1.2
3,SUV,Szary,Kia Sportage 1.7
4,SUV,Biały,Kia Sportage
...,...,...,...
99995,Kombi,Srebrny,Ford Focus
99996,Kombi,Niebieski,Audi A4 Avant
99997,Sedan,Inny kolor,BMW Seria 7 740d
99998,Auta małe,Biały,Peugeot 208 PureTech


In [45]:
type(df[["body", "color", "title"]])

pandas.core.frame.DataFrame

In [46]:
df[["color"]]

Unnamed: 0,color
0,Srebrny
1,Biały
2,Szary
3,Szary
4,Biały
...,...
99995,Srebrny
99996,Niebieski
99997,Inny kolor
99998,Biały


In [47]:
type(df[["color"]])

pandas.core.frame.DataFrame

***Wyciąganie kolumn na podstawie ich typu***

In [48]:
df.select_dtypes(["float", "int"])

Unnamed: 0,price,engine_vol,power,prod_year,mileage
0,32900,1598.0,115.0,2017,175000.0
1,32500,1598.0,116.0,2012,228000.0
2,7900,1242.0,69.0,2012,2610000.0
3,39990,1685.0,115.0,2012,138123.0
4,42900,1685.0,115.0,2012,175962.0
...,...,...,...,...,...
99995,83990,1499.0,120.0,2020,5.0
99996,7400,1781.0,125.0,1999,259000.0
99997,30000,3901.0,245.0,1999,307000.0
99998,69000,1199.0,101.0,2020,1000.0


###### Zadanie 1

(czas: 2 min.)

---

Na podstawie wczytanego z pliku csv data frame'a utwórz mniejszy df zawierający jedynie kolumny `fuel`, `price`, `mileage` oraz `brand`

In [49]:
# ...

###### Zadanie 2

(czas: 1 min.)

---

Utwórz series zawierający dane, które znajdują się w kolumnie `offer_timestamp`

In [50]:
# ...

***Wyciąganie wierszy***

In [51]:
df.iloc[0]  # iloc - liczba porządkowa wiersza: wiersz zerowy, pierwszy, drugi itp.

price                              32900
currency                             PLN
brand                              Škoda
body                               Sedan
engine_vol                        1598.0
fuel                              Diesel
drive                              Przód
power                              115.0
gearbox_is_manual                   True
prod_year                           2017
orig_country                      Polska
mileage                         175000.0
color                            Srebrny
title                        Škoda RAPID
offer_timestamp      2021-02-28 12:53:00
Name: 0, dtype: object

In [52]:
df.iloc[4]

price                              42900
currency                             PLN
brand                                Kia
body                                 SUV
engine_vol                        1685.0
fuel                              Diesel
drive                              Przód
power                              115.0
gearbox_is_manual                   True
prod_year                           2012
orig_country                         NaN
mileage                         175962.0
color                              Biały
title                       Kia Sportage
offer_timestamp      2021-02-28 12:50:00
Name: 4, dtype: object

In [53]:
df.loc[4]  # loc - nazwa wiersza. W tym przypadku wiersze nazywają się tak samo ich numer porządkowy, 
           #        ale nie zawsze musi tak być. Zobacz poniższy przykład

price                              42900
currency                             PLN
brand                                Kia
body                                 SUV
engine_vol                        1685.0
fuel                              Diesel
drive                              Przód
power                              115.0
gearbox_is_manual                   True
prod_year                           2012
orig_country                         NaN
mileage                         175962.0
color                              Biały
title                       Kia Sportage
offer_timestamp      2021-02-28 12:50:00
Name: 4, dtype: object

In [54]:
small_df = pd.DataFrame({"a": [1, 2, 3], "b": [2, 3, 4]}, index=["one", "two", "three"])

In [55]:
small_df

Unnamed: 0,a,b
one,1,2
two,2,3
three,3,4


In [56]:
small_df.iloc[1]

a    2
b    3
Name: two, dtype: int64

In [57]:
small_df.loc["two"]

a    2
b    3
Name: two, dtype: int64

In [58]:
small_df.loc[1]

KeyError: 1

***Pojedyncze wartości oraz ich przedziały***

In [None]:
df["prod_year"].iloc[3]

In [None]:
df["prod_year"].loc[5]

In [None]:
df["prod_year"][5]

In [None]:
df.iloc[3, 9]

In [None]:
df.loc[3, "prod_year"]

In [None]:
df['prod_year'].iloc[4:8]

In [None]:
df['prod_year'].loc[4:8]

In [None]:
df[['prod_year', 'gearbox_is_manual']].loc[4:8]

###### Zadanie 3

(czas: 4 min.)

---

Wyciągnij z df-a element, który:

a) jest w kolumnie `price` i w wierszu o indeksie 5

b) jest w kolumnie `body` i w wierszu 10 z kolei

c) wszystkie dane znajdujące się w wierszach o indeksach 6-11 włącznie i w kolumnach `title` i `offer_timestamp`

In [None]:
# ...

###### Zadanie 4

(czas: 2 min.)

---

Wyciągnij z df-a wszystkie kolumny zawierające dane tekstowe

In [None]:
# ...

### Wartości unikalne oraz zliczanie wystąpień

###### `unique` oraz `nunique`

In [None]:
df['fuel'].nunique()

In [None]:
df['fuel'].unique()

In [None]:
df.nunique()

In [None]:
df.unique()

###### `value_counts`

In [None]:
df['currency'].value_counts()

In [None]:
df['fuel'].value_counts()

In [None]:
df['fuel'].value_counts(normalize=True)

In [None]:
df['brand'].value_counts()

In [None]:
df.value_counts()

In [None]:
df[["currency", "drive"]].value_counts()

###### `crosstab`

In [None]:
pd.crosstab(df["currency"], df["fuel"])

In [None]:
pd.crosstab(df["body"], df["drive"], normalize=True)

###### Zadanie 1

(czas: 4 min.)

---

Stwórz listę kilku wybranych nazw kolumn. Następnie w pętli `for` przeiteruj po wszystkich tych kolumnach i wypisz ile unikalnych wartości jest w danej kolumnie

In [None]:
# ...

###### Zadanie 2

(czas: 3 min.)

---

Zrób to samo co w poprzednim zadaniu, ale zamiast wypisywać liczbę unikalnych wartości wypisz ich rozkład wraz z liczebnością poszczególnych elementów

In [None]:
# ...

###### Zadanie 3

(czas: 2 min.)

---

Znajdź wartość, która najczęściej pojawia się w kolumnie `body`

In [None]:
# ...

### Filtrowanie na podstawie warunków logicznych

In [None]:
df["prod_year"]

In [None]:
df["prod_year"]==2012

In [None]:
df[df["prod_year"]==2012]

In [None]:
df[df["prod_year"]==2012]["body"]

In [None]:
df[df["prod_year"]==2012]["body"].value_counts()  # przy okazji sprawdźmy rozkład wartości

In [None]:
df[df["prod_year"]==2019]["body"].value_counts()

In [None]:
df[df["prod_year"]==1999]["body"].value_counts()

---

In [None]:
df[df["prod_year"] < 2016]

In [None]:
df[df["prod_year"] < 2016][["body"]]  # warto zwrócić uwagę na podwójne nawiasy - wynik to dataframe o jednej kolumnie a nie series

---

In [None]:
df[(df["prod_year"] < 2016) & (df["price"] > 100000)]    # łącząc warunki logiczne używamy spójników & oraz |

###### Zadanie 1

(czas: 2 min.)

---

Wyciągnij informacje o ofertach w których skrzynia biegów jest manualna

In [None]:
# ...

###### Zadanie 2

(czas: 2 min.)

---

Znajdź samochody z silnikiem diesla których przebieg jest mniejszy niż 50000

In [None]:
# ...

###### Zadanie 3

(czas: 2 min.)

---

Znajdź samochody marki "Toyota" lub takie, które mają napęd na przód

In [None]:
# ...

### Rysowanie wykresów

In [None]:
df["engine_vol"].hist()

In [None]:
df["engine_vol"].hist(figsize=(14, 8), bins=20, edgecolor='black')

In [None]:
pd.DataFrame({"a": [1, 2, 3, 4], "b": [2, 4, 3, 6]})["b"].plot(title="Column b")

In [None]:
pd.DataFrame({"a": [1, 2, 3, 4], "b": [2, 4, 3, 6]}).plot(title="Column b", marker='o', kind='scatter', x='a', y='b')

## Modyfikacje i transformacje
### Zmiana istniejących wartości

#### nadpisanie

In [None]:
df.loc[0, "engine_vol"] = 123

In [None]:
df.head()

#### `replace`

In [None]:
df.replace("Diesel", "Olej napędowy")

In [None]:
df.head()

In [None]:
df.replace({"Diesel": "Olej napędowy"})

In [None]:
df.replace("Diesel", "Olej napędowy", inplace=True)

In [None]:
df.head()

In [None]:
df["drive"].replace("Przód", "Przedni", inplace=True)

In [None]:
df.head()

#### `rename`

In [None]:
df.rename({'brand': 'marka', 'currency': 'waluta'}, axis='columns')  # axis=1

In [None]:
df.rename({'brand': 'marka', 'currency': 'waluta'}, inplace=True, axis='columns')

In [None]:
df.head()

In [None]:
df.rename({0: -1, 1: 0}, axis='index')  # axis='rows', axis=0

#### `fillna`

In [None]:
df.isna().sum()

In [None]:
df[df["gearbox_is_manual"].isna()]

In [None]:
df["gearbox_is_manual"].value_counts(dropna=False)

In [None]:
df["gearbox_is_manual"].fillna("brak danych", inplace=True)

In [None]:
df["gearbox_is_manual"].value_counts(dropna=False)

#### `dropna`

In [None]:
df2 = pd.DataFrame({"a": [None, None, 4, None], "b": [None, 1, 2, None], "c": [5, 6, 3, None]})
df2

In [None]:
df2.dropna()

In [None]:
df2

In [None]:
df2.dropna(subset=["b", "c"])

In [None]:
df2.dropna(how='all')  # 'any'

In [None]:
df2

In [None]:
df2.dropna(inplace=True)

In [None]:
df2

#### `drop`

In [None]:
df.head()

In [None]:
df.drop(["prod_year"], axis=1)

In [None]:
"prod_year" in df.columns

In [None]:
df.drop(["prod_year"], axis=1, inplace=True)

In [None]:
"prod_year" in df.columns

In [None]:
df.drop([1, 2], axis=0)  # 'rows'

#### `drop_duplicates`

In [None]:
df_ = pd.DataFrame({"a": [1, 2, 2, 3], "b": ["a", "b", "b", "c"], "c": [1.324, 2.2, 2.2, 3.542]})
df_

In [None]:
df_.drop_duplicates()

In [None]:
df_.drop_duplicates(ignore_index=True)

In [None]:
df_.drop_duplicates(inplace=True)
df_

#### `astype`

In [None]:
df["gearbox_is_manual"]

In [None]:
df["gearbox_is_manual"].astype("bool")

In [None]:
df["gearbox_is_manual"]

###### Zadanie 1

(czas: 2 min.)

---

Zmień nazwę kolumny `power` na `horsepower`

In [None]:
# ...

###### Zadanie 2

(czas: 2 min.)

---

Zamień wartości "brak danych" w kolumnie `gearbox_is_manual` na "no data"

In [None]:
# ...

###### Zadanie 3

(czas: 3 min.)

---

Utwórz pętlę for po wszystkich kolumnach w df-ie. Jeśli nazwa kolumny ma więcej niż 7 znaków - usuń kolumnę na stałe.

In [None]:
# ...

###### Zadanie 4

(czas: 2 min.)

---

Zamień brakujące wartości w całym df-ie na tekst "b.d."

In [None]:
# ...

###### Zadanie 5

(czas: 1 min.)

---

Wczytaj od nowa wyjściowy data frame aby nie brakowało żadnych wartości, które zostały usunięte lub podmienione

In [None]:
# ...

### Sortowanie
#### `sort_values`

In [None]:
df.sort_values("prod_year")

In [None]:
df.sort_values("prod_year")[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"])[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"], ascending=False)[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"], ascending=[False, True])[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"], ignore_index=True)[["prod_year", "price"]]

In [None]:
df.sort_values("prod_year", inplace=True)
df.head()

In [None]:
df.reset_index(drop=True, inplace=True)
df.head()

#### `sort_index`

In [None]:
df_ = pd.DataFrame({"a": [1, 2, 3, 4]}, index=[1, 0, 3, 2])
df_

In [None]:
df_.sort_index()

###### Zadanie 1

(czas: 2 min.)

---

Posortuj malejąco wiersze według wartości w kolumnach `power` oraz `mileage`. Nadpisz dataframe.

In [None]:
# ...

###### Zadanie 2

(czas: 1 min.)

---

Posortuj dataframe według rosnącego indeksu. Nadpisz go.

In [None]:
# ...

### Tworzenie nowych kolumn

In [None]:
df = pd.read_csv("data/cars.csv")

In [None]:
from datetime import datetime

current_year = datetime.now().year

In [None]:
df["age"] = current_year - df["prod_year"]

In [None]:
df.head()

In [None]:
df['km_per_year'] = df['mileage'] / df['age']
df.head()

In [None]:
df["new_column"] = pd.Series()
df["new_column_zeros"] = pd.Series([0]*len(df))

In [None]:
df.head()

***Dodawanie kolumny na konkretnej pozycji***

In [None]:
df.head()

In [None]:
df.insert(3, "price_twice", 2*df["price"])

In [None]:
df.head()

###### Zadanie 1

(czas: 3 min.)

---

Utwórz kolumnę `brand_and_body`, która będzie zawierać informacje o marce oraz typie nadwozia jednocześnie

In [None]:
# ...

### Operacje na całych kolumnach

In [None]:
df["power"].mean()

In [None]:
np.sqrt(df["price"])

In [None]:
np.exp(df["age"])

***`apply`***

Do wywoływania bardziej złożonych funkcji na wszystkich elementach kolumny służy metoda `apply`, którą często łączymy z wyrażeniami `lambda`  

In [None]:
df["prod_year"]

In [None]:
df["prod_year"].apply(np.sqrt)

In [None]:
def check_if_is_new(x):
    if datetime.now().year == x:
        return True
    else:
        return False

In [None]:
df["prod_year"].apply(check_if_is_new)   #.value_counts()

---

In [None]:
df['is_new'] = df['prod_year'].apply(lambda x: datetime.now().year == x)

df[["is_new", "prod_year"]].head(15)

***`apply` na całym df-ie***

In [None]:
def check_if_is_new_advanced(row):
    return int(row["offer_timestamp"][:4]) == row["prod_year"]

In [None]:
df.apply(check_if_is_new_advanced, axis=1)

In [None]:
df.apply(check_if_is_new_advanced, axis=1).value_counts()

***`apply` + funkcja z argumentami***

In [None]:
pd.Series([1.14242, 4.6254, 2, 2.54343])  #.apply(round, args=(2,))

###### Zadanie 1

(czas: 3 min.)

---

Za pomocą `apply` utwórz kolumnę `brand_short`, która będzie przechowywać pierwszą literę wartości z kolumny `brand` 

In [None]:
# ...

###### Zadanie 2

(czas: 3 min.)

---

Za pomocą `apply` utwórz kolumnę `power_twice`, która będzie zawierać przemnożoną przez 2 moc pojazdu

In [None]:
# ...

###### Zadanie 3

(czas: 6 min.)

---

Utwórz kolumnę `prod_year_after_2010` która będzie zawierać `True` jeśli data produkcji jest późniejsza niż 2010 albo `False` w przeciwnym wypadku. Niech ta kolumna będzie na pozycji o indeksie 1

In [None]:
# ...

## Pozostałe operacje na dataframe'ach
### Grupowanie i agregacja

In [None]:
df = pd.read_csv("data/cars.csv")

In [None]:
df.groupby("fuel")

In [None]:
df.groupby("fuel").count()

In [None]:
df.groupby("fuel").mean(numeric_only=True)

In [None]:
df.groupby(["fuel", "drive"]).mean(numeric_only=True)

In [None]:
df.groupby("fuel").agg('mean', numeric_only=True)

### Łączenie tabel

In [None]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])

In [None]:
s1

In [None]:
s2

In [None]:
pd.concat([s1, s2])

In [None]:
pd.concat([s1, s2], ignore_index=True)

---

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])

In [None]:
df1

In [None]:
df2

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], axis=1)

In [None]:
pd.concat([df1, df2], axis=0)

In [None]:
pd.concat([df1, df2], ignore_index=True)

### Wczytywanie dużych zbiorów danych

In [None]:
for chunk in pd.read_csv("data/cars.csv", chunksize=10000):
    print(chunk.shape)

In [None]:
chunk

### Typ datetime

In [None]:
df["offer_timestamp"]

In [None]:
offer_timestamp = pd.to_datetime(df["offer_timestamp"])

In [None]:
offer_timestamp

In [None]:
offer_timestamp.iloc[0]

In [None]:
print(offer_timestamp.iloc[0].year)
print(offer_timestamp.iloc[0].month)
print(offer_timestamp.iloc[0].day)
print(offer_timestamp.iloc[0].hour)
print(offer_timestamp.iloc[0].minute)
print(offer_timestamp.iloc[0].second)
print(offer_timestamp.iloc[0].weekday())  # 0 - monday, 6 - sunday