# 2.8. Wzorce pisania kodu

Jupyter Notebook jest dość wygodnym narzędziem to interaktywnego pisania kodu na potrzeby Data Science. Nie jest niestety najlepszym wyborem jeśli chodzi o tworzenie kodu produkcyjnego. Przenoszenie logiki do modułów jest czymś co powinno być dość często rozważone, zwłaszcza jeśli pracujemy w większym zespole. Są to jednak dobre praktyki programowania w ogólności.

## Zarządzanie pamięcią

Pandas nie jest biblioteką, która optymalnie zarządza pamięcią z automatu. To od użytkownika wymaga się znajomości swoich danych i korzystanie z funkcjonalności biblioteki w odpowiedni sposób. 

In [1]:
import pandas as pd

In [2]:
pd.read_csv("./data/2_6_orders.csv", index_col=0, 
            parse_dates=["datetime"]) \
    .info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   customer_id  10 non-null     int64         
 1   item_id      10 non-null     object        
 2   datetime     10 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 320.0+ bytes


In [3]:
pd.read_csv("./data/2_6_orders.csv", index_col=0, 
            parse_dates=["datetime"]) \
    .astype({"customer_id": "int16"}) \
    .info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   customer_id  10 non-null     int16         
 1   item_id      10 non-null     object        
 2   datetime     10 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int16(1), object(1)
memory usage: 260.0+ bytes


Pliki CSV są plikami tekstowymi i nie zawierają w sobie informacji o typie poszczególnych kolumn. Jeśli zamierzamy zapisywać pośrednie wyniki, to warto rozważyć wykorzystanie innego formatu oferowanego przez pandas. Osobiście preferuję format [parquet](https://parquet.apache.org/), który jest wspierany przez ekosystem Hadoop.

In [5]:
pd.read_csv("./data/2_6_orders.csv", index_col=0, 
            parse_dates=["datetime"], 
            dtype={"customer_id": "int16"}) \
    .to_parquet("./data/2_8_orders.parquet")

In [6]:
pd.read_parquet("./data/2_8_orders.parquet") \
    .info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   customer_id  10 non-null     int16         
 1   item_id      10 non-null     object        
 2   datetime     10 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int16(1), object(1)
memory usage: 260.0+ bytes


## Metody wykonywane w miejscu

Kilkakrotnie skorzystaliśmy z wywołania funkcji pandas w trybie "inplace". Nazwa sugeruje, iż może to być wywołanie szybsze i bardziej wydajne, gdyż nie wymaga zaalokowanie nowego miejsca w pamięci. Niestety nie mamy gwarancji, że tak się stanie. Jest to tylko pewnego rodzaju zabieg, aby uniknąć wielokrotnego nadpisywania tej samej zmiennej.

In [8]:
orders_df = pd.read_parquet("./data/2_8_orders.parquet")
orders_df

Unnamed: 0,customer_id,item_id,datetime
0,485,ITEM-1,2019-07-14 16:00:00
1,769,ITEM-1,2019-03-25 07:00:00
2,769,ITEM-3,2019-04-10 07:00:00
3,485,ITEM-1,2019-04-11 01:00:00
4,769,ITEM-2,2019-06-03 14:00:00
5,485,ITEM-3,2019-06-14 18:00:00
6,769,ITEM-3,2019-04-08 00:00:00
7,769,ITEM-2,2018-04-17 03:00:00
8,769,ITEM-2,2018-07-02 19:00:00
9,213,ITEM-1,2019-05-23 11:00:00


In [11]:
orders_df.rename(columns={"datetime": "order_datetime"}, 
                 inplace=True)

In [12]:
orders_df

Unnamed: 0,customer_id,item_id,order_datetime
0,485,ITEM-1,2019-07-14 16:00:00
1,769,ITEM-1,2019-03-25 07:00:00
2,769,ITEM-3,2019-04-10 07:00:00
3,485,ITEM-1,2019-04-11 01:00:00
4,769,ITEM-2,2019-06-03 14:00:00
5,485,ITEM-3,2019-06-14 18:00:00
6,769,ITEM-3,2019-04-08 00:00:00
7,769,ITEM-2,2018-04-17 03:00:00
8,769,ITEM-2,2018-07-02 19:00:00
9,213,ITEM-1,2019-05-23 11:00:00


## *Method chaining*

Styl programowania oparty o łańcuchowe wywoływanie kolejnych metod jest zaledwie konwencją, a nie dobrą praktyką. Warto korzystać z niego w pewnych kwestiach, aby uniknąć tworzenia kolejnych zmiennych, które mogą dodatkowo spowodować ciągłe zaalokowanie pamięci, pomimo iż nie będziemy korzystać już z ich wartości.

In [24]:
pd.read_parquet("./data/2_8_orders.parquet") \
    .filter(["datetime"], axis="columns") \
    .agg(["min", "max"])

Unnamed: 0,datetime
min,2018-04-17 03:00:00
max,2019-07-14 16:00:00
