## Pandas Series - Part Two

În continuare o să ne uităm peste anumite opreații ce se pot realiza cu obiecte Series în Pandas. Pentru asta o să creem două dicționarii care o să reprezinte vânzările imaginare ale unei companii din 2 quartere.

In [2]:
import pandas as pd

In [1]:
q1 = {
    'Japan' : 80,
    'China' : 450,
    'India' : 200,
    'USA' : 250
}

q2 = {
    'Brazil' : 100,
    'China' : 500,
    'India' : 210,
    'USA' : 260
}

In [3]:
sales_q1 = pd.Series(q1)


In [4]:
sales_q2 = pd.Series(q2)

In [5]:
sales_q1

Japan     80
China    450
India    200
USA      250
dtype: int64

In [6]:
sales_q2

Brazil    100
China     500
India     210
USA       260
dtype: int64

Cu aceste două dicțioanrii am creat două obiecte de tip Series în Pandas. După cum am spus, putem să preluăm informații din acel Series pe baza index-ului

In [7]:
sales_q1['Japan']

80

Preluarea acestor informații utilizând index-ul acesta de string presupune că trebuie să trecem acest index exact cum este trecut în acel Series. Dacă trecem un nume de index care nu există în tabel (fie că în cazul de față este o țară care nu există sau se trec greșit o țară) o să primi o eroare. Pentru a vedea toate valorile ce sunt prezente într-un Series ca și index putem să utilizăm metoda 'keys()'

In [9]:
sales_q1.keys()

Index(['Japan', 'China', 'India', 'USA'], dtype='object')

În continuare o să trecvem peste anumite operații basic din Pandas ce se pot utiliza pentru 2 obiecte Series. Din moment ce aceste Series sunt create pe baza unui array din NumPy putem utiliza operații de tipul 'broadcast' (cum am văzut și la NumPy, putem aduna două array-uri). De exemplu, dacă dorim să afăm procentajul pentru fiecare valorea dintr-un Series putem foarte ușor să împărțim acel Series la 100

In [10]:
sales_q1 / 100

Japan    0.8
China    4.5
India    2.0
USA      2.5
dtype: float64

Ceea ce este util la un astfel de Series este faptul că atunci când realizăm anumite operații pe două obiecte Series o să ia în consiuderare acest index (acest string label ce este trecut ca și index). Dacă aruncăm o privire peste aceste două Series, observăm că în primul Series avem țara 'Japan', iar aceasta a fost înlocuită cu 'Brazil' în cel de-al doilea Series. Ce o să se întâmple dacă dorim să calculăm numărul total de vânzări de pe jumătatea de an? (adică sales_q1 + sales_q2)

In [11]:
sales_q1 + sales_q2

Brazil      NaN
China     950.0
India     410.0
Japan       NaN
USA       510.0
dtype: float64

Pandas este destul de deștept încât să facă match la elementele care au același index în ambele Series, iar cele care sunt diferite le pune valorea 'NaN'. Prin acest procedeu putem să vedem date care nu sunt prezente în ambele Series, care este un lucru bun. Totuși, este posibil ca în unele situații să dorim ca acele date să fie completate cu valorile care se găsesc în cadrul obiectului Series de unde face parte. Pentru a putea face asta, atunci trebuie să utilizăm metoda 'add()'. Pentru această metodă există un argumet denumit 'fill_value'. La acest argument trebui să îi specificăm cu ce valoare să înlocuiască elementele din celălat Series unde nu există date. De exemplu în sales_q1 avem Japan, dar nu avem și în sales_q1. Dacă pentru fill_values îi atribuim valoarea 0, atunci pentru sales_q2, pentru Japan o să înlocuiască cu valoarea 0 din momente ce nu există date pentru Japan

In [13]:
sales_q1.add(sales_q2, fill_value=0)

Brazil    100.0
China     950.0
India     410.0
Japan      80.0
USA       510.0
dtype: float64

Ceea ce trebuie reținut din aceste operații pe care le-am făcut este faptul că inițial aceste Series cu care am lucrat erau de tip integer, dar din moment ce am efectuat anumite operații pe baza lor, rezultatul final va fi convertit în float. Acest lucru este făcut automat de către Pandas, iar de cele mai multe ori nu o să ne încurce la calcule dacă avem numere de tip integer sau float. Pentru a verifica ce tip de date conține un Series se poate utiliza atributul 'dtype'

In [14]:
sales_q1.dtype

dtype('int64')

In [15]:
first_half = sales_q1.add(sales_q2, fill_value=0)

In [16]:
first_half.dtype

dtype('float64')

În cazul în care dorim să modificăm un tip de date, putem utiliza metoda 'astype()', metodă la care îi oferim ca și argument tipul de date la care dorim să convertim acest Series

In [17]:
first_half.astype(int)

Brazil    100
China     950
India     410
Japan      80
USA       510
dtype: int64

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum putem extrage date dintr-un Series utilizându-ne de string label ca și index

        sales_q1['Japan']

    2. Cum putem afișa toate valorile de label dintr-un Series

        sales_q1.keys()

    3. Cum putem aduna valorile din două Series (sau cum putem efectua operații aritmentice pe două Series)

        sales_q1 + sales_q2

            # valorile care nu sunt prezente în ambele Series o să fie înlocuite cu NaN

        sales_q1.add(sales_q2, fill_value=0)

            # valorile din sales_q1 ce nu sunt prezente în sales_q2 o să fie înlocuite cu valorea 0 (la fel se întâmplă și cu cele care sunt în sales_q2 dar nu sunt în sales_q1)

    4. Cum putem verifica ce tip de date reține un Series

        sales_q1.dtype

    5. Cum putem modifica tipul de date ce este reținut într-un Series

        sales_q1.astype(float)