# Pandas DataFrame

În cadrul acestui tutorial, de cele mai multe ori, datele o să fie stocate în data frame-uri. Data frame-urile reprezintă o componentă extrem de puternică din Pandas și reprezintă practic o extensie a unui Series. Un DataFrame este practic un tabel de rânduri și coloane pe care putem ușor să îl restructurăm și să îl filtrăm.

| Index | Data |
| --- | --- |
| USA   | 1776 |
| CANADA   | 1876 |
| MEXICO   | 1821 |


Ce est mai sus, este un Series cu care ne-am obișnuit deja în care avem un index și anumite date.

| Index | Data |
| --- | --- |
| USA   | 1776 |
| CANADA   | 1876 |
| MEXICO   | 1821 |


| Index | Pop |
| --- | --- |
| USA   | 328 |
| CANADA   | 38 |
| MEXICO   | 126 |

| Index | GDP |
| --- | --- |
| USA   | 20.5 |
| CANADA   | 1.7 |
| MEXICO   | 1.22 |

Mai sus avem 3 Series care toate au același index. Ce putem face este să combinăm aceste Series deoarece au același index într-un singur tabel, tabel care poartă denumirea de DataFrame

| Index | Data | Pop | GDP |
| --- | --- | --- | --- |
| USA   | 1776 | 328 | 20.5 |
| CANADA   | 1876 | 38 | 1.7 |
| MEXICO   | 1821 | 126 | 1.22 |

În mare parte asta reprezintă un DataFrame, mai multe Series care au toate același index. DataFrame-urile reprezintă obiectul principal din Pandas cu care o să lucrăm deoarece sunt extrem de puternice. O să începem prin a crea un DataFrame dintr-un obiect Python. Pentru asta o să creem un array în numpy de numere generate random, dar înainte asta o să și setăm o rădăcină (seed) pentru aceste numere pentru a ne asigura că o să lucrăm cu același set de date

In [4]:
import numpy as np
import pandas as pd

In [5]:
np.random.seed(101)
my_data = np.random.randint(0, 101, (4, 3))

In [6]:
my_data

array([[95, 11, 81],
       [70, 63, 87],
       [75,  9, 77],
       [40,  4, 63]])

În codul de mai sus am creat un array bi-dimensional, iar acesta se poate observa că deja arată precum un tabel, având rânduri și coloane. Momentan acest tip de date este un array din NumPy, dar în putem modidica într-un data frame pentru pandas. Pentru a crea acest data frame trebuie să ne creem un index pentru început. Pentru acest index putem să îi atribuim valori care să reprezinte nume de state din America

In [1]:
my_index = ['CA', 'NY', 'AZ', 'TX']

Pentru coloane, să presupunem că acestea reprezintă anumite luni ale anului, și anume primele trei luni din an

In [2]:
my_columns = ['Jan', 'Feb', 'Mar']

Pentru a crea un DataFrame în pandas putem să utilizăm metoda `DataFrame()`. Această metodă are trei parametrii de bază, și anume data, index și columns. Pentru început o să îi oferim doar parametrul pentru data pentru a putea vedea ce anume se creează atunci când îi oferim un set de date și cum anume ne putem utiliza de variabilele my_index și my_columns pentru a crea un data frame cât mai accesibil

In [8]:
df = pd.DataFrame(my_data)
df

Unnamed: 0,0,1,2
0,95,11,81
1,70,63,87
2,75,9,77
3,40,4,63


Ceea ce este plăcut în Jupyter Notebook este faptul că rezultatul ne este afișat plăcut sub forma unui tabel. Din acest output se poate observa faptul că avem datele din variabila my_data într-un format sub formă de tabel. Din moment ce nu am oferit ceva date pentru partea de index sau de coloane, în mod automat Pandas le-a indexat începând de la valoarea 0, astfel pentru rânduri avem un număr de 4 valori (de la 0 la 3), iar pentru coloane, trei valori (de la 0 la 2). În continuare o să îi oferim și date pentru parametrul de index

In [9]:
df = pd.DataFrame(data=my_data, index=my_index)
df

Unnamed: 0,0,1,2
CA,95,11,81
NY,70,63,87
AZ,75,9,77
TX,40,4,63


În acest moment, index-ul default din pandas (cel care a fost creat anterior cu valori numerice) a fost înlocuit cu index-ul ce l-am oferit ca și input pentru parametrul de index. Pentru partea de coloane însă, Pandas încă le creează un index default cu valori numerice. Pentru a înlocui și valorile de la index-ul de coloane putem să îi oferim un set de valori pentru parametrul columns (acest set de valori în cazul de față o să fie variabila my_columns)

In [10]:
df = pd.DataFrame(data=my_data, index=my_index, columns=my_columns)
df

Unnamed: 0,Jan,Feb,Mar
CA,95,11,81
NY,70,63,87
AZ,75,9,77
TX,40,4,63


Din moment ce i-am oferit valori atât pentru index-ul de rânduri și coloane acuma avem un index setat care ne oferă mai multe informații despre ce anume conține acest data frame. Pentru situațiile în care dorim să aflăm mai multe informații despre un data frame putem să utilizăm metoda info(), metodă care o să ne returneze un set de informații referitoare la un data frame

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, CA to TX
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Jan     4 non-null      int64
 1   Feb     4 non-null      int64
 2   Mar     4 non-null      int64
dtypes: int64(3)
memory usage: 128.0+ bytes


Acesta este un mod de a crea un data frame, prin creearea acestuia de la 0. Am creat atât datele, cât și valorile pentru index-urile de rânduri și de coloane și le-am oferit ca și argumente pentru anumiți parametrii din cadrul metodei de creare a unui data frame. În mod realistic, de cele mai multe ori însă o să avem de aface cu date stocate deja într-un anumit format (de foarte multe ori aceste date fiind stocate în csv-uri), de aceea în continuare o să vedem cum anume putem crea un data frame citind date dintr-un fișier csv. Pentru a citi un fișier csv trebuie să utilizăm metoda din pandas denumită read_csv(). De notat că această metodă trebuie apelată împreună cu modulul pandas (adică cu prescurtarea pd). Prin urmare, codul o să arate de genul pd.read_csv()m unde pd reprezintă modului pandas (import pandas as pd). Pentru metoda read_csv() trebuie să îi oferim calea către acel fișier csv pe care dorim să îl citim

In [12]:
df = pd.read_csv('../data/03-Pandas/tips.csv')

Din moment ce am utilizat metoda de mai sus și i-am oferi calea către fișierul csv putem să afișăm datele din cadrul acelui data frame

In [13]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


Ce anume se poate observa în cadrul acestei metode este faptul că denumirile de coloane au fost trecute autoamt după header-ul din csv, adică după prima linie din cadrul fișierului, linie care reprezintă numele coloanelor. Prin acest procedeu nu mai trebuie să îi oferim ca și argument un set de valori pentru index-ul ce reprezintă coloanele. În ceea ce privește index-ul pentru rânduri, aceste sunt trecute automat ca și valori integer de la 0, cum se proceda în cazul în care nu se oferă nicio valoare pentru index.

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Ce este un data frame

        # Un data frame este o reprezentare sub formă de tabel a unui set de valori bi-dimenional

    2. Cum putem creea un data frame cu un set de date generat din NumPy

        np.random.seed(101)

        my_data = np.random.randint(0, 101, (4, 3))

        df = pd.DataFrame(data=my_data)

    3. Cum putem crea un data frame cu un set de date generat din NumPy pentru care să oferim și valori pentru index și coloane

        my_index = ['CA', 'NY', 'AZ', 'TX']

        my_columns = ['Jan', 'Feb', 'Mar']

        df = pd.DataFrame(data=my_data, index=my_index, columns=my_columns)

    4. Cum putem crea un data frame citind data dintr-un fișier csv

        df = pd.read_csv("../data/03-Pandas/tips.csv")