# Pandas DataFrame - Working with Rows

In [2]:
# importing the libraries
import numpy as np
import pandas as pd

In [3]:
# reading the csv file
df = pd.read_csv('../data/03-Pandas/tips.csv')

In [4]:
# prinring the first five rows of the data frame
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


În mod automat, atunci când citim un data frame cu pandas dintr-un fișier csv și nu specificăm un anumit index, atunci în mod automat acest index o să fie un range creat automat de numere integer îcepând de la 0 și se încheie în funcție de numărul total de rânduri din cadrul acelui data frame. De cele mai multe ori, acest index o să fie tot ce avem nevoie, mai ales când o să trecem și la partea de machine learning, dar există și anumite cazuri când dorim să facem un fel de analiză statistică sau poate pentru partea de vizulizare (ce o să învățăm în cadrul acestui curs) poate dorim să ne setăm acest index la o anumită valoare. Index-ul setat pentru aceste date o să reprezinte un identificator unic, ceea ce însemană că acest index trebuie să fie unic pentru fiecare rând în parte. Există și anumite situații când acest index nu este unicat (asta depinde și de tipul de date cu care lucrăm), dar de cele mai multe ori ar fi indicat ca acesta să fie unic, în special când o să se utilizeze aceste date pentru partea de machine learning. Acest range index ne asigură că fiecare index este unicat. 

În cadrul acestui data frame avem o coloană denumită 'Payment ID' care conține date unicate, prin urmare aceasta s-ar putea utiliza ca și index pentru acest data frame (știm că această coloană este unicată deoarece a fost creată de la 0 și ne-am asigurat că sunt toate valorile unicate). În acest moment dacă afișăm index-ul pentru acest data frame o să observăm că este un range

In [5]:
df.index

RangeIndex(start=0, stop=244, step=1)

După cum spuneam, putem utiliza coloana de 'Payment ID' ca și index. Pentru a crea un index dintr-o coloană existentă putem apela metoda set_index(). Pentru metoda respectivă trebuie să specificăm numele unei coloane care să reprezinte coloana care dorim să fie noul index pentru acest data frame.

In [6]:
df.set_index('Payment ID')

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
...,...,...,...,...,...,...,...,...,...,...
Sat2657,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950


În acest moment se poate observa că s-a trecut de la un număr de 11 coloane la un număr de 10 coloane. Modul în care Jupyter Notebook afișează datele din cadrul unui data frame este ca prima linie să fie toate coloanele (se poate observa că pe prima linie există un număr de 10 coloane, total_bill, tip, sex, etc), iar pe ce-a de a doua linie avem index-ul, index care acuma este reprezentat de coloana 'Payment ID'. Deși index-ul acuma arată ca și o coloană, acesta nu este considerat ca făcând parte din numărul total de coloane

De notat că această metodă nu face aceste modificări permanente, pentru a fi permanente trebuie să utilizăm argumnetul inplace=True sau să reasignăm outputul la un nou data frame

In [7]:
df = df.set_index('Payment ID')

In [8]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


Dacă cumva din greșeală acest index a fost setat greșit și dorim să refacem data frame-ul, atunci putem foarte ușor să resetăm index-ul pentru acesta. Pentru a face asta trebuie să apelăm metoda 'reset_index()'. Metoda respectivă nu are nevoie de niciun argument pentru a se rula

In [9]:
df.reset_index()

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
...,...,...,...,...,...,...,...,...,...,...,...
239,Sat2657,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842
240,Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
241,Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
242,Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950


Din moment ce metoda respectivă ne returnează un rezultat, asta înseamnă că aceste modificări nu sunt permanente și doar se afișează cum ar arăta noul data frame. Pentru a face aceste modificări permanente știm ce avem de făcut

In [10]:
# printing the first five rows to show that the reset of the index was NOT made
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [11]:
df = df.reset_index()

In [12]:
df.head()

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


Pentru a putea continua această parte din tutorial o să resetăm index-ul pentru coloana 'Payment ID'

In [13]:
df = df.set_index('Payment ID')

In [16]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


După cum am văzut în tutorialul precedent putem să extragem informațiile din cadrul unei coloane precum extragem date dintr-un dicționar, utilizând setul de paranteze drepte în care trecem numele coloanei de unde dorim să extragem informații (df['total_bill']). Pentru a putea extrage informații din cadrul unui rând avem 2 modalități. Putem să extragem informații pe baza locației de index sub formă de integer (adică pe baza indexului numeric), iar ce de a doua variantă este să extragem informații pe baza labelului de index. Pentru a extrage date pe baza indexului numeric o să utilizăm indexatorul 'iloc' (care practic provine de la index location). Pentru acesta o să oferim ca și argument o valoare integer care reprezintă numărul rândului pe care dorim să îl extragem.

In [17]:
df.iloc[0]

total_bill                       16.99
tip                               1.01
sex                             Female
smoker                              No
day                                Sun
time                            Dinner
size                                 2
price_per_person                  8.49
Payer Name          Christy Cunningham
CC Number             3560325168603410
Name: Sun2959, dtype: object

df.iloc[0] returnează primul rând din cadrul acestui data frame sub formă de Series. Prin acest indexator se pot prelua rânduri din cadrul uni DataFrame bazate pe index-ul numeric. Dacă dorim să preluăm date bazate pe index-ul de string label, atunci va trebuie să utilizăm indexatorul '.loc[]'. Acestui indexator trebuie să îi oferim ca și argument o valoare de string care reprezintă label-ul pentru index-ul din DataFrame. De exmemplu, pentru DataFrame-ul de mai sus index-ul este coloana 'Payment ID', prin urmare, ca să extragem informații pe baza acestui index trebuie să specificăm indexatorului 'loc[]' valori din cadrul acestei coloane

In [18]:
df.loc['Sun2959']

total_bill                       16.99
tip                               1.01
sex                             Female
smoker                              No
day                                Sun
time                            Dinner
size                                 2
price_per_person                  8.49
Payer Name          Christy Cunningham
CC Number             3560325168603410
Name: Sun2959, dtype: object

Modul de mai sus este modul prin care preluăm informații dintr-un singur rând. Pentru a extrage informații de pe mai multe rânduri există mai multe variante. Dacă extragem date utilizând indexatorul 'iloc[]' atunci putem să utilizăm sintaxa basic de slicing din Python

In [19]:
df.iloc[0:5]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


Atunci când dorim să extragem mai multe rânduri dintr-un DataFrame utilizând indexatorul 'loc[]' atunci putem face asta precum procedeul prin care extragem mai multe coloane, și anume prin oferirea unei liste de valori pentru acest indexator.

In [20]:
my_list = ['Sun2959', 'Sun4608', 'Sun4458', 'Sun5260', 'Sun2251']
df.loc[my_list]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [21]:
df.loc[['Sun2959', 'Sun4608', 'Sun4458', 'Sun5260', 'Sun2251']]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


Acum că am văzut cum anume putem să extragem date din rânduri din cadrul unui DataFrame, în cele ce urmează o să aruncăm o privire peste modul prin care putem insera sau șterge rânduri. Pentru a șterge un rând din cadrul acestui DataFrame putem utiliza aceași metodă 'drop()' ce am utilizat-o pentru a șterge coloane. Pentru cazul în care doream să ștergem coloane, la această metodă oferem ca și argument numele coloanei și ax-ul (axis=1) de pe care să se facă această ștergere. Din moment ce dorim să ștergem rânduri, în acest moment trebuie să îi oferim metodei numelei label-ului ce este la coloana de index. Pe lângă aceasta trebuie să specificăm că dorim să ștergem de pe axa rândurilor, adică axis=0

In [23]:
df.drop('Sun2959', axis=0)

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882
...,...,...,...,...,...,...,...,...,...,...
Sat2657,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950


De reținut din nou că această ștergere nu este permanentă dacă nu am reasignat DataFrame-ul sau dacă nu am utilizat argumentul inplace=True

In [24]:
df = df.drop('Sun2959', axis=0)

Ce trebuie reținut pentru partea de ștergere de rânduri dintr-un DataFrame este faptul că dacă avem un label trecut ca și index, atunci nu o să putem șterge un rând din acest DataFrame utilizând index-ul numeric al acelui rând, suntem obligați să oferim label-ul de string. Dacă se trece un index numeric, atunci codul o să rezulte cu o eroare

In [25]:
df = df.drop(1, axis=0)

KeyError: '[1] not found in axis'

Dacă totuși se dorește să se șteargă un anumit rând pe baza unui index numeric, atunci se poate folosi indexatorul 'iloc' pentru a selecta toate rândurile din acel data frame fără index-ul pe care nu îl dorim. De foarte multe ori este mai simplu în pandas să selectăm rândurile care ne interesează decât să ștergem rândurile de care nu avem nevoie.

In [26]:
df = df.iloc[1:]

Linia de cod de mai sus creează un nou DataFrame cu toate rândurile din acel DataFrame, fără primul rând

Pentru a adăuga un rând nou în cadrul unui DataFrame, atunci acesta trebuie să corespundă cu dimensiunile DataFrame-ului curent unde dorim să inserăm acest nou rând.

In [28]:
one_row = df.iloc[0]

In [29]:
one_row

total_bill                     21.01
tip                              3.5
sex                             Male
smoker                            No
day                              Sun
time                          Dinner
size                               3
price_per_person                 7.0
Payer Name            Travis Walters
CC Number           6011812112971322
Name: Sun4458, dtype: object

După cum se poate observa, un rând extras din cadrul unui DataFrame este un Series în care are elemente pentru fiecare dintre coloanele prezente în DataFrame. Așa trebuie să fie și un rând nou pe care dorim să îl introducem, nu putem să introducem valori doar pentru coloana 'total_bill' de exemplu, iar pentru restul să nu oferim nicio valoare. Ce trebuie să facem este să ne asigurăm că rând-ul pe care dorim să îl introducem trebuie să aibă un index identic (cel puțin numărul să fie la fel, dar se recomandă ca și ordinea să fie aceeași) precum un Series al unui rând din DataFrame

Acel rând pe care l-am extras din DataFrame putem să îl introducem în DataFrame. Pentru a îl introduce trebuie să utilizăm metoda '.append()'

In [30]:
df.append(one_row)

  df.append(one_row)


Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882
Sun5985,8.77,2.00,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344
...,...,...,...,...,...,...,...,...,...,...
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950
Thur672,18.78,3.00,Female,No,Thur,Dinner,2,9.39,Michelle Hardin,3511451626698139


Din moment ce am primit un output înseamnă că aceste schimbări nu sunt permanente, iar pentru a le putea face permanente trebuie să reasignăm acest output unui DataFrame

In [32]:
df = df.append(one_row)

  df = df.append(one_row)


In [33]:
df

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882
Sun5985,8.77,2.00,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344
...,...,...,...,...,...,...,...,...,...,...
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950
Thur672,18.78,3.00,Female,No,Thur,Dinner,2,9.39,Michelle Hardin,3511451626698139


După ce am făcut asta, se poate observa că primul și ultimul rând din cadru acestui DataFrame sunt identice. Pandas nu o să returneze nicio eroare dacă există două sau mai multe rânduri în cadrul DataFrame-ului care au același label index. Duplicare unui anumit rând, mai ales dacă au același index, nu este tocmai recomanda în special când o să ajungem la partea de Machine Learning. O să vedem pe parcurs cum putem să eliminăm valorile duplicate din cadrul unui DataFrame

De asemenea, dacă dorim să introducem un anumit rând în cadrul unui data frame, anumiți indexi (adică valori pentru coloane) pot să aibă valori nule (precum NaN, None, False), tot ce este necesar este să corespundă numărul de labels (indicat, să corespundă și ordinea și numele acestora)

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum putem să extragem toate valorile de index din cadrul unui DataFrame

        df.index

    2. Cum putem să setăm o coloană să fie index-ul pentru un DataFrame

        df = df.set_index('Payment ID')

    3. Cum putem să resetăm un index, astfel încât acesta să aibă ca și index valori numerice 

        df = df.reset_index()

    4. Cum putem să extragem rânduri dintr-un DataFrame în funcție de indexul numeric

        df.iloc[0]

        df.iloc[0:5]

    5. Cum putem să selectăm rânduri dintr-un DataFrame în funcție de label index

        df.loc['Sun2959']

        df.loc[['Sun2959', 'Sun4608']]

    6. Cum se șterge un rând dintr-un anumit DataFrame

        df = df.drop('Sun2959', axis=0)

    7. Cum putem să adăugăm un rând la un DataFrame existent

        one_row = df.iloc[0] 

        df = df.append(one_row)