In [3]:
# impoting the library
import pandas as pd

In [4]:
# creating a dictionary to load it as a data frame
peoples = {
    "first_name" : ["Corey", "Jane", "John"],
    "last_name" : ["Schafer", "Doe", "Doe"],
    "email" : ["CoreySchafer@mail.com", "JaneDoe@mail.com", "JohnDoe@mail.com"]
}

In [5]:
# creating the data frame
peoples_df = pd.DataFrame(peoples)

In [6]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


În cadrul acestui tutorial o să învățăm cum anume putem să alterăm rândurile și coloanele din cadrul unui data frame. În cadrul părții precedente am învățat cum anume să filtrăm date dintr-un data frame, și putem să ne folosim de acele tehnici și în cadrul acestei părți. 

O să începem prin a modifica coloane, iar după aceea o să trecem la rândurile din data frame. Înainte să începem să modificăm coloanele, să aruncăm o privire peste acestea.

In [7]:
# getting all the columns name from a data frame 
peoples_df.columns

Index(['first_name', 'last_name', 'email'], dtype='object')

Ca și coloane, avem 'first_name', 'last_name' și 'email'. Să modificăm coloana 'first_name' astfel încât aceasta să se denumească doar 'first'. Există mai multe metode prin care putem să facem acest lucru. Pentru început, dacă dorim să redenumim toate coloanele din data frame atunci putem să utilizăm partea de asignare pentru atributul 'columns' utilizat.

In [26]:
peoples_df.columns = ['first', 'last', 'email']

In [27]:
peoples_df.columns

Index(['first', 'last', 'email'], dtype='object')

După ce am realizat partea de asignare pentru fiecare coloană în parte (noile nume de coloane se trec într-o variabilă de tip listă și trebuie să fie la număr câte coloane sunt prezente în data frame) și accesăm din nou coloane acelui data frame putem observa că acuma numele acestor coloane s-au modificat. Dacă afișăm data frame-ul complet, o să fie modificate și acolo

In [28]:
peoples_df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


In [29]:
peoples_df.columns = ['first_name', 'last_name']

ValueError: Length mismatch: Expected axis has 3 elements, new values have 2 elements

Acest procedeu nu este prea utilizat deoarece trebuie specificate toate numele de coloane, iar de cele mai multe ori trebuie să modificăm numele doar pentru una sau mau multe coloane, dar de foarte puține ori pentru toate coloanele din data frame. Un lucru care este des întâlnit este să se schimbe ceva specific la denumirea coloanelor, de exemplu din nume de coloană cu miniscule dorim să le transformăm pe toate în nume de coloană cu majuscule. Poate numele coloanelor au spațiu și dorim să modificăm spațiul cu un underscore. În cazurile acestea putem să utilizăm list comprehensions pentru a executa aceste schimbări. O să modificăm numele coloanelor în majuscule

In [30]:
peoples_df.columns = [column.upper() for column in peoples_df.columns]

In [31]:
peoples_df

Unnamed: 0,FIRST,LAST,EMAIL
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


Dacă afișăm data frame-ul după acele modificări, observăm că toate coloanele ne sunt afișate cu majusculă acuma. Dacă dorim să schimbăm un caracter din numele coloanei, putem să ne folosim de metoda `.str.replace()`. Prin cadrul acestei metode ne asigurăm că denumirea coloanei este un string, iar pentru acest string apelăm metoda 'replace()' care ia două valori ca și argument, valoarea ce dorim să o schimbăm, repsectiv noua valorea cu care dorim să o schimbăm

In [32]:
# changing the columns to 'first name', 'last name' and 'email address' in order to change the space with an underscore
peoples_df.columns = ['first name', 'last name', 'email address']

In [33]:
peoples_df

Unnamed: 0,first name,last name,email address
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


In [34]:
# replacing the space in the column name with an underscore
peoples_df.columns = peoples_df.columns.str.replace(' ', '_')

In [35]:
peoples_df

Unnamed: 0,first_name,last_name,email_address
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


In [36]:
#using list comprehensions to replace a character in the column name
peoples_df.columns = [column.replace('_', ' ') for column in peoples_df.columns]

In [37]:
peoples_df

Unnamed: 0,first name,last name,email address
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


După cum se poate observa, se poate utiliza atât sintaxa de 'peoples_df.columns.str.replace()' cât și un list comprehension pentru a schimba un caracter din numele coloanei. Operațiile ce le-am văzut până acuma se aplică pentru fiecare coloană, dar există situații când poate dorim să schimbăm doar o anumită coloană, fără să ne atingem de restul. Pentru asta putem să utilizăm metoda `rename()` (asupa data frame-ului) la care o să îi pasăm un dicționar cu coloanele pe care dorim să le modificăm. Ca și cheie o să trecem valoare actuală, iar ca și valoare o să fie noua coloană

In [38]:
# changing columns name using the 'rename()' method
peoples_df.rename(columns={'first name': 'first_name', 'last name' : 'last_name'})

Unnamed: 0,first_name,last_name,email address
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


Din moment ce pentru linia de cod de mai sus am primit un output, modificările respective nu au avut loc, ci doar ni-i s-a afișat modul în care ar arăta data frame-ul dacă modificările ar fi definitive. Pentru a face modificările definitive trebuie să utilizăm argumentul 'inplace=True'. Înainte de a utiliza acest argument, o să afișăm data frame-ul pentru a vedea faprul că modificările nu s-au realizat

In [39]:
peoples_df

Unnamed: 0,first name,last name,email address
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


In [40]:
# changing the columns name using the 'replace()' method toghether with 'inplace=True' argument
peoples_df.rename(columns={'first name': 'first_name', 'last name' : 'last_name'}, inplace=True)

In [41]:
peoples_df

Unnamed: 0,first_name,last_name,email address
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


Modificările sunt păstrate după utilizarea argumentului 'inplace=True' (după cum me-am obișnuit)

In [42]:
peoples_df.rename(columns={'email address': 'email'}, inplace=True)

In [43]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


După ce am văzut cum anume putem modifica numele coloanelor dintr-un data frame (și am revenit la forma inițială a data frame-ului), acum o să ne uităm peste modalitatea de a updata datele din data frame (a face update la rânduri). Pentru început o să vedem cum putem modifica o sungură valoare. În părțile precendente am văzut cum anume putem căuta anumite valori utilizând indxatorii 'loc' și 'iloc' și o să ne folosim de aceștia pentru punctul de plecare în modificarea datelor din rânduri.

O să modificăm de pe rândul doi, valoarea din coloane 'last_name' (adică pentru John, o să îi modificăm 'last_name'). Pentru început o să selectăm acea valoare (prin utilizarea indexatorului loc)

In [44]:
peoples_df.loc[2]

first_name                John
last_name                  Doe
email         JohnDoe@mail.com
Name: 2, dtype: object

Pentru a schimba valorile dintr-un rând, există mai multe modalități. Pentru codul de mai sus putem să asignăm o listă de valori, valori care reprezintă valorile din fiecare coloană din data frame

In [45]:
peoples_df.loc[2] = ['John', 'Smith', 'JohnSmith@mail.com']

In [46]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Smith,JohnSmith@mail.com


Din moment ce am utilizat codul de mai sus, putem observa că acel rând are acuma alte valori pentru 'last_name' și 'email'. Pentru situația de mai sus a mers, am specificat trei valori, una pentru fiecare coloană, dar să presupunem că dorim să modificăm doar anumite valori dintr-un rând (să luăm exemplu date din studiu unde sunt prezente 85 de coloane)

Putem face acest pas utilizân tot indexatorul 'loc', dar pentru el să îs specificăm și numele coloanei (sau o listă de coloane, după caz)

In [47]:
peoples_df.loc[2, ['last_name', 'email']] = ['Doe', 'JohnDoe@mail.com']

In [48]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


Dacă dorim să modifcăm doar o anumită valoare ('last_name' pentru rândul doi), atunci tot utilizând partea de indexator 'loc' selectăm doar valoarea pentru acea coloană.

Acuma o să ne uităm peste o greșeală ce este făcută destul de des, iar aceast apare atunci când încearcă să se schimbe o valoare fără a utiliza indexatorul '.loc'. Să presupunem că avem de a face cu un data frame destul de mare și dorim să schimbăm acel 'last_name' acolo unde adresa de email este 'JohnDoe@email.com'. Ce ne-am gândi să facem este să creem un filtru în care să căutăm acea adreasă de email

In [49]:
# creating the filter
filter_peoples_df = (peoples_df['email'] == 'JohnDoe@mail.com')

In [50]:
# applying the filter
peoples_df[filter_peoples_df]

Unnamed: 0,first_name,last_name,email
2,John,Doe,JohnDoe@mail.com


Rezultatul acelui filtru este un data frame în care avem prezente toate coloanele din rândul unde adresa de email este 'JohnDoe@mail.com'. O idee care ar putea apărea pentru a extrage acel 'last_name' din cadrul data frame-ului este să adăugăm numele coloanei

In [51]:
# applying the filter with a column name
peoples_df[filter_peoples_df]['last_name']

2    Doe
Name: last_name, dtype: object

În aces moment avem valoarea care apare în cadrul coloanei 'last_name', iar primul gând este să asignăm acea valoare cu noua valoarea ce dorim să o avem

In [52]:
peoples_df[filter_peoples_df]['last_name'] = 'Smith'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  peoples_df[filter_peoples_df]['last_name'] = 'Smith'


Ceea ce primim înapoi este un avertisment. Acest avertisment poartă numele de 'SettingWithCopyWarning' 

In [53]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


Deși am încercat să schimbăm valorea pentru 'Doe' și am primit un avertisment (nu am primit o eroare), valorea respectivă nu s-a schimbat în cadrul data frame-ului. Motivul pentru care nu se face această schimbare este datorat faptului că ceea ce dorim să se realizeze necesită mai multe operații să fie efectuate, operații care face ca Pandas să determine dacă se returneze un 'view' sau o copie a unui data frame. Variabila 'last_name' nu a fost setată la noua valoarea este din cauză că dorim să setăm această valoare pe un obiect temporar. Pandas în cadrul avertismentului are prezent și un link pe care putem să îl accesăm pentru a afla mai multe informații despre acest avertisment, este mult mai bine precizat în cadrul acelui link de ce anume nu funcționează acest pas. Pentru a nu avea astfel de probleme, atunci când se setează valori pentru un rând dintr-un data frame să se utilizeze indexatorul '.loc' (așa este sugerat și în avertisment - 'Try using .loc')

In [None]:
peoples_df.loc[filter_peoples_df, 'last_name'] = 'Smith'

In [54]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


Utikizând indexatorul '.loc' pentru a accesa acea valore, acum aceasta se poate modifica fără probleme. Aceasta este modalitatea prin care modificăm un singur rând de date, dar cum putem modifica mai multe rânduri de date? Să presupunem că dorim să schimbăm toate adresele de email astfel încât acestea să fie cu minuscule. Pentru a face asta putem să asignăm valorile acelei coloane cu versiune '.lower()' a acelei coloane.

Pentru început să preluăm toate informațiile din acea coloană

In [55]:
peoples_df['email']

0    CoreySchafer@mail.com
1         JaneDoe@mail.com
2         JohnDoe@mail.com
Name: email, dtype: object

După ce am preluat aceste informații, (aceastea fiind prezente sub formă de Series) putem să aplicăm metoda .str() pe acestea, iar după ce sunt transformate în string-uri, se poate utiliza metoda '.lower()'

In [56]:
peoples_df['email'].str.lower()

0    coreyschafer@mail.com
1         janedoe@mail.com
2         johndoe@mail.com
Name: email, dtype: object

In [57]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


După cum se poate observa, codul 'peoples_df['email'].str.lower()' nu a înlocuit datele în data frame, ci doar le-a returnat. Pentru a face acele modificări, putem să atribuim acele valori coloanei 'email' din data frame

In [58]:
peoples_df['email'] = peoples_df['email'].str.lower()

In [59]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,coreyschafer@mail.com
1,Jane,Doe,janedoe@mail.com
2,John,Doe,johndoe@mail.com


Aceasta este o modalitate prin care putem modifica valori pe mai multe rânduri, dar aceasta se aplică pentru fiecare rând în parte din data frame. Dacă dorim să facem ceva mai complex, atunci există un număr de patru metode ce le putem utiliza pentru a face modificări într-un data frame, aceastea fiind:

    1. apply()

    2. map()

    3. applymap()

    4. replace()

Aceste patru metode sunt des încurcate de către utilizatorii de pandas și există un motiv bun pentru asta, acestea fiind extrem de asemănătoarea între ele. O să începem cu metoda `apply()`

 'apply()' este utilizată pentru a apela o funcție pentru valori și poate face modificări fie pe un data frame, fie pe un Series. Modul prin care face aceste modificări poate fi un pic diferit pentru fiecare dintre obiecte. Pentru început o să vedem cum funcționează pentru un Series.

Când se utilizează 'apply()' pentru un Series poate apela o funcție pentru fiecare valoare din cadrul acelui Series. Să zicem că dorim să aflăm lungimea adreselor de email. O să începem prin a ne selecta toate date din acea coloană de 'email'

In [60]:
peoples_df['email']

0    coreyschafer@mail.com
1         janedoe@mail.com
2         johndoe@mail.com
Name: email, dtype: object

Linia de cod 'peoples_df['email']' returnează un Series, iar după cum am spus, apply poate apela o funcție pentru fiecare element dintr-un Series. Pentru a face asta, trebuie doar să apelăm funcția cu '.apply()', iar ca și argument trecem funcția care dorim să fie apleată pentru fiecare element. De notat este faptul că funcția respectivă doar se trece ca și argument, nu se apelează.

In [61]:
peoples_df['email'].apply(len)

0    21
1    16
2    16
Name: email, dtype: int64

Rezultatul codului de mai sus ne spune că adresa de email aflată pe index-ul cu numărul 0 (adică 'coreyschafer@mail.com') are un număr de 21 de caractere, a doua și a treia adresă au o lungime de 16 caractere

Utilizând '.apply()' reprezintă un mod rapid de a aduna informații despre datele dintr-un obiect Series sau dintr-un data frame, dar la fel de bine se pot și modifica, updata aceste date. De exemplu, putem scrie o funcție care retunrează o versiune cu majuscule pentru coloana 'last_name'

In [62]:
def update_last_name(last_name):
    return last_name.upper()

Funcția respectivă este una simplă de tot, dacă am dori să doar să schimbăm valoril din minuscule în majuscule am putea utiliza sintaxa ce am utilizat-o mai sus pentru a face aceste modificări (peoples_df['email'] = peoples_df['email'].str.lower()). În acest moment dorim să vedem doar funcționalitatea aceste metode '.apply()'. Funcția care este trecută ca și argument poate să fie cât de complicată.

In [63]:
peoples_df['last_name'].apply(update_last_name)

0    SCHAFER
1        DOE
2        DOE
Name: last_name, dtype: object

Codul de mai sus nu face aceste modificări în cadrul data frame-ului, pentru ca aceste modificări să fie permanente putem să asignăm coloana 'last_name' din cadrul data frame-ului cu aceste valori

In [64]:
peoples_df['last_name'] = peoples_df['last_name'].apply(update_last_name)

In [65]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,SCHAFER,coreyschafer@mail.com
1,Jane,DOE,janedoe@mail.com
2,John,DOE,johndoe@mail.com


După cum se specifica, funcția respectivă este una destul de simplă, iar pentru astfel de cazuri multă lume folosește funcțiile 'lamba' în cadrul metodei '.apply()'. În continuare o să modificăm valorile din coloana 'last_name' ca acestea să fie din nou cu minuscule (o să utilizăm metoda .lower())

In [66]:
peoples_df['last_name'] = peoples_df['last_name'].apply(lambda x: x.lower())

In [67]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,schafer,coreyschafer@mail.com
1,Jane,doe,janedoe@mail.com
2,John,doe,johndoe@mail.com


În cadrul acestui cod am lucrat cu partea de string-uri, dar pentru 'apply()' putem să creem funcții ce realizează tot felul de calcule și să fie aplicate pentru fiecare element din cadrul unei coloane.

În cadrul exemplului de mai sus, am văzut cum funcționează metoda '.apply()' cu un obiect de tip Series. Acuma o să învățăm cu anume putem să utilizăm această funcție pentru un data frame. Când utilizăm '.apply()' pentru un obiect de tip series, această aplică o funcție pentru fiecare element din acel series. Atunci când se utilizează metoda '.apply()' pentru un data frame, această metodă aplică o funcție pentru fiecare rând sau coloană din acel data frame. O să aibă mai mult sens după ce ne uităm la primul exemplu. O să ne folosim din nou de funcția 'len()', dar de data aceasta o să o aplicăm pentru întreg data frame-ul nostru. Să vedem din nou ce afișează funcția 'len' trecută ca și argument pentru un obiect de tip Series

In [68]:
peoples_df['email'].apply(len)

0    21
1    16
2    16
Name: email, dtype: int64

Se returnează lungimea fiecărui element din cadrul acelui Series. Am putea crede că dacă utilizăm metoda '.apply()' pentru un data frame o să primim înapoi lungimea fiecărui element din cadrul acelui data frame, dar nu se întâmplă asta. Să vedem ce anume se va obține

In [69]:
peoples_df.apply(len) 

first_name    3
last_name     3
email         3
dtype: int64

Codul 'peoples_df.apply(len)' nu ne returnează ce anume ne-am aștepta. Ceea ce se întâmplă aici este că nu aplică funcția 'len()' pentru fiecare element din data frame, ci aplică funcția 'len()' pentru fiecare Series din acel data frame (mai explicit, asupra coloanelor). Ce ne spune acest rezultat este faptul că prima coloană 'first_name' are o lungime de trei, iar acel trei reprezintă numărul de valori din acea coloană. Practic reprezintă numărul de rânduri din fiecare coloană. Putem să obținem acest număr pentru un anumit series și dacă verificăm manual lungimea acelui obiect.

In [70]:
len(peoples_df['email'])

3

Practic când se execută codul 'peoples_df.apply(len)', Pandas în spate rulează codul 'len(peoples_df[{column_name}])' pentru fiecare coloană prezentă în data frame

În modul default, pandas este setat să realizeze acest apply pe axa de rânduri, adică să numere totalitatea rândurilor din fiecare coloană. Dacă se dorește, această axă se poate schimba prin utilizarea argumentului `axis`. Acestui argument putem să îi atribuim valorea 'rows' sau 'columns', default fiind setat la 'rows'

In [71]:
peoples_df.apply(len, axis='columns')

0    3
1    3
2    3
dtype: int64

În concluzie, dorim să utilizăm funcții care au sens să fie apelate pentru un obiect de tip series (nu pentru fiecare element dintr-un series) când se utilizează '.apply' pentru un întreg data frame. Să presupunem că dorim să extragem valorea minimă din fiecare obiect de tip Series. Obiectele de tipul Series au o metodă denumită 'min', prin urmare am putea să pasăm această funcție ca și argument pentru metoda 'apply'. Folosind doar date de tipul string, cea mai mică valoare o să fie prima valorea în ordine alfabetică 

In [72]:
peoples_df.apply(pd.Series.min)

first_name                    Corey
last_name                       doe
email         coreyschafer@mail.com
dtype: object

De asemenea se pot utiliza și funcții 'lambda' pentru un data frame, numai de ținut minte că această funcție o să fie aplicată pentru un Series, nu pentru un element din cadrul acelui Series.

In [73]:
peoples_df.apply(lambda x: x.min())

first_name                    Corey
last_name                       doe
email         coreyschafer@mail.com
dtype: object

x-ul din funcția 'lamba' reprezintă un obiect de tip Series, prin urmare se poate utiliza metoda 'min', deoarece metoda respectivă este specifică pentru un obiect de tip Series.

Pentru o mică recapitulare, 'apply()' utilizat pentru un Series aplică o funcție pentru fiecare element din cadrul acelui Series, iar '.apply()' aplicat pentru un data farme, aplică funcția respectivă pentru un obiect de tip Series. Pentru a aplica o funcție pentru fiecare element dintr-un data frame (deci pentru fiecare element din cadrul unui Series) se va utiliza metoda `applymap()`

Metoda 'applymap()' funcționează doar pentru data frame-uri, obiectele de tip Series nu au această metodă disponibilă. O să folosim aceași metodă 'len()' prestabilită în Python și o să o oferim ca și argument pentru metoda 'applymap()'. De reținut iar că 'applymap()' funcționează doar pentru un data frame

In [74]:
peoples_df.applymap(len)

Unnamed: 0,first_name,last_name,email
0,5,7,21
1,4,3,16
2,4,3,16


Rezultatul acelui cod ne arată că 'applymap()' a apelat funcția oferită ca și argument pentru fiecare element în parte din cadrul data frame-ului. Dacă dorim să avem toate datele din cadrul acestui data frame trecute cu minuscule, atunci putem utiliza metoda 'applymap()' la care să îi oferim ca și argument metoda 'str.lower', sau putem utiliza și o funcție lambda care să returneze un string setat cu minuscule.

In [75]:
peoples_df.applymap(str.lower)

Unnamed: 0,first_name,last_name,email
0,corey,schafer,coreyschafer@mail.com
1,jane,doe,janedoe@mail.com
2,john,doe,johndoe@mail.com


In [76]:
peoples_df.applymap(lambda x: x.lower())

Unnamed: 0,first_name,last_name,email
0,corey,schafer,coreyschafer@mail.com
1,jane,doe,janedoe@mail.com
2,john,doe,johndoe@mail.com


Metoda de mai sus doar returnează un view pentru a ne arăta cum anume ar artăta datele, dacă dorim să facem datele permanente, atunci trebuie să realizăm o copie (sau să suprascriem data frame-ul curent) pentru acest data frame la care să asigăm ca și valoare tot data frame-ul ce este returnat

In [77]:
cp_peoples_df = peoples_df.applymap(str.lower)

In [78]:
cp_peoples_df

Unnamed: 0,first_name,last_name,email
0,corey,schafer,coreyschafer@mail.com
1,jane,doe,janedoe@mail.com
2,john,doe,johndoe@mail.com


Până acuma ne-am uitat peste metodele de 'apply()' și 'applymap()', iar acuma o să aruncăm o privire peste metoda `map()`. Această metodă funcționează doar pentru obiecte de tip Series și se utilizează pentru a înlocui o valoare dintr-un Series cu altă valoare. Să luăm exemplul prin care dorim să modificăm câteva dintre valorile din coloana 'first_name'. Pentru aceasta prima dată trebuie să accesăm datele din acea coloană, iar pentru acele date putem să îi apelăm metoda '.map()' căreia să îi oferim ca și argument un dicționar unde cheile reprezintă valoare veche pe care dorim să o schimbăm, iar value reprezintă valoare nouă ce dorim să o atribuim

In [80]:
peoples_df['first_name'].map({'Corey' : 'Chris', 'Jane' : 'Mary'})

0    Chris
1     Mary
2      NaN
Name: first_name, dtype: object

Dacă rulăm acest cod putem obersa că se va afișa un obiect de tip Series unde primele două valori au fost modificate. Un lucru important de menționat aici este faptul că pentru valorile la care nu specificăm cu ce anume să fie schimnate, acestea sunt înlocuite automat cu 'NaN' (not a numbers value). Acest lucru poate fi bine sau nu, o să ne uităm peste cazuri concrete când o să ne uităm peste studiu de la Stack Overflow. În cazul de față, nu este bine că acele date sunt convertite în 'NaN'. Pentru cazurile în care dorim să schimbăm doar anumite valori o să utilizăm metoda `replace()`

In [81]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,schafer,coreyschafer@mail.com
1,Jane,doe,janedoe@mail.com
2,John,doe,johndoe@mail.com


In [82]:
peoples_df['first_name'].replace({'Corey' : 'Chris', 'Jane' : 'Mary'})

0    Chris
1     Mary
2     John
Name: first_name, dtype: object

În momentul în care am utilizat metoda 'replace()' putem observa că Pandas nu s-a atins de valoare 'John' precum a făcut în cazul metodei 'map()', nu a convertit-o automat în 'NaN', ci a lăsat-o nemodificată.

Metodele respecitve nu realizează aceste modificări în cadrul data frame-ului, pentru a face aceste modificări permanente trebuie să asignăm aceste valori pentru obiectul de tip Series pentru care dorim să facem aceste modificări

In [83]:
peoples_df['first_name'] = peoples_df['first_name'].replace({'Corey' : 'Chris', 'Jane' : 'Mary'})

In [84]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Chris,schafer,coreyschafer@mail.com
1,Mary,doe,janedoe@mail.com
2,John,doe,johndoe@mail.com


Din moment ce ne-am uitat peste un data frame mic pentru a vedea cum anume funcționează aceste metode, acuma putem să ne utilizăm aceste concepte pentru data farme-ul mare, cel cu rezultatele studiului făcut de Stack Overflow

In [85]:
# reading the data from csv and seting the index column
df = pd.read_csv('../data/survey_results_public.csv', index_col='Respondent')
schema_df = pd.read_csv('../data/survey_results_schema.csv', index_col='Column')

In [86]:
# setting the options for maximum rows and columns to be displayed
pd.set_option('display.max_columns', 85)
pd.set_option('display.max_rows', 85)

In [87]:
# printing the first five row of the data frame
df.head()

Unnamed: 0_level_0,MainBranch,Hobbyist,OpenSourcer,OpenSource,Employment,Country,Student,EdLevel,UndergradMajor,EduOther,OrgSize,DevType,YearsCode,Age1stCode,YearsCodePro,CareerSat,JobSat,MgrIdiot,MgrMoney,MgrWant,JobSeek,LastHireDate,LastInt,FizzBuzz,JobFactors,ResumeUpdate,CurrencySymbol,CurrencyDesc,CompTotal,CompFreq,ConvertedComp,WorkWeekHrs,WorkPlan,WorkChallenge,WorkRemote,WorkLoc,ImpSyn,CodeRev,CodeRevHrs,UnitTests,PurchaseHow,PurchaseWhat,LanguageWorkedWith,LanguageDesireNextYear,DatabaseWorkedWith,DatabaseDesireNextYear,PlatformWorkedWith,PlatformDesireNextYear,WebFrameWorkedWith,WebFrameDesireNextYear,MiscTechWorkedWith,MiscTechDesireNextYear,DevEnviron,OpSys,Containers,BlockchainOrg,BlockchainIs,BetterLife,ITperson,OffOn,SocialMedia,Extraversion,ScreenName,SOVisit1st,SOVisitFreq,SOVisitTo,SOFindAnswer,SOTimeSaved,SOHowMuchTime,SOAccount,SOPartFreq,SOJobs,EntTeams,SOComm,WelcomeChange,SONewContent,Age,Gender,Trans,Sexuality,Ethnicity,Dependents,SurveyLength,SurveyEase
Respondent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1
1,I am a student who is learning to code,Yes,Never,The quality of OSS and closed source software ...,"Not employed, and not looking for work",United Kingdom,No,Primary/elementary school,,"Taught yourself a new language, framework, or ...",,,4.0,10,,,,,,,,,,,,,,,,,,,,,,,,,,,,,HTML/CSS;Java;JavaScript;Python,C;C++;C#;Go;HTML/CSS;Java;JavaScript;Python;SQL,SQLite,MySQL,MacOS;Windows,Android;Arduino;Windows,Django;Flask,Flask;jQuery,Node.js,Node.js,IntelliJ;Notepad++;PyCharm,Windows,I do not use containers,,,Yes,"Fortunately, someone else has that title",Yes,Twitter,Online,Username,2017,A few times per month or weekly,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was much faster,31-60 minutes,No,,"No, I didn't know that Stack Overflow had a jo...","No, and I don't know what those are",Neutral,Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,14.0,Man,No,Straight / Heterosexual,,No,Appropriate in length,Neither easy nor difficult
2,I am a student who is learning to code,No,Less than once per year,The quality of OSS and closed source software ...,"Not employed, but looking for work",Bosnia and Herzegovina,"Yes, full-time","Secondary school (e.g. American high school, G...",,Taken an online course in programming or softw...,,"Developer, desktop or enterprise applications;...",,17,,,,,,,I am actively looking for a job,I've never had a job,,,Financial performance or funding status of the...,"Something else changed (education, award, medi...",,,,,,,,,,,,,,,,,C++;HTML/CSS;Python,C++;HTML/CSS;JavaScript;SQL,,MySQL,Windows,Windows,Django,Django,,,Atom;PyCharm,Windows,I do not use containers,,Useful across many domains and could change ma...,Yes,Yes,Yes,Instagram,Online,Username,2017,Daily or almost daily,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was much faster,11-30 minutes,Yes,A few times per month or weekly,"No, I knew that Stack Overflow had a job board...","No, and I don't know what those are","Yes, somewhat",Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,19.0,Man,No,Straight / Heterosexual,,No,Appropriate in length,Neither easy nor difficult
3,"I am not primarily a developer, but I write co...",Yes,Never,The quality of OSS and closed source software ...,Employed full-time,Thailand,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)",Web development or web design,"Taught yourself a new language, framework, or ...",100 to 499 employees,"Designer;Developer, back-end;Developer, front-...",3.0,22,1,Slightly satisfied,Slightly satisfied,Not at all confident,Not sure,Not sure,"I’m not actively looking, but I am open to new...",1-2 years ago,Interview with people in peer roles,No,"Languages, frameworks, and other technologies ...",I was preparing for a job search,THB,Thai baht,23000.0,Monthly,8820.0,40.0,There's no schedule or spec; I work on what se...,Distracting work environment;Inadequate access...,Less than once per month / Never,Home,Average,No,,"No, but I think we should",Not sure,I have little or no influence,HTML/CSS,Elixir;HTML/CSS,PostgreSQL,PostgreSQL,,,,Other(s):,,,Vim;Visual Studio Code,Linux-based,I do not use containers,,,Yes,Yes,Yes,Reddit,In real life (in person),Username,2011,A few times per week,Find answers to specific questions;Learn how t...,6-10 times per week,They were about the same,,Yes,Less than once per month or monthly,Yes,"No, I've heard of them, but I am not part of a...",Neutral,Just as welcome now as I felt last year,Tech meetups or events in your area;Courses on...,28.0,Man,No,Straight / Heterosexual,,Yes,Appropriate in length,Neither easy nor difficult
4,I am a developer by profession,No,Never,The quality of OSS and closed source software ...,Employed full-time,United States,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)","Computer science, computer engineering, or sof...",Taken an online course in programming or softw...,100 to 499 employees,"Developer, full-stack",3.0,16,Less than 1 year,Very satisfied,Slightly satisfied,Very confident,No,Not sure,I am not interested in new job opportunities,Less than a year ago,"Write code by hand (e.g., on a whiteboard);Int...",No,"Languages, frameworks, and other technologies ...",I was preparing for a job search,USD,United States dollar,61000.0,Yearly,61000.0,80.0,There's no schedule or spec; I work on what se...,,Less than once per month / Never,Home,A little below average,No,,"No, but I think we should",Developers typically have the most influence o...,I have little or no influence,C;C++;C#;Python;SQL,C;C#;JavaScript;SQL,MySQL;SQLite,MySQL;SQLite,Linux;Windows,Linux;Windows,,,.NET,.NET,Eclipse;Vim;Visual Studio;Visual Studio Code,Windows,I do not use containers,Not at all,"Useful for decentralized currency (i.e., Bitcoin)",Yes,SIGH,Yes,Reddit,In real life (in person),Username,2014,Daily or almost daily,Find answers to specific questions;Pass the ti...,1-2 times per week,Stack Overflow was much faster,31-60 minutes,Yes,Less than once per month or monthly,Yes,"No, and I don't know what those are","No, not really",Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,22.0,Man,No,Straight / Heterosexual,White or of European descent,No,Appropriate in length,Easy
5,I am a developer by profession,Yes,Once a month or more often,"OSS is, on average, of HIGHER quality than pro...",Employed full-time,Ukraine,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)","Computer science, computer engineering, or sof...",Taken an online course in programming or softw...,"10,000 or more employees","Academic researcher;Developer, desktop or ente...",16.0,14,9,Very dissatisfied,Slightly dissatisfied,Somewhat confident,Yes,No,I am not interested in new job opportunities,Less than a year ago,"Write any code;Write code by hand (e.g., on a ...",No,"Industry that I'd be working in;Languages, fra...",I was preparing for a job search,UAH,Ukrainian hryvnia,,,,55.0,There is a schedule and/or spec (made by me or...,Being tasked with non-development work;Inadequ...,A few days each month,Office,A little above average,"Yes, because I see value in code review",,"Yes, it's part of our process",Not sure,I have little or no influence,C++;HTML/CSS;Java;JavaScript;Python;SQL;VBA,HTML/CSS;Java;JavaScript;SQL;WebAssembly,Couchbase;MongoDB;MySQL;Oracle;PostgreSQL;SQLite,Couchbase;Firebase;MongoDB;MySQL;Oracle;Postgr...,Android;Linux;MacOS;Slack;Windows,Android;Docker;Kubernetes;Linux;Slack,Django;Express;Flask;jQuery;React.js;Spring,Flask;jQuery;React.js;Spring,Cordova;Node.js,Apache Spark;Hadoop;Node.js;React Native,IntelliJ;Notepad++;Vim,Linux-based,"Outside of work, for personal projects",Not at all,,Yes,Also Yes,Yes,Facebook,In real life (in person),Username,I don't remember,Multiple times per day,Find answers to specific questions,More than 10 times per week,Stack Overflow was much faster,,Yes,A few times per month or weekly,"No, I knew that Stack Overflow had a job board...","No, I've heard of them, but I am not part of a...","Yes, definitely",Just as welcome now as I felt last year,Tech meetups or events in your area;Courses on...,30.0,Man,No,Straight / Heterosexual,White or of European descent;Multiracial,No,Appropriate in length,Easy


În partea anterioară din tutorial ne-am uitat peste cum să filtrăm date dintr-un data frame, iar ca și exemplu am filtrat datele din coloana unde sunt trecute salariile participanților la studiu. Numele acelei coloane este 'ConvertedComp'. Numele acestei coloane nu este chiar așa de clar, prin urmare acest nume se poate schimba. O să schimbăm numele coloanei din 'ConvertedComp' în 'SalaryUSD'

In [88]:
df.rename(columns={'ConvertedComp': 'SalaryUSD'})

Unnamed: 0_level_0,MainBranch,Hobbyist,OpenSourcer,OpenSource,Employment,Country,Student,EdLevel,UndergradMajor,EduOther,OrgSize,DevType,YearsCode,Age1stCode,YearsCodePro,CareerSat,JobSat,MgrIdiot,MgrMoney,MgrWant,JobSeek,LastHireDate,LastInt,FizzBuzz,JobFactors,ResumeUpdate,CurrencySymbol,CurrencyDesc,CompTotal,CompFreq,SalaryUSD,WorkWeekHrs,WorkPlan,WorkChallenge,WorkRemote,WorkLoc,ImpSyn,CodeRev,CodeRevHrs,UnitTests,PurchaseHow,PurchaseWhat,LanguageWorkedWith,LanguageDesireNextYear,DatabaseWorkedWith,DatabaseDesireNextYear,PlatformWorkedWith,PlatformDesireNextYear,WebFrameWorkedWith,WebFrameDesireNextYear,MiscTechWorkedWith,MiscTechDesireNextYear,DevEnviron,OpSys,Containers,BlockchainOrg,BlockchainIs,BetterLife,ITperson,OffOn,SocialMedia,Extraversion,ScreenName,SOVisit1st,SOVisitFreq,SOVisitTo,SOFindAnswer,SOTimeSaved,SOHowMuchTime,SOAccount,SOPartFreq,SOJobs,EntTeams,SOComm,WelcomeChange,SONewContent,Age,Gender,Trans,Sexuality,Ethnicity,Dependents,SurveyLength,SurveyEase
Respondent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1
1,I am a student who is learning to code,Yes,Never,The quality of OSS and closed source software ...,"Not employed, and not looking for work",United Kingdom,No,Primary/elementary school,,"Taught yourself a new language, framework, or ...",,,4,10,,,,,,,,,,,,,,,,,,,,,,,,,,,,,HTML/CSS;Java;JavaScript;Python,C;C++;C#;Go;HTML/CSS;Java;JavaScript;Python;SQL,SQLite,MySQL,MacOS;Windows,Android;Arduino;Windows,Django;Flask,Flask;jQuery,Node.js,Node.js,IntelliJ;Notepad++;PyCharm,Windows,I do not use containers,,,Yes,"Fortunately, someone else has that title",Yes,Twitter,Online,Username,2017,A few times per month or weekly,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was much faster,31-60 minutes,No,,"No, I didn't know that Stack Overflow had a jo...","No, and I don't know what those are",Neutral,Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,14.0,Man,No,Straight / Heterosexual,,No,Appropriate in length,Neither easy nor difficult
2,I am a student who is learning to code,No,Less than once per year,The quality of OSS and closed source software ...,"Not employed, but looking for work",Bosnia and Herzegovina,"Yes, full-time","Secondary school (e.g. American high school, G...",,Taken an online course in programming or softw...,,"Developer, desktop or enterprise applications;...",,17,,,,,,,I am actively looking for a job,I've never had a job,,,Financial performance or funding status of the...,"Something else changed (education, award, medi...",,,,,,,,,,,,,,,,,C++;HTML/CSS;Python,C++;HTML/CSS;JavaScript;SQL,,MySQL,Windows,Windows,Django,Django,,,Atom;PyCharm,Windows,I do not use containers,,Useful across many domains and could change ma...,Yes,Yes,Yes,Instagram,Online,Username,2017,Daily or almost daily,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was much faster,11-30 minutes,Yes,A few times per month or weekly,"No, I knew that Stack Overflow had a job board...","No, and I don't know what those are","Yes, somewhat",Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,19.0,Man,No,Straight / Heterosexual,,No,Appropriate in length,Neither easy nor difficult
3,"I am not primarily a developer, but I write co...",Yes,Never,The quality of OSS and closed source software ...,Employed full-time,Thailand,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)",Web development or web design,"Taught yourself a new language, framework, or ...",100 to 499 employees,"Designer;Developer, back-end;Developer, front-...",3,22,1,Slightly satisfied,Slightly satisfied,Not at all confident,Not sure,Not sure,"I’m not actively looking, but I am open to new...",1-2 years ago,Interview with people in peer roles,No,"Languages, frameworks, and other technologies ...",I was preparing for a job search,THB,Thai baht,23000.0,Monthly,8820.0,40.0,There's no schedule or spec; I work on what se...,Distracting work environment;Inadequate access...,Less than once per month / Never,Home,Average,No,,"No, but I think we should",Not sure,I have little or no influence,HTML/CSS,Elixir;HTML/CSS,PostgreSQL,PostgreSQL,,,,Other(s):,,,Vim;Visual Studio Code,Linux-based,I do not use containers,,,Yes,Yes,Yes,Reddit,In real life (in person),Username,2011,A few times per week,Find answers to specific questions;Learn how t...,6-10 times per week,They were about the same,,Yes,Less than once per month or monthly,Yes,"No, I've heard of them, but I am not part of a...",Neutral,Just as welcome now as I felt last year,Tech meetups or events in your area;Courses on...,28.0,Man,No,Straight / Heterosexual,,Yes,Appropriate in length,Neither easy nor difficult
4,I am a developer by profession,No,Never,The quality of OSS and closed source software ...,Employed full-time,United States,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)","Computer science, computer engineering, or sof...",Taken an online course in programming or softw...,100 to 499 employees,"Developer, full-stack",3,16,Less than 1 year,Very satisfied,Slightly satisfied,Very confident,No,Not sure,I am not interested in new job opportunities,Less than a year ago,"Write code by hand (e.g., on a whiteboard);Int...",No,"Languages, frameworks, and other technologies ...",I was preparing for a job search,USD,United States dollar,61000.0,Yearly,61000.0,80.0,There's no schedule or spec; I work on what se...,,Less than once per month / Never,Home,A little below average,No,,"No, but I think we should",Developers typically have the most influence o...,I have little or no influence,C;C++;C#;Python;SQL,C;C#;JavaScript;SQL,MySQL;SQLite,MySQL;SQLite,Linux;Windows,Linux;Windows,,,.NET,.NET,Eclipse;Vim;Visual Studio;Visual Studio Code,Windows,I do not use containers,Not at all,"Useful for decentralized currency (i.e., Bitcoin)",Yes,SIGH,Yes,Reddit,In real life (in person),Username,2014,Daily or almost daily,Find answers to specific questions;Pass the ti...,1-2 times per week,Stack Overflow was much faster,31-60 minutes,Yes,Less than once per month or monthly,Yes,"No, and I don't know what those are","No, not really",Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,22.0,Man,No,Straight / Heterosexual,White or of European descent,No,Appropriate in length,Easy
5,I am a developer by profession,Yes,Once a month or more often,"OSS is, on average, of HIGHER quality than pro...",Employed full-time,Ukraine,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)","Computer science, computer engineering, or sof...",Taken an online course in programming or softw...,"10,000 or more employees","Academic researcher;Developer, desktop or ente...",16,14,9,Very dissatisfied,Slightly dissatisfied,Somewhat confident,Yes,No,I am not interested in new job opportunities,Less than a year ago,"Write any code;Write code by hand (e.g., on a ...",No,"Industry that I'd be working in;Languages, fra...",I was preparing for a job search,UAH,Ukrainian hryvnia,,,,55.0,There is a schedule and/or spec (made by me or...,Being tasked with non-development work;Inadequ...,A few days each month,Office,A little above average,"Yes, because I see value in code review",,"Yes, it's part of our process",Not sure,I have little or no influence,C++;HTML/CSS;Java;JavaScript;Python;SQL;VBA,HTML/CSS;Java;JavaScript;SQL;WebAssembly,Couchbase;MongoDB;MySQL;Oracle;PostgreSQL;SQLite,Couchbase;Firebase;MongoDB;MySQL;Oracle;Postgr...,Android;Linux;MacOS;Slack;Windows,Android;Docker;Kubernetes;Linux;Slack,Django;Express;Flask;jQuery;React.js;Spring,Flask;jQuery;React.js;Spring,Cordova;Node.js,Apache Spark;Hadoop;Node.js;React Native,IntelliJ;Notepad++;Vim,Linux-based,"Outside of work, for personal projects",Not at all,,Yes,Also Yes,Yes,Facebook,In real life (in person),Username,I don't remember,Multiple times per day,Find answers to specific questions,More than 10 times per week,Stack Overflow was much faster,,Yes,A few times per month or weekly,"No, I knew that Stack Overflow had a job board...","No, I've heard of them, but I am not part of a...","Yes, definitely",Just as welcome now as I felt last year,Tech meetups or events in your area;Courses on...,30.0,Man,No,Straight / Heterosexual,White or of European descent;Multiracial,No,Appropriate in length,Easy
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88377,,Yes,Less than once a month but more than once per ...,The quality of OSS and closed source software ...,"Not employed, and not looking for work",Canada,No,Primary/elementary school,,"Taught yourself a new language, framework, or ...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,HTML/CSS;JavaScript;Other(s):,C++;HTML/CSS;JavaScript;SQL;WebAssembly;Other(s):,Firebase;SQLite,Firebase;MySQL;SQLite,Linux,Google Cloud Platform;Linux,jQuery,jQuery;Vue.js,Node.js,React Native;Unity 3D;Unreal Engine,Atom;Visual Studio;Visual Studio Code,Windows,I do not use containers,,Useful across many domains and could change ma...,Yes,Yes,What?,YouTube,,Username,I don't remember,A few times per week,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was slightly faster,11-30 minutes,Yes,I have never participated in Q&A on Stack Over...,"No, I knew that Stack Overflow had a job board...","No, I've heard of them, but I am not part of a...","No, not at all",,Tech articles written by other developers;Tech...,,Man,No,,,No,Appropriate in length,Easy
88601,,No,Never,The quality of OSS and closed source software ...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
88802,,No,Never,,Employed full-time,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
88816,,No,Never,"OSS is, on average, of HIGHER quality than pro...","Independent contractor, freelancer, or self-em...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


După ce ne-am asigurat că modificare este cea care ne dorim să fie, putem să utilizăm argumentul 'inplace=True' pentru a face aceste modificări permanente.

In [89]:
df.rename(columns={'ConvertedComp': 'SalaryUSD'}, inplace=True)

Din acest motiv argumentul 'inplace=True' este foarte util, prin intermediul acestuia putem să ne asigurăm că modificările care urmează să fie efectuate asupra unui data frame sunt cele dorite de către utilizator.

In [94]:
df['SalaryUSD']

Respondent
1            NaN
2            NaN
3         8820.0
4        61000.0
5            NaN
          ...   
88377        NaN
88601        NaN
88802        NaN
88816        NaN
88863        NaN
Name: SalaryUSD, Length: 88883, dtype: float64

În cadrul părților trecute din tutorial ne-am tot uitat peste coloana denumită 'Hobbyist'. Aceasta este coloana unde persoanele răspund cu 'Yes' sau 'No' dacă scriu cod doar de plăcere sau nu. Să presupunem că dorim să modificăm valorile din acea coloană, cele cu 'Yes' să le transformăm în True, iar cele cu 'No' să le transformăm în 'False'. Un mod prin care putem face asta este utilizând metoda 'map()'

In [95]:
df['Hobbyist'].map({'Yes': True, 'No': False})

Respondent
1         True
2        False
3         True
4        False
5         True
         ...  
88377     True
88601    False
88802    False
88816    False
88863     True
Name: Hobbyist, Length: 88883, dtype: bool

Dacă rulăm și comparăm aceste valori, putem să vedem că cele care au avut înainte valaore 'Yes' acuma au valoarea 'True', iar cele cu 'No' au fost acuma schimbate în 'False'. Metoda 'map()' nu are argumentul 'inplace=True' pentru a face aceste schimbări permanente, iar pentru a face acest lucru trebuie să asignăm coloana 'Hobbyist' la acel obiect de tip Series

In [96]:
df['Hobbyist'] = df['Hobbyist'].map({'Yes': True, 'No' : False})

In [97]:
df.head()

Unnamed: 0_level_0,MainBranch,Hobbyist,OpenSourcer,OpenSource,Employment,Country,Student,EdLevel,UndergradMajor,EduOther,OrgSize,DevType,YearsCode,Age1stCode,YearsCodePro,CareerSat,JobSat,MgrIdiot,MgrMoney,MgrWant,JobSeek,LastHireDate,LastInt,FizzBuzz,JobFactors,ResumeUpdate,CurrencySymbol,CurrencyDesc,CompTotal,CompFreq,SalaryUSD,WorkWeekHrs,WorkPlan,WorkChallenge,WorkRemote,WorkLoc,ImpSyn,CodeRev,CodeRevHrs,UnitTests,PurchaseHow,PurchaseWhat,LanguageWorkedWith,LanguageDesireNextYear,DatabaseWorkedWith,DatabaseDesireNextYear,PlatformWorkedWith,PlatformDesireNextYear,WebFrameWorkedWith,WebFrameDesireNextYear,MiscTechWorkedWith,MiscTechDesireNextYear,DevEnviron,OpSys,Containers,BlockchainOrg,BlockchainIs,BetterLife,ITperson,OffOn,SocialMedia,Extraversion,ScreenName,SOVisit1st,SOVisitFreq,SOVisitTo,SOFindAnswer,SOTimeSaved,SOHowMuchTime,SOAccount,SOPartFreq,SOJobs,EntTeams,SOComm,WelcomeChange,SONewContent,Age,Gender,Trans,Sexuality,Ethnicity,Dependents,SurveyLength,SurveyEase
Respondent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1
1,I am a student who is learning to code,True,Never,The quality of OSS and closed source software ...,"Not employed, and not looking for work",United Kingdom,No,Primary/elementary school,,"Taught yourself a new language, framework, or ...",,,4.0,10,,,,,,,,,,,,,,,,,,,,,,,,,,,,,HTML/CSS;Java;JavaScript;Python,C;C++;C#;Go;HTML/CSS;Java;JavaScript;Python;SQL,SQLite,MySQL,MacOS;Windows,Android;Arduino;Windows,Django;Flask,Flask;jQuery,Node.js,Node.js,IntelliJ;Notepad++;PyCharm,Windows,I do not use containers,,,Yes,"Fortunately, someone else has that title",Yes,Twitter,Online,Username,2017,A few times per month or weekly,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was much faster,31-60 minutes,No,,"No, I didn't know that Stack Overflow had a jo...","No, and I don't know what those are",Neutral,Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,14.0,Man,No,Straight / Heterosexual,,No,Appropriate in length,Neither easy nor difficult
2,I am a student who is learning to code,False,Less than once per year,The quality of OSS and closed source software ...,"Not employed, but looking for work",Bosnia and Herzegovina,"Yes, full-time","Secondary school (e.g. American high school, G...",,Taken an online course in programming or softw...,,"Developer, desktop or enterprise applications;...",,17,,,,,,,I am actively looking for a job,I've never had a job,,,Financial performance or funding status of the...,"Something else changed (education, award, medi...",,,,,,,,,,,,,,,,,C++;HTML/CSS;Python,C++;HTML/CSS;JavaScript;SQL,,MySQL,Windows,Windows,Django,Django,,,Atom;PyCharm,Windows,I do not use containers,,Useful across many domains and could change ma...,Yes,Yes,Yes,Instagram,Online,Username,2017,Daily or almost daily,Find answers to specific questions;Learn how t...,3-5 times per week,Stack Overflow was much faster,11-30 minutes,Yes,A few times per month or weekly,"No, I knew that Stack Overflow had a job board...","No, and I don't know what those are","Yes, somewhat",Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,19.0,Man,No,Straight / Heterosexual,,No,Appropriate in length,Neither easy nor difficult
3,"I am not primarily a developer, but I write co...",True,Never,The quality of OSS and closed source software ...,Employed full-time,Thailand,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)",Web development or web design,"Taught yourself a new language, framework, or ...",100 to 499 employees,"Designer;Developer, back-end;Developer, front-...",3.0,22,1,Slightly satisfied,Slightly satisfied,Not at all confident,Not sure,Not sure,"I’m not actively looking, but I am open to new...",1-2 years ago,Interview with people in peer roles,No,"Languages, frameworks, and other technologies ...",I was preparing for a job search,THB,Thai baht,23000.0,Monthly,8820.0,40.0,There's no schedule or spec; I work on what se...,Distracting work environment;Inadequate access...,Less than once per month / Never,Home,Average,No,,"No, but I think we should",Not sure,I have little or no influence,HTML/CSS,Elixir;HTML/CSS,PostgreSQL,PostgreSQL,,,,Other(s):,,,Vim;Visual Studio Code,Linux-based,I do not use containers,,,Yes,Yes,Yes,Reddit,In real life (in person),Username,2011,A few times per week,Find answers to specific questions;Learn how t...,6-10 times per week,They were about the same,,Yes,Less than once per month or monthly,Yes,"No, I've heard of them, but I am not part of a...",Neutral,Just as welcome now as I felt last year,Tech meetups or events in your area;Courses on...,28.0,Man,No,Straight / Heterosexual,,Yes,Appropriate in length,Neither easy nor difficult
4,I am a developer by profession,False,Never,The quality of OSS and closed source software ...,Employed full-time,United States,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)","Computer science, computer engineering, or sof...",Taken an online course in programming or softw...,100 to 499 employees,"Developer, full-stack",3.0,16,Less than 1 year,Very satisfied,Slightly satisfied,Very confident,No,Not sure,I am not interested in new job opportunities,Less than a year ago,"Write code by hand (e.g., on a whiteboard);Int...",No,"Languages, frameworks, and other technologies ...",I was preparing for a job search,USD,United States dollar,61000.0,Yearly,61000.0,80.0,There's no schedule or spec; I work on what se...,,Less than once per month / Never,Home,A little below average,No,,"No, but I think we should",Developers typically have the most influence o...,I have little or no influence,C;C++;C#;Python;SQL,C;C#;JavaScript;SQL,MySQL;SQLite,MySQL;SQLite,Linux;Windows,Linux;Windows,,,.NET,.NET,Eclipse;Vim;Visual Studio;Visual Studio Code,Windows,I do not use containers,Not at all,"Useful for decentralized currency (i.e., Bitcoin)",Yes,SIGH,Yes,Reddit,In real life (in person),Username,2014,Daily or almost daily,Find answers to specific questions;Pass the ti...,1-2 times per week,Stack Overflow was much faster,31-60 minutes,Yes,Less than once per month or monthly,Yes,"No, and I don't know what those are","No, not really",Just as welcome now as I felt last year,Tech articles written by other developers;Indu...,22.0,Man,No,Straight / Heterosexual,White or of European descent,No,Appropriate in length,Easy
5,I am a developer by profession,True,Once a month or more often,"OSS is, on average, of HIGHER quality than pro...",Employed full-time,Ukraine,No,"Bachelor’s degree (BA, BS, B.Eng., etc.)","Computer science, computer engineering, or sof...",Taken an online course in programming or softw...,"10,000 or more employees","Academic researcher;Developer, desktop or ente...",16.0,14,9,Very dissatisfied,Slightly dissatisfied,Somewhat confident,Yes,No,I am not interested in new job opportunities,Less than a year ago,"Write any code;Write code by hand (e.g., on a ...",No,"Industry that I'd be working in;Languages, fra...",I was preparing for a job search,UAH,Ukrainian hryvnia,,,,55.0,There is a schedule and/or spec (made by me or...,Being tasked with non-development work;Inadequ...,A few days each month,Office,A little above average,"Yes, because I see value in code review",,"Yes, it's part of our process",Not sure,I have little or no influence,C++;HTML/CSS;Java;JavaScript;Python;SQL;VBA,HTML/CSS;Java;JavaScript;SQL;WebAssembly,Couchbase;MongoDB;MySQL;Oracle;PostgreSQL;SQLite,Couchbase;Firebase;MongoDB;MySQL;Oracle;Postgr...,Android;Linux;MacOS;Slack;Windows,Android;Docker;Kubernetes;Linux;Slack,Django;Express;Flask;jQuery;React.js;Spring,Flask;jQuery;React.js;Spring,Cordova;Node.js,Apache Spark;Hadoop;Node.js;React Native,IntelliJ;Notepad++;Vim,Linux-based,"Outside of work, for personal projects",Not at all,,Yes,Also Yes,Yes,Facebook,In real life (in person),Username,I don't remember,Multiple times per day,Find answers to specific questions,More than 10 times per week,Stack Overflow was much faster,,Yes,A few times per month or weekly,"No, I knew that Stack Overflow had a job board...","No, I've heard of them, but I am not part of a...","Yes, definitely",Just as welcome now as I felt last year,Tech meetups or events in your area;Courses on...,30.0,Man,No,Straight / Heterosexual,White or of European descent;Multiracial,No,Appropriate in length,Easy


De reținut totuți că atunci când utilizăm metoda 'map', tot ce nu este specificat în cadrul acelui dicționar o să fie schimbate automat cu valoarea 'NaN'. Dacă dorim să schimbăm doar anumite valori, atunci putem să utilizăm metoda 'replace()' ca să lăsăm restul datelor neatinse

<h2>Recapitulare</h2>

În această parte din tutorial am învățat următoarele lucruri:

    1. Cum să accesăm toate denumirile coloanelor dintr-un data frame

        df.columns

    2. Cum să modificăm numele coloanelor utilizând atributul '.column'

        df.column = ['first', 'last', 'email_address']

            # de notat că această variantă merge doar atunci când în lista respectivă se specifică nume pentru toate coloanele dintr-un data frame, altfel o să returneze o eroare
    
    3. Cum anume se poate schimba ceva specific pentru denumirile coloanelor

        # exemplu, din lower case în upper case

            df.columns = [column.upper() for column in df.columns]

        # înlocuirea unui caracter din numele coloanei

            df.columns = df.columns.str.replace(' ', '_')
    
    4. Cum putem modifica doar o singură coloană sau mai multe

        df.rename(columns={'first': 'first_name'})

            # key = numele coloanei curente

            # value = noul nume pentru coloană

        # utilizarea atgumentului 'inplace=True' pentru această metodă

            df.rename(columns={'first' : 'first_name'}, inplace-True)
        
    5. Schimbarea valorilor dintr-un rând

        df.loc[2] = ['John', 'Smith', 'JohnSmith@mail.com']
    
            # cazul de mai sus este pentru toate datele din rând

        df.loc[2, ['last_name', 'email']] = ['Doe', 'JohnDoe@mail.com']

            # cazul de sus este pentru anumite date (coloane) din rând 

    6. Schimbarea valorilor dintr-o singură coloană

        df['email'] = df['email'].str.lower()

    7. Utilizarea metodei apply()

        # metoda apply() se aplică pentru fiecare element dintr-un series sau pentru fiecare series dintr-un data frame

        df['email'].apply(len)

        df.apply(len)

        # modificarea axei pentru metoda apply() utilizată pentru un data frame

            df.apply(len, axis='columns')

    8. Utilizarea metodei apply() cu o funcție lambda

        df['email'] = df['email'].apply(lambda x: x.upper())

    9. Utilizarea metodei applymap()

        # metoda applymap() se aplică pentru fiecare element din cadrul data frame-ului

            df.applymap(len)

        # se poate utiliza orice funcție ca și argument

        # utilizarea metodei applymap() cu o funcție lambda

            df.applymap(lambda x: x.upper())

        # pentru a aplica aceste modificări trebuie să creem un nou data frame

            copy_df = df.applymap(lambda x: x.upper())

    10. Utilizarea metodei map()

        # Metoda map() se utilizează pentru un obiect de tip Series pentru a modifica anumite elemente

            df['first_name'] = df['first_name'].map({'Corey' : 'Chris', 'John' : 'Mark'})

            # IMPORTANT valorile care nu sunt specificate sunt transformate în 'NaN'

    11. Utilizarea metodei replace()

        # Metoda replace() se utilizează pentru un obiect de tip Series pentru a modifica anumite elemente. Spre deosebire de map(), această metodă nu se atinge de valorile care nu sunt specificate

            df['first_name'] = df['first_name'].replace({'Corey' : 'Chris', 'John' : 'Mark'})





    