# Pandas DataFrame - Text Methods for String Data

În cadrul acestui tutorial o să aruncăm o privire peste partea de metode specifice pentru text din Pandas. De foarte multe ori datele cu care trebuie să lucrăm trebuie să fie curățate pentru a putea fi procesate mai departe. De exemplu, pentru datele referitoare la email-ul unor persoane poate dorim să extragem domeeniul (@something) pentru fiecare email. Deși am putea să utilizăm metoda apply() prin care să creem o funcție care face asta, Pandas ne pune la dispoziție o mulțime de metode specifice pentru String-uri

După cum știm, un string are anumite metode specifice (upper(), lower(), strip(), etc). Din fericire, aceste metode sunt disponibile și în Pandas. Pentru a le putea utiliza trebuie întâi să apelăm metoda 'str' care transformă un obiect de tipul 'object' din Pandas într-un string, iar pentru acest string putem să apelăm metodele respective.

In [1]:
email = 'andrei@mail.com'

In [2]:
email.split('@')

['andrei', 'mail.com']

Un exemplu de metodă specifică pentru string-uri în Pandas este cea de sus. Putem să utilizăm metoda 'split' care o să ne împartă un string în mai multe bucăți în funcție de un caracter pe care îl oferim ca și input. Acest tip de comportament este prezent și în Pandas prin utilizarea librăriel 'str'

În continuare o să creem un Series prin care o să punem în practică aceste concepte.

In [3]:
# importing the libraries
import numpy as np
import pandas as pd

In [4]:
# creating a Series
names = pd.Series(['Andrei', 'Bob', 'Cristian', 'Dana', '5'])

In [5]:
names

0      Andrei
1         Bob
2    Cristian
3        Dana
4           5
dtype: object

Având acest Series, putem să utilizăm librăria 'str' pentru a utiliza metodele specifice string-urilor în Pandas. Să utilizăm metoda 'upper()' pentru acest Series

In [6]:
names.str.upper()

0      ANDREI
1         BOB
2    CRISTIAN
3        DANA
4           5
dtype: object

Aceste modificări nu sunt permanente, pentru a leface permanenete trebuie să reasignăm rezultatul unui Series.

Un set de metode utilie din această librărie în Pandas sunt metodele de verificare (cele cu is, isdigit(), isalpha(), etc). Aceste metode iau fiecare element din cadrul unui Series și verifică dacă acel element este de un anumit tip. În acest Series de mai sus avem prezent valoarea '5', valoare care deși apare ca și un integer, aceasta este un string. Cu ajutorul acestei metode se poate face această verificare.

In [7]:
names.str.isdigit()

0    False
1    False
2    False
3    False
4     True
dtype: bool

Utilizând metoda de mai sus putem să obersvăm că ultimul element din cadrul acelui Series este de tip digit (deși este trecut ca și string). Cu ajutorul acestor metode putem verifica ce tipuri de date sunt prezente într-un anumit set de date

In [9]:
messy_names = pd.Series(['andrei    ', 'bo;bo', '   cristina    '])

In [10]:
messy_names

0         andrei    
1              bo;bo
2       cristina    
dtype: object

După cum putem să obersvăm, în cadrul Series-ului de mai sus avem anumite date care nu sunt extrem de curate (există un semn de ';' în cadrul unui nume, iar altele au anumite spații (spaces) fie la început, fie la final). Cu ajutorul acestor metode pentru string-uri putem să curățăm aceste date. Pentru început o să înlocuim acel semn de ;

In [11]:
messy_names.str.replace(';', '')

0         andrei    
1               bobo
2       cristina    
dtype: object

În acest moment am reușit să eliminăm acel caracter, mai rămâne doar să eliminăm spațiile care sunt în plus. Pentru codul de mai sus putem să înșiruim mai multe metode (aceste metode trebuie însă înșiruite împreună cu librăbia str)

In [12]:
messy_names.str.replace(';', '').str.strip()

0      andrei
1        bobo
2    cristina
dtype: object

Datele din acest Series fiind anumite nume, mai putem să le și capitalizăm (să trecem prima literă cu majusculă)

In [13]:
messy_names.str.replace(';', '').str.strip().str.capitalize()

0      Andrei
1        Bobo
2    Cristina
dtype: object

Dacă aceste înșiruiri de metode sunt prea multe și prea complicate, acestea se pot pune toate într-o anumită metodă, iar metoda aceasta să se apeleze utilizând metoda apply() din Pandas

In [22]:
def cleanup_name(name):
    name = name.replace(';', '')
    name = name.strip()
    name = name.capitalize()
    return name

In [23]:
messy_names.apply(cleanup_name)

0      Andrei
1        Bobo
2    Cristina
dtype: object

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum putem utiliza librăria str pentru a folosi metode specifice string-urilor în Pandas

        df.str.strip()

    2. Cum putem înșirui mai multe metode 

        df.str.replace(';', '').str.strip().str.capitalize()