# Pregătirea Datelor

[Notebook-ul original sursă din *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio de Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Explorarea informațiilor din `DataFrame`

> **Obiectiv de învățare:** Până la sfârșitul acestei subsecțiuni, ar trebui să fiți confortabil în a găsi informații generale despre datele stocate în pandas DataFrames.

Odată ce ați încărcat datele în pandas, cel mai probabil vor fi într-un `DataFrame`. Totuși, dacă setul de date din `DataFrame` are 60.000 de rânduri și 400 de coloane, cum începeți să înțelegeți cu ce lucrați? Din fericire, pandas oferă câteva instrumente convenabile pentru a privi rapid informațiile generale despre un `DataFrame`, pe lângă primele și ultimele câteva rânduri.

Pentru a explora această funcționalitate, vom importa biblioteca Python scikit-learn și vom folosi un set de date iconic pe care fiecare specialist în date l-a văzut de sute de ori: setul de date *Iris* al biologului britanic Ronald Fisher, utilizat în lucrarea sa din 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Am încărcat setul de date Iris în variabila `iris_df`. Înainte de a analiza datele, ar fi util să știm numărul de puncte de date pe care le avem și dimensiunea generală a setului de date. Este util să ne uităm la volumul de date cu care lucrăm.


In [2]:
iris_df.shape

(150, 4)

Așadar, lucrăm cu 150 de rânduri și 4 coloane de date. Fiecare rând reprezintă un punct de date, iar fiecare coloană reprezintă o caracteristică asociată cu cadrul de date. Practic, există 150 de puncte de date, fiecare conținând 4 caracteristici.

`shape` aici este un atribut al cadrului de date și nu o funcție, motiv pentru care nu se termină cu o pereche de paranteze.


### `DataFrame.columns`
Să trecem acum la cele 4 coloane de date. Ce reprezintă exact fiecare dintre ele? Atributul `columns` ne va oferi numele coloanelor din dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Așa cum putem vedea, există patru(4) coloane. Atributul `columns` ne spune numele coloanelor și, practic, nimic altceva. Acest atribut devine important atunci când dorim să identificăm caracteristicile pe care le conține un set de date.


### `DataFrame.info`
Cantitatea de date (dată de atributul `shape`) și numele caracteristicilor sau coloanelor (dată de atributul `columns`) ne oferă informații despre setul de date. Acum, am dori să explorăm mai în detaliu setul de date. Funcția `DataFrame.info()` este foarte utilă pentru acest lucru.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


De aici, putem face câteva observații:
1. Tipul de date al fiecărei coloane: În acest set de date, toate datele sunt stocate ca numere în virgulă mobilă pe 64 de biți.
2. Numărul de valori non-nule: Gestionarea valorilor nule este un pas important în pregătirea datelor. Acest aspect va fi abordat mai târziu în notebook.


### DataFrame.describe()
Să presupunem că avem multe date numerice în setul nostru de date. Calculările statistice univariate, cum ar fi media, mediana, quartilele etc., pot fi realizate individual pentru fiecare coloană. Funcția `DataFrame.describe()` ne oferă un rezumat statistic al coloanelor numerice dintr-un set de date.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Rezultatul de mai sus arată numărul total de puncte de date, media, deviația standard, valoarea minimă, primul quartil (25%), mediana (50%), al treilea quartil (75%) și valoarea maximă pentru fiecare coloană.


### `DataFrame.head`
Cu toate funcțiile și atributele de mai sus, am obținut o perspectivă de ansamblu asupra setului de date. Știm câte puncte de date există, câte caracteristici sunt, tipul de date al fiecărei caracteristici și numărul de valori nenule pentru fiecare caracteristică.

Acum este momentul să analizăm datele propriu-zise. Să vedem cum arată primele câteva rânduri (primele câteva puncte de date) ale `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Așa cum se vede în output aici, putem observa cinci (5) intrări ale setului de date. Dacă ne uităm la indexul din stânga, aflăm că acestea sunt primele cinci rânduri.


### Exercițiu:

Din exemplul dat mai sus, este evident că, în mod implicit, `DataFrame.head` returnează primele cinci rânduri ale unui `DataFrame`. În celula de cod de mai jos, poți găsi o modalitate de a afișa mai mult de cinci rânduri?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
O altă modalitate de a privi datele poate fi de la sfârșit (în loc de început). Contrapartea lui `DataFrame.head` este `DataFrame.tail`, care returnează ultimele cinci rânduri ale unui `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


În practică, este util să poți examina cu ușurință primele câteva rânduri sau ultimele câteva rânduri ale unui `DataFrame`, mai ales atunci când cauți valori extreme în seturi de date ordonate.

Toate funcțiile și atributele prezentate mai sus, cu ajutorul exemplelor de cod, ne ajută să obținem o perspectivă asupra datelor.

> **Concluzie:** Chiar și doar uitându-te la metadatele despre informațiile dintr-un DataFrame sau la primele și ultimele câteva valori din acesta, poți obține imediat o idee despre dimensiunea, forma și conținutul datelor cu care lucrezi.


### Date Lipsă
Să explorăm datele lipsă. Datele lipsă apar atunci când nu este stocată nicio valoare în unele dintre coloane.

Să luăm un exemplu: să presupunem că cineva este preocupat de greutatea sa și nu completează câmpul de greutate într-un sondaj. În acest caz, valoarea greutății pentru acea persoană va fi lipsă.

De cele mai multe ori, în seturile de date din lumea reală, apar valori lipsă.

**Cum gestionează Pandas datele lipsă**

Pandas gestionează valorile lipsă în două moduri. Primul, pe care l-ai văzut deja în secțiunile anterioare, este `NaN`, sau Not a Number. Acesta este, de fapt, o valoare specială care face parte din specificația IEEE pentru numere în virgulă mobilă și este utilizată doar pentru a indica valori lipsă de tip float.

Pentru valorile lipsă care nu sunt de tip float, pandas folosește obiectul `None` din Python. Deși poate părea confuz să întâlnești două tipuri diferite de valori care indică, în esență, același lucru, există motive programatice solide pentru această alegere de design, iar în practică, această abordare permite pandas să ofere un compromis bun pentru marea majoritate a cazurilor. Cu toate acestea, atât `None`, cât și `NaN` au restricții de care trebuie să fii conștient în ceea ce privește modul în care pot fi utilizate.


### `None`: date lipsă non-float
Deoarece `None` provine din Python, nu poate fi utilizat în array-uri NumPy și pandas care nu au tipul de date `'object'`. Rețineți că array-urile NumPy (și structurile de date din pandas) pot conține doar un singur tip de date. Acesta este motivul pentru care sunt extrem de puternice pentru lucrul cu date la scară largă și pentru calcule, dar această caracteristică le limitează flexibilitatea. Astfel de array-uri trebuie să fie convertite la „cel mai mic numitor comun”, adică tipul de date care poate cuprinde totul în array. Când `None` se află în array, înseamnă că lucrați cu obiecte Python.

Pentru a vedea acest lucru în practică, luați în considerare următorul exemplu de array (observați `dtype` pentru acesta):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realitatea tipurilor de date convertite în sus vine cu două efecte secundare. În primul rând, operațiunile vor fi efectuate la nivelul codului Python interpretat, mai degrabă decât al codului compilat NumPy. Practic, aceasta înseamnă că orice operațiuni care implică `Series` sau `DataFrames` ce conțin `None` vor fi mai lente. Deși probabil nu vei observa această scădere de performanță, pentru seturi de date mari ar putea deveni o problemă.

Al doilea efect secundar derivă din primul. Deoarece `None` trage practic `Series` sau `DataFrame`s înapoi în lumea Python-ului standard, utilizarea agregărilor NumPy/pandas precum `sum()` sau `min()` pe array-uri care conțin o valoare ``None`` va produce, în general, o eroare:


In [10]:
example1.sum()

TypeError: ignored

**Concluzie principală**: Adunarea (și alte operații) între numere întregi și valori `None` este nedefinită, ceea ce poate limita ceea ce poți face cu seturi de date care le conțin.


### `NaN`: valori float lipsă

Spre deosebire de `None`, NumPy (și, prin urmare, pandas) acceptă `NaN` pentru operațiile sale rapide, vectorizate și ufuncs. Vestea proastă este că orice operație aritmetică efectuată pe `NaN` va avea întotdeauna ca rezultat `NaN`. De exemplu:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Vestea bună: agregările care rulează pe array-uri ce conțin `NaN` nu generează erori. Vestea proastă: rezultatele nu sunt uniform utile:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Exercițiu:


In [11]:
# What happens if you add np.nan and None together?


Amintește-ți: `NaN` este doar pentru valori lipsă de tip floating-point; nu există un echivalent `NaN` pentru întregi, șiruri de caractere sau valori Booleene.


### `NaN` și `None`: valori nule în pandas

Deși `NaN` și `None` pot avea comportamente ușor diferite, pandas este totuși conceput pentru a le gestiona interschimbabil. Pentru a înțelege ce vrem să spunem, luați în considerare un `Series` de numere întregi:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Exercițiu:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


În procesul de conversie a tipurilor de date pentru a stabili omogenitatea datelor în `Series` și `DataFrame`, pandas va schimba cu ușurință valorile lipsă între `None` și `NaN`. Datorită acestei caracteristici de design, poate fi util să considerăm `None` și `NaN` ca două variante diferite de "null" în pandas. De fapt, unele dintre metodele de bază pe care le vei folosi pentru a gestiona valorile lipsă în pandas reflectă această idee în denumirile lor:

- `isnull()`: Generează o mască Boolean care indică valorile lipsă
- `notnull()`: Opusul lui `isnull()`
- `dropna()`: Returnează o versiune filtrată a datelor
- `fillna()`: Returnează o copie a datelor cu valorile lipsă completate sau estimate

Acestea sunt metode importante pe care trebuie să le stăpânești și să te familiarizezi cu ele, așa că haide să le analizăm pe fiecare în detaliu.


### Detectarea valorilor nule

Acum că am înțeles importanța valorilor lipsă, trebuie să le detectăm în setul nostru de date înainte de a le gestiona. 
Atât `isnull()` cât și `notnull()` sunt metodele principale pentru detectarea datelor nule. Ambele returnează măști booleene pentru datele tale.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Privește cu atenție rezultatul. Te surprinde ceva? Deși `0` este considerat un nul aritmetic, este totuși un număr întreg valid, iar pandas îl tratează ca atare. `''` este puțin mai subtil. Deși l-am folosit în Secțiunea 1 pentru a reprezenta o valoare de șir gol, este totuși un obiect de tip șir și nu o reprezentare a nulului din perspectiva pandas.

Acum, să schimbăm perspectiva și să utilizăm aceste metode într-un mod mai apropiat de cum le vei folosi în practică. Poți folosi măști booleene direct ca index pentru un ``Series`` sau ``DataFrame``, ceea ce poate fi util atunci când încerci să lucrezi cu valori lipsă (sau prezente) izolate.

Dacă dorim numărul total de valori lipsă, putem pur și simplu să facem o sumă peste masca produsă de metoda `isnull()`.


In [19]:
example3.isnull().sum()

2

### Exercițiu:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Concluzie principală**: Atât metodele `isnull()` cât și `notnull()` produc rezultate similare atunci când le utilizați în DataFrame-uri: ele afișează rezultatele și indexul acelor rezultate, ceea ce vă va ajuta enorm în procesul de analiză a datelor.


### Gestionarea datelor lipsă

> **Obiectiv de învățare:** La finalul acestei subsecțiuni, ar trebui să știi cum și când să înlocuiești sau să elimini valorile nule din DataFrames.

Modelele de Machine Learning nu pot gestiona singure datele lipsă. Așadar, înainte de a introduce datele în model, trebuie să ne ocupăm de aceste valori lipsă.

Modul în care sunt gestionate datele lipsă implică compromisuri subtile, poate influența analiza finală și rezultatele din lumea reală.

Există în principal două moduri de a gestiona datele lipsă:

1.   Eliminarea rândului care conține valoarea lipsă
2.   Înlocuirea valorii lipsă cu o altă valoare

Vom discuta ambele metode și avantajele și dezavantajele acestora în detaliu.


### Eliminarea valorilor nule

Cantitatea de date pe care o transmitem modelului nostru are un efect direct asupra performanței acestuia. Eliminarea valorilor nule înseamnă că reducem numărul de puncte de date și, prin urmare, dimensiunea setului de date. Astfel, este recomandabil să eliminăm rândurile cu valori nule atunci când setul de date este destul de mare.

O altă situație poate fi aceea în care un anumit rând sau o anumită coloană are multe valori lipsă. În acest caz, acestea pot fi eliminate deoarece nu ar adăuga prea multă valoare analizei noastre, având în vedere că majoritatea datelor lipsesc pentru acel rând/coloană.

Dincolo de identificarea valorilor lipsă, pandas oferă un mijloc convenabil de a elimina valorile nule din `Series` și `DataFrame`. Pentru a vedea acest lucru în practică, să revenim la `example3`. Funcția `DataFrame.dropna()` ajută la eliminarea rândurilor cu valori nule.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Observați că acest lucru ar trebui să arate ca rezultatul dvs. de la `example3[example3.notnull()]`. Diferența aici este că, în loc să indexeze doar valorile mascate, `dropna` a eliminat acele valori lipsă din `Series` `example3`.

Deoarece DataFrames au două dimensiuni, acestea oferă mai multe opțiuni pentru eliminarea datelor.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ai observat că pandas a convertit două dintre coloane în tipul float pentru a acomoda valorile `NaN`?)

Nu poți elimina o singură valoare dintr-un `DataFrame`, așa că trebuie să elimini rânduri sau coloane întregi. În funcție de ceea ce faci, s-ar putea să vrei să alegi una sau alta, iar pandas îți oferă opțiuni pentru ambele. Deoarece, în știința datelor, coloanele reprezintă de obicei variabile, iar rândurile reprezintă observații, este mai probabil să elimini rânduri de date; setarea implicită pentru `dropna()` este să elimine toate rândurile care conțin orice valori nule:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Dacă este necesar, poți elimina valorile NA din coloane. Folosește `axis=1` pentru a face acest lucru:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Observați că acest lucru poate elimina o cantitate mare de date pe care poate doriți să le păstrați, mai ales în seturi de date mai mici. Ce se întâmplă dacă doriți să eliminați doar rândurile sau coloanele care conțin mai multe sau chiar toate valorile nule? Puteți specifica aceste setări în `dropna` folosind parametrii `how` și `thresh`.

Implicit, `how='any'` (dacă doriți să verificați singuri sau să vedeți ce alți parametri are metoda, rulați `example4.dropna?` într-o celulă de cod). Alternativ, puteți specifica `how='all'` pentru a elimina doar rândurile sau coloanele care conțin toate valorile nule. Haideți să extindem exemplul nostru de `DataFrame` pentru a vedea acest lucru în acțiune în următorul exercițiu.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Puncte cheie:  
1. Eliminarea valorilor nule este o idee bună doar dacă setul de date este suficient de mare.  
2. Rândurile sau coloanele complete pot fi eliminate dacă au majoritatea datelor lipsă.  
3. Metoda `DataFrame.dropna(axis=)` ajută la eliminarea valorilor nule. Argumentul `axis` indică dacă trebuie eliminate rândurile sau coloanele.  
4. Se poate folosi și argumentul `how`. Implicit, acesta este setat la `any`. Astfel, elimină doar acele rânduri/coloane care conțin orice valoare nulă. Poate fi setat la `all` pentru a specifica că vom elimina doar acele rânduri/coloane unde toate valorile sunt nule.  


### Exercițiu:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametrul `thresh` îți oferă un control mai detaliat: setezi numărul de valori *non-null* pe care o linie sau o coloană trebuie să le aibă pentru a fi păstrată:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Aici, prima și ultima linie au fost eliminate, deoarece conțin doar două valori nenule.


### Completarea valorilor nule

Uneori are sens să completăm valorile lipsă cu unele care ar putea fi valide. Există câteva tehnici pentru a completa valorile nule. Prima este utilizarea Cunoștințelor de Domeniu (cunoștințe despre subiectul pe care se bazează setul de date) pentru a aproxima cumva valorile lipsă.

Poți folosi `isnull` pentru a face acest lucru direct, dar poate fi obositor, mai ales dacă ai multe valori de completat. Deoarece aceasta este o sarcină atât de comună în știința datelor, pandas oferă `fillna`, care returnează o copie a `Series` sau `DataFrame` cu valorile lipsă înlocuite cu cele alese de tine. Hai să creăm un alt exemplu de `Series` pentru a vedea cum funcționează acest lucru în practică.


### Date Categorice (Non-numerice)
Mai întâi, să luăm în considerare datele non-numerice. În seturile de date, avem coloane cu date categorice. De exemplu, Gen, Adevărat sau Fals etc.

În majoritatea acestor cazuri, înlocuim valorile lipsă cu `moda` coloanei. Să presupunem că avem 100 de puncte de date, dintre care 90 au răspuns Adevărat, 8 au răspuns Fals și 2 nu au completat. Atunci, putem completa cele 2 cu Adevărat, luând în considerare întreaga coloană.

Din nou, aici putem folosi cunoștințele de domeniu. Să luăm un exemplu de completare cu moda.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Acum, să găsim mai întâi moda înainte de a completa valoarea `None` cu moda.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Deci, vom înlocui None cu True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Așa cum putem vedea, valoarea nulă a fost înlocuită. Fără îndoială, am fi putut scrie orice în loc de `'True'` și ar fi fost substituit.


### Date Numerice
Acum, să trecem la datele numerice. Aici, avem două metode comune de înlocuire a valorilor lipsă:

1. Înlocuire cu Mediana rândului
2. Înlocuire cu Media rândului

Înlocuim cu Mediana în cazul datelor distorsionate cu valori extreme. Acest lucru se datorează faptului că mediana este rezistentă la valori extreme.

Când datele sunt normalizate, putem folosi media, deoarece în acest caz, media și mediana ar fi destul de apropiate.

Mai întâi, să luăm o coloană care este distribuită normal și să completăm valoarea lipsă cu media coloanei.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Media coloanei este


In [33]:
np.mean(fill_with_mean[0])

0.0

Completare cu medie


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Așa cum putem vedea, valoarea lipsă a fost înlocuită cu media sa.


Acum să încercăm un alt dataframe, iar de această dată vom înlocui valorile None cu mediana coloanei.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Mediana celei de-a doua coloane este


In [36]:
fill_with_median[1].median()

4.0

Completare cu mediană


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Așa cum putem vedea, valoarea NaN a fost înlocuită cu mediana coloanei


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Poți completa toate intrările nule cu o singură valoare, cum ar fi `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Concluzii principale:
1. Completarea valorilor lipsă ar trebui făcută fie atunci când există mai puține date, fie când există o strategie pentru completarea datelor lipsă.
2. Cunoștințele din domeniu pot fi utilizate pentru a completa valorile lipsă prin aproximarea acestora.
3. Pentru datele categorice, de obicei, valorile lipsă sunt înlocuite cu moda coloanei.
4. Pentru datele numerice, valorile lipsă sunt, de regulă, completate cu media (pentru seturi de date normalizate) sau cu mediana coloanelor.


### Exercițiu:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Poți **completa înainte** valorile nule, adică să folosești ultima valoare validă pentru a completa o valoare nulă:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

De asemenea, puteți **completa retroactiv** pentru a propaga următoarea valoare validă înapoi pentru a umple un null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Așa cum probabil ghicești, acest lucru funcționează la fel și cu DataFrames, dar poți specifica și un `axis` de-a lungul căruia să completezi valorile nule:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Observați că atunci când o valoare anterioară nu este disponibilă pentru completarea în avans, valoarea nulă rămâne.


### Exercițiu:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Poți fi creativ în modul în care utilizezi `fillna`. De exemplu, să ne uităm din nou la `example4`, dar de data aceasta să completăm valorile lipsă cu media tuturor valorilor din `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Observați că coloana 3 este încă fără valoare: direcția implicită este de a completa valorile pe rând.

> **Concluzie:** Există mai multe modalități de a gestiona valorile lipsă în seturile de date. Strategia specifică pe care o utilizați (eliminarea lor, înlocuirea lor sau chiar modul în care le înlocuiți) ar trebui să fie dictată de particularitățile acelui set de date. Veți dezvolta o înțelegere mai bună a modului de a gestiona valorile lipsă pe măsură ce lucrați și interacționați mai mult cu seturile de date.


### Codificarea Datelor Categoriale

Modelele de învățare automată lucrează doar cu numere și orice formă de date numerice. Ele nu pot face diferența între un Da și un Nu, dar pot distinge între 0 și 1. Așadar, după completarea valorilor lipsă, trebuie să codificăm datele categoriale într-o formă numerică pentru ca modelul să le poată înțelege.

Codificarea poate fi realizată în două moduri. Vom discuta despre acestea în continuare.


**ENCODAREA ETICHETELOR**

Encodarea etichetelor presupune, în esență, convertirea fiecărei categorii într-un număr. De exemplu, să presupunem că avem un set de date cu pasageri de avion și există o coloană care conține clasa lor, dintre următoarele ['business class', 'economy class', 'first class']. Dacă aplicăm encodarea etichetelor, aceasta va fi transformată în [0, 1, 2]. Să vedem un exemplu prin cod. Deoarece vom învăța despre `scikit-learn` în caietele viitoare, nu îl vom folosi aici.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Pentru a efectua codificarea etichetelor pe prima coloană, trebuie mai întâi să descriem o mapare de la fiecare clasă la un număr, înainte de înlocuire.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Așa cum putem observa, rezultatul corespunde cu ceea ce ne așteptam să se întâmple. Deci, când folosim codificarea etichetelor? Codificarea etichetelor este utilizată în unul sau ambele dintre următoarele cazuri:
1. Când numărul de categorii este mare
2. Când categoriile sunt ordonate.


**ONE HOT ENCODING**

Un alt tip de codificare este One Hot Encoding. În acest tip de codificare, fiecare categorie a coloanei este adăugată ca o coloană separată, iar fiecare punct de date va primi 0 sau 1, în funcție de faptul dacă conține sau nu acea categorie. Astfel, dacă există n categorii diferite, n coloane vor fi adăugate la dataframe.

De exemplu, să luăm același exemplu cu clasele de avion. Categoriile erau: ['business class', 'economy class', 'first class']. Deci, dacă aplicăm One Hot Encoding, următoarele trei coloane vor fi adăugate la setul de date: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Să efectuăm codificarea one hot pe prima coloană


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Fiecare coloană codificată one-hot conține 0 sau 1, ceea ce specifică dacă acea categorie există pentru acel punct de date.


Când folosim codificarea one hot? Codificarea one hot este utilizată în unul sau ambele dintre următoarele cazuri:

1. Când numărul de categorii și dimensiunea setului de date sunt mai mici.
2. Când categoriile nu urmează o ordine specifică.


> Concluzii principale:
1. Codificarea se face pentru a transforma datele non-numerice în date numerice.
2. Există două tipuri de codificare: Codificare prin etichetare și Codificare One Hot, ambele putând fi realizate în funcție de cerințele setului de date.


## Eliminarea datelor duplicate

> **Obiectiv de învățare:** Până la sfârșitul acestei subsecțiuni, ar trebui să fiți confortabil cu identificarea și eliminarea valorilor duplicate din DataFrames.

Pe lângă datele lipsă, veți întâlni adesea date duplicate în seturile de date din lumea reală. Din fericire, pandas oferă o modalitate simplă de a detecta și elimina înregistrările duplicate.


### Identificarea duplicatelor: `duplicated`

Puteți identifica cu ușurință valorile duplicate utilizând metoda `duplicated` din pandas, care returnează o mască Boolean ce indică dacă o intrare într-un `DataFrame` este un duplicat al uneia anterioare. Să creăm un alt exemplu de `DataFrame` pentru a vedea acest lucru în acțiune.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Eliminarea duplicatelor: `drop_duplicates`
`drop_duplicates` returnează pur și simplu o copie a datelor pentru care toate valorile `duplicated` sunt `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Atât `duplicated`, cât și `drop_duplicates` consideră implicit toate coloanele, dar puteți specifica să examineze doar un subset de coloane din `DataFrame`-ul dvs.:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Concluzie:** Eliminarea datelor duplicate este o parte esențială a aproape fiecărui proiect de știința datelor. Datele duplicate pot modifica rezultatele analizelor și pot oferi rezultate inexacte!


## Verificări ale calității datelor din lumea reală

> **Obiectiv de învățare:** Până la sfârșitul acestei secțiuni, ar trebui să vă simțiți confortabil să detectați și să corectați problemele comune de calitate a datelor din lumea reală, inclusiv valori categorice inconsistente, valori numerice anormale (outlieri) și entități duplicate cu variații.

Deși valorile lipsă și duplicatele exacte sunt probleme comune, seturile de date din lumea reală conțin adesea probleme mai subtile:

1. **Valori categorice inconsistente**: Aceeași categorie scrisă diferit (de exemplu, "USA", "U.S.A", "United States")
2. **Valori numerice anormale**: Outlieri extremi care indică erori de introducere a datelor (de exemplu, vârsta = 999)
3. **Rânduri aproape duplicate**: Înregistrări care reprezintă aceeași entitate cu variații ușoare

Să explorăm tehnici pentru a detecta și a gestiona aceste probleme.


### Crearea unui set de date „murdar” de exemplu

Mai întâi, să creăm un set de date de exemplu care conține tipurile de probleme pe care le întâlnim frecvent în datele din lumea reală:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Detectarea Valorilor Categoriale Inconsistente

Observați că coloana `country` are mai multe reprezentări pentru aceleași țări. Haideți să identificăm aceste inconsistențe:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Standardizarea Valorilor Categoriale

Putem crea o mapare pentru a standardiza aceste valori. O abordare simplă este să convertim la litere mici și să creăm un dicționar de mapare:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternativă: Utilizarea potrivirii aproximative**

Pentru cazuri mai complexe, putem folosi potrivirea aproximativă a șirurilor de caractere cu biblioteca `rapidfuzz` pentru a detecta automat șiruri similare:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Detectarea Valorilor Numerice Anormale (Outlieri)

Analizând coloana `age`, observăm câteva valori suspecte, cum ar fi 199 și -5. Să folosim metode statistice pentru a detecta acești outlieri.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Utilizarea metodei IQR (Interval Interquartil)

Metoda IQR este o tehnică statistică robustă pentru detectarea valorilor aberante, care este mai puțin sensibilă la valorile extreme:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Utilizarea metodei Z-Score

Metoda Z-score identifică valorile extreme pe baza deviațiilor standard față de medie:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Gestionarea Valorilor Aberante

Odată detectate, valorile aberante pot fi gestionate în mai multe moduri:
1. **Eliminare**: Șterge rândurile cu valori aberante (dacă sunt erori)
2. **Limitare**: Înlocuiește cu valori de limită
3. **Înlocuire cu NaN**: Tratează-le ca date lipsă și folosește tehnici de imputare
4. **Păstrare**: Dacă sunt valori extreme legitime


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Detectarea rândurilor aproape identice

Observați că setul nostru de date are mai multe înregistrări pentru "John Smith" cu valori ușor diferite. Haideți să identificăm posibile duplicate pe baza similarității numelui.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Găsirea Aproape-Duplicatelor cu Potrivire Fuzzy

Pentru o detectare mai avansată a duplicatelor, putem folosi potrivirea fuzzy pentru a găsi nume similare:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Gestionarea Duplicatelor

Odată identificate, trebuie să decideți cum să gestionați duplicatele:
1. **Păstrați prima apariție**: Utilizați `drop_duplicates(keep='first')`
2. **Păstrați ultima apariție**: Utilizați `drop_duplicates(keep='last')`
3. **Agregarea informațiilor**: Combinați informațiile din rândurile duplicate
4. **Revizuire manuală**: Marcați pentru revizuire umană


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Rezumat: Pipeline complet de curățare a datelor

Să punem totul împreună într-un pipeline cuprinzător de curățare:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Exercițiu de Provocare

Acum e rândul tău! Mai jos este un rând nou de date cu multiple probleme de calitate. Poți:

1. Identifica toate problemele din acest rând
2. Scrie cod pentru a corecta fiecare problemă
3. Adăuga rândul curățat la setul de date

Iată datele problematice:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Puncte Cheie

1. **Categorii inconsistente** sunt frecvente în datele din lumea reală. Verifică întotdeauna valorile unice și standardizează-le folosind mapări sau potrivire aproximativă.

2. **Valorile extreme** pot afecta semnificativ analiza. Folosește cunoștințele de domeniu împreună cu metode statistice (IQR, Z-score) pentru a le detecta.

3. **Aproape duplicatele** sunt mai greu de identificat decât duplicatele exacte. Ia în considerare utilizarea potrivirii aproximative și normalizarea datelor (transformarea în litere mici, eliminarea spațiilor) pentru a le identifica.

4. **Curățarea datelor este iterativă**. Este posibil să fie nevoie să aplici mai multe tehnici și să revizuiești rezultatele înainte de a finaliza setul de date curățat.

5. **Documentează deciziile tale**. Ține evidența pașilor de curățare pe care i-ai aplicat și motivele pentru care ai făcut acest lucru, deoarece este important pentru reproducibilitate și transparență.

> **Practica Recomandată:** Păstrează întotdeauna o copie a datelor originale "murdare". Nu suprascrie fișierele sursă de date - creează versiuni curățate cu convenții clare de denumire, cum ar fi `data_cleaned.csv`.



---

**Declinare de responsabilitate**:  
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa maternă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.
