Pasul de preprocesare a datelor este o etapă esențială în dezvoltarea unui model de ML. Datele brute pot conține informații lipsă, valori anormale sau erori. Prin preprocesare, curățăm datele și le transformăm astfel încât să fie utilizabile pentru algoritmii de folosiți. În această etapă explorăm și datele pentru a înțelege structura și caracteristicile acestora.

<h2>Importarea datelor și manipularea acestora cu pandas</h2>

Cele mai populare biblioteci (oferite sub formă de pachete) din Python pentru a realiza astfel de analize sunt Numpy(https://numpy.org/doc/stable/) și Pandas(https://pandas.pydata.org/docs/reference/index.html). Numpy servește ca model de bază pentru matricele multidimensionale cu care veți lucra, în timp ce Pandas pune la dispoziție o suită întreagă de metode de analiză și vizualizare a datelor. Majoritatea funcțiilor pe care le veți utiliza în acest laborator sunt din biblioteca pandas. Suplimentar, veți folosi și funcții de vizualizare (mai avansate) din biblioteca Matplotlib sau din Seaborn(https://seaborn.pydata.org/tutorial/introduction) (strâns legată de Pandas ).

In [None]:
#Încărcăm pachetele necesare

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#încărcăm CSV ul

df1=pd.read_csv(r"nume_fișier.csv")
df1.to_csv(r"nume_fișier.csv", mode="a")
df=pd.read_csv(r"alt_nume_fișier.csv")

In [None]:
#Folosim următoarea comandă pentru a vedea setul de date

display(df)

In [None]:
#Pentru a afișa primele 5 valori din setul de date folosim 

df.head()

In [None]:
# Afișează informații despre structura DataFrame-ului

df.info()

In [None]:
# Afișează statistici descriptive pentru coloanele numerice

df.describe()

<h2>Curățarea datelor și tratarea valorilor lipsă</h2>

Datele reale conțin adesea erori sau informații lipsă. Așadar, curățarea datelor implică tratarea acestora pentru a preveni ca ele să afecteze acuratețea modelului.

In [None]:
# Găsește valorile lipsă din fiecare coloană

df.isnull().sum()

Modalități de a trata valorile lipsă:

In [None]:
#Ștergerea rândurilor care conțin valori lipsă:

date_curate = df.dropna()

In [None]:
#Completarea valorilor lipsă cu o valoare (de exemplu, media aritmetică):

df['coloana_numerica'] = df['coloana_numerica'].fillna(df['coloana_numerica'].mean())

In [None]:
#Completarea valorilor lipsă cu valoarea cea mai frecventă:

df['coloana_categorica'] = df['coloana_categorica'].fillna(df['coloana_categorica'].mode()[0])

<h2>Vizualizarea datelor cu matplotlib și seaborn</h2>

In [None]:
#Facem o histogramă pentru o variabilă numerică

sns.histplot(df['coloana_numerica'], kde=True)
plt.show()

In [None]:
#Pentru a vizualiza relațile dintre variabile folosim un grafic de dispersie

sns.scatterplot(x='variabila_x', y='variabila_y', data=df)
plt.show()

In [None]:
# Matricea de corelație
corelatii = df.corr()

# Heatmap cu corelațiile
sns.heatmap(corelatii, annot=True, cmap="coolwarm")
plt.show()

<h2>Noțiuni de bază despre normalizare și standardizare</h2>

Normalizarea presupune scalarea datelor astfel încât valorile să fie cuprinse între 0 și 1.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
date_normalizate = scaler.fit_transform(df[['variabila1', 'variabila2']])

Standardizarea presupune transformarea datelor astfel încât să aibă media 0 și deviația standard 

1. Este utilă atunci când variabilele au distribuții normale.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
date_standardizate = scaler.fit_transform(df[['variabila1', 'variabila2']])

Voi mai adăuga link uri + parți din proiectul meu cu rezultate (ceva puțin mai simplificat) + mai multă informație