**Cerinta 1:** Folositi interquartile range pentru a identifica si elimina outlier-ele. O valoare
este considerată outlier dacă este mai mică decât Q1 - 1.5IQR sau mai mare decât Q3 + 1.5IQR,
unde Q1 si Q3 sunt primul si al treilea percentile, iar IQR este diferent, a dintre Q3 si Q1. Dacă
luăm de exemplu variabila "age" din setul de date Titanic, putem calcula Q1 si Q3, apoi IQR.
Valorile care sunt în afara intervalului Q1 - 1.5IQR si Q3 + 1.5IQR pot fi considerate outlier-e
si eliminate.

In [220]:
def iqr(df):
  ############################################
              # Outlieri varsta #
  ############################################

  # calculeaza primul percentile
  ageQ1 = np.percentile(df['Age'], 25)
  # calculeaza al treilea percentile
  ageQ3 = np.percentile(df['Age'], 75)
  # interquartile range
  ageIQR = ageQ3 - ageQ1

  # valoarea sub care se afla outlieri
  ageMinValue = ageQ1 - 1.5*ageIQR
  # valoarea peste care se afla outlieri
  ageMaxValue = ageQ3 + 1.5*ageIQR

  # eliminare outlieri
  df_age_iqr = df[(df['Age'] >= ageMinValue) & (df['Age'] <= ageMaxValue)]

  df_age_iqr.reset_index(drop=True, inplace=True)

  ############################################
              # Outlieri pret #
  ############################################

  # calculeaza primul percentile
  fareQ1 = np.percentile(df['Fare'], 25)
  # calculeaza al treilea percentile
  fareQ3 = np.percentile(df['Fare'], 75)
  # interquartile range
  fareIQR = fareQ3 - fareQ1

  # valoarea sub care se afla outlieri
  fareMinValue = fareQ1 - 1.5*fareIQR
  # valoarea peste care se afla outlieri
  fareMaxValue = fareQ3 + 1.5*fareIQR

  # eliminare outlieri
  df_fare_iqr = df_age_iqr[(df_age_iqr['Fare'] >= fareMinValue) & (df_age_iqr['Fare'] <= fareMaxValue)]

  df_fare_iqr.reset_index(drop=True, inplace=True)

  return df_fare_iqr

**Cerinta 2:** Calculati Z-score pentru fiecare observatie si eliminati valorile care au un Z-score
absolut mai mare decât un anumit prag (de exemplu, 3 sau 4). Z-score reprezintă numărul de
deviatii standard fata de media setului de date. Pentru aceeasi variabilă "age", putem calcula Z-score pentru fiecare vârstă si să eliminăm valorile care au un Z-score mai mare de, să zicem, 3. Valorile cu un Z-score mai mare de 3 ar putea fi considerate outlier-e.

In [221]:
def z_score(df):
  ############################################
              # Outlieri varsta #
  ############################################

  age_zscores = stats.zscore(df['Age'])

  # cel mai asemanator cu iqr este pt 1.9
  df_age_zscore = df[abs(age_zscores) <= 1.9]

  df_age_zscore.reset_index(drop=True, inplace=True)

  ############################################
              # Outlieri pret #
  ############################################

  fare_zscores = stats.zscore(df_age_zscore['Fare'])

  # cel mai asemanator cu iqr este pt 0.7
  df_fare_zscore = df_age_zscore[abs(fare_zscores) <= 0.7]

  df_fare_zscore.reset_index(drop=True, inplace=True)

  return df_fare_zscore

**Cerinta 4:** Dezvoltarea unui model de clasificare pentru prezicerea sanselor de supraviet, uire.

Preprocesarea datelor: încărcarea datelor (pandas), înlăturarea valorilor lipsă (ex: medie),
convertirea coloanele categorice (ex: Sex, Embarked) în valori numerice, normalizarea caracteristicilor numerice.

Protocolul de testare: Împărtiti setul de date în două componente: 80% pentru antrenare
si 20% pentru validare.

Antrenare model: alegerea unui algoritm (Decision-Tree, Random Forest, etc.), antrenare
pe setul de date de antrenament

In [251]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

#citeste fisiere
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

# eliminarea din setul de date de intrare (train si test) a coloanelor 'PassengerId', 'Name', 'Ticket', 'Cabin'
df_train = df_train.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis='columns')

#############################################
        #Pregatirea setului de date#
#############################################

#umplerea valorilor goale pt varsta cu media
mean = np.mean(df_train['Age'])
df_train['Age'].fillna(mean, inplace = True)

#umplerea valorilor goale pentru varsta cu cea mai intalnita valoare
mean = df_train['Embarked'].mode()[0]
df_train['Embarked'].fillna(mean, inplace=True)

#eliminare outlieri dupa varsta si pret
df_final = z_score(df_train)

#scrierea in "filtered_train.csv" a datelor filtrate
df_final.to_csv('filtered_train.csv')

# transforma Sex si Embarked in coloane numerice
le = LabelEncoder()
le.fit(df_final['Sex'])
df_final.loc[:, 'Sex'] = le.transform(df_final['Sex'])

le = LabelEncoder()
le.fit(df_final['Embarked'])
df_final.loc[:, 'Embarked'] = le.transform(df_final['Embarked'])

#############################################
 #Impartirea setului de date pentru testare#
#############################################

# setul de date de intrare (train si test)
X = df_final.drop(columns=['Survived'])

# normalizarea valorilor
#for col in X:
#    max = np.max(df_final[col])
#    X.loc[:, col] = X[col] / abs(max)
scaler = StandardScaler()
X_mat = scaler.fit_transform(X)
X = pd.DataFrame(X_mat, columns=X.columns)

print(X)

# setul de date de iesire (train si test) contine survived
y = df_final['Survived']

# imparte setul de date
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=89, shuffle=True)

# antrenare cu decision tree
rfc = RandomForestClassifier(random_state=78)
rfc.fit(X_train, y_train)

y_pred = rfc.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

       Pclass       Sex       Age     SibSp     Parch      Fare  Embarked
0    0.689692  0.676430 -0.766854  0.774912 -0.381365 -0.728937  0.535880
1    0.689692 -1.478351 -0.336705 -0.473459 -0.381365 -0.680205  0.535880
2   -2.069077 -1.478351  0.631132  0.774912 -0.381365  2.581200  0.535880
3    0.689692  0.676430  0.631132 -0.473459 -0.381365 -0.671181  0.535880
4    0.689692  0.676430  0.061089 -0.473459 -0.381365 -0.641704 -0.840980
..        ...       ...       ...       ...       ...       ...       ...
699 -0.689692  0.676430 -0.229167 -0.473459 -0.381365 -0.313816  0.535880
700 -2.069077 -1.478351 -1.089466 -0.473459 -0.381365  0.913497  0.535880
701  0.689692 -1.478351  0.061089  0.774912  2.200180  0.440621  0.535880
702 -2.069077  0.676430 -0.336705 -0.473459 -0.381365  0.913497 -2.217841
703  0.689692  0.676430  0.308520 -0.473459 -0.381365 -0.692840 -0.840980

[704 rows x 7 columns]
0.7730496453900709
