# Projektbeskrivning - Maskininlärning/AI-projekt

## Problem: Identifiera fake news

I dagens samhälle har spridningen av falska nyheter (fake news) blivit ett allt större problem, särskilt genom digitala medier. Detta leder till att människor blir vilseledda, vilket påverkar beslut på både individuell och samhällsnivå. Målet med detta projekt är att utveckla en maskininlärningsmodell för att identifiera falska nyheter baserat på artiklarnas textinnehåll.

## Målsättning

Målet med projektet är att skapa en klassificeringsmodell som kan skilja mellan sanna och falska nyhetsartiklar. För att uppnå detta kommer jag:

1. Samla in data: Använda ett dataset som innehåller både falska och sanna nyheter.
2. Utföra dataförberedelse: Rensa, bearbeta och förstå data.
3. Skapa och utvärdera modeller: Träna olika maskininlärningsmodeller och jämföra deras prestanda.
4. Implementera en slutgiltig modell: Implementera och optimera den bästa modellen.

## Dataset

För detta projekt kommer jag att använda datasetet "Fake News Detection" från Kaggle. Det innehåller artiklar från olika källor, märkta som antingen sanna eller falska.



#### Datasetets egenskaper:

* Antal rader: 20,800+
* Kolumner:
    * `id`: Unikt identifieringsnummer för artikeln
    * `title`: Titel på artikeln
    * `author`: Författare till artikeln
    * `text`: Själva artikeln
    * `label`: Klassifikation av artikeln (0 = sann, 1 = falsk)


#### Kvaliteten på data:

* Vissa artiklar saknar författaruppgifter
* Titeln och artikeltexten varierar i längd och kvalitet
* `label`-kolumnen är min målvariabel

### Utforskning av datasetet

#### Dataförberedelsefrågor:

* Är datasetet komplett?: Nej, vissa artiklar saknar data för författare.
* Har datasetet null-värden?: Ja, vissa artiklar saknar data för author.
* Har datasetet extrema värden?: Nej, inte identifierat i initial undersökning.
* Vilka datatyper finns?:  
    `id`: Heltal  
    `title`: Sträng  
    `author`: Sträng  
    `text`: Sträng  
    `label`: Heltal  

#### Konvertering av fält till numeriskt format

* `title`, `author` och `text` kommer att representeras genom textvektorisering (exempelvis TF-IDF eller Word Embeddings).
* `label`-kolumnen är redan numerisk och behöver ingen konvertering.


#### Typ av problem

Detta är ett klassificeringsproblem där målet är att förutsäga `label` baserat på artikelns innehåll. Datasetet är märkt (labeled), vilket innebär att jag kan använda övervakad maskininlärning (supervised learning).

### Modellstrategier

#### Feature Extraction:

* Använda TF-IDF för att representera textdata som numeriska värden.
* Alternativt använda Word Embeddings (t.ex. GloVe, Word2Vec) för att fånga semantisk information.

#### Maskininlärningsmodeller

* Enkelt träd: Decision Tree
* Ensemblemetoder: Random Forest, XGBoost
* Djupinlärning: RNN eller BERT


#### Utvärdering:

* Använda korsvalidering för att jämföra modeller.
* Precision, recall, F1-score och ROC-AUC för att utvärdera modellens prestanda.

### Plan för steg 1

#### 1. Problemdefinition och dataval:  

* Problembeskrivning (klart).  
* Välj dataset och utför initial datautforskning (klart).

#### 2. Dataförberedelse:

* Hantera null-värden och duplicerad data.
* Utför textbearbetning som tokenisering, stopword-borttagning och stemming.

#### 3. Feature Engineering:

* Använd TF-IDF för att representera textdata.
* Utforska alternativa representationer som Word Embeddings.

#### 4. Modellering och utvärdering: 

* Implementera olika klassificeringsmodeller.
* Jämför modeller baserat på prestandamått.

### Dokumentation

Samla dokumentation som visar:  

* Problembeskrivning (detta dokument).  
* Initial datainspektion genom Jupyter Notebook.  
* Beskrivning av data och eventuella brister.  
* Hur data bearbetas för att passa modellens krav.

#### Nästa steg (Steg 2):

Efter denna dokumentation ska en första version av modellen implementeras och utvärderas.

### Referenser

Kaggle: Fake News Detection Dataset - https://www.kaggle.com/c/fake-news/data