In [1]:
import pandas as pd
import sqlite3

Anslutning till databasen

Här upprättar vi en anslutning till SQLite-databasen. Om databasen inte finns, skapas den automatiskt.

In [2]:
# Anslut till SQLite-databasen
con = sqlite3.connect('friends.db')

Läs in CSV-filen

Vi läser in data från CSV-filen med hjälp av pandas och omvandlar den till en DataFrame.

In [3]:
# Läs in CSV-filen till en pandas DataFrame
df = pd.read_csv('archive/friends_episodes_v3.csv')

Visa de första raderna för att kontrollera att data har laddats korrekt

Här visar vi de första fem raderna av DataFrame för att verifiera att data har laddats korrekt.

In [4]:
# Visa de första raderna för att kontrollera att data har laddats korrekt
df.head()

Unnamed: 0,Year_of_prod,Season,Episode Number,Episode_Title,Duration,Summary,Director,Stars,Votes
0,1994,1,1,The One Where Monica Gets a Roommate: The Pilot,22,"Monica and the gang introduce Rachel to the ""r...",James Burrows,8.3,7440
1,1994,1,2,The One with the Sonogram at the End,22,Ross finds out his ex-wife is pregnant. Rachel...,James Burrows,8.1,4888
2,1994,1,3,The One with the Thumb,22,Monica becomes irritated when everyone likes h...,James Burrows,8.2,4605
3,1994,1,4,The One with George Stephanopoulos,22,Joey and Chandler take Ross to a hockey game t...,James Burrows,8.1,4468
4,1994,1,5,The One with the East German Laundry Detergent,22,"Eager to spend time with Rachel, Ross pretends...",Pamela Fryman,8.5,4438


 Omvandla kolumnen "Season" till heltal (integer):

Denna kod omvandlar datatypen för kolumnen "Season" till heltal (integer). Detta säkerställer att alla värden i denna kolumn är numeriska och kan användas i analyser.
Detta är användbart när du behöver arbeta med kolumner som innehåller siffror och vill försäkra dig om att de har rätt datatyp.

In [5]:
# Omvandla 'Season'-kolumnen till heltal
df['Season'] = df['Season'].astype(int)

Omvandla avsnittstitlar till små bokstäver:

Denna kod omvandlar alla texter i kolumnen "Episode_Title" till små bokstäver. Detta hjälper till att standardisera datan så att all text visas på samma sätt, utan skillnad mellan stora och små bokstäver.

In [6]:
# Konvertera episodeti till små bokstäver
df['Episode_Title'] = df['Episode_Title'].str.lower()


In [7]:
print(df.columns)


Index(['Year_of_prod', 'Season', 'Episode Number', 'Episode_Title', 'Duration',
       'Summary', 'Director', 'Stars', 'Votes'],
      dtype='object')



- **`df.to_sql()`**: Den här funktionen skriver data från DataFrame (`df`) till en SQLite-databas.
- **`'episodes'`**: Detta är namnet på tabellen som kommer att skapas eller skrivas till i databasen. Om tabellen inte finns kommer den att skapas.
- **`con`**: Representerar anslutningen till databasen (som tidigare definierats med `sqlite3.connect()`).
- **`if_exists='replace'`**: Detta innebär att om tabellen `'episodes'` redan finns, kommer den att **ersättas** med den nya tabellen.
- **`index=False`**: Detta betyder att indexkolumnen i DataFrame inte kommer att skrivas som en extra kolumn i tabellen.

### Resultat:
När du kör detta kommer:
- En tabell med namnet `'episodes'` att skapas (eller ersättas om den redan finns) i din SQLite-databas.
- Data från DataFrame kommer att skrivas till denna tabell.
- Index från DataFrame kommer inte att inkluderas som en kolumn i databasen.

In [8]:
# Skriv DataFrame till SQLite-databasen
df.to_sql('episodes', con, if_exists='replace', index=False)


236

För att visa de fem bästa avsnitten och de fem sämsta avsnitten baserat på antal röster (Votes):

In [9]:
# Visa de 5 bästa avsnitten baserat på antal röster (Votes)
top_5_votes = df.nlargest(5, 'Votes')

# Visa de 5 sämsta avsnitten baserat på antal röster (Votes)
bottom_5_votes = df.nsmallest(5, 'Votes')

print("De fem bästa avsnitten baserat på antal röster:")
print(top_5_votes[['Episode_Title', 'Votes']])

print("\nDe fem sämsta avsnitten baserat på antal röster:")
print(bottom_5_votes[['Episode_Title', 'Votes']])


De fem bästa avsnitten baserat på antal röster:
                                       Episode_Title  Votes
235                             the last one: part 2  10381
110                the one where everybody finds out   8066
0    the one where monica gets a roommate: the pilot   7440
234                             the last one: part 1   6221
84                          the one with the embryos   6006

De fem sämsta avsnitten baserat på antal röster:
                              Episode_Title  Votes
214         the one with the fertility test   2557
209               the one with the boob job   2588
204  the one where rachel goes back to work   2601
213       the one with the soap opera party   2615
212             the one with rachel's dream   2616


För att visa de fem bästa avsnitten och de fem sämsta avsnitten baserat på stjärnor (Stars):

In [10]:
# Visa de 5 bästa avsnitten baserat på antal stjärnor (Stars)
top_5_stars = df.nlargest(5, 'Stars')

# Visa de 5 sämsta avsnitten baserat på antal stjärnor (Stars)
bottom_5_stars = df.nsmallest(5, 'Stars')

print("De fem bästa avsnitten baserat på antal stjärnor:")
print(top_5_stars[['Episode_Title', 'Stars']])

print("\nDe fem sämsta avsnitten baserat på antal stjärnor:")
print(bottom_5_stars[['Episode_Title', 'Stars']])


De fem bästa avsnitten baserat på antal stjärnor:
                         Episode_Title  Stars
110  the one where everybody finds out    9.7
235               the last one: part 2    9.7
84            the one with the embryos    9.5
234               the last one: part 1    9.5
37         the one with the prom video    9.4

De fem sämsta avsnitten baserat på antal stjärnor:
                         Episode_Title  Stars
93         the one with the invitation    7.2
140  the one with mac and c.h.e.e.s.e.    7.4
166              the one with the vows    7.5
188      the one with joey's interview    7.5
203    the one with christmas in tulsa    7.5


### För att visa **de fem bästa avsnitten** och **de fem sämsta avsnitten** baserat på antal röster (Votes):

### Förklaring:
- `nlargest()` hämtar de största värdena i den angivna kolumnen (i detta fall kolumnen `'Votes'` eller `'Stars'`).
- `nsmallest()` hämtar de minsta värdena i den angivna kolumnen.
- Koden visar avsnittsnamnen (`'Episode_Title'`) tillsammans med de tillhörande värdena för röster eller stjärnor.

### Resultat:
- **De fem bästa avsnitten baserat på antal röster**: Visar de fem avsnitt med högst antal röster.
- **De fem sämsta avsnitten baserat på antal röster**: Visar de fem avsnitt med lägst antal röster.
- **De fem bästa avsnitten baserat på antal stjärnor**: Visar de fem avsnitt med högst antal stjärnor (betyg).
- **De fem sämsta avsnitten baserat på antal stjärnor**: Visar de fem avsnitt med lägst antal stjärnor (betyg).

Se till att kolumnerna `Votes` och `Stars` finns i din DataFrame och att de är korrekt stavade.

Lägg till felhantering och loggning (för högre betyg): För att uppnå ett högre betyg behöver du säkerställa att skriptet kan hantera fel och logga dem i en loggfil. Detta är viktigt när programmet körs utan mänsklig övervakning.

In [11]:
import logging

# Konfigurera loggfilen
logging.basicConfig(filename='process_log.log', level=logging.INFO)

try:
    # Skriv DataFrame till SQLite-databasen
    df.to_sql('episodes', con, if_exists='replace', index=False)
    logging.info("Data har sparats till databasen framgångsrikt.")
except Exception as e:
    logging.error(f"Ett fel uppstod: {e}")
    


### Sammanfattning av vad koden gör:

1. **Konfigurerar loggning**: Koden ställer in ett loggningssystem som sparar loggmeddelanden i en fil som heter `process_log.log`. Loggar kan inkludera både framgångsmeddelanden och felmeddelanden.

2. **Skriver data till databasen**: Koden försöker skriva en DataFrame (data) till en SQLite-databas. Om tabellen redan finns, ersätts den med den nya datan.

3. **Loggar framgång**: Om datan skrivs till databasen utan problem, sparas ett framgångsmeddelande i loggfilen som säger att datan har sparats.

4. **Hanterar fel**: Om något fel uppstår under processen, fångas felet och ett felmeddelande sparas i loggfilen med detaljer om vad som gick fel.

### Resultat:
- Om allt fungerar som det ska, loggas ett framgångsmeddelande.
- Om ett fel inträffar, loggas ett felmeddelande med information om problemet.

In [12]:
import unittest

class TestDataProcessing(unittest.TestCase):
    def test_column_existence(self):
        df = pd.read_csv('archive/friends_episodes_v3.csv')
        self.assertIn('Episode_Title', df.columns)
        self.assertIn('Votes', df.columns)
        self.assertIn('Stars', df.columns)

# Kör testerna manuellt
suite = unittest.TestLoader().loadTestsFromTestCase(TestDataProcessing)
unittest.TextTestRunner().run(suite)


.
----------------------------------------------------------------------
Ran 1 test in 0.004s

OK


<unittest.runner.TextTestResult run=1 errors=0 failures=0>


### Förklaring:

1. **`import unittest`**:
   - Importerar Python's `unittest`-modul som används för att skapa och köra enhetstester.

2. **`class TestDataProcessing(unittest.TestCase):`**:
   - Skapar en testklass som ärver från `unittest.TestCase`, vilket innebär att du kan definiera testmetoder i klassen.

3. **`def test_column_existence(self):`**:
   - Detta är en testmetod som kontrollerar om vissa kolumner finns i DataFrame efter att data har laddats in från CSV-filen.

4. **`df = pd.read_csv('archive/friends_episodes_v3.csv')`**:
   - Laddar in CSV-filen till en DataFrame med hjälp av `pandas`.

5. **`self.assertIn('Episode_Title', df.columns)`**:
   - Kontrollerar om kolumnen `'Episode_Title'` finns i DataFrame.

6. **`self.assertIn('Votes', df.columns)`** och **`self.assertIn('Stars', df.columns)`**:
   - Kontrollerar om kolumnerna `'Votes'` och `'Stars'` finns i DataFrame.

7. **`suite = unittest.TestLoader().loadTestsFromTestCase(TestDataProcessing)`**:
   - Laddar alla tester från klassen `TestDataProcessing` och sparar dem i en testsvit.

8. **`unittest.TextTestRunner().run(suite)`**:
   - Kör testsviten och visar resultaten i terminalen.

### Sammanfattning:
Denna kod kontrollerar att kolumnerna `'Episode_Title'`, `'Votes'`, och `'Stars'` finns i DataFrame efter att CSV-filen har laddats. Testet körs manuellt och resultaten skrivs ut.
