In [1]:
import java.io.File

val tvSeries  = File("IMDb_Top_1000_Series.csv").readLines().drop(1).map { line -> TvSeries(splitRight(line)) }

class TvSeries(data: List<String>) {
    val id: String = data[0]
    val title: String = data[1]
    val genres: String = data[2]
    val averageRating: Double = data[3].toDouble()
    val numVotes: Int = data[4].toInt()
    val releaseYear: Int = data[5].toInt()
}

fun splitRight(line: String): List<String> {
    var inside = false
    val result = mutableListOf<String>()
    var text = StringBuilder()

    for (char in line) {
        when {
            char == '"' -> inside = !inside
            char == ',' && !inside -> {
                result.add(text.toString())
                text.clear()
            }
            else -> text.append(char)
        }
    }
    if (text.isNotEmpty()) result.add(text.toString())

    return result
}

In [2]:
%use kandy

val averagess=tvSeries.groupBy { it.averageRating }.mapValues { (averagerating,series)->series.size }

val fullAverage=tvSeries.map { it.averageRating }.average()
val formattedAverage=String.format("%.2f",fullAverage)
println("Mi az általános értékelése a sorozatoknak? $formattedAverage.\nA kék vonal jelzi az átlagos értékelést.")

plot {
    barsH {
        x(averagess.values,"Series Count")
        y(averagess.keys,"Rating")
        fillColor(averagess.keys){
            legend.name="Rating\nScale"
            scale= categoricalColorHue()
        }
    }
    hLine {
        yIntercept.constant(fullAverage)
        color=Color.BLUE
        type=LineType.DASHED
        width=2.0
    }
    layout.size = 1500 to 450
}

Mi az általános értékelése a sorozatoknak? 8,37.
A kék vonal jelzi az átlagos értékelést.


In [3]:
println("Hogyan alakul a sorozatok értékelése a megjelenési év alapján?\nA grafikonra nézve láthatjuk hogy kiemelkedően rossz, vagy jó értékelés régebbi időkben van, alighanem azért, mert régebbi sorozatokra kevesebb szavazat jött, mint az újabbakra. Az újabb sorozatok értékelése mind 8,3 körül mozog.")

val yearRating=tvSeries.groupBy{it.releaseYear}.mapValues { (year,series)-> series.map{ it.averageRating }.average() }

plot {
    bars {
        x(yearRating.keys,"Year")
        y(yearRating.values,"Average rating")
        fillColor(yearRating.values){
            legend.name="Rating\nScale"
            scale=continuous(Color.RED..Color.YELLOW)
        }
        alpha=0.8
    }
    layout.size = 1500 to 450
}

Hogyan alakul a sorozatok értékelése a megjelenési év alapján?
A grafikonra nézve láthatjuk hogy kiemelkedően rossz, vagy jó értékelés régebbi időkben van, alighanem azért, mert régebbi sorozatokra kevesebb szavazat jött, mint az újabbakra. Az újabb sorozatok értékelése mind 8,3 körül mozog.


In [7]:
val (moreThanAverageVotes,lessThanAverageVotes)=tvSeries.partition{it.numVotes>tvSeries.map { it.numVotes }.average()}
val onlyMoreVotes=moreThanAverageVotes.groupBy { it.averageRating }.mapValues{(rating, series)->series.map { it.averageRating }.count()}
val onlyLessVotes=lessThanAverageVotes.groupBy { it.averageRating }.mapValues{(rating, series)->series.map { it.averageRating }.count()}

val averageByMoreVotes=onlyMoreVotes.entries.sumOf{it.key*it.value}/onlyMoreVotes.values.sum()
val averageByLessVotes=onlyLessVotes.entries.sumOf{it.key*it.value}/onlyLessVotes.values.sum()

println("A sorozatok, amelyek több szavazatot kaptak mint az átlag, azoknak jobb e az értékelése?\nItt a zöld sor az a sor, amely több szavazatot kapott mint az átlag, a piros meg ami kevesebbet. Láthatjuk, hogy amelyik sorozat több szavazatot kapott, annak az értékelése összességében jobb, mint annak amelyik kevesebb szavazatot kapott." +
        "\nSorozatok értékelésének átlaga, amelyek több szavazatot kaptak: $averageByMoreVotes " +
        "\nSorozatok értékelésének átlaga, amelyek kevesebb szavazatot kaptak: $averageByLessVotes")

plot {
    line {
        x(onlyMoreVotes.keys,"Average rating")
        y(onlyMoreVotes.values,"Number of Series")
        color=Color.GREEN
        width=3.0
    }
    line {
        x(onlyLessVotes.keys,"Average rating")
        y(onlyLessVotes.values,"Number of Series")
        color=Color.RED
        width=3.0
    }
    layout.size = 1500 to 450
}

A sorozatok, amelyek több szavazatot kaptak mint az átlag, azoknak jobb e az értékelése?
Itt a zöld sor az a sor, amely több szavazatot kapott mint az átlag, a piros meg ami kevesebbet. Láthatjuk, hogy amelyik sorozat több szavazatot kapott, annak az értékelése összességében jobb, mint annak amelyik kevesebb szavazatot kapott.
Sorozatok értékelésének átlaga, amelyek több szavazatot kaptak: 8.472177419354841 
Sorozatok értékelésének átlaga, amelyek kevesebb szavazatot kaptak: 8.336702127659574


In [5]:
//ez kicsit rossz kerdes,mivel top 1000 sorozatrol beszelunk, igy nem lesz kiemelkedoen rossz, hisz a legrosszabbis 7.9, de akkor ezt fogjuk nezni "legrosszabbnak".

println("Van e olyan év, ahol kiemelkedően jó vagy rossz értékelésű sorozatok lettek?\nItt zölddel láthatjuk azt, ami kiemelkedően jó, és pirossal ami rossz. Látszik hogy jóból sokkal kevesebb van mint rosszból.")
val (goodratingFiltered, worstratingFiltered)=tvSeries.filter {it.averageRating<8.0||it.averageRating>9.2}.partition { it.averageRating>9.2}
val goodrating=goodratingFiltered.groupBy { it.releaseYear }.mapValues { entry -> entry.value.map { it.averageRating }.count()}

val worstrating=worstratingFiltered.groupBy { it.releaseYear }.mapValues { entry -> entry.value.map { it.averageRating }.count()}

plot {
    bars {
        x(worstrating.keys,"Year")
        y(worstrating.values,"Series Count")
        fillColor=Color.RED
    }
    bars {
        x(goodrating.keys,"Year")
        y(goodrating.values,"Series Count")
        fillColor=Color.GREEN
        alpha=0.5
    }
    layout.size = 1500 to 450
}

Van e olyan év, ahol kiemelkedően jó vagy rossz értékelésű sorozatok lettek?
Itt zölddel láthatjuk azt, ami kiemelkedően jó, és pirossal ami rossz. Látszik hogy jóból sokkal kevesebb van mint rosszból.


In [6]:
val allRated=tvSeries.flatMap {series->series.genres.split(", ") .map{genre->genre to series.averageRating }}.groupBy(keySelector = {it.first}, valueTransform = {it.second}).mapValues{ it.value.average() }.toSortedMap()

println("Milyen műfajok érték el a legjobb/legrosszabb értékelést?\nItt láthatjuk, hogy a rosszabb értékelések a populáris kategóriáknál vannak, mint horror, romance, sci-fi, mig a legjobban értékelt kategória a War, ami ritkábban előforduló.")

plot {
    barsH {
        x(allRated.values,"Rating")
        y(allRated.keys,"Categories")
        fillColor(allRated.values){
            legend.name="Rating\nScale"
            scale= categoricalColorViridis()
        }
    }
    layout.size = 1500 to 450
}

Milyen műfajok érték el a legjobb/legrosszabb értékelést?
Itt láthatjuk, hogy a rosszabb értékelések a populáris kategóriáknál vannak, mint horror, romance, sci-fi, mig a legjobban értékelt kategória a War, ami ritkábban előforduló.
