# Kotlin nagy házi feladat

_Főglein Simon, ZA0D8T_

A notebookban található grafikonok Kandy-vel készültek. Ennek bizonyos funkcióihoz (pl. countPlot) szükség van a `%useLatestDescriptors` parancs kiadására is.
Ez beinclude-olja a legfrissebb könyvtárverziót, azonban némi instabilitást is jelent. Ahhoz, hogy a grafikonok helyesen jelenjenek meg, célszerű a notebook
megnyitását követően a `Run all` opciót választani, egyéb esetben nem mindig sikerül a grafikonok rajzolása.
A notebookot javasolt Darcula témával, IntelliJ-ben megnyitni :)
Emellett elérhető GitHub-on is, de ott nem minden grafikon jelenik meg ilyen szépen: [GitHub változat](https://github.com/fogleins/bme-kotlin-nhf/blob/master/src/notebooks/hf-za0d8t.ipynb). Ez a verzió még frissülhet a beadást követően :)

In [1]:
%useLatestDescriptors

%use dataframe
%use kandy

In [2]:
val df = DataFrame.read("data-szepitett.csv")

# Fogyasztási gyakoriság nemek és életkor összefüggésében

In [3]:
var consumptionCount = df.dropNulls { wineDrinkingRegularity }
    .groupBy { gender and age and wineDrinkingRegularity }
    .count()

consumptionCount

In [4]:
var consumptionWithStats = consumptionCount.add("consumptionStats") { "$gender, $age, $wineDrinkingRegularity" }.filter { count > 1 }

In [5]:
consumptionWithStats.sortBy{count}.plot {
    line {
        x(consumptionStats) {
            axis.name = "Groups based on age, sex and wine consumption"
        }
        y(count) {
            axis.name = "Number of students"
        }
        
        // a színátmenetes vonal sajnos nem működött a notebookban, egyszínűként jelenik meg a vonal
        // az itt megadott példát külön cellában futtatva is: https://kotlin.github.io/kandy/line-gradient.html
        // GitHubon viszont szépen megjelenik, bár ott egyes grafikonok (amiknél nem explicit adtam meg a színeket)
        // színt váltanak: https://github.com/fogleins/bme-kotlin-nhf/blob/master/src/notebooks/hf-za0d8t.ipynb
        color(count) {
            scale = continuous(Color.BLUE..Color.ORANGE)
        }
        
        layout {
            title = "Number of students in a given group, in ascending order"
            size = 850 to 650
        }
        width = 1.5
    }
 }

# Bor kedvelése és családi kötődés közti összefüggés vizsgálata

In [6]:
val likesWineProducesWine = df.filter { 
    familyWinemakers.contains("A családom generációk óta foglalkozik szőlőműveléssel") 
    && likesAlcoholicBeverageWine > 0 }
    .select { likesAlcoholicBeverageWine into "Family has a history of wine production"}
    .mean()
    
// ezt próbáltam elkerülni úgy, hogy a `familyWinemakers.contains(...)` hívás visszatérési értéke szerint
// két csoportra osztom a válaszokat, de nem jártam sikerrel. A groupBy(...) ahogy láttam, ilyesmire
// nem ad támogatást, a chunked ebben az esetben nem tűnt alkalmazhatónak, a legígéretesebbnek tűnő 
// partition-nel pedig valami ilyesmi volt az elképzelés, de itt nem megfelelő a kapott típus:
//df.select{ familyWinemakers }.toList().partition { it.contains("A családom generációk óta foglalkozik szőlőműveléssel") }
val likesWineDoesntProduceWine = df.filter { 
    !familyWinemakers.contains("A családom generációk óta foglalkozik szőlőműveléssel") 
    && likesAlcoholicBeverageWine > 0 }
    .select { likesAlcoholicBeverageWine into "Family doesn't produce wine" }
    .mean()
    
val likesWineChartData = listOf(likesWineProducesWine.get(0), likesWineDoesntProduceWine.get(0))

In [7]:
plot {
    y(likesWineChartData) {
        axis.name = "Average rating of wine"
    }
    points {
        size = 5.0;
        x(listOf("Family has a history of wine production", "Family doesn't produce wine")) {
            axis.name = "Connection to winemaking in the family"
        }
    }
    
    layout {
        size = 750 to 650
    }
}

# Borfogyasztáshoz való kötődés és borvidékeken élés közti összefüggések vizsgálata

In [8]:
val wineRouteChartData = df.dropNulls { townNearWineRoute }
    .groupBy { townNearWineRoute into "Lives near wine route" }
    .mean()
    .gather("likesAlcoholicBeverageWine", "likesAlcoholicBeverageSparklingWine", "likesAlcoholicBeverageChampagne", "likesAlcoholicBeveragePalinka", "likesAlcoholicBeverageBeer")
    .into("drink", "mean")
    
wineRouteChartData

In [9]:
wineRouteChartData.plot {
    bars {
        x("Lives near wine route")
        y("mean") {
            axis.name = "Popularity of drinks"
        }
        fillColor("drink") {
            scale = categorical(
                "likesAlcoholicBeverageWine" to Color.PURPLE,
                "likesAlcoholicBeverageSparklingWine" to Color.ORANGE,
                "likesAlcoholicBeverageChampagne" to Color.LIGHT_GREEN,
                "likesAlcoholicBeveragePalinka" to Color.LIGHT_BLUE,
                "likesAlcoholicBeverageBeer" to Color.YELLOW
            )
            legend {
                name = "Drink"
                breaksLabeled(
                    "likesAlcoholicBeverageWine" to "Wine",
                    "likesAlcoholicBeverageSparklingWine" to "Sparkling wine",
                    "likesAlcoholicBeverageChampagne" to "Champagne",
                    "likesAlcoholicBeveragePalinka" to "Palinka",
                    "likesAlcoholicBeverageBeer" to "Beer"
                )
            }
        }
        
        layout {
            title = "Correlation between living in a wine-growing region and popularity of beverages"
            size = 650 to 400
        }
    }
}

# Borfogyasztás mértéke megyeszékhelyen és kisvárosban élők esetén

In [10]:
val cities = listOf("Budapest", "Szekszárd", "Pécs", "Kaposvár", "Kecskemét", "Szombathely", "Zalaegerszeg", "Debrecen", "Miskolc", "Békéscsaba", "Szeged", "Eger", "Nyíregyháza", "Székesfehérvár", "Tatabánya", "Veszprém", "Salgótarján", "Győr", "Szolnok")

cities.size

19

In [20]:
val livingInCities = df.dropNulls { town }
    .add("livesInCity") { cities.contains(town) }

//val (citiesA, ruralArea) = wineConsumptionCities.partition { cities.contains(town) }

In [23]:
val wineConsumptionCities = livingInCities.groupBy { livesInCity }

wineConsumptionCities

In [27]:
livingInCities.groupBy { wineDrinkingRegularity }.plot {
    countPlot("livesInCity")

    layout {
        title = "Correlation between the highest level of education and the regularity of wine consumption"
        size = 750 to 750
        xAxisLabel = "Living in larger town"
    }
}

# Nemek és korcsoportok szerinti fogyasztási szokások

In [12]:
val consumptionStats = df.groupBy { 
    gender and age and wineQuantity and wineDrinkingRegularity
}.count()

consumptionStats.group("wineQuantity", "wineDrinkingRegularity").into("consumptionTrends")

In [13]:
consumptionStats.sortBy { age and wineQuantity }.plot {
    layout.title = "Wine consumption trends accross different age groups"
    points {
        x("age") {
            axis.name = "Age group"
        }
        y("wineQuantity") {
            axis.name = "Average quantity of wine consumed"
        }
        size("count") {
            legend.type = LegendType.None
            scale = continuous(5.0..20.0)
        }
        color("gender"){
            legend {
                name = "Gender of respondents"
            }
        }
        
        layout {
            size = 750 to 450
        }
    }
}

# Összefüggés az iskolai végzettség és a borfogyasztás között

In [14]:
// a korábbi diagramoknál látott módon ehhez így hoznánk létre az adatokat:
val educationAndWineConsumption = df.dropNulls { wineDrinkingRegularity }
    .groupBy { education and wineDrinkingRegularity }
    .sortBy { education and "count" }
    .count()
    
educationAndWineConsumption

In [15]:
// azonban a Kandy támogat Count Plot-ot is, amihez nekünk elég megadni a szűrt adathalmazt és azt, hogy mely adatok jelenjenek meg a diagramon.
// A diagram létrehozásában a következő oldal segített: https://kotlin.github.io/kandy/count-plot-grouped.html
val educationAndWineConsumption2 = df.dropNulls { wineDrinkingRegularity }

In [16]:
educationAndWineConsumption2.groupBy { wineDrinkingRegularity }.plot {
    countPlot("education")

    layout {
        title = "Correlation between the highest level of education and the regularity of wine consumption"
        size = 750 to 750
        xAxisLabel = "Highest level of education"
    }
}

# Borvásárlási szokások

In [17]:
val wineSpending = df.dropNulls { winePurchase }.groupBy { winePurchase }.count()
wineSpending

In [18]:
wineSpending.plot {
    pie {
        fillColor(winePurchase) {
            legend {
                name = "Does the respondent purchase wine?"
            }
        }
        slice(count)

        layout {
            size = 800 to 450
            theme {
                global.line {
                    blank = true
                }
                blankAxes()
            }
        }
        size = 25.0
        explode(listOf(.08, 0, 0, 0, 0, 0, 0, 0))
    }
}