# Dataframe introduction
Let's create a DataFrame about the [energy efficiency of programming languages](https://greenlab.di.uminho.pt/wp-content/uploads/2017/09/paperSLE.pdf)

In [1]:
%use dataframe, kandy

    val languageEnergy = dataFrameOf(
        "language" to listOf("C","Rust","C++","Java","Go","Python"),
        "efficiency" to listOf(1.0,1.03,1.34,1.98,3.23,75.88)
        )
    
    languageEnergy

language,efficiency
C,1.0
Rust,1.03
C++,1.34
Java,1.98
Go,3.23
Python,75.88


In [2]:
languageEnergy.sortBy{efficiency}.plot { 
    bars {
        x(language)
        y(efficiency){
            tooltips(efficiency, language, formats = mapOf(efficiency to "{.2f}"))
        }
    }
}

## Example with OpenData
The following examples rely on French regions' Gaz and Electricity consumption from 2011 to 2023.

https://www.data.gouv.fr/fr/datasets/consommation-annuelle-delectricite-et-gaz-par-region/


In [3]:
val openDataUrl = "https://www.data.gouv.fr/fr/datasets/r/587881e3-4893-458b-9cff-85f703854d15"
val df = DataFrame.readCSV(fileOrUrl=openDataUrl, delimiter = ';')
df

OPERATEUR,FILIERE,Année,Code Région,Nom Région,CODE CATEGORIE CONSOMMATION,CODE GRAND SECTEUR,CODE SECTEUR NAF2,Nb sites,Conso totale (MWh),Conso moyenne (MWh),Nombre de mailles secretisées,Part thermosensible (%),Conso totale à usages thermosensibles (MWh),Conso totale à usages non thermosensibles (MWh),Thermosensibilité totale (kWh DJU),Conso totale corrigée de l'aléa climatique à usages thermosensibles (MWh),Conso moyenne à usages thermosensibles (MWh),Conso moyenne à usages non thermosensibles (MWh),Thermosensibilité moyenne (kWh DJU),Conso moyenne corrigée de l'aléa climatique à usages thermosensibles (MWh),DJU à TR,DJU à TN,Nombre d'habitants,Taux de logements collectifs,Taux de résidences principales,Superficie des logements <30 m2,Superficie des logements 30 à 40 m2,Superficie des logements 40 à 60 m2,Superficie des logements 60 à 80 m2,Superficie des logements 80 à 100 m2,Superficie des logements >100 m2,Résidences principales avant 1919,Résidences principales de 1919 à 1945,Résidences principales de 1946 à 1970,Résidences principales de 1971 à 1990,Résidences principales de 1991 à 2005,Résidences principales de 2006 à 2015,Résidences principales après 2016,Taux de chauffage électrique
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,INCONNU,,3,9755.398,3251.799333,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,INDUSTRIE,10.0,2,147.201,73.6005,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,INDUSTRIE,21.0,3,6676.029,2225.343,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,36.0,1,27.582,27.582,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,45.0,2,206.832,103.416,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,52.0,4,375.323,93.83075,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,70.0,1,25.003,25.003,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,84.0,10,783.399,78.3399,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,85.0,1,113.057,113.057,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SAEML Hunelec,Electricité,2022,44,Grand Est,ENT,TERTIAIRE,88.0,1,71.653,71.653,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [4]:
val byCategoryAndEnergy = df.groupBy{`CODE GRAND SECTEUR` and FILIERE}
    .aggregate { sum { `Conso totale (MWh)` } into "consoSum" }

byCategoryAndEnergy

CODE GRAND SECTEUR,FILIERE,consoSum
INCONNU,Electricité,60186183.830608
INDUSTRIE,Electricité,1461861155.06142
TERTIAIRE,Electricité,1559481518.655101
RESIDENTIEL,Electricité,2364046037.139638
AGRICULTURE,Electricité,67249748.700583
RESIDENTIEL,Gaz,1896387213.377399
INDUSTRIE,Gaz,2904559894.782042
AGRICULTURE,Gaz,31783752.143475
INCONNU,Gaz,35682325.43405
TERTIAIRE,Gaz,856072363.385427


In [5]:
plotGrid(
    listOf(
        byCategoryAndEnergy.filter { FILIERE.equals("Electricité") }.plot {
            pie {
                slice(consoSum)
                fillColor(`CODE GRAND SECTEUR`){
                    legend.name="Sector"
                }
                size = 20.0
            }
            layout {
                title = "Electricity consumption by sector"
                style(Style.Void)
            }
        },
        byCategoryAndEnergy.filter { FILIERE.equals("Gaz") }.plot {
            pie {
                slice(consoSum)
                fillColor(`CODE GRAND SECTEUR`){
                    legend.name="Sector"
                }
                size = 20.0
            }
            layout {
                title = "Gaz consumption by sector"
                style(Style.Void)
            }
        }
    )
)

In [6]:
import org.jetbrains.letsPlot.core.spec.back.transform.bistro.util.scale

val byYearAndEnergy = df.groupBy{df.Année and df.FILIERE}.aggregate { sum { `Conso totale (MWh)` }  into "conso" }

byYearAndEnergy.plot {
    line { 
        x(Année){
            axis{
                breaks(format = "{d}")
            }
        }
        y("conso")
        color(FILIERE)
    }
}

In [7]:
byYearAndEnergy.plot{
    bars {
        x(Année){
            axis{
                breaks(format = "{d}")
            }
        }
        y("conso")
        fillColor(FILIERE) {
            scale = categorical(
                "Electricité" to Color.hex("#6F4E37"),
                "Gaz" to Color.hex("#C2D4AB")
            )
        }
    }
}