# Analyse des données

## Les biais

Trois biais ont été introduits dans les données afin de mettre au jour différents comportements sociologiques.

Pour vous aider, voici deux indices :

- Ces biais ne concernent que des cours ou disciplines qui apparaissent dans le top 10 des cours ou disciplines les plus vus.
- Ils portent sur trois critères:
    - L'âge.
    - Le genre.
    - Le lieu de vie (Paris ou Province).

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import datetime as dt
import zipfile

COMPRESSED_CSV_FILES = 'sciencestreaming/data/compressed/csv_files_sciencestreaming.zip'
CURRENT_YEAR = dt.datetime.now().year

## Chargement des données

### Fonction de lecture customisée

In [None]:
def load_csv_file_from_zip(
    csv_filename, zip_file_path=COMPRESSED_CSV_FILES, file_extension=".csv", dtypes=None, parse_dates=None
):
    with zipfile.ZipFile(zip_file_path, "r") as z:
        with z.open(csv_filename + file_extension) as f:
            return pd.read_csv(f, dtype=dtypes, parse_dates=parse_dates)

### Spécificités propres à chaque fichier CSV

In [None]:
# view_df
view_df_parse_dates = ['viewed_at']

# user_df
user_df_dtypes = {
 'department_code': str,
}

user_df_parse_dates = ['birthdate', 'created_at']

# schedule_df
schedule_df_parse_dates = ['start_time', 'end_time']

### Création des DataFrames

In [None]:
view_df = load_csv_file_from_zip('view', parse_dates=view_df_parse_dates)
user_df = load_csv_file_from_zip('user', dtypes=user_df_dtypes, parse_dates=user_df_parse_dates)
schedule_df = load_csv_file_from_zip('schedule', parse_dates=schedule_df_parse_dates)
course_df = load_csv_file_from_zip('course')

## Création du dataframe principal

In [None]:
# First, let's compute the age of the users for the current year
user_df['age'] = CURRENT_YEAR - user_df['birthdate'].dt.year

In [None]:
df = (
    view_df.merge(user_df, on="user_id", how="left")
           .merge(schedule_df, on="schedule_id", how="left")
           .merge(course_df, on="course_id", how="left")
)

In [None]:
df.head(1)

In [None]:
df.dtypes

## Métrique

Pour mesurer la popularité des cours nous pouvons utiliser différentes métriques. Mais quelle est la meilleure ? Le nombre de connexions ? La somme, la moyenne ou la médiane des secondes vues ? Quelles informations ces différentes métriques donnent-elles ?

## TOP 10 des cours et des disciplines les plus regardés

Intéressons-nous aux cours et aux disciplines les plus regardés. Commençons par les cours, ici comme métrique nous prendrons la somme totale du temps de visionnage (autrement dit de secondes regardées).

**>>>** Affichez les 10 cours les plus regardés.

In [None]:
# Code here!


## Affichez les disciplines les plus regardées

Les disciplines sont indiquées sous le nom subject_name dans le dataframe course_df.

In [None]:
# Code here


## La distribution des âges

On sait que l'un des biais concerne l'âge des utilisateurs.

**>>>** Utilisez un type de graphique pour afficher la distribution des âges des utilisateurs. Quel *dataframe* allons-nous utiliser ?

In [None]:
# Code here


## Le biais de l'âge

Pour vous aider, sachez que ce biais est présent:

- Dans 3 des cours les plus vus
- N'apparaît que si vous sélectionnez la bonne métrique (sum? mean? median? count?)

In [None]:
# Code here (first course)

In [None]:
# Code here (second course)

In [None]:
# Code here (third course)


## Le biais du lieu de vie

Les personnes habitant en île de France (département 75) ont-elles des comportements différents lorsqu'il s'agit des disciplines regardées ?


In [None]:
# Code here

## Le biais de genre

les hommes et les femmes regardent-ils les mêmes cours ?

In [None]:
#Code here