# New database (`eec05`)

[Activité, emploi et chômage de 2003 à 2013](https://www.insee.fr/fr/statistiques/2415450?sommaire=2415511#titre-bloc-15)

- converted all `.dbf` files to a single `.sqlite` file
- merged the `indiv2005[1,2,3]` tables into a single `eec05` table (+ `varmod`, `varlist`)

        CREATE TABLE eec05 AS SELECT * FROM indiv20051
        JOIN indiv20052
            ON indiv20051.ident = indiv20052.ident
            AND indiv20051.noi = indiv20052.noi
            AND indiv20051.trim = indiv20052.trim 
        JOIN indiv20053
            ON indiv20051.ident = indiv20053.ident
            AND indiv20051.noi = indiv20053.noi
            AND indiv20051.trim = indiv20053.trim;

        DROP TABLE indiv20051;
        DROP TABLE indiv20052;
        DROP TABLE indiv20053;
        
        ALTER TABLE indiv2005_varlist RENAME TO varlist;
        ALTER TABLE indiv2005_varmod RENAME TO varmod;

- zipped the resulting `.sqlite` file

## Experimental Setup

### Libraries & Settings

In [2]:
import os              # General OS commands
import numpy as np     # NumPy
import pandas as pd    # Python Data Analysis Library
import zipfile         # Compress/decompress ZIP files
import sqlite3         # SQLite3 Database Driver

In [3]:
# Never truncate columns, display all the data
from IPython.display import display, HTML
pd.set_option('display.max_colwidth', -1)

# Display floating-point numbers with 4 decimals in `pandas.DataFrame`
pd.options.display.float_format = '{:,.4f}'.format

import matplotlib.pyplot as plt
# Display MatPlotLib stuff inline
%matplotlib inline

# Temporary files to delete at the end of the experiment
temp_files = []

### Database

In [9]:
zip_filename = "../data/ee-insee-2005-sqlite.zip"
with zipfile.ZipFile(zip_filename) as zip_file:
    zip_file.extractall("../data/")

eedb = zip_filename.replace("-sqlite.zip", ".sqlite")
temp_files.append(eedb)

In [None]:
with sqlite3.connect(eedb) as con:
    query = "SELECT * FROM eec05"
    eec05 = pd.read_sql_query(query, con)

## Experiment

**Note pour Bastien**: la base de données 2005 n'a pas été customisée, tu vas devoir faire les conversions en binaire toi-même si besoin. Si tu le fais, n'oublie pas de toujours *créer de nouvelles variables* et de garder les originales (ajoute un `_` au nom du nouveau paramètre).

Le mieux serait que tu regardes que tu me donnes la liste des variables que tu vas utiliser (dans le fichier `eec05_dictionnaire.pdf` sur GitHub), de sorte que je puisse créer une version clean/custom avec les bonnes colonnes et les bons datatypes etc.

In [None]:
# Experiment code goes here.
eec05[eec05.trim == "1"].head()

## Cleanup

Now that the experiments have concluded, we delete all the "temporary" files.

In [6]:
for temp in temp_files:
    os.remove(temp)