# Columns cleaning

Check the columns to input them in the file : https://docs.google.com/spreadsheets/d/1UYnE5JZXI6LXxMQJcPNG2Q0AIDgBFr1hlqOI75y2JmY/edit#gid=0

In [1]:
import os
import pathlib
import re
import pyreadstat
import pandas as pd
pd.set_option('display.max_rows',None)
os.chdir(pathlib.Path.home())

In [2]:
def get_list_of_data_files():
    current_directory = os.getcwd()

    root_folder = os.path.join(current_directory, 'Mauritania FSMS data')

    # list all files in folder
    list_all_files = []
    for path, subdirs, files in os.walk(root_folder):
        for name in files:
            list_all_files.append(os.path.join(path, name))

    # list data files
    list_data_file = [f for f in list_all_files if re.search('.sav$', f)]

    return list_data_file

In [3]:
list_file = get_list_of_data_files()

## 1- Données FSMS 13Dec_20_01_14.sav

Mauritania FSMS data/2013/Decembre/Données FSMS 13Dec_20_01_14.sav

In [4]:
data, meta = pyreadstat.read_sav(
    list_file[0], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,SubmissionDate,
1,start,
2,end,
3,today,
4,deviceid,
5,subscriberid,
6,Extrapol,
7,Ponderation,Coefficient d'extrapolation
8,Intro,
9,accord,


## 2- FSMS_HH_juil13b_1.sav

Mauritania FSMS data/2013/Juin/FSMS_HH_juil13b_1.sav

In [5]:
data, meta = pyreadstat.read_sav(
    list_file[1], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,Ponderation,Coefficient de pondération des données
1,Section1,SEction 1 : Localisation du ménage
2,nordre,Numéro d'ordre
3,NUMQUEST,Numéro du questionnaire
4,today,Date de collecte des données
5,SubmissionDate,Date de soumission des données
6,subscriberid,IME du smartphone
7,CODREG,Code région
8,STRATE,Strates
9,moughataa,Code Moughataa


## 3- Données_FSMS_24_06_15.sav

Mauritania FSMS data/2014/Decembre/Données_FSMS_24_06_15.sav

In [6]:
data, meta = pyreadstat.read_sav(
    list_file[2], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,start,
1,end,
2,duree,
3,duree2,
4,today,
5,deviceid,
6,subscriberid,
7,FSMS_mai15,
8,accord,Accord du ménage
9,endinter,


## 4- Données_FSMS_juin_2014.sav

Mauritania FSMS data/2014/Juin/Données_FSMS_juin_2014.sav

In [7]:
data, meta = pyreadstat.read_sav(
    list_file[3], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,Nordre,
1,extrapol,
2,Ponderation,
3,SubmissionDate,
4,start,
5,end,
6,today,Date de collecte
7,deviceid,
8,subscriberid,
9,FSMS_juin14,


## 5- Données FSMS Jan16_18_02.sav

Mauritania FSMS data/2015/Decembre/Données FSMS Jan16_18_02.sav

In [8]:
data, meta = pyreadstat.read_sav(
    list_file[4], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,Numord,
1,Ponderation,
2,weigth,
3,SubmissionDate,
4,start,
5,end,
6,today,
7,deviceid,
8,subscriberid,ID_bis
9,FSMS_decembre15,Enquête de sécurité alimentaire des ménages (E...


## 6- Données_FSMS_juin_15.sav

Mauritania FSMS data/2015/Juin/Données_FSMS_juin_15.sav

In [9]:
data, meta = pyreadstat.read_sav(
    list_file[5], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,Nordo,
1,start,
2,end,
3,duree,
4,duree2,
5,today,
6,deviceid,
7,subscriberid,
8,FSMS_mai15,
9,accord,Accord du ménage


## 7- Donnes_FSMSdec12_HH_commun.sav

Mauritania FSMS data/2012/Decembre/Donnes_FSMSdec12_HH_commun.sav

In [10]:
data, meta = pyreadstat.read_sav(
    list_file[6], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,metainstanceid,*meta-instance-id*
1,metamodelversion,*meta-model-version*
2,metauiversion,*meta-ui-version*
3,metasubmissiondate,*meta-submission-date*
4,metaiscomplete,*meta-is-complete*
5,metadatemarkedascomplete,*meta-date-marked-as-complete*
6,uuid,
7,start,
8,end,
9,today,


## 8- RIM_FSMS_SMART_juil2012.sav

Mauritania FSMS data/2012/Analyse croise SA_NUT/RIM_FSMS_SMART_juil2012.sav

In [11]:
data, meta = pyreadstat.read_sav(
    list_file[7], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,S_SURVDATE,
1,S_RecoDR,
2,S_HH,
3,S_TEAM,
4,S_CLUSTER,
5,S_ID,
6,S_BIRTHDAT,
7,S_WEIGHT,
8,S_HEIGHT,
9,S_EDEMA,


## 9- Données_FSMS_juil_12.sav

Mauritania FSMS data/2012/Juin/Données_FSMS_juil_12.sav

In [12]:
data, meta = pyreadstat.read_sav(
    list_file[8], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,ID01,Identifiant
1,ID02,
2,RecoDR,Renumérotation des DR
3,NUMORD,1.4-Village/Numéro d'ordre
4,CLUSTER,1.5- Numéro de cluster
5,NUMQUEST,Numquest
6,SAISIE,Code opérateur de saisie
7,Hors_NK,Hors Nouakchott
8,LHZ,Zone de moyens d'existence
9,Ponderation1,Coefficient d'extrapolation


## 10- Données_FSMS_16_08_11.sav

Mauritania FSMS data/2011/Juin11/Données_FSMS_16_08_11.sav

In [13]:
data, meta = pyreadstat.read_sav(
    list_file[9], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,Pondérations,Pondérations issues des estimations de population
1,Extrap,Coefficient d'extrapolation des effectifs
2,OPERAT,Numéro de l'agent de saisie
3,QUEST,1.0- Numéro du questionnaire
4,Ident,
5,VILLAG0,1.4- Village
6,MOUGHATAA,1.2- Moughataa
7,NUMQUEST,Numquest
8,VILLAGE,1.4- Village
9,CP,Zones du programmes pays


## 11- Données_FSMS_nov11_26_12.sav

Mauritania FSMS data/2011/Decembre11/Données_FSMS_nov11_26_12.sav

In [14]:
data, meta = pyreadstat.read_sav(
    list_file[10], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,NUMQUEST,Numquest
1,IDENT,
2,ENQU,Code enquêteur
3,Hors_NK,
4,MOUGHATAA,1.2- Moughataa
5,COMMUNE,1.3- Commune
6,VILLAG0,1.4- Village
7,VILLAGE,1.4- Village
8,MILIEU,1.5- Milieu
9,NUMEN,1.6- Numéro du ménage


## 12- FSMS_2011_4-2-11_URBAN.sav

Mauritania FSMS data/2011/Janvier11/Données/FSMS_2011_4-2-11_URBAN.sav

In [15]:
data, meta = pyreadstat.read_sav(
    list_file[11], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,NUM_ORDRE,Numéro d'ordre
1,Q_10_Num_Quest,Numéro de questionnaire
2,Q_11_Wilaya,Wilaya
3,Q_12_Moughataa,Moughataa
4,Q_13_Commune,Commune
5,Q_14_Localite,Localité/Quartier
6,Q_15_Milieu,Milieu de résidence
7,Q_110_AGENT_SAISIE,Nom de l'agent de saisie
8,Q_21_Sexe_CM,Sexe du chef de ménage
9,Q_22_Age_CM,Age du chef de ménage


## 13- FSMS_2011_RURAL_FINAL.sav

Mauritania FSMS data/2011/Janvier11/Données/FSMS_2011_RURAL_FINAL.sav

In [16]:
data, meta = pyreadstat.read_sav(
    list_file[12], apply_value_formats=True, encoding="ISO-8859-1"
)
columns = pd.DataFrame({"variable": meta.column_names, "label": meta.column_labels})
columns

Unnamed: 0,variable,label
0,Q_00_NUM_ORDRE,
1,Q_10_Num_Quest,
2,Q_11_Wilaya,Wilaya
3,Strate,
4,Q_12_Moughataa,Moughataa
5,Q_13_Commune,Commune
6,Q_14_Localite,Village/Localité
7,Q_15_MILIEU,Milieu
8,Q_111_AGENT_SAISIE,Nom de l'agent de saisie
9,Q_21_Sexe_CM,Sexe du chef de ménage
