In [250]:
# -*- encoding: utf-8 -*-

import pandas as pd
import numpy as np

In [251]:
class CSVtoXLS :
    
    def __init__(self, name, code, ext="csv",sep=";", encoding="utf-8") : 
        self.filename = name
        self.code = code
        self.ext = ext
        self.file = name + "." + ext
        self.sep = sep
        self.encoding = encoding
        self.df = None
        self.columnsNames = []
        self.columnsUniques = []

    def toDF(self):
        if self.ext == "csv":
            df = pd.read_csv(self.file, sep=self.sep, encoding=self.encoding)
        else : 
            df = pd.read_excel(self.file, encoding=self.encoding)
        df = df.dropna(how="all")
        df = df.replace({np.nan:None}) 
        self.df = df
        return df
    
    def getUniques(self):
        results=[]
        for col in self.df:
            self.columnsNames.append(col)
            uniques = self.df[col].unique()
            u_dict = {"colname" : col, "uniques" : uniques.tolist() }
            u_dict["u_count"] = len(u_dict["uniques"])
            results.append(u_dict)
        self.columnsUniques = results
        return results
            
    def toXLS(self):
        #writer = pd.ExcelWriter(self.code + '.xlsx')
        #self.df.to_excel(writer, index = False)
        #writer.save()
        filename = "-" + self.code + '.xlsx'
        self.df.to_excel(filename, encoding="utf-8")
    
    def toTSV(self):
        filename = "-" + self.code + '.csv'
        self.df.to_csv(filename, sep='\t', encoding='utf-8')


In [247]:
CSVfiles = [
    {"name" : "export_base_ressources_territoriales_20181227_DRJSCS_HDF", 
     "ext" : "csv",
     "encoding" : "ISO-8859-1",
     "sep" : ";",
     "colToGetUniques" : [
         u"Enjeu", 
         u"Dispositif", 
         u"Public_cible", 
         u"Statut",
         u"Echelle",
         u"Conditions_acces",
         u"Horaires"
     ],
     "code" : "DRJSCS"
    },
    
    {"name" : "MSAP-20180627", 
     "ext" : "csv",
     "encoding" : "ISO-8859-1",
     "sep" : ";",
     "colToGetUniques" : [
         u"Horaires d'ouverture",
         u"Accessibilité",
         u"Equipements à disposition"
     ],
     "code" : "MSAP"
    },
    
    {"name" : "224400028_lieux-numeriques-en-loire-atlantique", 
     "ext" : "csv",
     "encoding" : "utf-8",
     "sep" : ";",
     "colToGetUniques" : [
         u"Type de porteur", 
         u"Public",
         u"Tarif(s)"
     ],
     "code" : "Loire-Atlantique"
    },
    
    {"name" : "listeEPN-NETPUBLIC-Gironde", 
     "ext" : "csv",
     "encoding" : "utf-8",
     "sep" : ",",
     "colToGetUniques" : [
         u"Label",
         u"Services proposés",
         u"Tarif"
     ],
     "code" : "Gironde"
    },
]

In [248]:
#CSVlist = [CSVfiles[0]]
CSVlist = CSVfiles

In [249]:

CSV_dfList = []
for csv in CSVlist:
    classCSV = CSVtoXLS(csv["name"],csv["code"],ext=csv["ext"],sep=csv["sep"],encoding=csv["encoding"] )
    classCSV.toDF()
    classCSV.getUniques()
    result = { 
        "code" : csv["code"], 
        "df" : classCSV.df, 
        "columnsNames" : classCSV.columnsNames,
        "columnsUniques" : classCSV.columnsUniques,
        "classCSV" : classCSV, 
        "csvInfos" : csv,
        "colUniquesToKeep" : [ c["colname"] for c in classCSV.columnsUniques if c["colname"] in csv["colToGetUniques"]]
    }
    CSV_dfList.append(result)

In [243]:
for csv in CSV_dfList:
    print "columnsNames : " 
    for c in csv["columnsNames"] : 
        print c
    print
    col = csv["columnsUniques"]
    for c in col : 
        print "colname : %s" %(c["colname"])
        print "uniques[0:3] : %s..." %(c["uniques"][0:3])
        print "u_count : %s" %(c["u_count"])
        print "- "*5
    print "=== "*10

columnsNames : 
Id
Enjeu
Dispositif
Public_cible
Descriptif
Structure_porteuse
Type_structure
Statut
Adresse
Commune
CP
Dpt
Region
Echelle
Courriel
Telephone
Accompagnement
Conditions_acces
Handicaps
Horaires
Site_internet

colname : Id
uniques[0:3] : [617, 616, 590]...
u_count : 1404
- - - - - 
colname : Enjeu
uniques[0:3] : [u'Accessibilit\x8e', u'Formation et Accompagnement', u'Simplification']...
u_count : 3
- - - - - 
colname : Dispositif
uniques[0:3] : [u"Mise \x88 disposition de mat\x8eriel informatique et d'une connexion internet en acc\x8fs libre", u"Point d'accueil num\x8erique", u'Accompagnement aux d\x8emarches administratives - Accueil Caf\x8e itin\x8erant']...
u_count : 145
- - - - - 
colname : Public_cible
uniques[0:3] : [u'Tout public', u"Demandeurs d'emploi", u'S\x8eniors \x8eloign\x8es du num\x8eriques']...
u_count : 88
- - - - - 
colname : Descriptif
uniques[0:3] : [u'Acc\x8fs \x88 Internet dans la biblioth\x8fque.', u"P\x99le Emploi propose dans ses locaux un espace

In [244]:
CSV_dfList[0]["df"].head(3)

Unnamed: 0,Id,Enjeu,Dispositif,Public_cible,Descriptif,Structure_porteuse,Type_structure,Statut,Adresse,Commune,...,Dpt,Region,Echelle,Courriel,Telephone,Accompagnement,Conditions_acces,Handicaps,Horaires,Site_internet
0,617,Accessibilit,Mise  disposition de matriel informatique et...,Tout public,Accs  Internet dans la bibliothque.,Bibliotheque Rurale,Bibliothque - Mdiathque,Public,PLACE DU GENERAL DE GAULLE,Pavant,...,Aisne,Hauts-de-France,Locale,mathias.bibliotheque@laposte.net,323707844,Oui,Accs libre,,,
1,616,Accessibilit,Mise  disposition de matriel informatique et...,Tout public,Accs  Internet dans la bibliothque.,Mediatheque Henry Murger,Bibliothque - Mdiathque,Public,PARC DU 8 MAI 1945,Nogent-l'Artaud,...,Aisne,Hauts-de-France,Locale,mediatheque.nogent.lartaud@wanadoo.fr,323706791,Oui,Accs libre,,,
2,590,Accessibilit,Mise  disposition de matriel informatique et...,Tout public,Accs  Internet dans la bibliothque.,Bibliotheque Municipale,Bibliothque - Mdiathque,Public,Centre culturel Ferdinand Pinal,Charly-sur-Marne,...,Aisne,Hauts-de-France,Locale,bibliocharly@orange.fr,323820032,Oui,Accs libre,,,


In [245]:
for csvClass in CSV_dfList:
    csvClass["classCSV"].toXLS()
    csvClass["classCSV"].toTSV()
