# Loading datas from .ods

In [21]:
# https://pypi.org/project/pandas-ods-reader/
from pandas_ods_reader import read_ods

import pandas as pd
import numpy as np

# display non-truncated dataframe
pd.set_option('display.max_colwidth', -1)

  


In [2]:
path = "data/88milSMS_88522.ods"

# load a sheet based on its index (1 based)
sheet_idx = 1
df = read_ods(path, sheet_idx)

# load a sheet based on its name
sheet_name = "Feuille1"
df = read_ods(path, sheet_name)

# load a file that does not contain a header row
# if no columns are provided, they will be numbered
df = read_ods(path, 1, headers=True)

# load a file and provide custom column names
# if headers is True (the default), the header row will be overwritten
# df = read_ods(path, 1, columns=["NUM_SMS", "DATETIME", "ID_NUM_TEL", "SMS_ANON"])

In [3]:
df.head()

Unnamed: 0,NUM_SMS,DATETIME,ID_NUM_TEL,SMS_ANON
0,1.0,15 sept. 2011 07:28:55,477.0,"Hey ca va?\nAlors cette rentree?\nVa falloir se trouver un p'tit creneau pour se voir!\nDis moi, est-ce que tu sais quand commence les cours de langue non specialiste?\nBisoux"
1,2.0,15 sept. 2011 08:02:08,477.0,Ok super merci! Oui j'y comprends rien du tout moi a cette fac :p\n\nJ'irai me renseigner aussi ( si j'trouve le batiment :) )\nMerci encore!\n\nBonne soiree bisoux!
2,3.0,15 sept. 2011 08:03:01,477.0,"Coucou !\nC'est quand la feria de Nimes? \nJ'suis pas bien sure de la faire mais pourquoi pas!\nSinon oui, j'profite de ma derniere semaine de vacance!\nBon courage!\nBisoux"
3,4.0,15 sept. 2011 08:03:35,477.0,Coucou :)\nOui ca c'est bien passe!\nAlors je sais pas du tout pour jeudi soir... Non pas que je veuille pas mais je suis pas sure d'etre sur Montpel. J'y serai de sur qu'a partir de lundi prochain car je commence les cours...
4,5.0,15 sept. 2011 09:05:28,477.0,On peut se rejoindre quelque part? Tu as cours ou ?


## Convert types and format date

In [4]:
df["NUM_SMS"] = df["NUM_SMS"].astype('int64')
df["ID_NUM_TEL"] = df["ID_NUM_TEL"].astype('int64')

df['day'] = (df["DATETIME"].str.split(" ", n = 3, expand = True))[0]
df['month'] = (df["DATETIME"].str.split(" ", n = 3, expand = True))[1]
df['year'] = (df["DATETIME"].str.split(" ", n = 3, expand = True))[2]
df['time'] = (df["DATETIME"].str.split(" ", n = 3, expand = True))[3]

df["day"] = df["day"].astype('int64')
df["year"] = df["year"].astype('int64')

def month_to_num(item):
    MONTH_NUMS = {
        'jan.': 1,
        'fév.': 2,
        'mar.': 3,
        'avr.': 4,
        'mai.': 5,
        'juin.': 6,
        'juil.': 7,
        'aout.': 8,
        'sept.': 9,
        'oct.': 10,
        'nov.': 11,
        'déc.': 12,
    }
    return MONTH_NUMS.get(item)

df['month'] = df.apply(lambda x: month_to_num(x['month']),axis=1)

In [5]:
df.dtypes

NUM_SMS       int64 
DATETIME      object
ID_NUM_TEL    int64 
SMS_ANON      object
day           int64 
month         int64 
year          int64 
time          object
dtype: object

In [10]:
# Split date
df['hour'] = (df["time"].str.split(":", n = 2, expand = True))[0]
df['minute'] = (df["time"].str.split(":", n = 2, expand = True))[1]
df['second'] = (df["time"].str.split(":", n = 2, expand = True))[2]

# Create new date
df['date'] = pd.to_datetime(df[['year', 'month', 'day', 'hour', 'minute', 'second']])

In [14]:
df.dtypes

NUM_SMS       int64         
DATETIME      object        
ID_NUM_TEL    int64         
SMS_ANON      object        
day           int64         
month         int64         
year          int64         
time          object        
hour          object        
minute        object        
second        object        
date          datetime64[ns]
dtype: object

## Création timestamp

In [22]:
df['ts'] = df.date.values.astype(np.int64)

In [23]:
df.dtypes

NUM_SMS       int64         
DATETIME      object        
ID_NUM_TEL    int64         
SMS_ANON      object        
day           int64         
month         int64         
year          int64         
time          object        
hour          object        
minute        object        
second        object        
date          datetime64[ns]
ts            int64         
dtype: object

In [24]:
df.head(5)

Unnamed: 0,NUM_SMS,DATETIME,ID_NUM_TEL,SMS_ANON,day,month,year,time,hour,minute,second,date,ts
0,1,15 sept. 2011 07:28:55,477,"Hey ca va?\nAlors cette rentree?\nVa falloir se trouver un p'tit creneau pour se voir!\nDis moi, est-ce que tu sais quand commence les cours de langue non specialiste?\nBisoux",15,9,2011,07:28:55,7,28,55,2011-09-15 07:28:55,1316071735000000000
1,2,15 sept. 2011 08:02:08,477,Ok super merci! Oui j'y comprends rien du tout moi a cette fac :p\n\nJ'irai me renseigner aussi ( si j'trouve le batiment :) )\nMerci encore!\n\nBonne soiree bisoux!,15,9,2011,08:02:08,8,2,8,2011-09-15 08:02:08,1316073728000000000
2,3,15 sept. 2011 08:03:01,477,"Coucou !\nC'est quand la feria de Nimes? \nJ'suis pas bien sure de la faire mais pourquoi pas!\nSinon oui, j'profite de ma derniere semaine de vacance!\nBon courage!\nBisoux",15,9,2011,08:03:01,8,3,1,2011-09-15 08:03:01,1316073781000000000
3,4,15 sept. 2011 08:03:35,477,Coucou :)\nOui ca c'est bien passe!\nAlors je sais pas du tout pour jeudi soir... Non pas que je veuille pas mais je suis pas sure d'etre sur Montpel. J'y serai de sur qu'a partir de lundi prochain car je commence les cours...,15,9,2011,08:03:35,8,3,35,2011-09-15 08:03:35,1316073815000000000
4,5,15 sept. 2011 09:05:28,477,On peut se rejoindre quelque part? Tu as cours ou ?,15,9,2011,09:05:28,9,5,28,2011-09-15 09:05:28,1316077528000000000


## Connect to database

In [25]:
# todo

## Insert into database

In [26]:
# todo