## Pulizia DB e upload to MySQL server

This script read a CSV, save it in "df" variable, clean it:

<ul>
    <li>1.COACH valorizzato</li>
    <li>2.Motivazione: Remove TELESURVEY PRIMO CONTATTO e NUMERO DI TELEFONO NON VALIDO</li>
    <li>3.Lead Time: deve essere tra 0 e 100 (Lead time= Data_Contatto-Data_Acquisto)</li>
<li>Controllo su Eta: deve essere compresa tra 18 e 100</li>
<li>Accorcia Colonne troppo lunghe perchè non compatibili con MySQL</li>
   </ul>

## Load CSV and Riduce Columns Name(too long for SQL)

In [245]:
import pandas as pd
import sys
import numpy as np
from sqlalchemy import create_engine
import iqos

In [252]:
#CARICA E RENAME COLONNE troppo lunghe
df=pd.read_csv('ExportScaricato23Novembre2017.csv',low_memory=False,encoding='utf-8')
df.rename(columns={'FONTE_IQOS_STORE___Il_rivenditore_ha_parlato_dei_vantaggi_della_registrazione_': 'Rivenditore_ha_parlato_vantaggi_registrazione', 
                   'FONTE_IQOS_STORE___La_qualità_dell_esperienza_in_IQOS_Store_è_stata_':'La_qualità_esperienza_in_IQOSStore_stata',
                   'TEMPORARY_STORE___sei_soddisfatto_del_prodotto__Lo_consiglieresti_agli_amici_': 'Sei_soddisfatto_del_prodotto__Lo_consiglieresti_agli_amici',
                  'FONTE_IQOS_STORE___Il_rivenditore_ha_comunicato_i_benefici_del_prodotto_':'Il_rivenditore_ha_comunicato_i_benefici_del_prodotto'}, inplace=True)

if 'Data_Creazione' not in df.columns:
    print('Colonna "Data Creazione" mancante. La aggiungo')
    df['Data_Creazione']=np.nan

df["Data_contatto"] = pd.to_datetime(df["Data_contatto"],dayfirst=True)
df["Data_Acquisto"] = pd.to_datetime(df["Data_Acquisto"],dayfirst=True)
df['Data_Follow_Up']=pd.to_datetime(df["Data_Follow_Up"],dayfirst=True)
#Il formato è ANNO/MESE/GIORNO

## Regola 1: COACH VALORIZZATO + <br>Regola 2: Correggi motivazione

In [210]:
df=iqos.Ripulitura(df) #Regola 1 e 2

## Regola 3: Controllo Lead Time (tra 0 e 100 days)

In [213]:
#Controllo su valori di Lead Time
#Calcolo Lead Time
df["Lead_Time"] = (df["Data_contatto"] - df["Data_Acquisto"])
df = df[df['Lead_Time'].between('0 days', '100 days', inclusive=True)]

## Regola 4: (Utente_Convertito = SI)  AND (Tipo_di_Utilizzo diverso da (Esclusivo/Prevalent)) vanno eliminati

In [214]:
Condizione1 = df['Utente_Convertito']=='SI'
Condizione2 = ~(df['Tipo_di_Utilizzo'].isin(['Esclusivo','Prevalente']))
Condizione3 = df['Tipo_di_Utilizzo'].notnull()
#Condizione1 trova le righe con Utente_Convertito=SI 
#Condizione2 trova le righe che hanno TipoUtilizzo DIVERSO da Esclusivo e Prevalente
# (Condizione1 & Condizione2) quindi darebbe TRUE su tutte le righe con Utente_Convert=SI e Tipo_Utilizzo diverso da 
# Esclusivo o Prevalente
#Allora, siccome voglio prendere le rimanenti, devo negare tutto

df=df[~(Condizione1 & Condizione2 & Condizione3)]

## Regola 5: Se  Ha_iniziato_a_usare_Iqos = No AND Utente_Convertito = Si cambia Utente_Convertito a No

In [215]:
Condizione=(df['Utente_Convertito']=='SI') & (df['Ha_iniziato_a_usare_Iqos']=='NO')
df.loc[Condizione,'Utente_Convertito']='NO'

## Regola 6: Se Progressivo_Follow_Up = 1 
## AND 
## (Utente_Convertito = Si AND Risultato_contatto_Whatsapp != Ha visualizzato e interagito) change Risultato_contatto_Whatsapp to “Ha visualizzato e interagito

In [216]:
Condizione=(df['Utente_Convertito']=='SI') & (df['Risultato_contatto_Whatsapp']!='Ha visualizzato e interagito')
df.loc[Condizione,'Risultato_contatto_Whatsapp']='Ha visualizzato e interagito'

## Regola 7: 
## Se progressivo=1 and "Ris.Contatto WA"="Non ha interagito" o 
## "Ha viz ma non risposto" e "Num.Messaggi>2" qualcosa non va
## Num mex scambiati = 2

In [217]:
Condizione=(df['Progressivo_Follow_Up']==1) & (df['Risultato_contatto_Whatsapp'].isin(['Non ha visualizzato','Ha visualizzato ma non ha interagito']))
Condizione2=df['Numero_messaggi_scambiati'].str.isnumeric()>2
df[Condizione & Condizione2]['Numero_messaggi_scambiati']=2

## Regola 8: Se ha “interagito= NO” AND “Numero messaggi scambiati” >2 (tra 3 e 10) Change Ha interagito = SI
 

In [218]:
Condizione=df['Risultato_contatto_Whatsapp'].isin(['Ha visualizzato ma non ha interagito','Non ha visualizzato'])
Condizione2=df['Numero_messaggi_scambiati'].str.isnumeric()>2
df[Condizione & Condizione2]['Risultato_contatto_Whatsapp']='Ha visualizzato e interagito'

## Regola 9: Se Informer (Contatto_Lending”=1) e “Informer”=Vuoto, c’è qualcosa che problema perchè Informer non può essere vuoto.  (a Cuccioli l’ultima parola)

In [219]:
Condizione=(df['Contatto_Lending']==1) & (df['Nome_Informer'].isnull())
df.loc[Condizione,'Nome_Informer']='Anonimo'

## Regola 10: Controllo su età, compresa tra 18 e 100

In [220]:
import numpy as np
Condizione=df['Data_di_nascita'].notnull()
df['Eta']=np.nan
df.loc[Condizione,'Eta']=df.loc[Condizione,'Data_di_nascita'].apply(lambda x: x.split(' ')[0].split('/')[-1])
df.loc[Condizione,'Eta']=df.loc[Condizione,'Eta'].apply(lambda x: int(x)-2017)
C=df['Eta'].between(18,100)
print('Perdita Dataset Età: % di perdita se considerassi solo età 18-100 anni: {}'.format((df['Eta'].shape[0]-df.loc[C].shape[0])/df['Eta'].shape[0]))

Perdita Dataset Età: % di perdita se considerassi solo età 18-100 anni: 0.9977709280253557


## Ordino dataframe e vedo la data massima di Data_Contatto

In [148]:
#df['Data_contatto'].max()
#df.sort_values(by='Data_contatto',inplace=True,ascending=True)
#FORMATO DATA: ANNO/MESE/GIORNO

Timestamp('2018-01-20 00:00:00')

In [14]:
#import datetime
#Data_massima-datetime.timedelta(1)

Timestamp('2017-11-23 00:00:00')

## Seleziona date nuove per append alla table in MySQL server

In [16]:
#start_date=pd.read_sql_query('SELECT Data_Contatto FROM iqos_table',con=engine,index_col=None).max()[0]
#end_date=(pd.to_datetime('today') - pd.Timedelta('1 days'))
#df=df[(df['Data_contatto'] > start_date) & (df['Data_contatto'] <= end_date)]

## Retrieve data from MySQL Server to local

In [221]:
#Load Table from Server
engine = create_engine('mysql+pymysql://root:qJo8JzLS@192.168.13.100/iQos?charset=utf8', encoding="utf-8")


In [222]:
# A questo punto il dataset deve avere 65 colonne
if df.shape[1]!=65:
    print('Ops, qualcosa non va! Mi aspetto 65 colonne!')

## Upload to server

In [196]:
df.to_sql(con=engine, name='iqos_table', if_exists='replace') #if_exists='replace' nel caso devi crearlo la prima volta,se no 'append'

  chunksize=chunksize, dtype=dtype)


In [223]:
Load=pd.read_sql_query('SELECT * FROM iqos_table',con=engine)

In [226]:
Load.drop(labels='index',inplace=True,axis=1)

In [228]:
Load.shape

(71077, 65)

In [231]:
df.shape

(114846, 65)

In [232]:
merged = Load.merge(df, indicator=True, how='outer')

TypeError: invalid type promotion

In [233]:
import numpy as np
for el in np.arange(100):
    if el==10:
        print(el)
        import sys
        sys.exit("Error message")

10


SystemExit: Error message

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)
