## SET UP & DATA WRANGLING

In [1]:
import pandas as pd
import numpy as np 

## EDA Libraries 
import matplotlib.pyplot as plt
import seaborn as sns

## Settings
pd.set_option('display.max_columns', None) # display all columns
import warnings
warnings.filterwarnings('ignore') # ignore warnings

import hashlib # to encode personal details
import re

In [2]:
data = pd.read_excel("typeform 15-09-2024.xlsx")

FileNotFoundError: [Errno 2] No such file or directory: 'typeform 15-09-2024.xlsx'

In [None]:
df = data.copy()

In [None]:
df.columns = df.columns.str.lower().str.replace(" ","_").str.replace(".","_").str.replace(":","")

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.drop(columns=["#","sí!","no,_solo_por_la_tarde!","por_las_tardes_a_partir_de_las_3_00pm","por_las_tardes_a_partir_de_las_5_00pm","por_las_tardes_a_partir_de_las_6_00pm","por_las_tardes_a_partir_de_las_7_00pm", "stage_date_(utc)", "tags"], inplace=True)

In [None]:
df = df.rename(columns={"¿cómo_te_gusta_que_te_llamemos?":"nombre",
                   "para_empezar,_aceptas_la_política_de_privacidad_y_que_te_mandemos_chicha_de_la_buena?":"politica_privacidad",
                   "{{field01g9cmc9sx965qwjp9reb0q2bj}},_escribe_tu_mejor_correo":"email",
                   "escribe_tu_teléfono_(*con_prefijo,_si_no_no_te_podremos_contactar*)_para_poder_pasarte_la_información_de_nuestra_sesión_juntas❤️":"telefono",
                   "¿en_qué_franja_horaria_vives?":"zona_horaria",
                   "-nuestra_terapia_grupal_dura_*16_semanas_*\n\n-los_horarios_son_de_*1200_-_1400_pm_o_de_1900_a_2100_pm_*(franja_horaria_españa)\n\n-tiene_un_precio_desde*_64€_por_sesiones_de_2_horas__*pero_no_se_paga_por_sesión,_sino_que_te_comprometes_al_proceso_entero_\n\n_*esto_implica_tanto_una_inversión_económica,_como_de_tiempo_*__si_esto_no_encaja_en_tus_posibilidades,_te_pedimos,_con_amor,_que_reconsideres_la_reserva__":"condiciones_terapia",
                   "cuéntame,_¿qué_no_está_funcionando_actualmente_en_tu_vida?":"problema_principal",
                   "¿_qué_cambios_te_gustaría_ver_después_de_pasar_por_nuestra_terapia?":"cambios_deseados",
                   "{{field01g9cmc9sx965qwjp9reb0q2bj}},_¿por_qué_crees_que_conecta_contigo,_nuestra_terapia_grupal,_puede_ayudarte?_":"busqueda_en_terapia",
                   "-nuestra_terapia_grupal_dura_*16_semanas_*\n\n-cada_semana_de_*1900-2100_pm_o_cada_semana_de_1200-1400_pm_*\n-se_paga_por_*todo_el_proceso*_en_cuotas_de_1/3/6_pagos_mensuales_\n\nesto_implica_una_inversión_económica_y_de_tiempo__si_esto_no_encaja_en_tus_posibilidades,_te_pedimos,_con_amor,_que_reconsideres_la_reserva__\n\n¿estás_interesada_en_continuar?":"interes_reserva",
                   "tu_tiempo_es_oro_y_el_nuestro_también,_reserva_esta_sesión_solo_*si_estás_comprometida_a_asistir__*\n\n*-esta_sesión_es_una_sesión_enfocada_a_ver_tu_caso_para_entrar_a_la_terapia_grupal_*_\n\nsin_tu_compromiso,_no_puede_haber_avance__¿trato_hecho?":"interes_sesion_personal",
                   "start_date_(utc)":"start_date",
                   "submit_date_(utc)":"submit_date"
                  })

In [None]:
df.dtypes

### Leyenda de columnas:

**nombre**: nombre de pila

**politica_privacidad**: acepta políticas de privacidad y consentimiento publicitario

**email**: correo electrónico

**telefono**: telefono con extensión

**zona_horaria**: 3 zonas contempladas (Europa, Latam/USA, Asia/Australia)

**condiciones_terapia**: la usuaria puede asumir condiciones y precio de terapia grupal

**problema_principal**: qué no funciona en sus vidas para buscar terapia grupal

**cambios_deseados**: qué buscan cambiar gracias a la terapia grupal

**busqueda_en_terapia**: cómo creen que la terapia grupañ les ayudará

**interes_reserva**: si están interesadas en reservar plaza

**interes_sesion_personal**: si están interesadas en realizar una sesión personalizada sobre su caso en específico de cara a entrar en la terapia grupal

**start_date**: momento en que comienzan el typeform

**submit_date**: momento en que finalizan el typeform

**network_id**: id específico de su entrada

## STANDARIZATION & NULLS

### Cleaning functions

In [None]:
# replace and fillna

def replace_fillna(df, column_name, replace_dict=None, fill_value=None):
    if replace_dict:
        df[column_name] = df[column_name].replace(replace_dict)
    if fill_value is not None:
        df[column_name] = df[column_name].fillna(fill_value)
    return df

In [None]:
# format clean telephone

def format_phone(phone):
    if pd.isna(phone):
        return phone
    else:
        phone_str = str(phone)
        phone_str = phone_str.split(".")[0]
        return f"+{phone_str[:2]} {phone_str[2:5]} {phone_str[5:7]} {phone_str[7:9]} {phone_str[9:]}"

In [None]:
# Obtainin phone code number

def country_code(value, skip_value="Sin completar"):
    if value == skip_value:
        return value
    else:
        return str(value).split(" ")[0]
    
def apply_country_code(df, column_name, new_column_name, skip_value="Sin completar"):
    df[new_column_name] = df[column_name].apply(lambda x: country_code(x, skip_value))
    return df[new_column_name]

In [None]:
# Obtainin country through phone code

def country(code, skip_value="Sin completar"):
    if code == skip_value:
        return "Desconocido"
    else:
        return country_by_code.get(code)

In [None]:
## Anonimizer functions

def anonymize_name(name):
    return hashlib.md5(name.encode()).hexdigest()[:8]

def anonymize_email(email):
    username, domain = email.split('@')
    return f"{hashlib.md5(username.encode()).hexdigest()[:8]}@{domain}"

def anonymize_phone(phone):
    if phone == "Sin completar":
        return phone
  
    match = re.match(r'(\+\d+)\s*(.*)', phone)
    if match:
        country_code, rest_of_number = match.groups()
      # Eliminar espacios del resto del número
        rest_of_number = rest_of_number.replace(" ", "")
        return f"{country_code} {hashlib.md5(rest_of_number.encode()).hexdigest()[:8]}"
    else:
      # Si no hay código de país, anonimizar todo el número
        return hashlib.md5(phone.encode()).hexdigest()[:8]

### Anonymize variables 

In [None]:
df['nombre'] = df['nombre'].apply(anonymize_name)
df['email'] = df['email'].apply(anonymize_email)
df['telefono'] = df['telefono'].apply(anonymize_phone)

### Política de Privacidad

In [None]:
df["politica_privacidad"].value_counts()

In [None]:
df = replace_fillna(df, "politica_privacidad", replace_dict={"Acepto! yes!":"Yes"}, fill_value="No")

In [None]:
df["politica_privacidad"].value_counts()

#### Teléfono

In [None]:
df["telefono"]

In [None]:
df["telefono"] = df["telefono"].apply(format_phone)

In [None]:
df["telefono"].isna().sum()

In [None]:
df["telefono"] = df["telefono"].fillna("Sin completar")

In [None]:
df["telefono"].sample(10)

### Zona horaria

In [None]:
df["zona_horaria"].value_counts()

In [None]:
df = replace_fillna(df, "zona_horaria", replace_dict={"Europa":"Europa", "Latino America/USA":"Latam/USA", "Asia/Australia":"Asia/Australia"}, fill_value="Sin completar")

In [None]:
df["zona_horaria"].value_counts()

### Condiciones terapia

In [None]:
df["condiciones_terapia"].value_counts(dropna=False)

In [None]:
df = replace_fillna(df, "condiciones_terapia", replace_dict={"No se ajusta a mis posibilidades 🙏🏽":"No (Latam)", "Sí se ajusta a mis posibilidades ❤️":"Yes (Latam)"}, fill_value="Yes")

In [None]:
df["condiciones_terapia"].value_counts(dropna=False)

#### Problema principal - Cambios deseados - Búsqueda en terapia

In [None]:
columnas_nan = ["problema_principal", "cambios_deseados", "busqueda_en_terapia"]

In [None]:
df[columnas_nan] = df[columnas_nan].fillna("Sin completar")

### Interés reserva

In [None]:
df["interes_reserva"].value_counts(dropna=False)

In [None]:
df = replace_fillna(df, "interes_reserva", replace_dict={"Sí, estoy dispuesta a invertir en mí y tengo disponibilidad semanal.":"Yes", 
                                                         "Sí, estoy dispuesta a invertir en mí y tengo disponibilidad semanal, aunque me cuadraría pagar a plazos.":"Yes (Pago plazos)",
                                                         "No, ahora mismo no estoy dispuesta a invertir en terapia.":"No"
                                                        }, 
                                                         fill_value="Sin completar")

In [None]:
df["interes_reserva"].value_counts(dropna=False)

#### Interés Sesión personalizada

In [None]:
df["interes_sesion_personal"].value_counts(dropna=False)

In [None]:
df = replace_fillna(df, "interes_sesion_personal", replace_dict={"Sí!! Estoy dispuesta a invertirme en mí y comprometida a asistir.":"Yes", 
                                                         "No, estoy comprometida ni puedo invertir prefiero no seguir":"No"
                                                        }, 
                                                         fill_value="Sin completar")

In [None]:
df["interes_sesion_personal"].value_counts(dropna=False)

In [None]:
df.sample(10)

### *New column*: país

In [None]:
df_code = apply_country_code(df, "telefono", "codigo_tlf")

In [None]:
df_code = df_code.reset_index(drop=True)

In [None]:
df_code = pd.DataFrame(df_code)

In [None]:
df_code.sample(5)

In [None]:
country_by_code = {
"+34": "España",
"+52": "México",
"+56": "Chile",
"+54": "Argentina",
"+57": "Colombia",
"+59": "Bolivia",
"+50": "Guatemala",
"+51": "Perú",
"+39": "Italia",
"+41": "Suiza",
"+58": "Venezuela",
"+17": "Estados Unidos",
"+19": "Canadá",
"+61": "Australia",
"+12": "Estados Unidos",
"+18": "Estados Unidos",
"+33": "Francia",
"+44": "Reino Unido",
"+49": "Alemania",
"+96": "Bahréin",
"+15": "Estados Unidos",
"+55": "Brasil",
"+13": "Estados Unidos",
"+16": "Estados Unidos",
"+97": "Emiratos Árabes Unidos",
"+32": "Bélgica",
"+35": "Gibraltar",
"+14": "Estados Unidos",
"+38": "Yugoslavia",
"+86": "China",
"+37": "Lituania",
"+84": "Vietnam",
"+36": "Hungría",
"+46": "Suecia",
"+31": "Países Bajos",
"+48": "Polonia",
"+47": "Noruega",
"+64": "Nueva Zelanda"
}

In [None]:
df_code["pais"] = df_code["codigo_tlf"].apply(country)

In [None]:
df_code.head(5)

In [None]:
df_columns = df.columns.to_list()

In [None]:
df_columns.index("zona_horaria")

In [None]:
df.insert(5, "pais", df_code["pais"])

In [None]:
df.drop(columns=["codigo_tlf"], inplace=True)

In [None]:
df.sample(5)

## CALENDLY MERGE: SESSIONS DONE

### Set up

In [None]:
data2 = pd.read_excel("Calendly 15 sp 2024.xlsx")

In [None]:
df2 = data2.copy()

In [None]:
df2.columns = df2.columns.str.lower().str.replace(" ","_").str.replace(".","_").str.replace(":","")

In [None]:
df2.sample(1)

In [None]:
df2.shape

In [None]:
calendly = df2[["invitee_email", "start_date_&_time", "end_date_&_time"]]

In [None]:
calendly

In [None]:
df["sesion_completada"] = df["email"].isin(calendly["invitee_email"]).map({True: "Yes", False: "No"})

In [None]:
df["sesion_completada"].value_counts()

### Sessions done

In [None]:
sesiones_si = df[df["sesion_completada"] == "Yes"]

In [None]:
sesiones_si["pais"].value_counts()

In [None]:
sesiones_no = df[df["sesion_completada"] == "No"]

In [None]:
sesiones_no["pais"].value_counts()

## EXPORT CLEAN CSV TO EDA

In [None]:
df.to_csv("clean_typeform.csv", index=False)