In [None]:
import pandas as pd

def limpiar_datos_duplicados():
    ''' 
    Se eliminan los duplicados
    '''
    print("Cantidad de duplicados")
    print(df.duplicated().value_counts())
    df.drop_duplicates(inplace=True)

def manejar_datos_faltantes():
    ''' 
    Las columnas platform y app_version no pueden ser inferidos en caso de ser nulos, se reemplaza con N/A

    '''
    df['platform'].fillna('N/A')
    df['app_version'].fillna('N/A')


def convertir_a_tipo_dato_correcto():
    '''
    Metodo usado para convertir columnas del tipo object a tipo string
    '''
    df['platform'] = df['platform'].astype('string')
    df['country'] = df['country'].astype('string')
    df.info()


def manejar_datos_inapropiados():
    ''' 
    La cantidad de sesiones por dia y la cantidad de minutos por sesion no puede superar la cantidad de minutos que tiene un dia
    '''

    sesiones_inconsistentes = df.query('session_duration * number_of_sessions > 1440').index()
    df.drop(sesiones_inconsistentes, inplace=True)

    feedback_menor_1 = df.query('user_feedback < 1').index()
    feedback_mayor_5 = df.query('user_feedback > 5').index()
    df.loc[feedback_menor_1, 'user_feedback'] = 1
    df.loc[feedback_mayor_5, 'user_feedback'] = 5


def manejar_inconsistencias_datos_categoricos():
    ''' 
    Se permite solamente dos tipos de SO: Android e iOS, se busca formatear correctamente los nombres de los SO, y descartar los que no sean
    plataformas moviles, debido a que se buscan saber datos de estas plataformas unicamente 
    '''
    df['platform'] = df['platform'].apply(lambda x: 'Android' if x.casefold() == 'android' else ('iOS' if x.casefold() == 'ios' else 'N/A') )
    plataformas_no_validas = df.query('platform = N/A').index()
    df.drop(plataformas_no_validas, inplace=True)

    

df = pd.read_csv('../data/user_app_data.csv')
limpiar_datos_duplicados()
convertir_a_tipo_dato_correcto()
manejar_inconsistencias_datos_categoricos()
manejar_datos_faltantes()
manejar_datos_inapropiados()

 
