In [25]:
import pandas as pd
import numpy as np
import time

def carga_datos():
    ''' 
    Carga de datos al dataset
    '''
    return pd.read_csv('../../data/cellphone_sales.csv')

def info(dataset):
    dataset.info()

def estadisticas(dataset):
    dataset.describe()

def limpieza_datos(dataset):

    #Se eliminan las filas nulas
    datos_limpios = dataset.dropna()

    #Se eliminan los duplicados
    datos_limpios.drop_duplicates(inplace=True)

    #Correccion de tipos de dato
    dataset['Brands'] = dataset['Brands'].astype('string')
    dataset['Models'] = dataset['Models'].astype('string')
    dataset['Colors'] = dataset['Colors'].astype('string')
    dataset['Memory'] = dataset['Memory'].astype('string')
    dataset['Storage'] = dataset['Storage'].astype('string')
    dataset['Camera'] = dataset['Camera'].astype('string')    
    dataset['Mobile'] = dataset['Mobile'].astype('string')
    
    #Se elimina el sufijo 'GB' y se convierte a float64 para mejor manejo
    dataset['Memory'] = dataset['Memory'].str.replace('GB','')
    dataset['Storage'] = dataset['Storage'].str.replace('GB','')
    dataset['Memory'] = dataset['Memory'].astype('float64')
    dataset['Storage'] = dataset['Storage'].astype('float64')

    return dataset


def transformacion_datos(dataset):
    #Creacion de la columna categoria RAM
    dataset['Categoria_RAM'] = dataset['Memory'].apply(lambda x: 'Alta' if int(x.split()[0]) >= 6 else 'Media' if int(x.split()[0]) >= 4 else 'Baja')

    #Creacion de la columna categoria Almacenamiento
    dataset['Categoria_Almacenamiento'] = dataset['Storage'].apply(lambda x: 'Alta' if int(x.split()[0]) >= 512 else 'Media' if int(x.split()[0]) >= 64 else 'Baja')

    return dataset


def info_nulos(df):
    ''' 
    Metodo proveido por el profesor que muestra la cantidad de nulos por columna junto a estadisticas de los mismos 
    '''
    qsna=df.shape[0]-df.isnull().sum(axis=0)
    qna=df.isnull().sum(axis=0)
    ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
    aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
    na=pd.DataFrame(data=aux)
    na.sort_values(by='Na en %',ascending=False)


def analisis_datos(df):
   
   #Los 10 modelos mas vendidos
   modelos_mas_vendidos = df.groupby('Models')['Selling Price'].sum().sort_values(ascending=False)[:10]
   print("\nLos 10 modelos mas vendidos\n")
   print(modelos_mas_vendidos)
   
   #Rango de precios de venta por marca 
   rango_precio_venta_por_marca = df.groupby('Brands')['Selling Price'].apply(lambda x: x.max() - x.min())
   print("\nRango de precios de venta por marca\n")
   print(rango_precio_venta_por_marca)

   #Categorizacion de la memoria RAM
   


df = carga_datos()

#Primeros 10 datos
dataset.head(10)

#Ultimos 5 datos
dataset.tail(5)

#Informacion del dataset
info(dataset)

#Obtener estadisticas descriptivas del dataset
estadisticas(dataset)

#Limpieza del dataset
dfl = limpieza_datos(df)

#Transformacion de datos
dfl = transformacion_datos(dfl)

#Analisis de datos
analisis_datos(dfl)



Brands
ASUS             75500
Apple           154901
GIONEE           20400
Google Pixel     80000
HTC              55991
IQOO              5000
Infinix          13050
LG               55000
Lenovo           26450
Motorola         84549
Nokia            55299
OPPO             55991
POCO             23000
SAMSUNG         168900
Xiaomi           48500
realme           41500
vivo             72000
Name: Selling Price, dtype: int64
