# Fitness Trackers

### 1. Uno de los primeros pasos para realizar un buen análisis de datos es familiarizarnos con los datos que contiene el fichero a analizar. Para ello, calcularemos los estadísticos descriptivos elementales de las variables del fichero. Una vez cargados los datos en nuestro programa Python (utilizando la librería Pandas), calcula los siguientes valores para cada una de las variables:

In [23]:
import math
import pandas as pd

datos = pd.read_csv("Fitness_trackers.csv")
datos.head()

Unnamed: 0,Brand Name,Device Type,Model Name,Color,Selling Price,Original Price,Display,Rating (Out of 5),Strap Material,Average Battery Life (in days),Reviews
0,Xiaomi,FitnessBand,Smart Band 5,Black,2499,2999,AMOLED Display,4.1,Thermoplastic polyurethane,14,
1,Xiaomi,FitnessBand,Smart Band 4,Black,2099,2499,AMOLED Display,4.2,Thermoplastic polyurethane,14,
2,Xiaomi,FitnessBand,HMSH01GE,Black,1722,2099,LCD Display,3.5,Leather,14,
3,Xiaomi,FitnessBand,Smart Band 5,Black,2469,2999,AMOLED Display,4.1,Thermoplastic polyurethane,14,
4,Xiaomi,FitnessBand,Band 3,Black,1799,2199,OLED Display,4.3,Plastic,7,


#### 1.1 Número de muestras (valores distintos de missing):

In [24]:
nMuestras = []
for column in datos.columns:
    nMuestras.append([column, len(datos[column].dropna())])
nMuestras

[['Brand Name', 565],
 ['Device Type', 565],
 ['Model Name', 565],
 ['Color', 565],
 ['Selling Price', 565],
 ['Original Price', 565],
 ['Display', 565],
 ['Rating (Out of 5)', 514],
 ['Strap Material', 565],
 ['Average Battery Life (in days)', 565],
 ['Reviews', 78]]

Se comprueba que **Rating (Out of 5)** y **Reviews** tienen valores _missing_.

#### 1.2 y 1.3 Media, desviación estándar, mínimo y máximo de aquellas variables en las que tenga sentido (numéricas):

In [25]:
datos.dtypes

Brand Name                         object
Device Type                        object
Model Name                         object
Color                              object
Selling Price                      object
Original Price                     object
Display                            object
Rating (Out of 5)                 float64
Strap Material                     object
Average Battery Life (in days)      int64
Reviews                            object
dtype: object

Si comparamos los tipos asignados con los numéricos, vemos que además del **Rating (Out of 5)**  y **Average Battery Life** también deberían ser numéricos **Selling Price**, **Original Price** y **Reviews**

Si buscamos precios de los trackers en internet, nos daremos cuenta de que su precio de venta se corresponde con el de la India (está en Rupias), y esto confirma que **los precios con los que tratamos son números enteros**.

Convertimos las observaciones de las tres variables a numérico, eliminando las comas de miles:

In [26]:
datos["Selling Price"] = pd.to_numeric(datos["Selling Price"].str.replace(',',''))
datos["Original Price"] = pd.to_numeric(datos["Original Price"].str.replace(',',''))
datos["Reviews"] = pd.to_numeric(datos["Reviews"].str.replace(',',''))

Confirmamos que las conversiones son correctas:

In [27]:
datos.head(10)

Unnamed: 0,Brand Name,Device Type,Model Name,Color,Selling Price,Original Price,Display,Rating (Out of 5),Strap Material,Average Battery Life (in days),Reviews
0,Xiaomi,FitnessBand,Smart Band 5,Black,2499,2999,AMOLED Display,4.1,Thermoplastic polyurethane,14,
1,Xiaomi,FitnessBand,Smart Band 4,Black,2099,2499,AMOLED Display,4.2,Thermoplastic polyurethane,14,
2,Xiaomi,FitnessBand,HMSH01GE,Black,1722,2099,LCD Display,3.5,Leather,14,
3,Xiaomi,FitnessBand,Smart Band 5,Black,2469,2999,AMOLED Display,4.1,Thermoplastic polyurethane,14,
4,Xiaomi,FitnessBand,Band 3,Black,1799,2199,OLED Display,4.3,Plastic,7,
5,Xiaomi,FitnessBand,Band - HRX Edition,Black,1299,1799,OLED Display,4.2,Plastic,20,
6,Xiaomi,FitnessBand,Band 2,Black,2499,2499,OLED Display,4.3,Plastic,7,
7,Xiaomi,Smartwatch,Revolve,Black,12349,15999,AMOLED Display,4.4,Silicone,14,2.0
8,Xiaomi,Smartwatch,RevolveActive,Black,12999,15999,AMOLED Display,4.4,Silicone,14,3.0
9,Xiaomi,FitnessBand,Smart Band 3i,Black,1270,1599,OLED Display,4.2,Thermoplastic polyurethane,7,


In [32]:
datos.dtypes

Brand Name                         object
Device Type                        object
Model Name                         object
Color                              object
Selling Price                       int64
Original Price                      int64
Display                            object
Rating (Out of 5)                 float64
Strap Material                     object
Average Battery Life (in days)      int64
Reviews                           float64
dtype: object

In [38]:
variablesNumericas = datos._get_numeric_data()
mediaNumericas = round(variablesNumericas.mean(), 3) # No hay que preocuparse por los NaN, puesto que quedan excluídos del cálculo
stdNumericas = round(variablesNumericas.std(), 3)
minNumericas = round(variablesNumericas.min(), 3)
maxNumericas = round(variablesNumericas.max(), 3)

valoresInteres = pd.DataFrame([mediaNumericas,stdNumericas,minNumericas,maxNumericas], columns=["Selling Price","Original Price", "Rating (Out of 5)", "Average Battery Life (in days)", "Reviews"])
valoresInteres["Valor"] = ["Media", "Desviación Estándar", "Mínimo", "Máximo"]
valoresInteres.set_index("Valor", inplace = True)

valoresInteres

Unnamed: 0_level_0,Selling Price,Original Price,Rating (Out of 5),Average Battery Life (in days),Reviews
Valor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Media,22110.373,25365.361,4.23,9.027,2492.949
Desviación Estándar,19914.926,20384.029,0.391,7.869,5607.53
Mínimo,1195.0,1599.0,2.0,1.0,2.0
Máximo,122090.0,122090.0,5.0,45.0,23426.0


### 2. Hay datos que nos interesa analizar basándonos en agrupaciones, para darle un sentido a nuestro análisis en base a esa agrupación. Basándonos en las siguientes agrupaciones:
* Por tipo de dispositivo



In [None]:
tiposDisp = list(set(datos["Device Type"]))
print(tiposDisp)

* Por precio de venta. Estableceremos cuatro grupos en base a la media del precio de venta de cada tipo de dispositivo:
 * Smartwatches con un precio inferior o igual a la media de precios de venta de estos dispositivos
 * Smartwatches con un precio superior a la media de precios de venta de estos dispositivos
 * Fitnessbands con un precio inferior o igual a la media de precios de venta de estos dispositivos
 * Fitnessbands con un precio superior a la media de precios de venta de estos dispositivos

In [None]:
# Precio medio de un Smartwatch:

swMedia = datos.loc[datos["Device Type"]=="Smartwatch", "Selling Price"].mean()

# Precio medio de una FitnessBand:

fbMedia = datos.loc[datos["Device Type"]=="FitnessBand", "Selling Price"].mean()


# Condiciones a cumplir:

swBajoMedia = (datos["Selling Price"] <= swMedia) & (datos["Device Type"] == "Smartwatch")
swSobreMedia = (datos["Selling Price"] > swMedia) & (datos["Device Type"] == "Smartwatch")
fbBajoMedia = (datos["Selling Price"] <= fbMedia) & (datos["Device Type"] == "FitnessBand")
fbSobreMedia = (datos["Selling Price"] > fbMedia) & (datos["Device Type"] == "FitnessBand")

* Por marca

In [None]:
marcas = list(set(datos["Brand Name"]))
print(marcas)

Hay una marca, "Noise", duplicada con espacio, que tendremos que arreglar:

In [None]:
# TODO: haz un mejor data wrangling: quita espacios tras las marcas y todo a minúsculas

datos.loc[datos["Brand Name"]=="Noise ","Brand Name"] = "Noise"

marcas = list(set(datos["Brand Name"]))
print(marcas)

Calcula los siguientes estadísticos en base a cada una de las agrupaciones definidas previamente con respecto a las variables selling price, original price, rating, average battery life in days y reviews:



In [None]:
datosFilt = datos[["Device Type", "Selling Price", "Original Price", "Rating (Out of 5)", "Average Battery Life (in days)", "Reviews"]]

* Número de observaciones

In [None]:
# Por tipo de dispositivo

print("Número de observaciones por dispositivo:")

datosPorTipo = datosFilt.groupby("Device Type").count()
datosPorTipo

In [None]:
# Por precio de venta
print("Número de observaciones por precio de venta:")

datosswBajoMedia = datosFilt.loc[swBajoMedia].groupby("Device Type").count()
datosswBajoMedia.rename(index={'Smartwatch': 'Smartwatches bajo precio medio'}, inplace=True)

datosswSobreMedia = datosFilt.loc[swSobreMedia].groupby("Device Type").count()
datosswSobreMedia.rename(index={'Smartwatch': 'Smartwatches sobre precio medio'}, inplace=True)

datosfbBajoMedia = datosFilt.loc[fbBajoMedia].groupby("Device Type").count()
datosfbBajoMedia.rename(index={'FitnessBand': 'FitnessBands bajo precio medio'}, inplace=True)

datosfbSobreMedia = datosFilt.loc[fbSobreMedia].groupby("Device Type").count()
datosfbSobreMedia.rename(index={'FitnessBand': 'FitnessBands sobre precio medio'}, inplace=True)

datosPorPrecio = datosswBajoMedia.append(datosswSobreMedia).append(datosfbBajoMedia).append(datosfbSobreMedia)
datosPorPrecio.index.names = ['Grupos por precio de venta']

datosPorPrecio

La categoría "FitnessBand prices above mean" no aparece dado que no existe ninguna FitnessBand en el dataset cuyo precio sea superior al precio medio:

In [None]:
datosfbSobreMedia = datosFilt.loc[fbSobreMedia].count()
datosfbSobreMedia

In [None]:
# Por marca
print("Número de observaciones por marca:")    
datosMarca = datos[["Brand Name", "Selling Price", "Original Price", "Rating (Out of 5)", "Average Battery Life (in days)", "Reviews"]].groupby("Brand Name").count()
datosMarca

* Número de valores ausentes (missing)

In [None]:
#Por tipo de dispositivo

print("Número de ausencias por dispositivo:")
    
ausentesPorTipo = datosFilt.set_index("Device Type")
ausentesPorTipo = ausentesPorTipo.isna().groupby("Device Type").sum()
ausentesPorTipo

In [None]:
# Por precio de venta
print("Número de ausencias por precio de venta:")

# TODO: meter en un bucle (más elegante)

ausentesswBajoMedia = datosFilt.loc[swBajoMedia]
ausentesswBajoMedia = ausentesswBajoMedia.set_index("Device Type")
ausentesswBajoMedia = ausentesswBajoMedia.isna().groupby("Device Type").sum()
ausentesswBajoMedia.rename(index={'Smartwatch': 'Smartwatches bajo precio medio'}, inplace=True)

ausentesswSobreMedia = datosFilt.loc[swSobreMedia]
ausentesswSobreMedia = ausentesswSobreMedia.set_index("Device Type")
ausentesswSobreMedia = ausentesswSobreMedia.isna().groupby("Device Type").sum()
ausentesswSobreMedia.rename(index={'Smartwatch': 'Smartwatches sobre precio medio'}, inplace=True)

ausentesfbBajoMedia = datosFilt.loc[fbBajoMedia]
ausentesfbBajoMedia = ausentesfbBajoMedia.set_index("Device Type")
ausentesfbBajoMedia = ausentesfbBajoMedia.isna().groupby("Device Type").sum()
ausentesfbBajoMedia.rename(index={'FitnessBand': 'FitnessBands bajo precio medio'}, inplace=True)

ausentesfbSobreMedia = datosFilt.loc[fbSobreMedia]
ausentesfbSobreMedia = ausentesfbSobreMedia.set_index("Device Type")
ausentesfbSobreMedia = ausentesfbSobreMedia.isna().groupby("Device Type").sum()
ausentesfbSobreMedia.rename(index={'FitnessBand': 'FitnessBands sobre precio medio'}, inplace=True)

ausentesPorPrecio = ausentesswBajoMedia.append(ausentesswSobreMedia).append(ausentesfbBajoMedia).append(ausentesfbSobreMedia)
ausentesPorPrecio.index.names = ['Ausentes agrupados por precio de venta']

ausentesPorPrecio

Igual que sucedió con los datos de FitnessBands con precio superior a la media, tampoco hay valores missing en la misma categoría:

In [None]:
ausentesfbSobreMedia = datosFilt.loc[fbSobreMedia].count()
ausentesfbSobreMedia

In [None]:
# Por marca
print("Número de ausencias por marca:")

datosMarca = datos[["Brand Name", "Selling Price", "Original Price", "Rating (Out of 5)", "Average Battery Life (in days)", "Reviews"]]
ausentesMarca = datosMarca.set_index("Brand Name")
ausentesMarca = ausentesMarca.isna().groupby("Brand Name").sum()
ausentesMarca


* Mediana

In [None]:
# Por tipo de dispositivo

medianaPorTipo = datosFilt.groupby("Device Type").median()
medianaPorTipo

In [None]:
# Por precio de venta
print("Medianas por precio de venta:")

medianaswBajoMedia = datosFilt.loc[swBajoMedia].groupby("Device Type").median()
medianaswBajoMedia.rename(index={'Smartwatch': 'Smartwatches bajo precio medio'}, inplace=True)

medianaswSobreMedia = datosFilt.loc[swSobreMedia].groupby("Device Type").median()
medianaswSobreMedia.rename(index={'Smartwatch': 'Smartwatches sobre precio medio'}, inplace=True)

medianafbBajoMedia = datosFilt.loc[fbBajoMedia].groupby("Device Type").median()
medianafbBajoMedia.rename(index={'FitnessBand': 'FitnessBands bajo precio medio'}, inplace=True)

medianafbSobreMedia = datosFilt.loc[fbSobreMedia].groupby("Device Type").median()
medianafbSobreMedia.rename(index={'FitnessBand': 'FitnessBands sobre precio medio'}, inplace=True)

medianaPorPrecio = medianaswBajoMedia.append(medianaswSobreMedia).append(medianafbBajoMedia).append(medianafbSobreMedia)
medianaPorPrecio.index.names = ['Grupos por precio de venta']

medianaPorPrecio

In [None]:
# Por marca
print("Medianas por marca:")

datosMarca = datos[["Brand Name", "Selling Price", "Original Price", "Rating (Out of 5)", "Average Battery Life (in days)", "Reviews"]].groupby("Brand Name").median()
datosMarca

* Varianza (calcularemos la desviación estándar, que es más útil. Calcular la varianza sería lo mismo cambiando "std" por "var")

In [None]:
# Por tipo de dispositivo

stdPorTipo = round(datosFilt.groupby("Device Type").std(), 3) # TODO preguntar si se quiere varianza o std
stdPorTipo

In [None]:
# Por precio de venta
print("Desviación estándar por precio de venta:")

stdswBajoMedia = round(datosFilt.loc[swBajoMedia].groupby("Device Type").std(), 3)
stdswBajoMedia.rename(index={'Smartwatch': 'Smartwatches bajo precio medio'}, inplace=True)

stdswSobreMedia = round(datosFilt.loc[swSobreMedia].groupby("Device Type").std(), 3)
stdswSobreMedia.rename(index={'Smartwatch': 'Smartwatches sobre precio medio'}, inplace=True)

stdfbBajoMedia = round(datosFilt.loc[fbBajoMedia].groupby("Device Type").std(), 3)
stdfbBajoMedia.rename(index={'FitnessBand': 'FitnessBands bajo precio medio'}, inplace=True)

stdfbSobreMedia = round(datosFilt.loc[fbSobreMedia].groupby("Device Type").std(), 3)
stdfbSobreMedia.rename(index={'FitnessBand': 'FitnessBands sobre precio medio'}, inplace=True)

stdPorPrecio = stdswBajoMedia.append(stdswSobreMedia).append(stdfbBajoMedia).append(stdfbSobreMedia)
stdPorPrecio.index.names = ['Grupos por precio de venta']

stdPorPrecio

In [None]:
# Por marca
print("Desviaciones estándar por marca:")

datosMarca = round(datos[["Brand Name", "Selling Price", "Original Price", "Rating (Out of 5)", "Average Battery Life (in days)", "Reviews"]].groupby("Brand Name").std(), 3)
datosMarca

Comprobamos que las marcas Infinix y LAVA no tienen varianza asignada. Veamos si puede deberse a que no se puede calcular:

In [None]:
datos.loc[(datos["Brand Name"]=="Infinix") | (datos["Brand Name"]=="LAVA")]

Efectivamente, estas marcas solo tienen un dispositivo.

* Valores máximo y mínimo

In [None]:
# Por tipo de dispositivo
print("Mínimo por tipo de dispositivo:")
minPorTipo = datosFilt.groupby("Device Type").min() # TODO preguntar si se quiere varianza o std
minPorTipo

In [None]:
print("Máximo por tipo de dispositivo:")
minPorTipo = datosFilt.groupby("Device Type").max() # TODO preguntar si se quiere varianza o std
minPorTipo

In [None]:
# Por precio de venta
print("Mínimos por precio de venta:")

minswBajoMedia = round(datosFilt.loc[swBajoMedia].groupby("Device Type").min(), 3)
minswBajoMedia.rename(index={'Smartwatch': 'Smartwatches bajo precio medio'}, inplace=True)

minswSobreMedia = round(datosFilt.loc[swSobreMedia].groupby("Device Type").min(), 3)
minswSobreMedia.rename(index={'Smartwatch': 'Smartwatches sobre precio medio'}, inplace=True)

minfbBajoMedia = round(datosFilt.loc[fbBajoMedia].groupby("Device Type").min(), 3)
minfbBajoMedia.rename(index={'FitnessBand': 'FitnessBands bajo precio medio'}, inplace=True)

minfbSobreMedia = round(datosFilt.loc[fbSobreMedia].groupby("Device Type").min(), 3)
minfbSobreMedia.rename(index={'FitnessBand': 'FitnessBands sobre precio medio'}, inplace=True)

minPorPrecio = minswBajoMedia.append(minswSobreMedia).append(minfbBajoMedia).append(minfbSobreMedia)
minPorPrecio.index.names = ['Grupos por precio de venta']

minPorPrecio

In [None]:
print("Máximos por precio de venta:")

maxswBajoMedia = round(datosFilt.loc[swBajoMedia].groupby("Device Type").max(), 3)
maxswBajoMedia.rename(index={'Smartwatch': 'Smartwatches bajo precio medio'}, inplace=True)

maxswSobreMedia = round(datosFilt.loc[swSobreMedia].groupby("Device Type").max(), 3)
maxswSobreMedia.rename(index={'Smartwatch': 'Smartwatches sobre precio medio'}, inplace=True)

maxfbBajoMedia = round(datosFilt.loc[fbBajoMedia].groupby("Device Type").max(), 3)
maxfbBajoMedia.rename(index={'FitnessBand': 'FitnessBands bajo precio medio'}, inplace=True)

maxfbSobreMedia = round(datosFilt.loc[fbSobreMedia].groupby("Device Type").max(), 3)
maxfbSobreMedia.rename(index={'FitnessBand': 'FitnessBands sobre precio medio'}, inplace=True)

maxPorPrecio = maxswBajoMedia.append(maxswSobreMedia).append(maxfbBajoMedia).append(maxfbSobreMedia)
maxPorPrecio.index.names = ['Grupos por precio de venta']

maxPorPrecio

TODO: Conclusiones

## 3. Selecciona los dispositivos en los que la ratio de la duración de la batería con respecto al precio sea superior a la media de ratio de duración, que también debe calcularse. Comenta los resultados obtenidos.

In [None]:
ratio_duracion_precio = list(datos["Average Battery Life (in days)"]*1000/datos["Original Price"])

datos.insert(10,"Ratio", ratio_duracion_precio,allow_duplicates=True)
datos.head()

In [None]:
mediaRatio = datos["Ratio"].mean()
datosSobreRatio = datos.loc[datos["Ratio"]>mediaRatio]

In [None]:
datosSobreRatio.groupby("Device Type").count()["Model Name"]

En proporción, un mayor porcentaje de FitnessBand tienen rendimiento de batería por dólar superior a la media. #TODO: Desarrollar

## 4. Ordena los dispositivos en base a la ratio calculada (de mayor a menor). ¿En qué dispositivos hay una mayor relación duración / precio? ¿Cuál es la marca que más relaciona el precio de venta con la duración de la batería?

In [None]:
datosOrdenPorRatio = datos[["Brand Name", "Device Type", "Model Name", "Ratio"]].sort_values(by=['Ratio'], ascending = False)
datosOrdenPorRatio.head(20)

In [None]:
datosOrdenPorRatio.groupby("Device Type").mean()

En general Las FitnessBand tienen un promedio de Ratio muy superior al de los Smartwatches.

In [None]:
datosOrdenPorRatio.groupby("Brand Name").mean().sort_values(by=['Ratio'], ascending = False)

La marca que proporciona más Ratio medio es Xiaomi, y la que menos Apple.

### 5. Obtén el total de ingresos por la venta de estos dispositivos para cada una de las marcas que aparecen en el conjunto de datos.

In [None]:
totalByBrand = datos[["Brand Name", "Selling Price"]].groupby("Brand Name").sum().sort_values(by=["Selling Price"], ascending = False).rename({"Selling Price":"Total Income"}, axis="columns")
totalByBrand #TODO Preguntar qué es mejor: eficiencia o legibilidad

La marca que más dinero gana es Apple.