In [1]:
import pandas as pd

# Ejercicio 1: Ranking de productos más vendidos

### Carga el archivo ventas_50.csv con pandas.

In [2]:
#cargar archivo
ventas = pd.read_csv('ventas_50.csv')
ventas.sort_values(by=['Producto', 'Precio'])

Unnamed: 0,Producto,Cantidad,Precio
6,Banana,11,2.67
10,Banana,20,2.69
31,Banana,15,2.7
44,Cereza,3,1.42
25,Cereza,10,2.49
38,Cereza,19,2.75
20,Cereza,15,3.34
47,Cereza,13,3.5
3,Cereza,8,4.14
13,Cereza,19,4.18


### Crea una nueva columna llamada Total que sea el resultado de Cantidad * Precio.

In [3]:
ventas['Total'] = ventas.Cantidad * ventas.Precio
ventas.head()

Unnamed: 0,Producto,Cantidad,Precio,Total
0,Granada,3,1.93,5.79
1,Manzana,6,0.67,4.02
2,Sandía,14,1.88,26.32
3,Cereza,8,4.14,33.12
4,Pera,16,4.74,75.84


### Agrupa por producto y suma el total vendido.

In [4]:
ventas.groupby(by=['Producto']).Total.sum().to_frame()

Unnamed: 0_level_0,Total
Producto,Unnamed: 1_level_1
Banana,123.67
Cereza,289.55
Fresa,126.29
Granada,84.19
Kiwi,4.28
Mandarina,20.86
Mango,49.26
Manzana,57.19
Melón,74.55
Naranja,169.88


### Ordena de mayor a menor y muestra los 5 productos más vendidos.

In [5]:
ventas.groupby(by=['Producto']).Cantidad.sum().sort_values(ascending=False).iloc[:5].to_frame()

Unnamed: 0_level_0,Cantidad
Producto,Unnamed: 1_level_1
Cereza,87
Sandía,64
Naranja,54
Banana,46
Melón,38


# Ejercicio 2 : Detectives de precios altos

## Enfoque "Naive"

### Calcula la media (mean) y la desviación estándar (std) de la columna Precio.
Se calcula las medidas de tendencia central sin tomar que cada uno pertenezcan a cada fruta o que si la medida es representativa del dataset

In [6]:
media_precio = ventas.Precio.mean()
desv_std_precio = ventas.Precio.std()
limite =  media_precio + 2 * desv_std_precio
f'El limite para que un producto sea cosiderado de  lujo: {limite:.2f}'

'El limite para que un producto sea cosiderado de  lujo: 5.20'

In [7]:
ventas[ventas.Precio > limite]

Unnamed: 0,Producto,Cantidad,Precio,Total


Como se ve ningun producto entra en esa categoría

## Enfoque Analítio

### Calcula la media (mean) y la desviación estándar (std) de la columna Precio.
Dado que un producto ha cambiado de precio a lo largo de los registros, es mejor tomar como precio por producto una medida de tendencia.\
Ahora se calcula agrupando los datos por producto.


In [8]:
#Caclular el precio promedio de un producto a lo largo del tiempo
precios_promedios = ventas.groupby(by='Producto').Precio.mean() 
precios_promedios.name = 'Promedio'
precios_promedios

Producto
Banana       2.686667
Cereza       3.117143
Fresa        3.640000
Granada      2.590000
Kiwi         1.070000
Mandarina    1.060000
Mango        3.105000
Manzana      2.380000
Melón        2.000000
Naranja      3.186000
Papaya       1.150000
Pera         4.740000
Piña         2.915000
Sandía       2.422857
Tuna         2.510000
Uva          3.195000
Name: Promedio, dtype: float64

In [9]:
#Caclular el precio mediana de un producto a lo largo del tiempo
precios_medianas = ventas.groupby(by='Producto').Precio.median()
precios_medianas.name = 'Mediana'
precios_medianas

Producto
Banana       2.690
Cereza       3.340
Fresa        3.640
Granada      2.080
Kiwi         1.070
Mandarina    1.060
Mango        3.105
Manzana      2.380
Melón        2.060
Naranja      3.360
Papaya       1.150
Pera         4.740
Piña         2.915
Sandía       1.880
Tuna         1.620
Uva          3.295
Name: Mediana, dtype: float64

In [10]:
#Caclular la desviacion estandar del precio de un producto a lo largo del tiempo
precios_std = ventas.groupby(by='Producto').Precio.std()
precios_std.name = 'Desv_Estandar'
precios_std

Producto
Banana       0.015275
Cereza       0.981542
Fresa        0.523259
Granada      1.016022
Kiwi              NaN
Mandarina    0.113137
Mango        0.332340
Manzana      2.418305
Melón        0.582323
Naranja      1.470690
Papaya            NaN
Pera              NaN
Piña         0.728320
Sandía       1.412842
Tuna         1.816618
Uva          1.371273
Name: Desv_Estandar, dtype: float64

**Se ve que hay valores significativos de desviación estándar de los precios de cada fruta**\
Para cuantificar se calcula el coeficiente de varianza: std * 100 / mediana

In [11]:
coef_var_precios = ventas.groupby(by='Producto').Precio.std() * 100/ ventas.groupby(by='Producto').Precio.median()
coef_var_precios.name = 'Coef_varianza%'
coef_var_precios

Producto
Banana         0.567853
Cereza        29.387471
Fresa         14.375248
Granada       48.847195
Kiwi                NaN
Mandarina     10.673310
Mango         10.703388
Manzana      101.609462
Melón         28.268104
Naranja       43.770545
Papaya              NaN
Pera                NaN
Piña          24.985248
Sandía        75.151195
Tuna         112.136897
Uva           41.616787
Name: Coef_varianza%, dtype: float64

**Se confirma que existe demasiada dispersión de los precios de cada fruta**\
Tomando como limite el  coeficiente de varianza : 33% para considerar al promedio como medida significativa\
Para observar mejor se colocan las medidas de tendencia central en un dataframe

In [12]:
tendencias_precios = pd.concat([precios_promedios, precios_medianas, precios_std, coef_var_precios], axis=1)
tendencias_precios

Unnamed: 0_level_0,Promedio,Mediana,Desv_Estandar,Coef_varianza%
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Banana,2.686667,2.69,0.015275,0.567853
Cereza,3.117143,3.34,0.981542,29.387471
Fresa,3.64,3.64,0.523259,14.375248
Granada,2.59,2.08,1.016022,48.847195
Kiwi,1.07,1.07,,
Mandarina,1.06,1.06,0.113137,10.67331
Mango,3.105,3.105,0.33234,10.703388
Manzana,2.38,2.38,2.418305,101.609462
Melón,2.0,2.06,0.582323,28.268104
Naranja,3.186,3.36,1.47069,43.770545


In [13]:
import numpy as np
tendencias_precios['medida_a_tomar'] = np.where(tendencias_precios['Coef_varianza%'] > 33, tendencias_precios.Mediana, tendencias_precios.Promedio)
tendencias_precios

Unnamed: 0_level_0,Promedio,Mediana,Desv_Estandar,Coef_varianza%,medida_a_tomar
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Banana,2.686667,2.69,0.015275,0.567853,2.686667
Cereza,3.117143,3.34,0.981542,29.387471,3.117143
Fresa,3.64,3.64,0.523259,14.375248,3.64
Granada,2.59,2.08,1.016022,48.847195,2.08
Kiwi,1.07,1.07,,,1.07
Mandarina,1.06,1.06,0.113137,10.67331,1.06
Mango,3.105,3.105,0.33234,10.703388,3.105
Manzana,2.38,2.38,2.418305,101.609462,2.38
Melón,2.0,2.06,0.582323,28.268104,2.0
Naranja,3.186,3.36,1.47069,43.770545,3.36


**Ya con la medida de tendencia a usar para cada Producto se hace el filtro de los Productos cuyo precio esté por encima de media + 2*std**

In [14]:
promedio_precios_normalizado = tendencias_precios.medida_a_tomar.mean()
promedio_precios_normalizado

np.float64(2.506175595238095)

In [15]:
desv_std_precios_normalizado = tendencias_precios.medida_a_tomar.std()
desv_std_precios_normalizado

np.float64(1.038677830800362)

In [16]:
limite_normalizado = promedio_precios_normalizado + 2 * desv_std_precios_normalizado
ventas[ventas.Precio > limite_normalizado]

Unnamed: 0,Producto,Cantidad,Precio,Total
4,Pera,16,4.74,75.84
8,Tuna,11,4.6,50.6
17,Uva,5,4.8,24.0
30,Sandía,11,4.71,51.81


**Hubo 4 Productos que se consideranron de lujo en algún momento**


# Ejercicio 3 : ¿Cuál es el más barato? ¿Y el más rentable?

In [17]:
# el producto con el precio unitario más bajo.
ventas [ventas.Precio == ventas.Precio.min()]

Unnamed: 0,Producto,Cantidad,Precio,Total
1,Manzana,6,0.67,4.02


In [18]:
# el producto con el mayor total vendido
ventas [ventas.Total == ventas.Total.max()]

Unnamed: 0,Producto,Cantidad,Precio,Total
40,Naranja,18,4.45,80.1


# Ejercicio 4: Juego de matriz de frutas

In [19]:
frutas_unicas = ventas.Producto.unique()
frutas_unicas

array(['Granada', 'Manzana', 'Sandía', 'Cereza', 'Pera', 'Uva', 'Banana',
       'Tuna', 'Naranja', 'Mandarina', 'Papaya', 'Melón', 'Fresa', 'Kiwi',
       'Mango', 'Piña'], dtype=object)

In [20]:
def matriz_frutas(frutas):
    repetidas = True
    intentos = 0
    while(repetidas):
        intentos += 1
        lista_9 = np.random.choice(frutas_unicas, 9)
        matriz = np.reshape(lista_9, shape=(3,3))
        _, cuentas = np.unique(matriz, return_counts=True)
        checar = cuentas == 1
        if checar.all():
            print(f'{intentos}ª intento:\n  {matriz}\n Fruta Matriz Ganadora!')
            return
        print(f'{intentos}ª intento:\n  {matriz}\n Frutas repetidas, intentando otra vez')
    
    

In [21]:
matriz_frutas(frutas_unicas)

1ª intento:
  [['Melón' 'Mandarina' 'Piña']
 ['Fresa' 'Uva' 'Cereza']
 ['Mandarina' 'Piña' 'Melón']]
 Frutas repetidas, intentando otra vez
2ª intento:
  [['Mandarina' 'Fresa' 'Mandarina']
 ['Papaya' 'Cereza' 'Manzana']
 ['Sandía' 'Banana' 'Kiwi']]
 Frutas repetidas, intentando otra vez
3ª intento:
  [['Naranja' 'Fresa' 'Kiwi']
 ['Granada' 'Piña' 'Tuna']
 ['Naranja' 'Naranja' 'Mandarina']]
 Frutas repetidas, intentando otra vez
4ª intento:
  [['Mango' 'Sandía' 'Piña']
 ['Cereza' 'Papaya' 'Piña']
 ['Manzana' 'Fresa' 'Tuna']]
 Frutas repetidas, intentando otra vez
5ª intento:
  [['Sandía' 'Papaya' 'Fresa']
 ['Papaya' 'Uva' 'Mango']
 ['Papaya' 'Naranja' 'Granada']]
 Frutas repetidas, intentando otra vez
6ª intento:
  [['Melón' 'Mandarina' 'Sandía']
 ['Mandarina' 'Kiwi' 'Tuna']
 ['Pera' 'Naranja' 'Tuna']]
 Frutas repetidas, intentando otra vez
7ª intento:
  [['Melón' 'Cereza' 'Mandarina']
 ['Banana' 'Manzana' 'Sandía']
 ['Mandarina' 'Mango' 'Piña']]
 Frutas repetidas, intentando otra vez
8