## Reto 3: Agregaciones con `DataFrames`

### 1. Objetivos:
    - Aplicar agregaciones a `DataFrames` completos para obtener un análisis estadístico
 
---
    
### 2. Desarrollo:

#### a) Análisis estadístico con agregaciones

Eres el Analista de Datos de EyePoker Inc. Te han pedido que realices ciertas agregaciones con un conjunto de datos para poder realizar un análisis estadístico básico de los datos que hay dentro.

El conjunto de datos es el siguiente:

In [2]:
import numpy as np
import pandas as pd

In [3]:
datos = {
    'producto': ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"],
    'precio': [12000, 5500, 2350, 4800, 8900, 6640, 1280, 1040, 23100, 16700, 15000, 13400, 19600],
    'cantidad_en_stock': [34, 54, 36, 78, 56, 12, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, 59, 9, 15, 51, 103, 72, 39, 23, 10, 62, 59]
}

df = pd.DataFrame(datos)

In [4]:
df

Unnamed: 0,producto,precio,cantidad_en_stock,cantidad_vendidos
0,Pokemaster,12000,34,120
1,Cegatron,5500,54,34
2,Pikame Mucho,2350,36,59
3,Lazarillo de Tormes,4800,78,9
4,Stevie Wonder,8900,56,15
5,Needle,6640,12,51
6,El AyMeDuele,1280,34,103
7,El Desretinador,1040,4,72
8,Sacamel Ojocles,23100,0,39
9,Desojado,16700,18,23


Tu tarea es muy simple. Usando métodos de agregación, asigna las variables de la siguiente celda con los resultados de agregar nuestro `DataFrame` **por columna** usando cada una de las medidas estadísticas. Algunas de los métodos ya los conoces. Los que no, [puedes encontrarlos en este link](https://www.interactivechaos.com/manual/tutorial-de-pandas/dataframes-metodos-de-agregacion-y-estadistica). Lo que queremos obtener es una `Serie` con los nombres de las columnas como índice y las agregaciones por columna como valores. Una de las columnas que tenemos en el `DataFrame` no se presta para realizar análisis numéricos, elimínala antes de realizar tu análisis y asigna el resultado a la variable `df_droppped`.

**Sólo** utiliza funciones de agregación para tu análisis. En este caso no requieres hacer ninguna operación aritmética.

In [5]:
df_dropped = df.drop(columns=['producto'])
df_dropped

Unnamed: 0,precio,cantidad_en_stock,cantidad_vendidos
0,12000,34,120
1,5500,54,34
2,2350,36,59
3,4800,78,9
4,8900,56,15
5,6640,12,51
6,1280,34,103
7,1040,4,72
8,23100,0,39
9,16700,18,23


In [8]:
# El valor mínimo de cada columna
mins = df_dropped.min(axis=0)
mins

precio               1040
cantidad_en_stock       0
cantidad_vendidos       9
dtype: int64

In [10]:
# El valor máximo de cada columna
maxs = df_dropped.max()
maxs

precio               23100
cantidad_en_stock       78
cantidad_vendidos      120
dtype: int64

In [11]:
# El promedio por columna
means = df_dropped.mean()
means

precio               10023.846154
cantidad_en_stock       30.692308
cantidad_vendidos       50.461538
dtype: float64

In [21]:
# La mediana por columna (El valor que se encuentra a la mitad de la secuencia ordenada de valores)
medians = df_dropped.median()
medians

precio               8900.0
cantidad_en_stock      34.0
cantidad_vendidos      51.0
dtype: float64

In [22]:
# La desviación estándar por columna
stds = df_dropped.std()

Pídele a tu experta la función de verificación `resumen_estadistico` (encontrada en el archivo `helpers.py` de la carpeta donde se encuentra este Reto), pégala debajo y corre la celda para verificar tu resultado:

In [23]:

def resumen_estadistico(df, df_dropped, mins, maxs, means, medians, stds):
    
    import pandas as pd
    
    error = False
    
    df_dropped_2 = df.drop(columns=['producto'])
    if not df_dropped_2.equals(df_dropped):
        print(f'La columna no-numérica no fue eliminada correctamente... Por favor inténtalo de nuevo')
        error = True
        
    if not df_dropped.min(axis=0).equals(mins):
        print(f'El valor mínimo no fue computado adecuadamente... Por favor inténtalo de nuevo')
        error = True
        
    if not df_dropped.max(axis=0).equals(maxs):
        print(f'El valor máximo no fue computado adecuadamente... Por favor inténtalo de nuevo')
        error = True
        
    if not df_dropped.mean(axis=0).equals(means):
        print(f'El promedio no fue computado adecuadamente... Por favor inténtalo de nuevo')
        error = True
    
    if not df_dropped.median(axis=0).equals(medians):
        print(f'La mediana no fue computada adecuadamente... Por favor inténtalo de nuevo')
        error = True
        
    if not df_dropped.std(axis=0).equals(stds):
        print(f'La desviación estándar no fue computada adecuadamente... Por favor inténtalo de nuevo')
        error = True
    
    if not error:
        rango = maxs - mins
        mins.name = 'Min'
        maxs.name = 'Max'
        rango.name = 'Rango'
        means.name = 'Promedio'
        medians.name = 'Mediana'
        stds.name = 'Std'
        
        resumen = pd.concat([mins, maxs, rango, means, medians, stds], axis=1)
        print(resumen)

resumen_estadistico(df, df_dropped, mins, maxs, means, medians, stds)

                    Min    Max  Rango      Promedio  Mediana          Std
precio             1040  23100  22060  10023.846154   8900.0  7210.205196
cantidad_en_stock     0     78     78     30.692308     34.0    23.382275
cantidad_vendidos     9    120    111     50.461538     51.0    34.289492


<details><summary>Solución</summary>

```python
df_dropped = df.drop(columns=['producto'])

# El valor mínimo de cada columna
mins = df_dropped.min(axis=0)

# El valor máximo de cada columna
maxs = df_dropped.max(axis=0)

# El promedio por columna
means = df_dropped.mean(axis=0)

# La mediana por columna (El valor que se encuentra a la mitad de la secuencia ordenada de valores)
medians = df_dropped.median(axis=0)

# La desviación estándar por columna
stds = df_dropped.std(axis=0)
```
    
</details>