## Ejemplo 3: Funciones vectorizadas y agregaciones con `DataFrames`

### 1. Objetivos:
    - Aprender cómo usar Funciones vectorizadas y agregaciones aplicadas a `DataFrames` completos
 
### 2. Desarrollo:

In [1]:
import pandas as pd

Tenemos los siguientes datos y su correspondiente DataFrame:

In [2]:
datos = {
    'precio': [34, 54, 223, 78, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 10, 2, 5, 45, 2],
    'productos_vendidos': [3, 45, 23, 76, 24, 6, 2]
}

df = pd.DataFrame(datos,
    index=["Pokemaster", "Cegatron", "Pikame Mucho",
           "Lazarillo de Tormes", "Stevie Wonder",
           "Needle", "El AyMeDuele"])

In [3]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pikame Mucho,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


Si aplicamos operaciones aritméticas a nuestro `DataFrame` la operación se aplicará elemento por elemento a nuestro `DataFrame` completo, por ejemplo multiplica por 100 todos los valores del DataFrame:

In [5]:
df * 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,3400,300,300
Cegatron,5400,600,4500
Pikame Mucho,22300,1000,2300
Lazarillo de Tormes,7800,200,7600
Stevie Wonder,5600,500,2400
Needle,1200,4500,600
El AyMeDuele,3400,200,200


Ahora suma 100 y divide por 2:

In [6]:
df * 100 /2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1700.0,150.0,150.0
Cegatron,2700.0,300.0,2250.0
Pikame Mucho,11150.0,500.0,1150.0
Lazarillo de Tormes,3900.0,100.0,3800.0
Stevie Wonder,2800.0,250.0,1200.0
Needle,600.0,2250.0,300.0
El AyMeDuele,1700.0,100.0,100.0


Eleva al cuadrado todos los valores del DataFrame

In [7]:
df ** 2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1156,9,9
Cegatron,2916,36,2025
Pikame Mucho,49729,100,529
Lazarillo de Tormes,6084,4,5776
Stevie Wonder,3136,25,576
Needle,144,2025,36
El AyMeDuele,1156,4,4


También podemos aplicar funciones vectorizadas con el mismo resultado:

In [8]:
import numpy as np

Eleva al cuadrado usando la función vectorizadas de NumPy `np.power(-dataframe-,-potencia-)`:

In [10]:
np.power(df,2)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1156,9,9
Cegatron,2916,36,2025
Pikame Mucho,49729,100,529
Lazarillo de Tormes,6084,4,5776
Stevie Wonder,3136,25,576
Needle,144,2025,36
El AyMeDuele,1156,4,4


O se puede obtener la raíz cuadrada usando la función vectorizadas de NumPy `np.sqrt(-dataframe-)`:

In [11]:
np.sqrt(df)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,5.830952,1.732051,1.732051
Cegatron,7.348469,2.44949,6.708204
Pikame Mucho,14.933185,3.162278,4.795832
Lazarillo de Tormes,8.831761,1.414214,8.717798
Stevie Wonder,7.483315,2.236068,4.898979
Needle,3.464102,6.708204,2.44949
El AyMeDuele,5.830952,1.414214,1.414214


También se puede aplicar la siguiente fórmula a todos los elementos `sen(x) + 100`:

In [15]:
np.sin(df)+ 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,100.529083,100.14112,100.14112
Cegatron,99.441211,99.720585,100.850904
Pikame Mucho,100.053053,99.455979,99.15378
Lazarillo de Tormes,100.513978,100.909297,100.566108
Stevie Wonder,99.478449,99.041076,99.094422
Needle,99.463427,100.850904,99.720585
El AyMeDuele,100.529083,100.909297,100.909297


Si usamos agregaciones, las agregaciones se hacen de manera automática por columna, por ejemplo `dataframe.sum()`:

In [14]:
df.sum()

precio                491
cantidad_en_stock      73
productos_vendidos    179
dtype: int64

Ahora guardemos el resultado en la variable `suma_columnas`:

In [16]:
suma_columnas = df.sum()

Y si aplicamos nuevamente la suma al resultado anterior que es una Serie de Pandas:

In [18]:
suma_columnas = suma_columnas.sum()
suma_columnas

743

O se podría aplicar de forma secuencial `dataframe.sum().sum()`:

In [19]:
df.sum().sum()

743

Aunque podemos cambiar ese comportamiento usando `dataframe.sum(axis=1)` para hacerlo por filas:

In [22]:
df.sum(axis=1)

Pokemaster              40
Cegatron               105
Pikame Mucho           256
Lazarillo de Tormes    156
Stevie Wonder           85
Needle                  63
El AyMeDuele            38
dtype: int64

Todas las demás agregaciones funcionan también. El default (o `axis=0`) es hacerlo por columna, pero todas pueden funcionar por fila usando `axis=1`, por ejemplo se puede obtener el mínimo de cada columna usando:

    dataframe.min(axis=0)
    
o por filas haciendo:

    dataframe.min(axis=1)


In [None]:
...

In [None]:
...

---
---

## Reto 3: Agregaciones con `DataFrames`

### 1. Objetivos:
    - Aplicar agregaciones a `DataFrames` completos para obtener un análisis estadístico
 
### 2. Desarrollo:

#### a) Análisis estadístico con agregaciones

Eres el Analista de Datos de EyePoker Inc. Te han pedido que realices ciertas agregaciones con un conjunto de datos para poder realizar un análisis estadístico básico de los datos que hay dentro.

El conjunto de datos es el siguiente:

In [23]:
import pandas as pd

In [24]:
datos = {
    'producto': ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"],
    'precio': [12000, 5500, 2350, 4800, 8900, 6640, 1280, 1040, 23100, 16700, 15000, 13400, 19600],
    'cantidad_en_stock': [34, 54, 36, 78, 56, 12, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, 59, 9, 15, 51, 103, 72, 39, 23, 10, 62, 59]
}

df = pd.DataFrame(datos)

In [25]:
df

Unnamed: 0,producto,precio,cantidad_en_stock,cantidad_vendidos
0,Pokemaster,12000,34,120
1,Cegatron,5500,54,34
2,Pikame Mucho,2350,36,59
3,Lazarillo de Tormes,4800,78,9
4,Stevie Wonder,8900,56,15
5,Needle,6640,12,51
6,El AyMeDuele,1280,34,103
7,El Desretinador,1040,4,72
8,Sacamel Ojocles,23100,0,39
9,Desojado,16700,18,23


Tu tarea es muy simple. Usando métodos de agregación, asigna las variables de la siguiente celda con los resultados de agregar nuestro `DataFrame` **por columna** usando cada una de las medidas estadísticas. Algunas de los métodos ya los conoces. Los que no, [puedes encontrarlos en este link](https://www.interactivechaos.com/manual/tutorial-de-pandas/dataframes-metodos-de-agregacion-y-estadistica). Lo que queremos obtener es una `Serie` con los nombres de las columnas como índice y las agregaciones por columna como valores. Una de las columnas que tenemos en el `DataFrame` no se presta para realizar análisis numéricos, elimínala antes de realizar tu análisis y asigna el resultado a la variable `df_droppped`.

**Sólo** utiliza funciones de agregación para tu análisis. En este caso no requieres hacer ninguna operación aritmética.

In [41]:
# Eliminando columna
df_dropped = df.drop(columns=["producto"],axis=0)

df_dropped

Unnamed: 0,precio,cantidad_en_stock,cantidad_vendidos
0,12000,34,120
1,5500,54,34
2,2350,36,59
3,4800,78,9
4,8900,56,15
5,6640,12,51
6,1280,34,103
7,1040,4,72
8,23100,0,39
9,16700,18,23


In [45]:
# El valor mínimo de cada columna
mins = df_dropped.min()

In [47]:
# El valor máximo de cada columna
...

maxs = df_dropped.max()

In [48]:
# El promedio por columna
...

media = df_dropped.mean()

In [49]:
# La mediana por columna (El valor que se encuentra a la mitad de la secuencia ordenada de valores)
...

mediana = df_dropped.median()

In [50]:
# La desviación estándar por columna
...

stds = df_dropped.std()

Y la celda de verificación ...

In [51]:
def resumen_estadistico(df, df_dropped, mins, maxs, means, medians, stds):
    
    import pandas as pd
    f = lambda x: "".join([chr(int(x[i:i+2], 16)) for i in range(0, len(x), 2)])
    datos_1 = ["64662E64726F7028636F6C756D6E733D5B2770726F647563746F275D29", "64665F64726F707065642E6D696E28617869733D3029", "64665F64726F707065642E6D617828617869733D3029", "64665F64726F707065642E6D65616E28617869733D3029", "64665F64726F707065642E6D656469616E28617869733D3029", "64665F64726F707065642E73746428617869733D3029"]
    error = False
    
    df_eva = eval(f(datos_1[0]))
    if not df_eva.equals(df_dropped):
        print(f'La columna no-numérica no fue eliminada correctamente... Por favor inténtalo de nuevo')
        error = True
        
    df_eva = eval(f(datos_1[1]))
    if not df_eva.equals(mins):
        print(f'El valor mínimo no fue computado adecuadamente... Por favor inténtalo de nuevo')
        error = True
        
    df_eva = eval(f(datos_1[2]))
    if not df_eva.equals(maxs):
        print(f'El valor máximo no fue computado adecuadamente... Por favor inténtalo de nuevo')
        error = True
        
    df_eva = eval(f(datos_1[3]))
    if not df_eva.equals(means):
        print(f'El promedio no fue computado adecuadamente... Por favor inténtalo de nuevo')
        error = True
    
    df_eva = eval(f(datos_1[4]))
    if not df_eva.equals(medians):
        print(f'La mediana no fue computada adecuadamente... Por favor inténtalo de nuevo')
        error = True
        
    df_eva = eval(f(datos_1[5]))
    if not df_eva.equals(stds):
        print(f'La desviación estándar no fue computada adecuadamente... Por favor inténtalo de nuevo')
        error = True
    
    if not error:
        rango = maxs - mins
        mins.name = 'Min'
        maxs.name = 'Max'
        rango.name = 'Rango'
        means.name = 'Promedio'
        medians.name = 'Mediana'
        stds.name = 'Std'
        
        resumen = pd.concat([mins, maxs, rango, means, medians, stds], axis=1)
        print(resumen)
        
resumen_estadistico(df, df_dropped, mins, maxs, media, mediana, stds)

                    Min    Max  Rango      Promedio  Mediana          Std
precio             1040  23100  22060  10023.846154   8900.0  7210.205196
cantidad_en_stock     0     78     78     30.692308     34.0    23.382275
cantidad_vendidos     9    120    111     50.461538     51.0    34.289492
