# Sprint 1: Matemáticas para el tratamiento de datos

*Adrián Robles Arques*

El objetivo de este sprint es comprender la definición y el funcionamiento de las matrices y aplicarlas a un problema real.

In [1]:
import numpy as np

Comenzamos imporntando la librería necesaria

In [4]:
#Introducimos los datos
Rafa = [6,5,3,1]
Pedro = [3,6,2,2]
Maria = [3,4,3,1]

ManoloBakes = [1.5, 2.0, 5.0, 16.0]
Starbucks = [1.0, 2.5, 4.5, 17.0]

A continuación introducimos los datos del problema

In [5]:
#Creamos las matrices
Compra = np.array([Rafa, Pedro, Maria], dtype= 'f').transpose()

Precios = np.array([ManoloBakes, Starbucks], dtype= 'f')

Generamos las matrices, trasponiendo la primera para asegurarnos de que tendrá la dimensión adecuada para realizar la siguiente multiplicación.

In [56]:
#Multiplicamos matrices
Gasto = np.dot(Precios, Compra).transpose()

Gasto_Rafa = Gasto[0]
Gasto_Pedro = Gasto[1]
Gasto_Maria = Gasto[2]

Ya tenemos el gasto de los tres en las dos tiendas, ahora podemos dividir por tienda y ver los resultados individualmente

In [10]:
Gasto_Rafa_Manolo = Gasto_Rafa[0]
Gasto_Rafa_Starbucks = Gasto_Rafa[1]

Gasto_Pedro_Manolo = Gasto_Pedro[0]
Gasto_Pedro_Starbucks = Gasto_Pedro[1]

Gasto_Maria_Manolo = Gasto_Maria[0]
Gasto_Maria_Starbucks = Gasto_Maria[1]

print('Gasto Rafa en ManoloBakes: ', Gasto_Rafa_Manolo)
print('Gasto de Rafa en Starbucks: ',Gasto_Rafa_Starbucks)
print('Gasto de Pedro en ManoloBakes: ',Gasto_Pedro_Manolo)
print('Gasto de Pedro en Starbucks: ', Gasto_Pedro_Starbucks)
print('Gasto de Maria en ManoloBakes: ', Gasto_Maria_Manolo)
print('Gasto de Maria en Starbucks: ', Gasto_Maria_Starbucks)

Gasto Rafa en ManoloBakes:  50.0
Gasto de Rafa en Starbucks:  49.0
Gasto de Pedro en ManoloBakes:  58.5
Gasto de Pedro en Starbucks:  61.0
Gasto de Maria en ManoloBakes:  43.5
Gasto de Maria en Starbucks:  43.5


Como vemos, a Rafa le beneficia comprar en Starbucks, a Pedro en ManoloBakes, mientras que a Maria le es indistinto en cuál comprar.

In [12]:
#Alternativa usando diccionarios
Compradores = {'Rafa' : [6,5,3,1], 'Pedro' : [3,6,2,2], 'Maria' : [3,4,3,1]}
Tiendas = { 'Starbucks' : [1.0, 2.5, 4.5, 17.0],
           'ManoloBakes' : [1.5, 2.0, 5.0, 16.0] }

Otra alternativa es emplear diccionarios para mantener el registro de los gastos y nombres de cada uno.

In [55]:
Gasto_dict = {}
for comprador in Compradores:
    for tienda in Tiendas:
        Gasto_dict[comprador+tienda] = np.dot(Compradores[comprador],Tiendas[tienda])

print(Gasto_dict)

{'RafaStarbucks': 49.0, 'RafaManoloBakes': 50.0, 'PedroStarbucks': 61.0, 'PedroManoloBakes': 58.5, 'MariaStarbucks': 43.5, 'MariaManoloBakes': 43.5}


Generamos un nuevo diccionario con el gasto de cada uno en cada tienda de manera iterativa. Vemos que tenemos el mismo resultado, pero ahora es más sencillo acceder a él

In [34]:
import pandas as pd

Otra alternativa es emplear un Dataframe, para ello vamos a importar la librería Pandas.

In [45]:
productos = ['Palmeras','Donuts', 'Hojaldres', 'Tartas']

df_compradores = pd.DataFrame(Compradores, dtype= np.float32,
                              index= productos)
df_tiendas = pd.DataFrame(Tiendas, dtype= np.float32,
                          index= productos)


De esta forma generamos los Dataframes con la información de compradores y precios.

In [46]:
df_compradores.head()

Unnamed: 0,Rafa,Pedro,Maria
Palmeras,6.0,3.0,3.0
Donuts,5.0,6.0,4.0
Hojaldres,3.0,2.0,3.0
Tartas,1.0,2.0,1.0


In [47]:
df_tiendas.head()

Unnamed: 0,Starbucks,ManoloBakes
Palmeras,1.0,1.5
Donuts,2.5,2.0
Hojaldres,4.5,5.0
Tartas,17.0,16.0


In [53]:
personas = ['Rafa', 'Pedro', 'Maria']
tiendas = ['Starbucks', 'ManoloBakes']

gasto = []
for persona in personas:
    comprador = []
    for tienda in tiendas:
        coste = 0
        for producto in productos:
            coste += df_compradores[persona][producto] * df_tiendas[tienda][producto]
        comprador.append(coste)
    gasto.append(comprador)

df_gasto = pd.DataFrame(gasto, index= personas, columns= tiendas)

df_gasto.head()

Unnamed: 0,Starbucks,ManoloBakes
Rafa,49.0,50.0
Pedro,61.0,58.5
Maria,43.5,43.5


Con el conjunto de bucles for anidados realizamos la operación repasando ambos Dataframe y creamos uno nuevo con el total de gastos. Es el mismo proceso de multiplicación de matrices. Que podría combinarse para generar esta información de manera más sencilla. De esta forma podemos tomar la información obtenida con la multiplicación de matrices en numpy y generar el dataframe para una exploración más cómoda. Este sería el método más óptimo y a la vez facilmente legible.

In [57]:
df_gasto_la = pd.DataFrame(Gasto.transpose(), index= tiendas, columns= personas)
df_gasto_la.head()

Unnamed: 0,Rafa,Pedro,Maria
Starbucks,50.0,58.5,43.5
ManoloBakes,49.0,61.0,43.5
