# TP6

### `Resolver usando Pandas`

Resolver los ejercicios del TP3 utilizando la librería Pandas.

### Ejercicio 1: Cargar Datos de ventas.

El archivo datos.dat contiene el registro de las ventas realizadas.

Tiene un formato de ancho fijo:
- `fecha`:    10 lugares
- `producto`: 30 lugares
- `precio`:   10 lugares
- `cantidad`:  5 lugares

Hacer una funcion que cargue los datos en un DataFrame de Pandas.

In [None]:
import pandas as pd

def cargar_datos():
    
    lineas = open("datos.dat", "r").readlines()
 
    datos = []

    for linea in lineas:
       
         fecha = linea[0:10].strip()
         producto = linea[10:40].strip()
         precio = float(linea[40:50].strip()) 
         cantidad = int(linea[50:55].strip())
       
         registro = {
                     "fecha":fecha,
                     "producto":producto,
                     "precio":precio,
                     "cantidad":cantidad
                     }   

         datos.append(registro)

    data_frame = pd.DataFrame(datos)
    return data_frame

datos = cargar_datos()

datos 

### Ejercicio 2: Calcular el total de ventas.
Hacer una función que sume los importes vendidos (precio * cantidad) y las cantidades.


In [None]:
import pandas as pd

def calcular_totales(datos):
    
    df = pd.read_fwf(datos, colspecs =[(0, 10), (10, 40), (40, 50), (50, 55)],  names=['fecha', 'producto', 'precio', 'cantidad'])

    df['importe'] = pd.to_numeric(df['precio'], errors = 'coerce') * pd.to_numeric(df['cantidad'], errors = 'coerce')

    importe_total = df['importe'].sum()
    cantidad_total = df['cantidad'].sum()
    
    return importe_total, cantidad_total

datos= 'datos.dat'
importe, cantidad = calcular_totales(datos)

print(f"Las ventas fueron de ${importe:.2f} en {cantidad} unidades")

### Ejercicio 3: Listar las unidades vendidas.
Listar cuántas unidades se vendieron en total para cada producto


In [None]:
import pandas as pd

def unidades_vendidas(datos):
    df = pd.read_fwf(datos, colspecs =[(0, 10), (10, 40), (40, 50), (50, 55)],  names=['fecha', 'producto', 'precio', 'cantidad'])
    df['cantidad'] = pd.to_numeric(df['cantidad'], errors = 'coerce')
    
    return df[['producto', 'cantidad']].groupby('producto').sum()
unidades_vendidas(datos)

###  Ejercicio 4: Listar el precio promedio por producto.
Hacer un listado del precio promedio por producto.


In [None]:
import pandas as pd

def precio_promedio(datos):
    
    df = pd.read_fwf(datos, colspecs =[(0, 10), (10, 40), (40, 50), (50, 55)],  names=['fecha', 'producto', 'precio', 'cantidad'])
    df['precio'] = pd.to_numeric(df['precio'], errors = 'coerce')
    
    return df.groupby('producto')['precio'].mean().reset_index()
    
precio_promedio(datos)

### Ejercicio 5: Ranking de productos
Realizar un listado de los 3 productos más vendidos ordenados por la cantidad de unidades vendidas (ordenadas de mayor a menor)


In [None]:
import pandas as pd

def ranking_productos(datos, top=3):
   
    df = pd.read_fwf(datos, colspecs =[(0, 10), (10, 40), (40, 50), (50, 55)],  names=['fecha', 'producto', 'precio', 'cantidad'])
    df['cantidad'] = pd.to_numeric(df['cantidad'], errors = 'coerce')
    
    ranking = df.groupby('producto')['cantidad'].sum().reset_index()
    
    ranking = ranking.sort_values('cantidad', ascending=False).head(top)
    
    return ranking
    
ranking_productos(datos)

### Ejercicio 6: Listar las ventas por mes
Realizar un listado del total de unidades vendidas por producto separado por mes.


In [None]:
import pandas as pd

def ventas_por_mes(datos):
        
    df = pd.read_fwf(datos, colspecs =[(0, 10), (10, 40), (40, 50), (50, 55)],  names=['fecha', 'producto', 'precio', 'cantidad'])
    df['fecha'] = pd.to_datetime(df['fecha'], format='%Y-%m-%d', errors ='coerce')
    df['cantidad']  = pd.to_numeric(df['cantidad'], errors = 'coerce')
        
    df['mes'] = df['fecha'].dt.to_period('M')
        
    return df.groupby(['producto', 'mes'])['cantidad'].sum().reset_index()

ventas_por_mes(datos)

### Ejercicio 7: Informe general

Mostrar un listado de productos ordenados alfabeticamente que contengan el precio promedio, la cantidad de unidades vendidas y el importe total vendido para cada producto

In [None]:
import pandas as pd

def resumen_ventas(datos):
    
    df = pd.read_fwf(datos, colspecs =[(0, 10), (10, 40), (40, 50), (50, 55)],  names=['fecha', 'producto', 'precio', 'cantidad'])

    df['precio'] = pd.to_numeric(df['precio'], errors = 'coerce')
    df['cantidad'] = pd.to_numeric(df['cantidad'], errors = 'coerce')
    
    df['importe'] = df['precio'] * df['cantidad']
    
    resumen = df.groupby('producto').agg({'precio': 'mean','cantidad':'sum', 'importe':'sum'}).reset_index()
    
    resumen = resumen.sort_values(by='producto')
    
    return resumen

resumen_ventas(datos)

## `Resolver usando NumPy`
## Resolver el ejercicio 2 del tp1 usando NumPy

### Ejercicio 8

Escribe una función en Python que encuentre los valores de `a`, `b`, y `c` para que la función cuadrática `f(x) = a x^2 + b x + c` pase exactamente por los siguientes puntos:

| x  | y  |
|---:|---:|
|  0 |  0 |
|  1 |  8 |
|  2 | 12 |
|  3 | 12 |
|  5 |  0 |

### Requisitos:
- La función debe explorar posibles valores de `a`, `b`, y `c` utilizando un método de prueba y error.
- Debe devolver los valores que hagan que la diferencia entre la función `f(x)` y los valores medidos `y` sea exactamente cero para cada punto.

> **Pista**: Los valores de `a`, `b`, y `c` son números pequeños.

La idea es implementar el mismo algoritmo que se uso en el TP1 pero usando NumPy en lugar de Python puro.

In [None]:
import numpy as np
def f(x, coeficientes):
    a,b,c = coeficientes
    return a*x**2 + b*x + c

def error(y, y_pred):
    return y - y_pred

X = np.array([0,1,2,3,5])
Y = np.array([0,8,12,12,0])

def buscar_coeficientes():
    
    A = np.vstack([X**2, X, np.ones(len(X))]).T
    B = Y
    
    coeficientes, _, _, _ = np.linalg.lstsq(A, B, rcond=None)
    
    coeficientes = [int(round(c)) for c in coeficientes]
    
    return coeficientes
    
coeficientes = buscar_coeficientes()
coeficientes

(-2, 10, 0)

### Ejercicio 9: Resolver el ejercicio 3 del TP1 usando NumPy
Buscar los coeficientes de la función que minimice la suma de los cuadrados de las diferencias entre los valores medidos y los valores de la función.

1. Crear un array con los coeficientes elegidos al azar (usar `randint(-10,10,3)`).
2. Calcular el valor de la función y el error correspondiente.
3. Mientras que el error sea mayor a 1:
    1. Definir nuevos coeficientes agregándoles un pequeño valor al azar a los coeficientes actuales (aprendizaje = 0.001).
    2. Si el error para los nuevos coeficientes es menor que el anterior, reemplazar los coeficientes actuales por los nuevos.


In [None]:
import numpy as np
from numpy.random import randint

def f(x, coeficientes):
    a,b,c = coeficientes
    return a*x**2 + b*x + c

def error(y, y_pred):
    return np.sum((y - y_pred)**2)

X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8,12,11, 1]) # Observar que no son los mismos valores que en el ejemplo anterior

def buscar_coeficientes():
    
    coeficientes = randint(-10, 10, 3)
    aprendizaje = 0.001
    
    y_pred = f(X, coeficientes)
    err = error(Y, y_pred)
    
    while err > 1:
        nuevo_coeficientes = coeficientes + aprendizaje * randint(-10, 10, 3)
        
        y_pred_nuevo = f(X, nuevo_coeficientes)
        err_nuevo = error(Y, y_pred_nuevo)
        
        if err_nuevo < err:
            coeficientes = nuevo_coeficientes
            err = err_nuevo
    return coeficientes

coeficientes = buscar_coeficientes()
coeficientes

Los coeficientes son [-1.781  8.961  0.615] y el error es 0.9958049999998968


array([-1.781,  8.961,  0.615])