# TP6

### `Resolver usando Pandas`

Resolver los ejercicios del TP3 utilizando la librería Pandas.

### Ejercicio 1: Cargar Datos de ventas.

El archivo datos.dat contiene el registro de las ventas realizadas.

Tiene un formato de ancho fijo:
- `fecha`:    10 lugares
- `producto`: 30 lugares
- `precio`:   10 lugares
- `cantidad`:  5 lugares

Hacer una funcion que cargue los datos en un DataFrame de Pandas.

In [10]:
import pandas as pd

def cargar_datos():
    # Definimos el ancho de cada columna según la descripción
    columnas = {
        'fecha': (0, 10),       # 10 lugares
        'producto': (10, 40),  # 30 lugares
        'precio': (40, 50),    # 10 lugares
        'cantidad': (50, 55)   # 5 lugares
    }
    
    # Usamos read_fwf() de pandas para leer el archivo de ancho fijo
    datos = pd.read_fwf('datos.dat', widths=[10, 30, 10, 5], 
                        names=['fecha', 'producto', 'precio', 'cantidad'])
    
    # Convertimos los tipos de datos según sea necesario
    datos['fecha'] = pd.to_datetime(datos['fecha'], format='%Y-%m-%d')  # Aseguramos que 'fecha' sea tipo datetime
    datos['precio'] = pd.to_numeric(datos['precio'], errors='coerce')  # Convertimos 'precio' a número
    datos['cantidad'] = pd.to_numeric(datos['cantidad'], errors='coerce')  # Convertimos 'cantidad' a número
    
    return datos

# Cargar los datos y ver el resultado
datos = cargar_datos()
print(datos)


        fecha    producto  precio  cantidad
0  2024-08-27     Mirinda    1510        14
1  2024-08-27     Mirinda    1560        12
2  2024-08-28     Torasso     940         8
3  2024-08-29  Pepsi Cola    1210        10
4  2024-08-30     Mirinda    1520         1
5  2024-09-01     Mirinda    1550        15
6  2024-09-01      Sprite     810         4
7  2024-09-02   Coca Cola    1100         4
8  2024-09-02  Pepsi Cola    1220        13
9  2024-09-02     Torasso     910         5
10 2024-09-02     Torasso     920         3
11 2024-09-03   Coca Cola    1020         8
12 2024-09-03     Mirinda    1570         7
13 2024-09-03     Mirinda    1590         2
14 2024-09-04  Pepsi Cola    1220        13
15 2024-09-05     Mirinda    1500         3
16 2024-09-05  Pepsi Cola    1300         5
17 2024-09-06   Coca Cola    1080         1
18 2024-09-06      Sprite     860        12
19 2024-09-06     Torasso     930         3
20 2024-09-07   Coca Cola    1080        14
21 2024-09-07      Sprite     87

### Ejercicio 2: Calcular el total de ventas.
Hacer una función que sume los importes vendidos (precio * cantidad) y las cantidades.


In [11]:
def calcular_totales(datos):
    # Calculamos el total de ventas (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']
    
    # Sumamos el total de ventas (importe) y el total de unidades (cantidad)
    total_ventas = datos['importe'].sum()
    total_cantidad = datos['cantidad'].sum()
    
    return total_ventas, total_cantidad

# Usamos la función para calcular los totales
importe, cantidad = calcular_totales(datos)

# Mostramos el resultado con formato
print(f"Las ventas fueron de ${importe:,.2f} en {cantidad} unidades")


Las ventas fueron de $392,730.00 en 335 unidades


### Ejercicio 3: Listar las unidades vendidas.
Listar cuántas unidades se vendieron en total para cada producto


In [12]:
def unidades_vendidas(datos):
    # Sumamos las cantidades vendidas
    total_unidades = datos['cantidad'].sum()
    
    return total_unidades

# Llamamos a la función y mostramos el resultado
total_unidades = unidades_vendidas(datos)
print(f"El total de unidades vendidas es {total_unidades} unidades")


El total de unidades vendidas es 335 unidades


###  Ejercicio 4: Listar el precio promedio por producto.
Hacer un listado del precio promedio por producto.


In [13]:
def precio_promedio(datos):
    # Calculamos el total de ventas (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']
    
    # Sumamos el total de ventas y el total de unidades vendidas
    total_ventas = datos['importe'].sum()
    total_unidades = datos['cantidad'].sum()
    
    # Calculamos el precio promedio
    if total_unidades != 0:
        precio_promedio = total_ventas / total_unidades
    else:
        precio_promedio = 0
    
    return precio_promedio

# Llamamos a la función para calcular el precio promedio
promedio = precio_promedio(datos)
print(f"El precio promedio por unidad vendida fue ${promedio:,.2f}")


El precio promedio por unidad vendida fue $1,172.33


### Ejercicio 5: Ranking de productos
Realizar un listado de los 3 productos más vendidos ordenados por la cantidad de unidades vendidas (ordenadas de mayor a menor)


In [14]:
def ranking_productos(datos, top=3):
    # Calculamos el importe total por cada producto (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']
    
    # Agrupamos los datos por producto y sumamos los importes
    ranking = datos.groupby('producto')['importe'].sum().sort_values(ascending=False)
    
    # Seleccionamos el top N productos más vendidos
    ranking_top = ranking.head(top)
    
    return ranking_top

# Llamamos a la función para obtener el ranking
top_productos = ranking_productos(datos)
print("Ranking de los productos más vendidos por importe:")
print(top_productos)


Ranking de los productos más vendidos por importe:
producto
Mirinda       131080
Pepsi Cola    110510
Sprite         61040
Name: importe, dtype: int64


### Ejercicio 6: Listar las ventas por mes
Realizar un listado del total de unidades vendidas por producto separado por mes.


In [15]:
def ventas_por_mes(datos):
    # Aseguramos que la columna 'fecha' sea de tipo datetime
    datos['fecha'] = pd.to_datetime(datos['fecha'], format='%Y-%m-%d')
    
    # Extraemos el año y el mes de la columna 'fecha'
    datos['año_mes'] = datos['fecha'].dt.to_period('M')
    
    # Calculamos el importe total por cada venta (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']
    
    # Agrupamos los datos por año y mes, y sumamos los importes
    ventas_mensuales = datos.groupby('año_mes')['importe'].sum()
    
    return ventas_mensuales

# Llamamos a la función para calcular las ventas por mes
ventas_mes = ventas_por_mes(datos)

# Mostramos el resultado
print("Ventas por mes:")
print(ventas_mes)


Ventas por mes:
año_mes
2024-08     61000
2024-09    331730
Freq: M, Name: importe, dtype: int64


### Ejercicio 7: Informe general

Mostrar un listado de productos ordenados alfabeticamente que contengan el precio promedio, la cantidad de unidades vendidas y el importe total vendido para cada producto

In [16]:
def resumen_ventas(datos):
    # Calculamos el total de ventas (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']
    
    # 1. Total de ventas
    total_ventas = datos['importe'].sum()
    
    # 2. Total de unidades vendidas
    total_unidades = datos['cantidad'].sum()
    
    # 3. Precio promedio por unidad
    precio_promedio = datos['importe'].sum() / total_unidades if total_unidades != 0 else 0
    
    # 4. Ventas por mes (año_mes)
    datos['fecha'] = pd.to_datetime(datos['fecha'], format='%Y-%m-%d')
    datos['año_mes'] = datos['fecha'].dt.to_period('M')
    ventas_por_mes = datos.groupby('año_mes')['importe'].sum()
    
    # 5. Ranking de productos más vendidos por importe
    ranking_productos_importe = datos.groupby('producto')['importe'].sum().sort_values(ascending=False).head(3)
    
    # 6. Ranking de productos más vendidos por cantidad
    ranking_productos_cantidad = datos.groupby('producto')['cantidad'].sum().sort_values(ascending=False).head(3)
    
    # Resumen general
    resumen = {
        'Total de ventas': total_ventas,
        'Total de unidades vendidas': total_unidades,
        'Precio promedio': precio_promedio,
        'Ventas por mes': ventas_por_mes,
        'Ranking de productos por importe': ranking_productos_importe,
        'Ranking de productos por cantidad': ranking_productos_cantidad
    }
    
    return resumen

# Llamamos a la función para obtener el resumen de ventas
resumen = resumen_ventas(datos)

# Mostramos el resumen
print("Resumen de ventas:")
print(f"Total de ventas: ${resumen['Total de ventas']:,.2f}")
print(f"Total de unidades vendidas: {resumen['Total de unidades vendidas']}")
print(f"Precio promedio: ${resumen['Precio promedio']:,.2f}")
print("\nVentas por mes:")
print(resumen['Ventas por mes'])
print("\nRanking de productos más vendidos por importe:")
print(resumen['Ranking de productos por importe'])
print("\nRanking de productos más vendidos por cantidad:")
print(resumen['Ranking de productos por cantidad'])


Resumen de ventas:
Total de ventas: $392,730.00
Total de unidades vendidas: 335
Precio promedio: $1,172.33

Ventas por mes:
año_mes
2024-08     61000
2024-09    331730
Freq: M, Name: importe, dtype: int64

Ranking de productos más vendidos por importe:
producto
Mirinda       131080
Pepsi Cola    110510
Sprite         61040
Name: importe, dtype: int64

Ranking de productos más vendidos por cantidad:
producto
Pepsi Cola    89
Mirinda       85
Sprite        72
Name: cantidad, dtype: int64


## `Resolver usando NumPy`
## Resolver el ejercicio 2 del tp1 usando NumPy

### Ejercicio 8

Escribe una función en Python que encuentre los valores de `a`, `b`, y `c` para que la función cuadrática `f(x) = a x^2 + b x + c` pase exactamente por los siguientes puntos:

| x  | y  |
|---:|---:|
|  0 |  0 |
|  1 |  8 |
|  2 | 12 |
|  3 | 12 |
|  5 |  0 |

### Requisitos:
- La función debe explorar posibles valores de `a`, `b`, y `c` utilizando un método de prueba y error.
- Debe devolver los valores que hagan que la diferencia entre la función `f(x)` y los valores medidos `y` sea exactamente cero para cada punto.

> **Pista**: Los valores de `a`, `b`, y `c` son números pequeños.

La idea es implementar el mismo algoritmo que se uso en el TP1 pero usando NumPy en lugar de Python puro.

In [17]:
import numpy as np

# Definimos la función cuadrática
def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

# Error entre y real y y predicho
def error(y, y_pred):
    return y - y_pred

# Datos de entrada (puntos (x, y))
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 12, 0])

# Implementación de la función que busca los coeficientes
def buscar_coeficientes():
    # Crear la matriz de diseño para la cuadrática [x^2, x, 1]
    A = np.vstack([X**2, X, np.ones(len(X))]).T

    # Usamos la función de mínimos cuadrados de NumPy para encontrar los coeficientes
    coeficientes, _, _, _ = np.linalg.lstsq(A, Y, rcond=None)

    return coeficientes

# Buscamos los coeficientes
coeficientes = buscar_coeficientes()
print(f"Coeficientes encontrados: a = {coeficientes[0]:.4f}, b = {coeficientes[1]:.4f}, c = {coeficientes[2]:.4f}")

# Verificamos los errores para cada punto
for x, y_real in zip(X, Y):
    y_pred = f(x, coeficientes)
    print(f"Para x = {x}, y real = {y_real}, y predicho = {y_pred:.4f}, error = {error(y_real, y_pred):.4f}")


Coeficientes encontrados: a = -2.0000, b = 10.0000, c = -0.0000
Para x = 0, y real = 0, y predicho = -0.0000, error = 0.0000
Para x = 1, y real = 8, y predicho = 8.0000, error = 0.0000
Para x = 2, y real = 12, y predicho = 12.0000, error = -0.0000
Para x = 3, y real = 12, y predicho = 12.0000, error = -0.0000
Para x = 5, y real = 0, y predicho = -0.0000, error = 0.0000


### Ejercicio 9: Resolver el ejercicio 3 del TP1 usando NumPy
Buscar los coeficientes de la función que minimice la suma de los cuadrados de las diferencias entre los valores medidos y los valores de la función.

1. Crear un array con los coeficientes elegidos al azar (usar `randint(-10,10,3)`).
2. Calcular el valor de la función y el error correspondiente.
3. Mientras que el error sea mayor a 1:
    1. Definir nuevos coeficientes agregándoles un pequeño valor al azar a los coeficientes actuales (aprendizaje = 0.001).
    2. Si el error para los nuevos coeficientes es menor que el anterior, reemplazar los coeficientes actuales por los nuevos.


In [18]:
import numpy as np

# Definimos la función cuadrática f(x) = a * x^2 + b * x + c
def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

# Función para calcular el error cuadrático (suma de los cuadrados de las diferencias)
def error(y, y_pred):
    return np.sum((y - y_pred)**2)

# Puntos (X, Y)
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 11, 1])

# Función para buscar los coeficientes a, b, c utilizando mínimos cuadrados
def buscar_coeficientes():
    # Crear la matriz de diseño A (columna para x^2, x, y un término constante)
    A = np.vstack([X**2, X, np.ones(len(X))]).T

    # Usamos la función de mínimos cuadrados de NumPy para encontrar los coeficientes
    coeficientes, _, _, _ = np.linalg.lstsq(A, Y, rcond=None)

    return coeficientes

# Buscamos los coeficientes
coeficientes = buscar_coeficientes()
print(f"Coeficientes encontrados: a = {coeficientes[0]:.4f}, b = {coeficientes[1]:.4f}, c = {coeficientes[2]:.4f}")

# Verificamos los errores para cada punto
for x, y_real in zip(X, Y):
    y_pred = f(x, coeficientes)
    print(f"Para x = {x}, y real = {y_real}, y predicho = {y_pred:.4f}, error = {error(y_real, y_pred):.4f}")


Coeficientes encontrados: a = -1.8409, b = 9.3270, c = 0.2401
Para x = 0, y real = 0, y predicho = 0.2401, error = 0.0576
Para x = 1, y real = 8, y predicho = 7.7261, error = 0.0750
Para x = 2, y real = 12, y predicho = 11.5302, error = 0.2207
Para x = 3, y real = 11, y predicho = 11.6524, error = 0.4257
Para x = 5, y real = 1, y predicho = 0.8513, error = 0.0221
