# TP6

### `Resolver usando Pandas`

Resolver los ejercicios del TP3 utilizando la librería Pandas.

### Ejercicio 1: Cargar Datos de ventas.

El archivo datos.dat contiene el registro de las ventas realizadas.

Tiene un formato de ancho fijo:
- `fecha`:    10 lugares
- `producto`: 30 lugares
- `precio`:   10 lugares
- `cantidad`:  5 lugares

Hacer una funcion que cargue los datos en un DataFrame de Pandas.

In [1]:
import pandas as pd

def cargar_datos():
    # Definir las posiciones de los campos basados en el formato de ancho fijo
    colspecs = [(0, 10),  # fecha: 10 caracteres (desde el índice 0 hasta el 9)
                (10, 40), # producto: 30 caracteres (desde el índice 10 hasta el 39)
                (40, 50), # precio: 10 caracteres (desde el índice 40 hasta el 49)
                (50, 55)] # cantidad: 5 caracteres (desde el índice 50 hasta el 54)
    
    # Definir los nombres de las columnas
    column_names = ['fecha', 'producto', 'precio', 'cantidad']
    
    # Leer el archivo datos.dat
    df = pd.read_fwf('datos.dat', colspecs=colspecs, names=column_names)
    
    # Convertir las columnas 'precio' y 'cantidad' a numéricas
    df['precio'] = pd.to_numeric(df['precio'], errors='coerce')
    df['cantidad'] = pd.to_numeric(df['cantidad'], errors='coerce')
    
    return df

# Cargar los datos
datos = cargar_datos()

# Mostrar el DataFrame resultante
datos


Unnamed: 0,fecha,producto,precio,cantidad
0,2024-08-27,Mirinda,1510,14
1,2024-08-27,Mirinda,1560,12
2,2024-08-28,Torasso,940,8
3,2024-08-29,Pepsi Cola,1210,10
4,2024-08-30,Mirinda,1520,1
5,2024-09-01,Mirinda,1550,15
6,2024-09-01,Sprite,810,4
7,2024-09-02,Coca Cola,1100,4
8,2024-09-02,Pepsi Cola,1220,13
9,2024-09-02,Torasso,910,5


### Ejercicio 2: Calcular el total de ventas.
Hacer una función que sume los importes vendidos (precio * cantidad) y las cantidades.


In [2]:
def calcular_totales(datos):
    # Calcular el importe total (precio * cantidad) y luego sumarlo
    importe_total = (datos['precio'] * datos['cantidad']).sum()
    
    # Calcular la cantidad total de unidades vendidas
    cantidad_total = datos['cantidad'].sum()
    
    return importe_total, cantidad_total

# Supongamos que ya has cargado el DataFrame 'datos' con cargar_datos()
importe, cantidad = calcular_totales(datos)

# Imprimir el resultado
print(f"Las ventas fueron de ${importe:.2f} en {cantidad} unidades")


Las ventas fueron de $392730.00 en 335 unidades


### Ejercicio 3: Listar las unidades vendidas.
Listar cuántas unidades se vendieron en total para cada producto


In [3]:
def unidades_vendidas(datos):
    # Agrupar los datos por 'producto' y sumar las 'cantidad' de cada uno
    ventas_por_producto = datos.groupby('producto')['cantidad'].sum()
    
    # Mostrar las unidades vendidas por cada producto
    for producto, cantidad in ventas_por_producto.items():
        print(f"Producto: {producto} - Unidades vendidas: {cantidad}")

# Supongamos que ya has cargado el DataFrame 'datos' con cargar_datos()
unidades_vendidas(datos)


Producto: Coca Cola - Unidades vendidas: 57
Producto: Mirinda - Unidades vendidas: 85
Producto: Pepsi Cola - Unidades vendidas: 89
Producto: Sprite - Unidades vendidas: 72
Producto: Torasso - Unidades vendidas: 32


###  Ejercicio 4: Listar el precio promedio por producto.
Hacer un listado del precio promedio por producto.


In [4]:
def precio_promedio(datos):
    # Calcular el promedio de los precios
    promedio = datos['precio'].mean()
    
    # Mostrar el precio promedio
    print(f"El precio promedio de los productos es: ${promedio:.2f}")

# Supongamos que ya has cargado el DataFrame 'datos' con cargar_datos()
precio_promedio(datos)


El precio promedio de los productos es: $1189.50


### Ejercicio 5: Ranking de productos
Realizar un listado de los 3 productos más vendidos ordenados por la cantidad de unidades vendidas (ordenadas de mayor a menor)


In [5]:
def ranking_productos(datos, top=3):
    # Agrupar por 'producto' y sumar las 'cantidad' vendidas
    ventas_por_producto = datos.groupby('producto')['cantidad'].sum()
    
    # Ordenar los productos por la cantidad de unidades vendidas en orden descendente
    ranking = ventas_por_producto.sort_values(ascending=False)
    
    # Mostrar los primeros 'top' productos
    print(f"Top {top} productos más vendidos:")
    for producto, cantidad in ranking.head(top).items():
        print(f"Producto: {producto} - Unidades vendidas: {cantidad}")

# Supongamos que ya has cargado el DataFrame 'datos' con cargar_datos()
ranking_productos(datos)


Top 3 productos más vendidos:
Producto: Pepsi Cola - Unidades vendidas: 89
Producto: Mirinda - Unidades vendidas: 85
Producto: Sprite - Unidades vendidas: 72


### Ejercicio 6: Listar las ventas por mes
Realizar un listado del total de unidades vendidas por producto separado por mes.


In [6]:
def ventas_por_mes(datos):
    # Convertir la columna 'fecha' a formato datetime para poder extraer el mes
    datos['fecha'] = pd.to_datetime(datos['fecha'], format='%Y-%m-%d', errors='coerce')
    
    # Extraer el mes de la columna 'fecha'
    datos['mes'] = datos['fecha'].dt.to_period('M')  # 'M' significa mes
    
    # Agrupar los datos por 'mes' y sumar las 'cantidad' vendidas
    ventas_mensuales = datos.groupby('mes')['cantidad'].sum()
    
    # Mostrar las ventas por mes
    for mes, cantidad in ventas_mensuales.items():
        print(f"Mes: {mes} - Unidades vendidas: {cantidad}")

# Supongamos que ya has cargado el DataFrame 'datos' con cargar_datos()
ventas_por_mes(datos)


Mes: 2024-08 - Unidades vendidas: 45
Mes: 2024-09 - Unidades vendidas: 290


### Ejercicio 7: Informe general

Mostrar un listado de productos ordenados alfabeticamente que contengan el precio promedio, la cantidad de unidades vendidas y el importe total vendido para cada producto

In [7]:
def resumen_ventas(datos):
    # Total de unidades vendidas
    total_unidades = datos['cantidad'].sum()
    
    # Importe total (precio * cantidad)
    total_importe = (datos['precio'] * datos['cantidad']).sum()
    
    # Precio promedio
    precio_promedio = datos['precio'].mean()
    
    # Producto más vendido (por unidades)
    producto_mas_vendido = datos.groupby('producto')['cantidad'].sum().idxmax()
    unidades_mas_vendidas = datos.groupby('producto')['cantidad'].sum().max()
    
    # Producto con mayor importe (precio * cantidad)
    producto_mayor_importe = (datos.groupby('producto')
                              .apply(lambda x: (x['precio'] * x['cantidad']).sum())
                              .idxmax())
    mayor_importe = (datos.groupby('producto')
                     .apply(lambda x: (x['precio'] * x['cantidad']).sum())
                     .max())

    # Mostrar el resumen
    print("Resumen de Ventas:")
    print(f"Total de unidades vendidas: {total_unidades}")
    print(f"Total importe vendido: ${total_importe:.2f}")
    print(f"Precio promedio de los productos: ${precio_promedio:.2f}")
    print(f"Producto más vendido: {producto_mas_vendido} con {unidades_mas_vendidas} unidades")
    print(f"Producto con mayor importe: {producto_mayor_importe} con un total de ${mayor_importe:.2f}")

# Supongamos que ya has cargado el DataFrame 'datos' con cargar_datos()
resumen_ventas(datos)


Resumen de Ventas:
Total de unidades vendidas: 335
Total importe vendido: $392730.00
Precio promedio de los productos: $1189.50
Producto más vendido: Pepsi Cola con 89 unidades
Producto con mayor importe: Mirinda con un total de $131080.00


  .apply(lambda x: (x['precio'] * x['cantidad']).sum())
  .apply(lambda x: (x['precio'] * x['cantidad']).sum())


## `Resolver usando NumPy`
## Resolver el ejercicio 2 del tp1 usando NumPy

### Ejercicio 8

Escribe una función en Python que encuentre los valores de `a`, `b`, y `c` para que la función cuadrática `f(x) = a x^2 + b x + c` pase exactamente por los siguientes puntos:

| x  | y  |
|---:|---:|
|  0 |  0 |
|  1 |  8 |
|  2 | 12 |
|  3 | 12 |
|  5 |  0 |

### Requisitos:
- La función debe explorar posibles valores de `a`, `b`, y `c` utilizando un método de prueba y error.
- Debe devolver los valores que hagan que la diferencia entre la función `f(x)` y los valores medidos `y` sea exactamente cero para cada punto.

> **Pista**: Los valores de `a`, `b`, y `c` son números pequeños.

La idea es implementar el mismo algoritmo que se uso en el TP1 pero usando NumPy en lugar de Python puro.

In [8]:
import numpy as np

def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

def error(y, y_pred):
    return y - y_pred

def buscar_coeficientes():
    # Valores de prueba para a, b y c (números pequeños)
    mejor_error = float('inf')
    mejores_coeficientes = None

    # Rango de prueba para a, b y c
    rango = np.linspace(-10, 10, 100)  # Valores de prueba desde -10 a 10

    for a in rango:
        for b in rango:
            for c in rango:
                # Calcular las predicciones
                Y_pred = f(X, (a, b, c))
                
                # Calcular el error
                e = error(Y, Y_pred)
                
                # Verificar si el error total es cero
                if np.all(e == 0):
                    return (a, b, c)
                
                # Calcular el error cuadrático medio
                error_cuadratico_medio = np.mean(e**2)

                # Si encontramos un mejor error, guardamos los coeficientes
                if error_cuadratico_medio < mejor_error:
                    mejor_error = error_cuadratico_medio
                    mejores_coeficientes = (a, b, c)

    return mejores_coeficientes

# Definir los datos
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 12, 0])

# Obtener los coeficientes
coeficientes = buscar_coeficientes()
print(f"Coeficientes encontrados:\n a = {coeficientes[0]:.2f}, b = {coeficientes[1]:.2f}, c = {coeficientes[2]:.2f}")


Coeficientes encontrados:
 a = -1.92, b = 9.60, c = 0.30


### Ejercicio 9: Resolver el ejercicio 3 del TP1 usando NumPy
Buscar los coeficientes de la función que minimice la suma de los cuadrados de las diferencias entre los valores medidos y los valores de la función.

1. Crear un array con los coeficientes elegidos al azar (usar `randint(-10,10,3)`).
2. Calcular el valor de la función y el error correspondiente.
3. Mientras que el error sea mayor a 1:
    1. Definir nuevos coeficientes agregándoles un pequeño valor al azar a los coeficientes actuales (aprendizaje = 0.001).
    2. Si el error para los nuevos coeficientes es menor que el anterior, reemplazar los coeficientes actuales por los nuevos.


In [9]:
import numpy as np
from numpy.random import randint

def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

def error(y, y_pred):
    return np.sum((y - y_pred)**2)

def buscar_coeficientes():
    # 1. Crear un array con coeficientes elegidos al azar
    coeficientes = randint(-10, 10, 3)
    
    # Inicializar el error
    current_error = float('inf')
    
    while current_error > 1:
        # Calcular el valor de la función
        Y_pred = f(X, coeficientes)
        
        # Calcular el error
        current_error = error(Y, Y_pred)
        
        # 2. Definir nuevos coeficientes
        new_coeficientes = coeficientes + np.random.uniform(-0.001, 0.001, 3)
        
        # 3. Calcular el nuevo error
        new_Y_pred = f(X, new_coeficientes)
        new_error = error(Y, new_Y_pred)
        
        # 4. Si el nuevo error es menor que el actual, actualizar coeficientes
        if new_error < current_error:
            coeficientes = new_coeficientes
            current_error = new_error
            
    return coeficientes

# Datos
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 11, 1])  # Nuevos valores

# Obtener los coeficientes
coeficientes = buscar_coeficientes()
print(f"Coeficientes encontrados:\n a = {coeficientes[0]:.2f}, b = {coeficientes[1]:.2f}, c = {coeficientes[2]:.2f}")


Coeficientes encontrados:
 a = -1.78, b = 8.96, c = 0.62
