# TP6

### `Resolver usando Pandas`

Resolver los ejercicios del TP3 utilizando la librería Pandas.

### Ejercicio 1: Cargar Datos de ventas.

El archivo datos.dat contiene el registro de las ventas realizadas.

Tiene un formato de ancho fijo:
- `fecha`:    10 lugares
- `producto`: 30 lugares
- `precio`:   10 lugares
- `cantidad`:  5 lugares

Hacer una funcion que cargue los datos en un DataFrame de Pandas.

In [28]:
import pandas as pd

def cargar_datos():
    # Definir las posiciones de inicio y ancho de cada columna
    colspecs = [(0, 10), (10, 40), (40, 50), (50, 55)]  # (inicio, fin) de cada columna
    column_names = ['fecha', 'producto', 'precio', 'cantidad']  # Nombres de las columnas

    # Leer el archivo en formato de ancho fijo
    try:
        # Reemplazar 'datos.dat' con la ruta del archivo correspondiente
        df = pd.read_fwf('datos.dat', colspecs=colspecs, names=column_names)
    except FileNotFoundError:
        print("Error: El archivo 'datos.dat' no se encuentra.")
        return None

    # Convertir tipos de columnas si es necesario
    df['fecha'] = pd.to_datetime(df['fecha'], format='%Y-%m-%d', errors='coerce')  # Formato de fecha ajustable
    df['precio'] = pd.to_numeric(df['precio'], errors='coerce')
    df['cantidad'] = pd.to_numeric(df['cantidad'], errors='coerce')

    return df

# Cargar los datos
datos = cargar_datos()

# Mostrar el DataFrame cargado
if datos is not None:
    print(datos)


        fecha    producto  precio  cantidad
0  2024-08-27     Mirinda    1510        14
1  2024-08-27     Mirinda    1560        12
2  2024-08-28     Torasso     940         8
3  2024-08-29  Pepsi Cola    1210        10
4  2024-08-30     Mirinda    1520         1
5  2024-09-01     Mirinda    1550        15
6  2024-09-01      Sprite     810         4
7  2024-09-02   Coca Cola    1100         4
8  2024-09-02  Pepsi Cola    1220        13
9  2024-09-02     Torasso     910         5
10 2024-09-02     Torasso     920         3
11 2024-09-03   Coca Cola    1020         8
12 2024-09-03     Mirinda    1570         7
13 2024-09-03     Mirinda    1590         2
14 2024-09-04  Pepsi Cola    1220        13
15 2024-09-05     Mirinda    1500         3
16 2024-09-05  Pepsi Cola    1300         5
17 2024-09-06   Coca Cola    1080         1
18 2024-09-06      Sprite     860        12
19 2024-09-06     Torasso     930         3
20 2024-09-07   Coca Cola    1080        14
21 2024-09-07      Sprite     87

### Ejercicio 2: Calcular el total de ventas.
Hacer una función que sume los importes vendidos (precio * cantidad) y las cantidades.


In [29]:
def calcular_totales(datos):
    # Verificar que el DataFrame no sea nulo ni esté vacío
    if datos is None or datos.empty:
        print("El DataFrame de datos está vacío o es inválido.")
        return 0, 0

    # Calcular el total del importe (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']  # Crear una nueva columna con los importes

    # Sumar el total de los importes y las cantidades
    total_importe = datos['importe'].sum()
    total_cantidad = datos['cantidad'].sum()

    return total_importe, total_cantidad

# Calcular totales
importe, cantidad = calcular_totales(datos)

# Imprimir los resultados
print(f"Las ventas fueron de ${importe:.2f} en {cantidad} unidades")


Las ventas fueron de $392730.00 en 335 unidades


### Ejercicio 3: Listar las unidades vendidas.
Listar cuántas unidades se vendieron en total para cada producto


In [30]:
def unidades_vendidas(datos):
    # Verificar que el DataFrame no sea nulo ni esté vacío
    if datos is None or datos.empty:
        print("El DataFrame de datos está vacío o es inválido.")
        return

    # Agrupar por producto y sumar las cantidades
    resumen = datos.groupby('producto')['cantidad'].sum().reset_index()

    # Renombrar columnas para claridad
    resumen.columns = ['Producto', 'Unidades Vendidas']

    # Mostrar el resumen
    print("Unidades vendidas por producto:")
    print(resumen)

    return resumen

# Llamar a la función y mostrar los resultados
resumen_unidades = unidades_vendidas(datos)


Unidades vendidas por producto:
     Producto  Unidades Vendidas
0   Coca Cola                 57
1     Mirinda                 85
2  Pepsi Cola                 89
3      Sprite                 72
4     Torasso                 32


###  Ejercicio 4: Listar el precio promedio por producto.
Hacer un listado del precio promedio por producto.


In [31]:
def precio_promedio(datos):
    # Verificar que el DataFrame no sea nulo ni esté vacío
    if datos is None or datos.empty:
        print("El DataFrame de datos está vacío o es inválido.")
        return

    # Agrupar por producto y calcular el precio promedio
    promedio = datos.groupby('producto')['precio'].mean().reset_index()

    # Renombrar columnas para mayor claridad
    promedio.columns = ['Producto', 'Precio Promedio']

    # Mostrar el resultado
    print("Precio promedio por producto:")
    print(promedio)

    return promedio

# Llamar a la función y mostrar los resultados
precio_promedio_por_producto = precio_promedio(datos)


Precio promedio por producto:
     Producto  Precio Promedio
0   Coca Cola      1072.500000
1     Mirinda      1545.833333
2  Pepsi Cola      1245.000000
3      Sprite       841.428571
4     Torasso       920.000000


### Ejercicio 5: Ranking de productos
Realizar un listado de los 3 productos más vendidos ordenados por la cantidad de unidades vendidas (ordenadas de mayor a menor)


In [32]:
def ranking_productos(datos, top=3):
    # Verificar que el DataFrame no sea nulo ni esté vacío
    if datos is None or datos.empty:
        print("El DataFrame de datos está vacío o es inválido.")
        return

    # Agrupar por producto y sumar las cantidades
    ranking = datos.groupby('producto')['cantidad'].sum().reset_index()

    # Renombrar columnas para mayor claridad
    ranking.columns = ['Producto', 'Unidades Vendidas']

    # Ordenar por cantidad de unidades vendidas de mayor a menor
    ranking = ranking.sort_values(by='Unidades Vendidas', ascending=False)

    # Seleccionar los primeros `top` productos
    ranking_top = ranking.head(top)

    # Mostrar el resultado
    print(f"Top {top} productos más vendidos:")
    print(ranking_top)

    return ranking_top

# Llamar a la función y mostrar los resultados
ranking_top_productos = ranking_productos(datos)


Top 3 productos más vendidos:
     Producto  Unidades Vendidas
2  Pepsi Cola                 89
1     Mirinda                 85
3      Sprite                 72


### Ejercicio 6: Listar las ventas por mes
Realizar un listado del total de unidades vendidas por producto separado por mes.


In [33]:
def ventas_por_mes(datos):
    # Verificar que el DataFrame no sea nulo ni esté vacío
    if datos is None or datos.empty:
        print("El DataFrame de datos está vacío o es inválido.")
        return

    # Asegurarse de que la columna 'fecha' sea de tipo datetime
    if not pd.api.types.is_datetime64_any_dtype(datos['fecha']):
        datos['fecha'] = pd.to_datetime(datos['fecha'], errors='coerce')

    # Crear una nueva columna con el año y mes
    datos['mes'] = datos['fecha'].dt.to_period('M')  # Extraer año y mes como periodo

    # Agrupar por mes y producto, y sumar las cantidades
    ventas_mensuales = datos.groupby(['mes', 'producto'])['cantidad'].sum().reset_index()

    # Renombrar columnas para claridad
    ventas_mensuales.columns = ['Mes', 'Producto', 'Unidades Vendidas']

    # Mostrar el resultado
    print("Ventas por mes:")
    print(ventas_mensuales)

    return ventas_mensuales

# Llamar a la función y mostrar los resultados
ventas_mensuales_por_producto = ventas_por_mes(datos)


Ventas por mes:
       Mes    Producto  Unidades Vendidas
0  2024-08     Mirinda                 27
1  2024-08  Pepsi Cola                 10
2  2024-08     Torasso                  8
3  2024-09   Coca Cola                 57
4  2024-09     Mirinda                 58
5  2024-09  Pepsi Cola                 79
6  2024-09      Sprite                 72
7  2024-09     Torasso                 24


### Ejercicio 7: Informe general

Mostrar un listado de productos ordenados alfabeticamente que contengan el precio promedio, la cantidad de unidades vendidas y el importe total vendido para cada producto

In [34]:
def resumen_ventas(datos):
    # Verificar que el DataFrame no sea nulo ni esté vacío
    if datos is None or datos.empty:
        print("El DataFrame de datos está vacío o es inválido.")
        return

    # Asegurarse de que la columna 'importe' exista o calcularla
    if 'importe' not in datos.columns:
        datos['importe'] = datos['precio'] * datos['cantidad']

    # Agrupar por producto y calcular las métricas solicitadas
    resumen = datos.groupby('producto').agg(
        precio_promedio=('precio', 'mean'),
        unidades_vendidas=('cantidad', 'sum'),
        importe_total=('importe', 'sum')
    ).reset_index()

    # Ordenar los resultados por nombre del producto alfabéticamente
    resumen = resumen.sort_values(by='producto')

    # Mostrar el resultado
    print("Informe general de ventas:")
    print(resumen)

    return resumen

# Llamar a la función y mostrar los resultados
informe_general = resumen_ventas(datos)


Informe general de ventas:
     producto  precio_promedio  unidades_vendidas  importe_total
0   Coca Cola      1072.500000                 57          60780
1     Mirinda      1545.833333                 85         131080
2  Pepsi Cola      1245.000000                 89         110510
3      Sprite       841.428571                 72          61040
4     Torasso       920.000000                 32          29320


## `Resolver usando NumPy`
## Resolver el ejercicio 2 del tp1 usando NumPy

### Ejercicio 8

Escribe una función en Python que encuentre los valores de `a`, `b`, y `c` para que la función cuadrática `f(x) = a x^2 + b x + c` pase exactamente por los siguientes puntos:

| x  | y  |
|---:|---:|
|  0 |  0 |
|  1 |  8 |
|  2 | 12 |
|  3 | 12 |
|  5 |  0 |

### Requisitos:
- La función debe explorar posibles valores de `a`, `b`, y `c` utilizando un método de prueba y error.
- Debe devolver los valores que hagan que la diferencia entre la función `f(x)` y los valores medidos `y` sea exactamente cero para cada punto.

> **Pista**: Los valores de `a`, `b`, y `c` son números pequeños.

La idea es implementar el mismo algoritmo que se uso en el TP1 pero usando NumPy en lugar de Python puro.

In [35]:
import numpy as np

# Puntos dados
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 12, 0])

def buscar_coeficientes():
    # Crear la matriz del sistema de ecuaciones
    A = np.vstack([X**2, X, np.ones_like(X)]).T  # Matriz [x^2, x, 1]

    # Resolver el sistema usando mínimos cuadrados
    coeficientes, _, _, _ = np.linalg.lstsq(A, Y, rcond=None)
    
    return coeficientes

# Buscar los coeficientes
coeficientes = buscar_coeficientes()

# Mostrar los coeficientes encontrados
print("Coeficientes encontrados:")
print(f"a = {coeficientes[0]:.2f}, b = {coeficientes[1]:.2f}, c = {coeficientes[2]:.2f}")


Coeficientes encontrados:
a = -2.00, b = 10.00, c = -0.00


### Ejercicio 9: Resolver el ejercicio 3 del TP1 usando NumPy
Buscar los coeficientes de la función que minimice la suma de los cuadrados de las diferencias entre los valores medidos y los valores de la función.

1. Crear un array con los coeficientes elegidos al azar (usar `randint(-10,10,3)`).
2. Calcular el valor de la función y el error correspondiente.
3. Mientras que el error sea mayor a 1:
    1. Definir nuevos coeficientes agregándoles un pequeño valor al azar a los coeficientes actuales (aprendizaje = 0.001).
    2. Si el error para los nuevos coeficientes es menor que el anterior, reemplazar los coeficientes actuales por los nuevos.


In [36]:
import numpy as np
from numpy.random import randint

# Definir la función cuadrática
def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

# Definir la función de error como la suma de los cuadrados de las diferencias
def error(y, y_pred):
    return np.sum((y - y_pred)**2)

# Puntos dados
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 11, 1])

# Búsqueda de coeficientes que minimicen el error
def buscar_coeficientes():
    # Inicializar coeficientes aleatorios entre -10 y 10
    coeficientes = randint(-10, 10, 3)

    # Calcular el error inicial
    y_pred = f(X, coeficientes)
    e_actual = error(Y, y_pred)

    aprendizaje = 0.001  # Pequeño ajuste aleatorio para cada iteración

    while e_actual > 1:
        # Generar nuevos coeficientes agregando un pequeño valor aleatorio
        nuevos_coeficientes = coeficientes + np.random.uniform(-aprendizaje, aprendizaje, 3)

        # Calcular el error para los nuevos coeficientes
        y_pred_nuevo = f(X, nuevos_coeficientes)
        e_nuevo = error(Y, y_pred_nuevo)

        # Si el error mejora, actualizar los coeficientes
        if e_nuevo < e_actual:
            coeficientes = nuevos_coeficientes
            e_actual = e_nuevo

    return coeficientes

# Buscar los coeficientes
coeficientes = buscar_coeficientes()

# Mostrar los coeficientes encontrados
print("Coeficientes encontrados:")
print(f"a = {coeficientes[0]:.5f}, b = {coeficientes[1]:.5f}, c = {coeficientes[2]:.5f}")


Coeficientes encontrados:
a = -1.77902, b = 8.95685, c = 0.62097
