# TP6

### `Resolver usando Pandas`

Resolver los ejercicios del TP3 utilizando la librería Pandas.

### Ejercicio 1: Cargar Datos de ventas.

El archivo datos.dat contiene el registro de las ventas realizadas.

Tiene un formato de ancho fijo:
- `fecha`:    10 lugares
- `producto`: 30 lugares
- `precio`:   10 lugares
- `cantidad`:  5 lugares

Hacer una funcion que cargue los datos en un DataFrame de Pandas.

In [19]:
import pandas as pd
print(pd.__version__)

2.2.3


In [18]:
%pip install pandas

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [20]:
import pandas as pd

def cargar_datos():
    # Definir las posiciones de las columnas basadas en el formato de ancho fijo
    colspecs = [(0, 10), (10, 40), (40, 50), (50, 55)]
    # Definir los nombres de las columnas
    column_names = ['fecha', 'producto', 'precio', 'cantidad']
    
    # Leer el archivo de ancho fijo en un DataFrame de Pandas
    df = pd.read_fwf('datos.dat', colspecs=colspecs, names=column_names)
    
    return df

# Cargar los datos
datos = cargar_datos()
datos

Unnamed: 0,fecha,producto,precio,cantidad
0,2024-08-27,Mirinda,1510,14
1,2024-08-27,Mirinda,1560,12
2,2024-08-28,Torasso,940,8
3,2024-08-29,Pepsi Cola,1210,10
4,2024-08-30,Mirinda,1520,1
5,2024-09-01,Mirinda,1550,15
6,2024-09-01,Sprite,810,4
7,2024-09-02,Coca Cola,1100,4
8,2024-09-02,Pepsi Cola,1220,13
9,2024-09-02,Torasso,910,5


### Ejercicio 2: Calcular el total de ventas.
Hacer una función que sume los importes vendidos (precio * cantidad) y las cantidades.


In [6]:
def calcular_totales(datos):
    # Calcular el importe total (precio * cantidad)
    datos['importe'] = datos['precio'] * datos['cantidad']
    importe_total = datos['importe'].sum()
    
    # Calcular la cantidad total
    cantidad_total = datos['cantidad'].sum()
    
    return importe_total, cantidad_total

# Utilizar la función cargar_datos del Ejercicio 1 para obtener los datos
datos = cargar_datos()

# Calcular los totales
importe, cantidad = calcular_totales(datos)

print(f"Las ventas fueron de ${importe:.2f} en {cantidad} unidades")

Las ventas fueron de $392730.00 en 335 unidades


### Ejercicio 3: Listar las unidades vendidas.
Listar cuántas unidades se vendieron en total para cada producto


In [7]:
def unidades_vendidas(datos):
    # Agrupar los datos por 'producto' y sumar las cantidades vendidas
    ventas_por_producto = datos.groupby('producto')['cantidad'].sum()
    
    # Convertir el resultado a un DataFrame para una mejor visualización
    ventas_por_producto_df = ventas_por_producto.reset_index()
    
    return ventas_por_producto_df

# Utilizar la función cargar_datos del Ejercicio 1 para obtener los datos
datos = cargar_datos()

# Listar las unidades vendidas por producto
unidades_vendidas_df = unidades_vendidas(datos)
print(unidades_vendidas_df)

     producto  cantidad
0   Coca Cola        57
1     Mirinda        85
2  Pepsi Cola        89
3      Sprite        72
4     Torasso        32


###  Ejercicio 4: Listar el precio promedio por producto.
Hacer un listado del precio promedio por producto.


In [9]:
def precio_promedio(datos):
    # Agrupar los datos por 'producto' y calcular el precio promedio
    promedio_por_producto = datos.groupby('producto')['precio'].mean()
    
    # Convertir el resultado a un DataFrame para una mejor visualización
    promedio_por_producto_df = promedio_por_producto.reset_index()
    
    # Redondear los precios promedio a 2 decimales
    promedio_por_producto_df['precio'] = promedio_por_producto_df['precio'].round(2)
    
    return promedio_por_producto_df

# Utilizar la función cargar_datos del Ejercicio 1 para obtener los datos
datos = cargar_datos()

# Listar el precio promedio por producto
precio_promedio_df = precio_promedio(datos)
print(precio_promedio_df)

     producto   precio
0   Coca Cola  1072.50
1     Mirinda  1545.83
2  Pepsi Cola  1245.00
3      Sprite   841.43
4     Torasso   920.00


### Ejercicio 5: Ranking de productos
Realizar un listado de los 3 productos más vendidos ordenados por la cantidad de unidades vendidas (ordenadas de mayor a menor)


In [10]:
def ranking_productos(datos, top=3):
    # Agrupar los datos por 'producto' y sumar las cantidades vendidas
    ventas_por_producto = datos.groupby('producto')['cantidad'].sum()
    
    # Ordenar los productos por la cantidad de unidades vendidas de mayor a menor
    ranking = ventas_por_producto.sort_values(ascending=False)
    
    # Seleccionar los 'top' productos más vendidos
    top_ranking = ranking.head(top)
    
    # Convertir el resultado a un DataFrame para una mejor visualización
    top_ranking_df = top_ranking.reset_index()
    
    return top_ranking_df

# Utilizar la función cargar_datos del Ejercicio 1 para obtener los datos
datos = cargar_datos()

# Obtener el ranking de los productos más vendidos
ranking_df = ranking_productos(datos)
print(ranking_df)

     producto  cantidad
0  Pepsi Cola        89
1     Mirinda        85
2      Sprite        72


### Ejercicio 6: Listar las ventas por mes
Realizar un listado del total de unidades vendidas por producto separado por mes.


In [11]:
def ventas_por_mes(datos):
    # Convertir la columna 'fecha' a tipo datetime
    datos['fecha'] = pd.to_datetime(datos['fecha'], format='%Y-%m-%d')
    
    # Extraer el año y el mes de la columna 'fecha'
    datos['año_mes'] = datos['fecha'].dt.to_period('M')
    
    # Agrupar los datos por 'producto' y 'año_mes' y sumar las cantidades vendidas
    ventas_mensuales = datos.groupby(['producto', 'año_mes'])['cantidad'].sum()
    
    # Convertir el resultado a un DataFrame para una mejor visualización
    ventas_mensuales_df = ventas_mensuales.reset_index()
    
    return ventas_mensuales_df

# Utilizar la función cargar_datos del Ejercicio 1 para obtener los datos
datos = cargar_datos()

# Listar las ventas por mes
ventas_mensuales_df = ventas_por_mes(datos)
print(ventas_mensuales_df)

     producto  año_mes  cantidad
0   Coca Cola  2024-09        57
1     Mirinda  2024-08        27
2     Mirinda  2024-09        58
3  Pepsi Cola  2024-08        10
4  Pepsi Cola  2024-09        79
5      Sprite  2024-09        72
6     Torasso  2024-08         8
7     Torasso  2024-09        24


### Ejercicio 7: Informe general

Mostrar un listado de productos ordenados alfabeticamente que contengan el precio promedio, la cantidad de unidades vendidas y el importe total vendido para cada producto

In [12]:
def resumen_ventas(datos):
    # Calcular el precio promedio por producto
    precio_promedio = datos.groupby('producto')['precio'].mean()
    
    # Calcular la cantidad total de unidades vendidas por producto
    cantidad_vendida = datos.groupby('producto')['cantidad'].sum()
    
    # Calcular el importe total vendido por producto
    datos['importe'] = datos['precio'] * datos['cantidad']
    importe_total = datos.groupby('producto')['importe'].sum()
    
    # Crear un DataFrame con los resultados
    resumen_df = pd.DataFrame({
        'precio_promedio': precio_promedio,
        'cantidad_vendida': cantidad_vendida,
        'importe_total': importe_total
    })
    
    # Redondear el precio promedio a 2 decimales
    resumen_df['precio_promedio'] = resumen_df['precio_promedio'].round(2)
    
    # Ordenar el DataFrame alfabéticamente por producto
    resumen_df = resumen_df.sort_index()
    
    return resumen_df

# Utilizar la función cargar_datos del Ejercicio 1 para obtener los datos
datos = cargar_datos()

# Obtener el informe general de ventas
resumen_df = resumen_ventas(datos)
print(resumen_df)

            precio_promedio  cantidad_vendida  importe_total
producto                                                    
Coca Cola           1072.50                57          60780
Mirinda             1545.83                85         131080
Pepsi Cola          1245.00                89         110510
Sprite               841.43                72          61040
Torasso              920.00                32          29320


## `Resolver usando NumPy`
## Resolver el ejercicio 2 del tp1 usando NumPy

### Ejercicio 8

Escribe una función en Python que encuentre los valores de `a`, `b`, y `c` para que la función cuadrática `f(x) = a x^2 + b x + c` pase exactamente por los siguientes puntos:

| x  | y  |
|---:|---:|
|  0 |  0 |
|  1 |  8 |
|  2 | 12 |
|  3 | 12 |
|  5 |  0 |

### Requisitos:
- La función debe explorar posibles valores de `a`, `b`, y `c` utilizando un método de prueba y error.
- Debe devolver los valores que hagan que la diferencia entre la función `f(x)` y los valores medidos `y` sea exactamente cero para cada punto.

> **Pista**: Los valores de `a`, `b`, y `c` son números pequeños.

La idea es implementar el mismo algoritmo que se uso en el TP1 pero usando NumPy en lugar de Python puro.

In [34]:
pip install scipy

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [35]:
import numpy as np
from scipy.optimize import minimize

print("scipy.optimize.minimize importado correctamente")

scipy.optimize.minimize importado correctamente


In [16]:
import numpy as np
print(np.__version__)

2.1.2


In [40]:
import numpy as np
from scipy.optimize import minimize

# Definir la función cuadrática
def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

# Definir la función de error
def error(coeficientes, X, Y):
    Y_pred = f(X, coeficientes)
    return np.sum((Y - Y_pred)**2)

# Lista de puntos (x, y)
X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 12, 0])

# Función para buscar los coeficientes
def buscar_coeficientes():
    # Valores iniciales para a, b, y c
    coef_iniciales = np.array([1, 1, 1])  # Cambié los valores iniciales para evitar problemas con ceros
    
    # Minimizar la función de error
    resultado = minimize(error, coef_iniciales, args=(X, Y), method='BFGS')
    
    if resultado.success:
        return np.round(resultado.x, 4)  # Redondear los coeficientes a cuatro decimales
    else:
        raise ValueError("La optimización no tuvo éxito")

# Buscar los coeficientes
coeficientes = buscar_coeficientes()
print(f"Coeficientes encontrados: a={coeficientes[0]}, b={coeficientes[1]}, c={coeficientes[2]}")

Coeficientes encontrados: a=-2.0, b=10.0, c=-0.0


### Ejercicio 9: Resolver el ejercicio 3 del TP1 usando NumPy
Buscar los coeficientes de la función que minimice la suma de los cuadrados de las diferencias entre los valores medidos y los valores de la función.

1. Crear un array con los coeficientes elegidos al azar (usar `randint(-10,10,3)`).
2. Calcular el valor de la función y el error correspondiente.
3. Mientras que el error sea mayor a 1:
    1. Definir nuevos coeficientes agregándoles un pequeño valor al azar a los coeficientes actuales (aprendizaje = 0.001).
    2. Si el error para los nuevos coeficientes es menor que el anterior, reemplazar los coeficientes actuales por los nuevos.


In [42]:
import numpy as np
from numpy.random import randint

def f(x, coeficientes):
    a, b, c = coeficientes
    return a * x**2 + b * x + c

def error(y, y_pred):
    return np.sum((y - y_pred)**2)

X = np.array([0, 1, 2, 3, 5])
Y = np.array([0, 8, 12, 11, 1])  # Observar que no son los mismos valores que en el ejemplo anterior

def buscar_coeficientes():
    # 1. Crear un array con los coeficientes elegidos al azar
    coeficientes = randint(-10, 10, 3)
    
    # 2. Calcular el valor de la función y el error correspondiente
    Y_pred = f(X, coeficientes)
    current_error = error(Y, Y_pred)
    
    aprendizaje = 0.0001  # Reducir el valor de aprendizaje para mayor precisión
    
    # 3. Mientras que el error sea mayor a 1
    while current_error > 1:
        # 3.1 Definir nuevos coeficientes agregándoles un pequeño valor al azar a los coeficientes actuales
        nuevos_coeficientes = coeficientes + aprendizaje * randint(-10, 10, 3)
        
        # Calcular el nuevo error
        Y_pred_nuevo = f(X, nuevos_coeficientes)
        nuevo_error = error(Y, Y_pred_nuevo)
        
        # 3.2 Si el error para los nuevos coeficientes es menor que el anterior, reemplazar los coeficientes actuales por los nuevos
        if nuevo_error < current_error:
            coeficientes = nuevos_coeficientes
            current_error = nuevo_error
    
    return np.round(coeficientes, 4)  # Redondear los coeficientes a cuatro decimales

# Buscar los coeficientes
coeficientes = buscar_coeficientes()
print(f"Coeficientes encontrados: a={coeficientes[0]}, b={coeficientes[1]}, c={coeficientes[2]}")

Coeficientes encontrados: a=-1.7795, b=8.9588, c=0.6226
