# P01 - Regresión

# Predicción y análisis de ventas de empresa de bicicletas

* Andre Esteban
* Nicolas Martinez
* Gonzalo Cano

---

## Objetivos

**Objetivos generales:**

El objetivo general de este proyecto es hacer un análisis de los datos de las ventas de una empresa que se dedica a vender bicicletas mediante la aplicación de modelos de regresión y técnicas de regularización, con el fin de identificar qué factores son los más relevantes para las ventas de la empresa y proponer modelos que nos permitan optimizar la toma de decisiones comerciales para la empresa.

**Objetivos Específicos:**

Para poder cumplir el objetivo del proyecto lo que se tendrá que hacer es lo siguiente.

* Analizar el dataset de la empresa, identificando la estructura, que variables tenemos disponibles y la información relevante que aportan las muestras.

* Limpiar y transformar los datos, ajustando las variables necesarias para que puedan usarse adecuadamente en los modelos de regresión.

* Usar y comparar diferentes enfoques de regresión para evaluar el ajuste de los modelos a través de las métricas de desempeño.

* Utilizar métodos de penalización para evaluar el impacto en la predicción y en la significancia de las variables.

* Diseñar un pipeline que incluya de forma estructurada todos los pasos que se realizaron para hacer el modelo.

* Evaluar los valores estadísticos de los modelos y compararlos para identificar aquel modelo que tenga un mejor balance.

* A partir de los resultados obtenidos concluir sobre la efectividad de los modelos y la relevancia de los factores en las ventas de la empresa.


---
## Marco Téorico

Regresión lineal

Regresión polinomial

Interacción de factores

Significancia de factores

Regularización (Ridge, Lasso, ElasticNet)

Tema elegido para proyecto

---
## Análisis de dataset

**¿De dónde viene?**

El dataset proviene de la página de internet Kaggle, la cual es una página de internet donde se pueden encontrar muchos datasets para el análisis de datos, este dataset viene de un repositorio que se llama “Company Financials Dataset” creado por Atharva Arya

**¿Qué contiene?**

El datset contiene datos de ventas y costos simulados de una empresa durante el año 2024, contiene información financiera de ventas de productos incluyendo lo siguiente:

* Segmento de mercado

* País de venta

* Nombre y tipo del producto

* Precio de manufactura y precio de venta

* Unidades vendidas

* Ventas brutas y netas

* Costos de producción

* Utilidades

* Fechas

**¿Qué información dan las muestras?**

Cada fila del dataset es una muestra de transacción de ventas donde se puede ver el comportamiento del producto vendido en un país determinado, segmento y periodo, todo esto nos muestra el nivel de ventas alcanzado, la rentabilidad de cada producto, la relación entre lo vendido, precio, costos y utilidades

**¿Qué se quiere analizar?**

El objetivo es predecir y analizar las ventas de la empresa, entonces se requiere identificar qué factores son los que influyen más en las ventas, evaluar cómo cambian las utilidades según las variaciones en las variables y comparar los diferentes modelos de regresión para ver cuál es el que ofrece la mejor predicción

**¿Qué variables se tienen que transformar para poder usarse en un modelo de regresión?**

Primero se tienen limpiar las variables numéricas que tienen caracteres especiales para poder convertirlos en valores numéricos y después transformar las variables categóricas como, el segmento de mercado, tipo de producto, país y el nombre del mes, transformarlas en variables dummies para poder hacer la regresión. También se van a tener que escalar o estandarizar los datos para mejorar la comparabilidad de los datos en los modelos.

In [1]:
import pandas as pd

df = pd.read_excel('DataSet_Proyecto.xlsx')
# Quitar espacios extra en los nombres de columnas
df.columns = df.columns.str.strip()
df

Unnamed: 0,Segment,Country,Product,Discount Band,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Date,Month Number,Month Name,Year
0,Government,Canada,Carretera,,1618.5,3,20,32370,0,32370,16185,16185,2014-01-01,1,January,2014
1,Government,Germany,Carretera,,1321.0,3,20,26420,0,26420,13210,13210,2014-01-01,1,January,2014
2,Midmarket,France,Carretera,,2178.0,3,15,32670,0,32670,21780,10890,2014-06-01,6,June,2014
3,Midmarket,Germany,Carretera,,888.0,3,15,13320,0,13320,8880,4440,2014-06-01,6,June,2014
4,Midmarket,Mexico,Carretera,,2470.0,3,15,37050,0,37050,24700,12350,2014-06-01,6,June,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,High,2475.0,260,300,"$7,42,500.00","$1,11,375.00","$6,31,125.00","$6,18,750.00",12375,2014-03-01,3,March,2014
696,Small Business,Mexico,Amarilla,High,546.0,260,300,"$1,63,800.00",24570,"$1,39,230.00","$1,36,500.00",2730,2014-10-01,10,October,2014
697,Government,Mexico,Montana,High,1368.0,5,7,9576,1436.4,8139.6,6840,1299.6,2014-02-01,2,February,2014
698,Government,Canada,Paseo,High,723.0,10,7,5061,759.15,4301.85,3615,686.85,2014-04-01,4,April,2014


In [2]:
# Quitar columnas irrelevantes para predecir nuestras ventas
df = df.drop(columns=['Discount Band','Date','Month Number'])
df

Unnamed: 0,Segment,Country,Product,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Name,Year
0,Government,Canada,Carretera,1618.5,3,20,32370,0,32370,16185,16185,January,2014
1,Government,Germany,Carretera,1321.0,3,20,26420,0,26420,13210,13210,January,2014
2,Midmarket,France,Carretera,2178.0,3,15,32670,0,32670,21780,10890,June,2014
3,Midmarket,Germany,Carretera,888.0,3,15,13320,0,13320,8880,4440,June,2014
4,Midmarket,Mexico,Carretera,2470.0,3,15,37050,0,37050,24700,12350,June,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,2475.0,260,300,"$7,42,500.00","$1,11,375.00","$6,31,125.00","$6,18,750.00",12375,March,2014
696,Small Business,Mexico,Amarilla,546.0,260,300,"$1,63,800.00",24570,"$1,39,230.00","$1,36,500.00",2730,October,2014
697,Government,Mexico,Montana,1368.0,5,7,9576,1436.4,8139.6,6840,1299.6,February,2014
698,Government,Canada,Paseo,723.0,10,7,5061,759.15,4301.85,3615,686.85,April,2014


In [3]:
# Quitar las comas y signos de las columnas
cols_a_convertir = ['Units Sold', 'Manufacturing Price', 'Sale Price', 'Gross Sales','Sales','COGS','Profit','Discounts']

# Reemplazar $ y comas en todas las columnas seleccionadas
df[cols_a_convertir] = df[cols_a_convertir].replace('[\$,]', '', regex=True).astype(float)
df

  df[cols_a_convertir] = df[cols_a_convertir].replace('[\$,]', '', regex=True).astype(float)


Unnamed: 0,Segment,Country,Product,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Name,Year
0,Government,Canada,Carretera,1618.5,3.0,20.0,32370.0,0.00,32370.00,16185.0,16185.00,January,2014
1,Government,Germany,Carretera,1321.0,3.0,20.0,26420.0,0.00,26420.00,13210.0,13210.00,January,2014
2,Midmarket,France,Carretera,2178.0,3.0,15.0,32670.0,0.00,32670.00,21780.0,10890.00,June,2014
3,Midmarket,Germany,Carretera,888.0,3.0,15.0,13320.0,0.00,13320.00,8880.0,4440.00,June,2014
4,Midmarket,Mexico,Carretera,2470.0,3.0,15.0,37050.0,0.00,37050.00,24700.0,12350.00,June,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,2475.0,260.0,300.0,742500.0,111375.00,631125.00,618750.0,12375.00,March,2014
696,Small Business,Mexico,Amarilla,546.0,260.0,300.0,163800.0,24570.00,139230.00,136500.0,2730.00,October,2014
697,Government,Mexico,Montana,1368.0,5.0,7.0,9576.0,1436.40,8139.60,6840.0,1299.60,February,2014
698,Government,Canada,Paseo,723.0,10.0,7.0,5061.0,759.15,4301.85,3615.0,686.85,April,2014


In [4]:
df.describe()

Unnamed: 0,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Year
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,1608.294286,96.477143,118.428571,182759.4,13150.354671,169609.1,145475.211429,24133.860414,2013.75
std,867.427859,108.602612,136.775515,254262.3,22962.92876,236726.3,203865.506118,42760.626547,0.433322
min,200.0,3.0,7.0,1799.0,0.0,1655.08,918.0,-40617.5,2013.0
25%,905.0,5.0,12.0,17391.75,800.32,15928.0,7490.0,2805.96,2013.75
50%,1542.5,10.0,20.0,37980.0,2585.25,35540.2,22506.25,9242.2,2014.0
75%,2229.125,250.0,300.0,279025.0,15956.3475,261077.5,245607.5,22662.0,2014.0
max,4492.5,260.0,350.0,1207500.0,149677.5,1159200.0,950625.0,262200.0,2014.0
