In [71]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [4]:
datos = pd.read_excel('/content/Ventas.xlsx')
datos.head()

Unnamed: 0,Region,Producto,Vendedor,Ventas
0,Central,Accesorios,David,8287
1,Central,Accesorios,Karen,6909
2,Central,Dispositivos,David,11420
3,Central,Dispositivos,Karen,12948
4,Central,Sistemas,David,20098


In [5]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Region    18 non-null     object
 1   Producto  18 non-null     object
 2   Vendedor  18 non-null     object
 3   Ventas    18 non-null     int64 
dtypes: int64(1), object(3)
memory usage: 704.0+ bytes


In [6]:
datos.isnull().sum()

Unnamed: 0,0
Region,0
Producto,0
Vendedor,0
Ventas,0


In [7]:
datos.shape

(18, 4)

In [8]:
datos.iloc[:, [0,3]]

Unnamed: 0,Region,Ventas
0,Central,8287
1,Central,6909
2,Central,11420
3,Central,12948
4,Central,20098
5,Central,30633
6,Este,9323
7,Este,7667
8,Este,10348
9,Este,9312


In [9]:
datos.loc[:, ['Region', 'Ventas']]

Unnamed: 0,Region,Ventas
0,Central,8287
1,Central,6909
2,Central,11420
3,Central,12948
4,Central,20098
5,Central,30633
6,Este,9323
7,Este,7667
8,Este,10348
9,Este,9312


In [90]:
datos.sample()

Unnamed: 0,Region,Producto,Vendedor,Ventas
10,Este,Sistemas,Ana,13531


In [101]:
# Crear subgráficos
fig = make_subplots(rows=1, cols=3, specs=[[{'type': 'domain'}, {'type': 'domain'}, {'type': 'domain'}]])
# Gráfico 1: Ventas por Producto
fig.add_trace(
    go.Pie(labels=datos['Producto'], values=datos['Ventas'], title="Ventas totales por producto"),
    row=1, col=1
)
# Gráfico 2: Ventas totales por Región
fig.add_trace(
    go.Pie(labels=datos['Region'], values=datos['Ventas'], title="Ventas totales por Región"),
    row=1, col=2
)
# Gráfico 2: Ventas totales por Vendedor
fig.add_trace(
    go.Pie(labels=datos['Vendedor'], values=datos['Ventas'], title="Ventas totales por Vendedor"),
    row=1, col=3
)
# Ajustar diseño
fig.update_layout(
    title_text="Comparación de Ventas: Productos y Región",
    title_x=0.5,  # Centrar título
    showlegend=True
)
# Mostrar gráficos
fig.show()

In [107]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder

X = datos[['Producto', 'Region', 'Vendedor']]
y = datos['Ventas']

# Create a OneHotEncoder object
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore') # sparse=False for compatibility with LinearRegression

# Fit the encoder to your categorical features and transform them
encoded_features = encoder.fit_transform(X)

# Create a new DataFrame with the encoded features
encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(X.columns))

# Now use the encoded DataFrame for training
X_train, X_test, y_train, y_test = train_test_split(encoded_df, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [108]:
from sklearn.metrics import mean_squared_error # Corrected the module name from 'skearn' to 'sklearn'
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

Mean Squared Error: 16586903.79629627


In [161]:
fig = px.line(y=y_test.values, title='Ventas reales vs. predichas', labels={'x': 'Ventas Reales vs Predicción de Ventas', 'y': 'Ventas totales'},markers=True)
fig.add_scatter(y=y_pred, name='Ventas predichas')
fig.add_scatter(y=y_test, name='Ventas reales', marker=dict(color='blue'))
fig.show()

In [178]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type': 'xy'}, {'type': 'xy'}]])
fig.add_trace(
    go.Bar(x=y_test.index, y=y_test.values, name='Ventas reales'),
    row=1, col=1
)
fig.add_trace(
    go.Bar(x=y_test.index, y=y_pred, name='Ventas predichas'),
    row=1, col=2
)
fig.update_layout(
    title_text="Comparación de Ventas: Productos y Región",
    title_x=0.5
    )
fig.show()

In [197]:
fig = px.box(datos, x='Ventas', y='Producto', color='Producto', title='Distribución de Ventas por Producto')
fig.show()

In [195]:
fig = px.box(datos, x='Ventas', y='Vendedor', color='Vendedor', title='Distribución de Ventas por Vendedor')
fig.show()

In [196]:
fig = px.box(datos, x='Ventas', y='Region', color='Region', title='Distribución de Ventas por Region')
fig.show()

In [199]:
fig = px.bar(datos, x='Ventas', y='Producto', color='Producto', title='Distribución de Ventas por Producto')
fig.show()

In [200]:
fig = px.bar(datos, x='Ventas', y='Vendedor', color='Vendedor', title='Distribución de Ventas por Vendedor')
fig.show()

In [202]:
fig = px.bar(datos, x='Ventas', y='Region', color='Region', title='Distribución de Ventas por Región')
fig.show()

#Objetivo del análisis:
- Evaluar el desempeño de las ventas para:

- Identificar las regiones con mayores ingresos.

- Determinar qué productos tienen mejor desempeño.
Evaluar la contribución de cada vendedor al total de ventas.

#Informe del Análisis

En este análisis, **primero importé las bibliotecas necesarias, incluyendo pandas, numpy, matplotlib, seaborn, warnings, plotly y sklearn**. Luego, **cargué los datos de ventas desde un archivo Excel usando pandas y realicé una exploración inicial de los datos**. Verifiqué el tipo de datos de cada columna, busqué valores nulos, examiné las dimensiones del conjunto de datos y seleccioné subconjuntos específicos de los datos utilizando `iloc` y `loc`.

Para comprender mejor las ventas, **creé varias visualizaciones**.  Utilicé gráficos de pastel para comparar las ventas totales por producto, región y vendedor. Para analizar más a fondo las ventas, **implementé un modelo de regresión lineal**. Codifiqué las características categóricas usando OneHotEncoder, dividí los datos en conjuntos de entrenamiento y prueba, entrené el modelo y luego evalué su rendimiento utilizando el error cuadrático medio (MSE).

Para visualizar el rendimiento del modelo, **creé gráficos de líneas y barras que comparan las ventas reales con las predichas**. Además, **generé gráficos de caja y barras para mostrar la distribución de ventas por producto, vendedor y región.**
