<h1 align="center">Analítica de datos para la toma de decisiones basadas en información</h1>
<h1 align="center">Estadística descritiva: Venta de Smartphones</h1>
<h1 align="center">2023</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

*** 
|[![Gmail](https://img.shields.io/badge/Gmail-D14836?style=plastic&logo=gmail&logoColor=white)](mailto:carlosalvarezh@gmail.com)|<carlosalvarezh@gmail.com>|[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/Curso_CEC_EAFIT/blob/main/Ejemplos_C01_1_VentaSmartphone.ipynb)
|-:|:-|--:|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/Curso_CEC_EAFIT/blob/main/images/CCLogoColorPop1.gif?raw=true" width="25">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

***

## Venta de Smartphones

### Descripción del Contexto Empresarial

Supongamos que somos parte de una empresa minorista que vende productos electrónicos. La alta dirección está interesada en analizar el desempeño de ventas de un producto específico durante el último año para tomar decisiones estratégicas sobre su producción y distribución en el próximo trimestre. El producto en cuestión es un smartphone de gama media. Nuestro objetivo es proporcionar información valiosa basada en el análisis de los datos de ventas.

### Paso 1: Recopilación y Preparación de Datos:

Comenzamos por recopilar datos de ventas diarias del producto durante el último año. Supongamos que hemos recopilado los datos en un archivo CSV llamado "ventas_smartphone.csv". Los datos incluyen la fecha de venta y la cantidad de unidades vendidas por día.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# Genera datos de forma aleatoria de ventas hipotéticos para el ejemplo
#np.random.seed(42)
dates = pd.date_range(start="2022-01-01", end="2022-12-31", freq="D")
sales = np.random.randint(10, 100, size=len(dates))

# se convierte a un DataFrame y se genera un archivo de datos
data = pd.DataFrame({"Fecha": dates, "Ventas": sales})
data.to_csv("Data/ventas_smartphone20.csv", index=True)


### Paso 2: Análisis Descriptivo Inicial:

Comenzamos calculando medidas de tendencia central y dispersión para tener una idea inicial del desempeño del producto.

In [None]:
# Cargar los datos
data = pd.read_csv("Data/ventas_smartphone15.csv")

In [None]:
data.head(10)

In [None]:
data.tail(10)

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
# Medidas de tendencia central
mean_sales = data["Ventas"].mean()
median_sales = data["Ventas"].median()
std_dev = data["Ventas"].std()

# Imprimir resultados parciales
print("Media de Ventas:", mean_sales)
print("Mediana de Ventas:", median_sales)
print("Desviación Estándar:", std_dev)


Comparando la media y la mediana, vemos que las ventas pueden estar sesgadas hacia valores más altos debido a la naturaleza de los datos de ventas. La desviación estándar nos indica la dispersión de las ventas en torno a la media.

Dado el sesgo potencial en los datos, es importante visualizar la distribución de las ventas.

### Paso 3: Visualización de Datos:

Crearemos un histograma y un boxplot para visualizar la distribución de las ventas.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(4, 4))

# Crear histograma
plt.subplot(2, 1, 1)
sns.histplot(data["Ventas"], bins=10, kde=True)
plt.title("Distribución de Ventas")
plt.xlabel("Ventas Diarias")
plt.ylabel("Frecuencia")

# Crear boxplot
plt.subplot(2, 1, 2)
sns.boxplot(y=data["Ventas"])
plt.title("Boxplot de Ventas")
plt.ylabel("Ventas Diarias")

plt.tight_layout()
plt.show()

El histograma sugiere que las ventas tienden a agruparse alrededor de ciertos valores. El boxplot muestra la presencia de valores atípicos en las ventas.

Dado que las ventas podrían no seguir una distribución normal, procederemos a realizar un análisis de normalidad.

### Paso 4: Análisis de Normalidad y Modelos Probabilísticos:

Realizaremos una prueba de normalidad usando el test de Shapiro-Wilk.

In [None]:
from scipy.stats import shapiro

# Prueba de normalidad
stat, p = shapiro(data["Ventas"])
alpha = 0.05

# Imprimir resultado de la prueba
if p > alpha:
    print("Los datos siguen una distribución normal (p =", p, ")")
else:
    print("Los datos no siguen una distribución normal (p =", p, ")")


Dado que los datos no son normales, exploraremos modelos probabilísticos alternativos para describir la distribución de ventas.

### Paso 5: Estimación Puntal y Margen de Error:

Calcularemos el intervalo de confianza para la media de ventas.

In [None]:
from scipy.stats import t

confidence_level = 0.95
n = len(data)
mean = data["Ventas"].mean()
std_error = data["Ventas"].std() / np.sqrt(n)
t_critical = t.ppf((1 + confidence_level) / 2, df=n - 1)

margin_of_error = t_critical * std_error
confidence_interval = (mean - margin_of_error, mean + margin_of_error)

print("Intervalo de Confianza ({}): {}".format(confidence_level, confidence_interval))

El intervalo de confianza nos proporciona un rango donde esperamos que se encuentre la verdadera media de ventas.

A seguir, vamos a realizar pruebas de hipótesis para evaluar algunas conjeturas sobre las ventas.

### Paso 6: Pruebas de Hipótesis Paramétricas:

Supongamos que deseamos probar si el promedio de ventas es significativamente mayor a 50 unidades.

In [None]:
from scipy.stats import ttest_1samp

null_hypothesis = "El promedio de ventas es igual a 50"
alternative_hypothesis = "El promedio de ventas es mayor a 50"

t_stat, p_value = ttest_1samp(data["Ventas"], popmean=50)

# Imprimir resultados de la prueba
print("Valor de t:", t_stat)
print("Valor de p:", p_value)

if p_value < alpha:
    print("Rechazar la hipótesis nula:", alternative_hypothesis)
else:
    print("No hay suficiente evidencia para rechazar la hipótesis nula:", null_hypothesis)

Dado que $p < 0.05$, rechazamos la hipótesis nula y concluimos que el promedio de ventas es mayor a $50$ unidades.

Realizaremos pruebas de hipótesis no paramétricas, considerando que los datos no siguen una distribución normal.

### Paso 7: Pruebas de Hipótesis No Paramétricas:

Supongamos que deseamos probar si las ventas durante los primeros 6 meses son diferentes de las ventas durante los últimos 6 meses.

In [None]:
data.info()

In [None]:
# Convertir la columna "Fecha" a tipo de dato de fecha
data["Fecha"] = pd.to_datetime(data["Fecha"])

In [None]:
data.info()

In [None]:
data.head()

In [None]:
from scipy.stats import mannwhitneyu


# Dividir los datos en dos grupos: primeros 6 meses y últimos 6 meses
first_half = data[data["Fecha"].dt.month <= 6]["Ventas"]
second_half = data[data["Fecha"].dt.month > 6]["Ventas"]

# Realizar la prueba de Mann-Whitney U
statistic, p_value = mannwhitneyu(first_half, second_half, alternative="two-sided")

# Imprimir resultados de la prueba
print("Valor de U:", statistic)
print("Valor de p:", p_value)

if p_value < alpha:
    print("Rechazar la hipótesis nula: Las ventas son diferentes en los dos períodos.")
else:
    print("No hay suficiente evidencia para rechazar la hipótesis nula.")


In [None]:
first_half

In [None]:
mean1st = first_half.mean()
mean1st

In [None]:
mean2nd = second_half.mean()
mean2nd

Dado que $p < 0.05$, rechazamos la hipótesis nula y concluimos que las ventas son diferentes en los dos períodos.

Con base en los resultados obtenidos, tomaremos decisiones empresariales.

### Análisis Final de los resultados

Basándonos en el análisis realizado, podemos concluir lo siguiente:

- Las ventas del producto no siguen una distribución normal.
- Las ventas tienden a agruparse alrededor de ciertos valores, pero también hay valores atípicos.
- La media de ventas es de aproximadamente X unidades con un intervalo de confianza del Y al Z.
- El promedio de ventas es mayor a 50 unidades, lo que sugiere un buen desempeño.
- Las ventas durante los primeros 6 meses son diferentes de las ventas durante los últimos 6 meses.

### Decisiones Propuestas:

Dado el sesgo en la distribución de ventas, considerar estrategias para abordar los valores atípicos.

- Explorar la posibilidad de promociones especiales para aumentar aún más las ventas en el próximo trimestre.
- Evaluar las diferencias en las estrategias de marketing y ventas entre los dos períodos para identificar las causas de la variación.

En resumen, este ejemplo demuestra cómo aplicar los conceptos de estadística univariante en un contexto empresarial real, desde la recopilación y análisis de datos hasta la toma de decisiones fundamentadas. Cada etapa del análisis proporciona información valiosa que guía las decisiones estratégicas de la empresa.