# Analisis de Ventas – Fundamentos de Data Science

Este notebook tiene como objetivo realizar un analisis exploratorio basico de un dataset de ventas utilizando Python.

Se aplican tecnicas de:
- Lectura de datos
- Exploracion inicial
- Limpieza de datos
- Transformacion
- Agregacion
- Analisis estadistico basico
- Visualizacion

El proposito es consolidar los fundamentos de manipulacion de datos y analisis exploratorio.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Carga del dataset

Se carga el archivo "ventas.csv" utilizand pandas y se almacena en un DataFrame para su posterior analisis.
Se visualizan las primeras filas del dataset para comprender su estructura general.

In [None]:
df = pd.read_csv('../data/ventas.csv')
df.head()


## Informacion estructural del dataset

Se analiza el tipo de datos de cada columna, valores nulos y estructura general.

In [None]:
df.info()

## Estadisticas descriptivas

Se obtienen estadisticas basicas de las variables numericas como:
- media
- minimo
- maximo
- percentiles

Pudiendo ver valores invalidos como numero negativos o valores en 0

In [None]:
df.describe()

## Deteccion de problemas en los datos

Se identifican:
- Valores nulos
- Registros duplicados


In [None]:
df.isna().sum()

In [None]:
df.duplicated().sum()

## Limpieza de datos

Se eliminan:
- Filas con valores nulos
- Registros duplicados
- Valores invalidos (unidades negativas y precios en cero)

In [None]:
df = df.dropna()
df = df.drop_duplicates()
df = df[(df["unidades"] > 0) & (df["precio"] > 0)]
df.info()

## Transformacion de datos

Se crea una nueva variable derivada llamada `ingresos`, que representa el ingreso generado por cada venta.


In [None]:
df["ingresos"] = df["unidades"] * df["precio"]
df.head()

## Analisis de ingresos

Se calcula:
- Ingreso total
- Ingreso promedio por venta
- Ingreso minimo
- Ingreso maximo

In [None]:
ingreso_total = df["ingresos"].sum()
ingreso_promedio = df["ingresos"].mean()
ingreso_min = df["ingresos"].min()
ingreso_max = df["ingresos"].max()

ingreso_total, ingreso_promedio, ingreso_min, ingreso_max

## Agregaciones

Se agrupan los datos para analizar el comportamiento por region y por producto.

In [None]:
ingresos_por_region = df.groupby('region')['ingresos'].sum()
ingresos_por_producto = df.groupby('producto')['ingresos'].sum()

## Visualizacion de datos

Se representan graficamente los ingresos para facilitar la interpretacion de los resultados.


In [None]:
ingresos_por_region.plot(kind='bar', title='Ingresos por Región')
plt.xlabel('Región')
plt.ylabel('Ingresos')
plt.xticks(rotation=10)
plt.show()

In [None]:
ingresos_por_producto.plot(kind='bar', title='Ingresos por Producto', color='orange')
plt.xlabel('Producto')
plt.ylabel('Ingresos')
plt.xticks(rotation=0)
plt.show()

## Conclusion

A partir del analisis realizado sobre el dataset de ventas, se obtuvieron los siguientes resultados relevantes:

- El ingreso total generado por las ventas fue de **$9850.0**.
- El ingreso promedio por operación de venta fue de **$1094.44**.
- El producto con mayor ingreso acumulado fue **A**.
- La región con mayor volumen de ingresos fue **Norte**.

Estos resultados permiten comprender:
- Que productos generan mayor impacto economico
- Que regiones presentan mayor consumo
- Como se distribuyen los ingresos dentro del sistema de ventas

En este analisis se logro:

- Comprender la estructura del dataset
- Detectar y corregir problemas de calidad de datos
- Aplicar limpieza de datos
- Crear variables derivadas
- Realizar agregaciones
- Obtener resultados de estadisticas basicas
- Visualizar patrones de ingresos

Este proceso representa un flujo tipico de trabajo en analisis de datos:
**ingesta → limpieza → transformación → analisis → visualizacion → interpretacion**
