# Actividad formativa II de análisis de datos
## Descripción General del Dataset de Ventas de Productos Electrónicos

Este dataset, denominado `ventas_electronica.csv`, es un conjunto de datos simulado que representa transacciones de venta de una tienda de electrónica. Fue creado específicamente para fines educativos, para proporcionar un escenario realista que incluya datos faltantes y duplicados, permitiendo así una práctica integral en limpieza, manipulación y análisis de datos. No proviene de una fuente real o pública, sino que ha sido confeccionado para replicar las características comunes de un dataset de ventas.

## Estructura y Significado de las Columnas

El dataset contiene información detallada sobre cada venta realizada. A continuación, se describe cada columna:

- `ID_Venta`: Identificador único de cada transacción de venta. Es un número entero. Tipo de Datos Esperado: Numérico (entero).

- `Fecha`: La fecha en que se realizó la venta. Tipo de Datos Esperado: Fecha/Hora.

- `Producto`: Nombre del producto vendido (e.g., "Laptop Ultra", "Auriculares Bluetooth"). Tipo de Datos Esperado: Categórico/Texto (string).

- `Categoria`: La categoría a la que pertenece el producto (e.g., "Portátiles", "Audio", "Smartphones"). Tipo de Datos Esperado: Categórico/Texto (string).

- `Cantidad`: Número de unidades del producto vendidas en esa transacción.Tipo de Datos Esperado: Numérico (entero).

- `Precio_Unitario`: El precio de venta original por una sola unidad del producto, antes de aplicar cualquier descuento. Tipo de Datos Esperado: Numérico (flotante).

- `Costo_Unitario`: El costo incurrido por la tienda para adquirir una sola unidad de ese producto. Tipo de Datos Esperado: Numérico (flotante).

- `Metodo_Pago`: El método utilizado por el cliente para pagar la compra (e.g., "Tarjeta", "Efectivo", "Transferencia"). Tipo de Datos Esperado: Categórico/Texto (string).

- `Ciudad_Venta`: La ciudad donde se realizó la venta (e.g., "Madrid", "Barcelona"). Tipo de Datos Esperado: Categórico/Texto (string).

- `Cliente_Edad`: La edad del cliente que realizó la compra. Tipo de Datos Esperado: Numérico (entero).

- `Cliente_Genero`: El género del cliente ( "M" para masculino, "F" para femenino). Tipo de Datos Esperado: Categórico/Texto (string).

- `Descuento_Aplicado`: El porcentaje de descuento aplicado a esta venta, expresado como una fracción (e.g., 0.05 para un 5%). Tipo de Datos Esperado: Numérico (flotante).

## Objetivo General del Análisis

El objetivo principal de analizar este dataset es extraer información valiosa sobre el rendimiento de ventas de la tienda de electrónica, identificar patrones y generar insights que puedan fundamentar decisiones de negocio. Esto incluye:

- Limpieza y Preparación de Datos: Practicar la identificación y el manejo de valores faltantes y duplicados, así como la correcta conversión de tipos de datos para asegurar la integridad y usabilidad del dataset.

- Cálculo de Métricas Financieras Clave: Derivar métricas esenciales como el ingreso total, el costo total, la ganancia bruta y el margen de ganancia para cada transacción, lo cual es fundamental para evaluar la rentabilidad.

- Análisis Descriptivo: Comprender las características generales de las ventas, como la distribución de productos vendidos, los métodos de pago más comunes, y la demografía de los clientes.

- Identificación de Tendencias y Patrones: Descubrir patrones de venta a lo largo del tiempo (por ejemplo, tendencias mensuales), identificar las categorías de productos más vendidas o rentables, y entender el comportamiento de compra según la ubicación o las características del cliente.

- Generación de Insights Accionables: Utilizar los resultados del análisis para sugerir mejoras en estrategias de marketing, gestión de inventario, optimización de precios o expansión a nuevas ciudades, maximizando así la rentabilidad y la satisfacción del cliente.

En resumen, el análisis busca transformar datos brutos de ventas en conocimiento útil para mejorar el desempeño del negocio.

## Acciones a Realizar con el DataFrame (df_ventas)
















### Parte 1: Exploración y Preparación de Datos

1. Carga y Primera Vista:
- Carga las librerias pandas y matplotlib en tu entorno de trabajo. 
- Carga el archivo ventas_electronica.csv en un DataFrame de Pandas llamado df_ventas y muestra las primeras 7 filas.

2. Dimensiones: Imprime el número total de filas y columnas del DataFrame.

3. Tipos de Datos: Muestra los tipos de datos actuales de cada columna. Observa cuáles son de tipo object pero deberían ser numéricos o de fecha.


4. Resumen Descriptivo: Genera un resumen estadístico de las columnas numéricas.

5. Valores Nulos: Conteo: Cuenta y muestra la cantidad de valores nulos (NaN) en cada columna.

6. Valores Nulos: Porcentaje: Calcula y muestra el porcentaje de valores nulos para cada columna.

7. Manejo de Nulos (Cliente_Edad): Rellena los valores nulos en la columna 'Cliente_Edad' con la mediana de la misma columna. Explica por qué la mediana podría ser mejor que la media en este caso.

7. Manejo de Nulos (Cliente_Edad): Rellena los valores nulos en la columna 'Cliente_Edad' con la mediana de la misma columna. Explica por qué la mediana podría ser mejor que la media en este caso.

8. Manejo de Nulos (Precio/Costo/Descuento): Rellena los valores nulos en 'Precio_Unitario', 'Costo_Unitario' y 'Descuento_Aplicado' con 0. Justifica esta decisión para el contexto de ventas.

9. Verificación de Nulos: Confirma que ya no hay valores nulos en las columnas 'Cliente_Edad', 'Precio_Unitario', 'Costo_Unitario' y 'Descuento_Aplicado'.

10. Conversión de Tipo (Fecha): Convierte la columna 'Fecha' a tipo datetime.

11. Detección de Duplicados: Identifica y muestra cuántas filas están completamente duplicadas en el DataFrame.


12. Eliminación de Duplicados: Elimina las filas duplicadas, conservando solo la primera ocurrencia. Muestra la nueva cantidad de filas para verificar

### Parte 2: Creación de Columnas Calculadas y Filtrado de Datos

13. Cálculo de 'Precio_Venta_Neto': Crea una nueva columna llamada Precio_Venta_Neto. Su valor debe ser el Precio_Unitario ajustado por el Descuento_Aplicado. La fórmula es: Precio_Venta_Neto=Precio_Unitario
times(1−Descuento_Aplicado).

14. Cálculo de 'Ingreso_Total_Venta': Crea una columna Ingreso_Total_Venta multiplicando Cantidad por Precio_Venta_Neto.

15. Cálculo de 'Costo_Total_Venta': Crea una columna Costo_Total_Venta multiplicando Cantidad por Costo_Unitario.

16. Cálculo de 'Ganancia_Bruta': Crea una columna Ganancia_Bruta restando Costo_Total_Venta de Ingreso_Total_Venta.

17. Cálculo de 'Margen_Ganancia_Porcentaje': Crea una columna Margen_Ganancia_Porcentaje como 
left(
fracGanancia_BrutaIngreso_Total_Venta
right)
times100. Asegúrate de manejar la división por cero (si 'Ingreso_Total_Venta' es 0, el margen debe ser 0 o NaN).

18. Filtrado por Categoría: Filtra el DataFrame para mostrar solo las ventas de la categoría 'Portátiles'.

19. Filtrado por Rango de Fechas: Filtra el DataFrame para incluir solo las ventas realizadas en el segundo trimestre de 2023 (Abril a Junio).

20. Filtrado por Múltiples Condiciones: Muestra las ventas de productos de 'Audio' con una 'Cantidad' mayor a 1 y un 'Metodo_Pago' de 'Efectivo'.

21. Selección con .loc (Filas y Columnas): Selecciona y muestra las 'Fecha', 'Producto', 'Ingreso_Total_Venta' y 'Ganancia_Bruta' para todas las ventas realizadas en 'Barcelona'.

22. Selección con .iloc (Rango de Filas y Columnas): Utiliza .iloc para seleccionar las filas desde el índice 50 hasta el 100 (sin incluir el 100) y las columnas correspondientes a 'Producto', 'Cantidad' y 'Precio_Unitario'.

### Parte 3: Agrupación, Aplicación de Funciones y Visualización

23. Ventas Totales por Ciudad: Agrupa los datos por 'Ciudad_Venta' y calcula el 'Ingreso_Total_Venta' y la 'Ganancia_Bruta' sumados para cada ciudad.

24. Ganancia Promedio por Categoría y Género: Agrupa por 'Categoria' y 'Cliente_Genero', luego calcula la 'Ganancia_Bruta' promedio para cada combinación.

25. Producto Top por Ingreso: Identifica el producto (columna 'Producto') que ha generado el mayor 'Ingreso_Total_Venta' total.

26. Método de Pago Más Rentable: Determina qué 'Metodo_Pago' tiene el mayor 'Ingreso_Total_Venta' total.

27. Aplicar Función Personalizada (Segmento de Edad):
- Define una función que tome la 'Cliente_Edad' y la clasifique en 'Joven' (menor de 30), 'Adulto' (entre 30 y 50, ambos inclusive) y 'Mayor' (mayor de 50).
- Aplica esta función para crear una nueva columna 'Segmento_Edad'.Luego, calcula la 'Ganancia_Bruta' promedio para cada 'Segmento_Edad'.

28.  Tendencia de Ventas Mensuales:

- Extrae el mes de la columna 'Fecha' y crea una nueva columna 'Mes_Venta'.

- Agrupa los datos por 'Mes_Venta' y calcula el 'Ingreso_Total_Venta' mensual total.

- Muestra esta tendencia.

29. Diagrama de Dispersión (Edad vs. Ganancia):

- Crea un diagrama de dispersión usando Matplotlib para visualizar la relación entre 'Cliente_Edad' y 'Ganancia_Bruta'.

- Asegúrate de añadir un título al gráfico, etiquetas a los ejes X e Y, y una leyenda si es necesario. ¿Observas alguna correlación visible?

30. Gráfico de Barras (Ingreso por Categoría):

- Crea un gráfico de barras utilizando Matplotlib para mostrar el 'Ingreso_Total_Venta' por 'Categoria'.

- Ordena las barras de mayor a menor ingreso.

- Añade un título al gráfico y etiquetas a los ejes.