# Análisis Exploratorio de Ventas Online
Objetivo: Analizar un conjunto de datos de ventas en línea aplicando técnicas de exploración, limpieza, análisis y visualización con Python.  

* Tomas Castillo Avila

## Instrucciones Generales  
1. Descargue el archivo 'ventas_online.csv' proporcionado junto a esta actividad.  
2. Ejecute el código en Google Colab o Jupyter Notebook.  
3. Complete las respuestas solicitadas en cada sección.  
4. Entregue el Notebook en formato .ipynb o exportado como PDF. 

In [4]:
# importar librerias importantes
import pandas as pd
import matplotlib.pyplot as pl
import numpy as np

## Parte 1 — Carga y Exploración
• Cargar el dataset y mostrar las primeras 10 filas.  
• Mostrar número de filas y columnas.  
• Mostrar tipos de datos por columna.  
• Contar valores nulos por columna.  
Preguntas: ¿Cuántos valores nulos hay en cada columna? ¿Qué variables son numéricas y cuáles categóricas?  


In [5]:
# cargar el dataset
myDf = pd.read_csv("local-data/ventas_online.csv")

In [3]:
# mostrar las primeras 10 lineas
myDf.head(n=10)

Unnamed: 0,order_id,date,category,price,quantity,country
0,1,2024-01-01,Juguetes,305.51,9,España
1,2,2024-01-02,Deporte,275.62,6,
2,3,2024-01-03,Hogar,119.81,3,México
3,4,2024-01-04,Deporte,198.5,7,Chile
4,5,2024-01-05,Deporte,299.27,9,España
5,6,2024-01-06,Ropa,250.9,3,México
6,7,2024-01-07,Hogar,493.95,2,
7,8,2024-01-08,Hogar,72.54,7,México
8,9,2024-01-09,Hogar,349.1,7,Colombia
9,10,2024-01-10,Deporte,205.14,4,Perú


In [6]:
# cantidad de filas y columnas
print("filas:",len(myDf), "   columnas:", myDf.shape[1])

filas: 2005    columnas: 6


In [15]:
# tipo de dato por columna
print(myDf.dtypes)

order_id      int64
date         object
category     object
price       float64
quantity      int64
country      object
dtype: object


In [14]:
# valores nulos por columna
print(myDf.isnull().sum())

order_id      0
date          0
category      0
price         0
quantity      0
country     239
dtype: int64


## Parte 2 — Limpieza de Datos
• Eliminar registros duplicados.  
• Eliminar registros con precios negativos.  
• Rellenar valores nulos en 'country' con 'Unknown'.  
Preguntas: ¿Cuántos duplicados había? ¿Cuántos registros con precios negativos fueron eliminados?  


In [6]:
# rliminar duplicados
myDf.drop_duplicates()

Unnamed: 0,order_id,date,category,price,quantity,country
0,1,2024-01-01,Juguetes,305.51,9,España
1,2,2024-01-02,Deporte,275.62,6,
2,3,2024-01-03,Hogar,119.81,3,México
3,4,2024-01-04,Deporte,198.50,7,Chile
4,5,2024-01-05,Deporte,299.27,9,España
...,...,...,...,...,...,...
1995,1996,2029-06-18,Electrónica,494.78,8,Chile
1996,1997,2029-06-19,Deporte,445.31,3,México
1997,1998,2029-06-20,Electrónica,188.88,7,Argentina
1998,1999,2029-06-21,Deporte,101.61,1,México


In [7]:
#eliminar registros con precios negativos

# for i in range (myDf.shape[0]):
#     if myDf.loc[i,"price"]<0:
#         print(myDf.loc[i,"price"])
#         # eliminar fila
#         myDf=myDf.drop(index=i)

# quitar los valores negativos
mask = myDf['price'] < 0
myDf = myDf.loc[~mask].reset_index(drop=True)   # reasignar y resetear índice si quieres

In [17]:
# valores country nan
myDf["country"] = myDf["country"].fillna("Unknown")


## Parte 3 — Análisis por País
• Calcular el total de ventas por país.  
• Mostrar el Top 5 países por ingresos.  
• Identificar el país con menores ingresos.  
• Generar gráfico de barras con el Top 5.  
Preguntas: ¿Cuál es el país con más ingresos? ¿Cuál tiene menos ingresos?

In [None]:
# ventas por pais
grupos = myDf.groupby(by="country")
print(grupos["quantity"].sum())

country
Argentina    1436
Chile        1202
Colombia     1185
España       1317
México       1220
Perú         1247
USA          1169
Unknown      1224
Name: quantity, dtype: int64


In [None]:
# top 5 paises por ingresos

# pais con menores ingresos

# grafico de barras


## Parte 4 — Análisis por Categoría
• Calcular la cantidad total vendida por categoría.  
• Mostrar categorías ordenadas de mayor a menor venta.  
• Generar gráfico de barras con las ventas por categoría.  
Preguntas: ¿Qué categoría es la más vendida? ¿Cuál es la menos vendida?  

## Parte 5 — Análisis Temporal
• Convertir la columna 'date' a tipo fecha.  
• Calcular ventas mensuales.  
• Generar gráfico de línea con la evolución mensual de ventas.  
Preguntas: ¿En qué mes hubo más ingresos? ¿Hay patrones estacionales?  

## Parte 6
1. ¿Cuál es el ticket promedio por país y cuál país tiene el ticket promedio más alto?
2. ¿Qué porcentaje del total de ingresos proviene del Top 3 países?
3. ¿Cuál es la categoría más vendida en cada país?
4. ¿Cuál es la correlación entre precio y cantidad vendida?
5. ¿Cuáles son los 5 días con mayores ventas totales y sus ingresos?
6. ¿Cuánto representa cada categoría en porcentaje sobre el total de unidades vendidas?
7. ¿Cuál es la tasa de crecimiento de ingresos mes a mes?
8. ¿En cuántos meses las ventas fueron superiores al promedio anual?
9. ¿Cuál es el país con mayor variabilidad (desviación estándar) en el ticket promedio?
10. ¿Qué categoría presenta mayor variabilidad en precios?

In [13]:
# 1. ticket por paus y mas alto

grupos=myDf.groupby(by="country")


# for i in grupos:
#     i[""]

myDf.groupby('country')['total'].mean().sort_values(ascending=False)




KeyError: 'Column not found: total'

## Entrega
• Suba su Notebook (.ipynb) o PDF a la plataforma Blackboard  
• Incluya todos los gráficos generados.  
• Responda las preguntas de cada sección en el mismo Notebook.   