# **TÍTULO:** EDA VENTAS ONLINE USA

## 1. RESUMEN PROYECTO

**NOTEBOOK:** [EDA VENTAS ONLINE](../EDA_Ventas_Online_USA.ipynb)

El presente EDA contiene un análisis del comportamiento de las ventas online de una empresa radicada en Estados Unidos. 

El conjunto de datos principal contiene información sobre las ventas producidas por la empresa en el plazo de 12 meses, desde Octubre 2020 a Septiembre 2021.

Asimismo, se encuentra detallado el valor de las ventas, las fechas en las que se realizaron las mismas, las categorías de productos vendidos, edad de los clientes, el Estado donde residen los mismos, etc. 

Complementariamente, se utiliza un conjunto de datos secundario que contiene el ingreso promedio familiar por Estado, con el objeto de observar si hay relación entre aquellos Estados que generan más ingresos a la empresa y el poder adquisitivo de los clientes de los mismos. 

## 2. INTRODUCCIÓN

### 2.1. CONTEXTO DEL PROYECTO: 

El presente proyecto lo realizo como alumna del Bootcamp de Data Science de la Universidad 'The Bridge'.

### 2.2. OBJETIVO

El objetivo de este EDA está orientado a fines comerciales, en el sentido de averiguar por ejemplo, cuáles son las categorías de productos que mayores ingresos generan a la empresa, para ampliar quizás el stock de los mismos o continuar en la misma directiva; cuáles son los meses donde se producen más ventas, con el fin de contar con la mercadería suficiente en los meses más fuertes y asimismo, en cuáles menos, con el propósito por ejemplo, de realizar promociones y descuentos.

En relación al marketing, se podría averiguar cuáles son las edades de los clientes que menos consumen para intentar atraerlos, cuáles son los Estados donde menos ventas se producen con el fin de aplicar ténicas para lograr un aumento en las mismas. 

## 3. DATOS UTILIZADOS


### 3.1. DATASETS

**Origen de Datos**: Kaggle.

Los Datasets utilizados son **2** archivos *.csv*. 
- ***Online_Sales_USA.csv*** = Es el DataFrame principal. <br>
Consta de 36 columnas y 286392 filas. <br>
**NO** contiene datos nulos.

- ***Cost_Of_Living_USA.csv*** = Es el DataFrame secundario, de donde se extraerá solo una variable para analizar con el principal, y será utilizado en el Punto 8.4 de este Notebook. <br>
Solo la columna a utilizar contiene 10 datos nulos de fácil relleno.


## 4. ESTRUCTURA DATAFRAMES

### 4.1. COLUMNAS ELIMINADAS

Conforme el análisis que se realizará y las hipótesis a resolver, he eliminado las columnas que eran irrelevantes para mi EDA. 

A continuación realizaré un listado y detallaré resumidamente la razón por la cual se eliminarán. 

1. `'order_id'` = Al no ser un análisis respecto a productos en particular (de hecho, el DataFrame no tiene nombre de producto, sino que se divide por categorías), es irrelevante para mi análisis.
2. `'status'` = Esta columna, establecía por ejemplo, si el pedido había sido cancelado o entregado, lo cual no es relevante para mi análisis.
3. `'item_id'` = Mismo caso que el punto 1. Al no tener el DataFrame especificaciones sobre el producto, ni analizar la venta según productos, no era necesario conseravar dicha columna. 
4. `'sku'` = Al ser un código de stock o inventario interno, no era útil para mi análisis. 
5. `'qty_ordered'` = Dicha columna contenía la cantidad de productos solicitados, para luego multiplicarlo por la columna 'price' que establecía el precio por producto. Por lo que, al no analizar los productos (por no tener detalle de los prodcutos vendidos, sino de las categorías) era irrelevante. 
6. `'price'` = Establecía el precio unitario del producto, para multiplicarlo por la cantidad solicitada, por lo que al no tener en cuenta la cantidad de productos vendidos, no era necesario conservarla. El valor total de la venta se encuentra en la columna `value`, la cual si será conservada para luego analizar el total de ventas por categorías. 
7. `'discount_amount'` = Mi análisis no comprenderá la influencia del descuento en las compras, por lo que era irrelevante. 
8. `'total'` = Esta columna comprendía el costo total de la venta, multiplicando la cantidad de productos solicitados ('qty_ordered') por su precio unitario ('price'), y restando el descuento ('discount_amount').
9. `'payment_method'` = No se analizará las ventas según el método de pago. 
10. `'bi_st'` = Según pude evaluar, esta columna contenía datos sobre los impuestos en las ventas, si el importe era neto o bruto. Pero para no entrar en tantos detalles que no son de conocimiento como por ejemplo, los impuestos que se aplican en EEUU sobre ventas (tax), he decidido eliminarla, y que el precio total de venta (de la columna 'value'), se analice como si incluyese los impuestos.
11. `'ref_num'` = Esta columna contenía un número de referencia pero no detallaba respecto a qué, por lo que, al no poder relacionarla con mis datos válidos para el análisis, he decidido eliminarla. 
12. `'Name Prefix'` = Establecía el prefijo del nombre del cliente, por ejemplo: Miss, Mrs. En efecto, era totalmente irrelevante para el presente análisis.
13. `'First Name'` = La identificación de los clientes en cuanto a sus nombres, no son relevantes, por lo que he decidido eliminar esta columna como las siguientes, y reservar la columna 'cust_id' que contiene el ID de cada cliente, para una posible hipótesis en cuanto a ventas por edad, sexo, región y quizás relacionarlo en ese sentido. 
14. `'Middle Initial'` = Misma explicación que 'First Name'.
15. `'Last Name'` = Misma explicación que 'First Name'.
16. `'full_name'` = Misma explicación que 'First Name'.
17. `'E Mail` = El correo electrónico es un dato personal que no será tenido en cuenta en mi análisis. 
18. `'SSN'` = Establecía el número de Seguridad Social de los clientes, por ende, al conservar la columna 'cust_id' para la identificación de los mismos, la presente ha sido eliminada.
19. `'Phone No.'` = Es irrelevante el número de móvil de los clientes.
20. `'Place Name'` = Luego de analizar el contenido de este columna, he decidido eliminarla ya que, es relevante para mi EDA pero contenía exactamente los mismos datos que 'city', por lo que era una repetición de la localización de las ventas. 
21. `'Zip'` = Creo que el código postal sería útil si mi EDA fuera más a nivel local o regional, pero al tratarse de un país (USA), y ya tener datos en cuanto estado y ciudad, sería demasiado detallado y específico tener en cuenta el código postal.
22. `'User Name'` =  El nombre de usuario era irrelevante por los mismos motivos explicados en 'First Name', y para una posible correlación de ventas con usuarios, he conservado la columna 'cust_id'.
23. `'Discount_Percent'` = Misma explicación que en 'discount_amount'. No serán tenidos en cuenta los descuentos sobre las ventas en mi EDA. 
24. `'county'` = Establecía detalles sobre los condados de EEUU, por lo que he procedido a eliminarla, ya que, la localización de las ventas se analizará en base a los estados y ciudades. 
25. `'year'` = Ya que se utilizará la columna 'order_date' para el análisis temporal. 
26. `'month'` = Igual razón que la anterior.
27. `'gender'` = No se realizarán análisis respecto a los géneros de los clientes.
28. `'Customer Since'` = No se analizará alguna variable en relación a desde cuando un usuario es cliente de la empresa. 

### 4.2. DESCRIPCIÓN DE COLUMNAS DEFINITIVAS

| NOMBRE COLUMNA | DESCRIPCIÓN | TIPO DE VARIABLE |
|----------|----------|----------|
|fecha_de_pedido|Fecha en la que se produjo la venta|Índice - Datetime|
|valor|Valor de cada venta|Cuantitativa, Continua|
|categoria|Categoría de productos|Categórica, Nominal|
|ID_cliente|Identificación del cliente|Categórica, nominal|
|edad|Edad de los consumidores|Cuantitativa, Discreta|
|ciudad|Ciudad desde donde se realizan los pedidos|Categórica, Nominal|
|estado|Estado desde donde se realizan los pedidos|Categórica, Nominal|
|region|Ciudad desde donde se realizan los pedidos|Categórica, Nominal|


### 4.3. TRADUCCIONES

Procedo a traducir las etiquetas de las columnas, los nombres de las categorías y los puntos cardinales contenidos en la columna region, ya que se encuentran en inglés.

Como así también, algunos valores como ser fechas, para dar uniformidad en el lenguaje del proyecto. 

### 4.4. ÍNDICE 

La columna que se utiliza como índice del DataFrame principal es la de fecha de pedido ('fecha_de_pedido'), y a su vez se convierte en objeto DateTime para mayor facilidad en su uso. 

## 5. ESTRUCTURA ANÁLISIS EXPLORATORIO DE DATOS

**Previo a detallar resumidamente la estructura del EDA, informo que en cada punto del mismo, dependiendo el tipo de análisis, variables u otros factores, se realizan estadísticas descriptivas, gráficos de todo tipo, detección de Outliers, hipótesis estadísticas, pruebas no paramétricas y demás.** 

**Asimismo, cada paso del análisis se ha ido detallando en el notebook del EDA, como también se han redactado las conclusiones obtenidas mediante gráficos o estadísticas.**

### 5.1. ANÁLISIS DE VENTAS SEGÚN CATEGORÍAS 

En este título se realizan las siguientes variables: 
1. Distribución de las ventas por categoría de productos.
2. Ingresos obtenidos por la empresa por cada categoría.
3. Análisis de relación entre los ingresos y cantidad de ventas generadas por cada categoría.
4. Se realiza una prueba de correlación de Spearman - Formulación hipótesis.

### 5.2 ANÁLISIS TEMPORAL DE LAS VENTAS

Seguidamente detallo el contenido de este punto: 

1. Análisis de cantidad de ventas por mes. 
2. Análisis de los ingresos obtenidos por mes.
3. Y se analiza si hay una correlación a nivel temporal entre las variables anteriores. 

### 5.3. ANÁLISIS DE LAS VENTAS EN RELACIÓN A LA EDAD DE LOS CONSUMIDORES.



Los títulos que se encuentran de este punto son: 
1. Cantidad de ventas por rangos de edad. 
2. Preferencia de categorías según los rangos de edad de los clientes.

### 5.4. ANÁLISIS DE VENTAS RESPECTO A LOS ESTADOS DE USA Y LOS INGRESOS PROMEDIOS FAMIALIARES EN CADA UNO DE ELLOS. 

En este último título en encuentran los siguientes análisis: 

1. Cantidad de ingresos generados en cada Estado de USA. 
2. Análisis de cantidad de ventas (en valor usd) en relación a los ingresos promedio familiares por Estado. 
3. Prueba de Correlación de Pearson - Formulación hipótesis. 

## 6. LECCIONES Y DESAFIOS



El mayor desafío sin dudas fue el proyecto en general, ya que es el primer EDA que realizo, como detallé en el contexto del proyecto, como alumna del Bootcamp de Data Science. 

En segundo lugar, por mencionar algunos desafíos en específico, las cuestiones más complejas se me presentaban a la hora de estructurar el EDA, pensar qué variables valía la pena analizar, realizar las pruebas según las hipótesis, elegir el gráfico adecuado para representar lo que estaba analizando y formular las conclusiones respecto a ello. 

No obstante, estoy muy contenta con el resultado obtenido :)

## 7. FUENTES Y REFERENCIAS

Para realizar el presente EDA, se han utilizado variadas fuentes. Entre ellas, cabe mencionar:
- [W3Schools](https://www.w3schools.com/python/)
- [Seaborn](https://seaborn.pydata.org/)
- [Python Library](https://docs.python.org/3/library/index.html)

## 8. CONTACTO PARA PREGUNTAS ADICIONALES.

**E-MAIL**: perezologneroximena@gmail.com