<a href="https://colab.research.google.com/github/Patri2508/Archivos-DA/blob/main/Proyecto_CienciadeDatos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Entrega 1 -  Análisis de datos de ventas**

**Introducción**

Dataset: Ventas.csv

Este proyecto analiza una base de datos de ventas para diversos canales y países. Es una base de datos referencial para propósitos educativos.

**Objetivo del análisis**

El objetivo es analizar la composición y distribución de las ventas por las siguientes variables: edad, ubicación geográfica, canal de ventas y sexo, entre otros.

**El análisis se enfoca en lo siguiente: **

*   Ubicación geográfica: Dada que la sede se encuentra en China se esperaría que al menos un 70% vengan de China.
*   Género del comprador: Se espera dado los productos que el 70% de la ventas vengan del género femenino.
*   Comportamiento temporal: Se espera que la mayoría de las ventas ocurren fines de semana.
*   Canal de Ventas: Se espera dado que es una tienda mundial al menos un 60% provenga de ventas en línea.

**Gráficos y análisis de variables:**

Dado el análisis necesario se ve expresado en gráficos para constatar las hipótesis planteadas en lo que se enfoca el análisis. Se van a usar las variables de sexo, ubicación geográfica, fecha de la venta y el canal.

El dataset presentado refleja los datos necesarios para el análisis.

**Diccionario de datos:**

Se incluye un diccionario de datos para la comprensión de los campos. Campos representados en el dataset:

*   sales_date: Fecha de la venta
*   sales_amount: Monto de la venta
*   product_name: nombre del producto de la venta
*   customer_name: nombre del cliente
*   customer_email: email del cliente
*   customer_age: edad del cliente
*   customer_gender: genero del cliente
*   customer_country: país del cliente
*   payment_method: metodo de pago
*   shipping_address: dirección de envío
*   shipping_city: ciudad de envío
*   shipping_postal_code: código postal del envio
*   shipping_country: país de envío
*   promo_code_used: código de promoción
*   sales_representative: representante de ventas
*   sales_channel: canal de ventas











In [None]:
# import de librerias

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import datetime as dt
import locale
import matplotlib.pyplot as plt
# Cargar en la variable url la dirección del archivo
url= 'https://raw.githubusercontent.com/Patri2508/cienciadatos/refs/heads/main/VENTAS.csv'


# Asignar a la variable df el dataset
df = pd.read_csv(url, sep=';')
# Lectura basica de la cabecera
df.head()






Unnamed: 0,sales_date,sales_amount,product_name,customer_name,customer_email,customer_age,customer_gender,customer_country,payment_method,shipping_address,shipping_city,shipping_postal_code,shipping_country,promo_code_used,sales_representative,sales_channel
0,11/1/2022,6323.96,Vaccum Bag - 14x20,Temp Dodsworth,ajennions0@nytimes.com,59,Male,France,PayPal,36095 Rockefeller Crossing,Saint-Dié-des-Vosges,88109 CEDEX,United States,True,Angus Jennions,In-store
1,12/19/2022,7112.29,Lettuce - Romaine,Johnathan Gotts,amawford1@live.com,44,Male,Nigeria,Credit Card,0 Mariners Cove Court,Nguru,,Peru,False,Any Mawford,Phone
2,1/16/2022,994.77,"Soup - Clam Chowder, Dry Mix",Murial Eddowes,fsleigh2@usnews.com,74,Female,China,PayPal,154 Blue Bill Park Park,Wuchagou,,China,False,Faustine Sleigh,In-store
3,7/27/2022,9133.75,Spring Roll Wrappers,Dagny Agge,plabitt3@fotki.com,64,Male,Russia,Credit Card,598 Thierer Court,Kalinovskaya,366128,China,True,Parnell Labitt,In-store
4,3/25/2022,5736.09,Lid Coffeecup 12oz D9542b,Petronia Doumenc,erickeard4@taobao.com,25,Female,Philippines,Credit Card,13751 Harper Alley,Basiao,5806,Cyprus,False,Erna Rickeard,Online


In [9]:
# Se obtiene información básica de las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 16 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   sales_date            1000 non-null   object 
 1   sales_amount          1000 non-null   float64
 2   product_name          1000 non-null   object 
 3   customer_name         1000 non-null   object 
 4   customer_email        1000 non-null   object 
 5   customer_age          1000 non-null   int64  
 6   customer_gender       1000 non-null   object 
 7   customer_country      1000 non-null   object 
 8   payment_method        1000 non-null   object 
 9   shipping_address      1000 non-null   object 
 10  shipping_city         1000 non-null   object 
 11  shipping_postal_code  494 non-null    object 
 12  shipping_country      1000 non-null   object 
 13  promo_code_used       1000 non-null   bool   
 14  sales_representative  1000 non-null   object 
 15  sales_channel         

In [19]:
# Conversiones necesarias

# Convertir  ´Sales_date´ a datetime
df['sales_date'] = pd.to_datetime(df['sales_date'])

# Convertir columnas a texto
df['sales_channel'] = df['sales_channel'].astype(str)
df['customer_gender'] = df['customer_gender'].astype(str)
df['customer_country'] = df['customer_country'].astype(str)
df['shipping_country'] = df['shipping_country'].astype(str)
df['promo_code_used'] = df['promo_code_used'].astype(str)
df['sales_representative'] = df['sales_representative'].astype(str)





KeyError: 'sales_date'

In [42]:
# Creacion de columnas para analisis de datos

# Obtener el dia de la semana de la venta
df['day_of_week'] = df['sales_date'].dt.day_name()

# Obtener el mes de la venta
df['month'] = df['sales_date'].dt.month_name()

# Obtener el nombre del dia de la semana

df['Day name'] = df['sales_date'].dt.strftime('%A')



KeyError: 'sales_date'

In [10]:
# Revision de valores nulos
df.isnull().sum()


Unnamed: 0,0
sales_date,0
sales_amount,0
product_name,0
customer_name,0
customer_email,0
customer_age,0
customer_gender,0
customer_country,0
payment_method,0
shipping_address,0


In [12]:
# Tratamiento de valores nulos

df.fillna({'shipping_postal_code': 'without code'}, inplace=True)

In [14]:
# Revision de valores nulos
df.isnull().sum()

Unnamed: 0,0
sales_date,0
sales_amount,0
product_name,0
customer_name,0
customer_email,0
customer_age,0
customer_gender,0
customer_country,0
payment_method,0
shipping_address,0


In [15]:
# Renombrar Columnas al español

columnas_originales = [
    'sales_date', 'sales_amount', 'product_name', 'customer_name',
    'customer_email', 'customer_age', 'customer_gender', 'customer_country', 'payment_method',
    'shipping_address', 'shipping_city', 'shipping_postal_code', 'shipping_country','promo_code_used',
    'sales_representative', 'sales_channel'
]

nuevos_nombres = [
    'Fecha de Venta', 'Monto de Venta', 'Nombre del Producto', 'Nombre del Cliente',
    'Email del Cliente', 'Edad del Cliente', 'Género', 'País del Cliente', 'Método de Pago',
    'Dirección de Envío', 'Ciudad de Envío', 'Código Postal de Envío', 'País de Envío', 'Código de Promoción',
    'Representante de Ventas', 'Canal de Ventas'
]

df.columns = nuevos_nombres

In [16]:
# Visualizacion de columnas
df.columns

Index(['Fecha de Venta', 'Monto de Venta', 'Nombre del Producto',
       'Nombre del Cliente', 'Email del Cliente', 'Edad del Cliente', 'Género',
       'País del Cliente', 'Método de Pago', 'Dirección de Envío',
       'Ciudad de Envío', 'Código Postal de Envío', 'País de Envío',
       'Código de Promoción', 'Representante de Ventas', 'Canal de Ventas'],
      dtype='object')

In [17]:
df.tail()

Unnamed: 0,Fecha de Venta,Monto de Venta,Nombre del Producto,Nombre del Cliente,Email del Cliente,Edad del Cliente,Género,País del Cliente,Método de Pago,Dirección de Envío,Ciudad de Envío,Código Postal de Envío,País de Envío,Código de Promoción,Representante de Ventas,Canal de Ventas
995,12/21/2022,1134.89,Filling - Mince Meat,Aretha Edie,pblakestonrn@shinystat.com,68,Female,Czech Republic,PayPal,85443 Knutson Pass,Hronov,549 31,China,True,Penny Blakeston,Online
996,4/27/2022,1825.2,Appetizer - Cheese Bites,Jule Stanesby,kgomarro@sogou.com,71,Bigender,Peru,PayPal,2519 Northland Drive,Cumba,without code,Morocco,False,Kayley Gomar,In-store
997,2/12/2022,9714.61,Glaze - Clear,Jeffry Le Strange,tahrensrp@behance.net,24,Male,Greece,PayPal,84331 Heffernan Street,Mikró Monastíri,without code,Indonesia,False,Tad Ahrens,Online
998,2/19/2022,9531.42,Cookie Chocolate Chip With,Gerald Lys,lbenfordrq@tiny.cc,40,Male,France,Cash,661 Hooker Parkway,Reims,51086 CEDEX,Poland,False,Leigh Benford,Online
999,7/15/2022,1924.06,Soho Lychee Liqueur,Olenolin Lewis,lspeightrr@blogger.com,55,Male,Brazil,Cash,8 Barby Alley,Boituva,18550-000,Czech Republic,False,Lonnard Speight,Online


In [20]:
# Informacion del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Fecha de Venta           1000 non-null   object 
 1   Monto de Venta           1000 non-null   float64
 2   Nombre del Producto      1000 non-null   object 
 3   Nombre del Cliente       1000 non-null   object 
 4   Email del Cliente        1000 non-null   object 
 5   Edad del Cliente         1000 non-null   int64  
 6   Género                   1000 non-null   object 
 7   País del Cliente         1000 non-null   object 
 8   Método de Pago           1000 non-null   object 
 9   Dirección de Envío       1000 non-null   object 
 10  Ciudad de Envío          1000 non-null   object 
 11  Código Postal de Envío   1000 non-null   object 
 12  País de Envío            1000 non-null   object 
 13  Código de Promoción      1000 non-null   bool   
 14  Representante de Ventas  

In [25]:
# Conversiones necesarias

# Convertir  ´Sales_date´ a datetime
df['Fecha de Venta'] = pd.to_datetime(df['Fecha de Venta'])

# Convertir columnas a texto
df['Canal de Ventas'] = df['Canal de Ventas'].astype(str)
df['Género'] = df['Género'].astype(str)
df['País del Cliente'] = df['País del Cliente'].astype(str)



In [26]:
# Informacion del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Fecha de Venta           1000 non-null   datetime64[ns]
 1   Monto de Venta           1000 non-null   float64       
 2   Nombre del Producto      1000 non-null   object        
 3   Nombre del Cliente       1000 non-null   object        
 4   Email del Cliente        1000 non-null   object        
 5   Edad del Cliente         1000 non-null   int64         
 6   Género                   1000 non-null   object        
 7   País del Cliente         1000 non-null   object        
 8   Método de Pago           1000 non-null   object        
 9   Dirección de Envío       1000 non-null   object        
 10  Ciudad de Envío          1000 non-null   object        
 11  Código Postal de Envío   1000 non-null   object        
 12  País de Envío            1000 non-n

In [44]:
# Creacion de columnas para analisis de datos

# Obtener el dia de la semana de la venta
df['dia_semana'] = df['Fecha de Venta'].dt.day_name()

# Obtener el mes de la venta
df['mes'] = df['Fecha de Venta'].dt.month_name()

# Obtener el nombre del dia de la semana

df['Nombre_dia'] = df['Fecha de Venta'].dt.strftime('%A')

In [45]:
# Informacion del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 19 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Fecha de Venta           1000 non-null   datetime64[ns]
 1   Monto de Venta           1000 non-null   float64       
 2   Nombre del Producto      1000 non-null   object        
 3   Nombre del Cliente       1000 non-null   object        
 4   Email del Cliente        1000 non-null   object        
 5   Edad del Cliente         1000 non-null   int64         
 6   Género                   1000 non-null   object        
 7   País del Cliente         1000 non-null   object        
 8   Método de Pago           1000 non-null   object        
 9   Dirección de Envío       1000 non-null   object        
 10  Ciudad de Envío          1000 non-null   object        
 11  Código Postal de Envío   1000 non-null   object        
 12  País de Envío            1000 non-n

In [62]:
# ETL Pedidos = Dataset Ventas (agrupados)

pedidos = df.groupby('Fecha de Venta').agg(
    monto_venta=('Monto de Venta', 'sum'),
    cantidad_ventas=('Monto de Venta', 'count'),
    promedio_venta=('Monto de Venta', 'mean'),
    maximo_venta=('Monto de Venta', 'max'),
    minimo_venta=('Monto de Venta', 'min'),
    canal_ventas=('Canal de Ventas', 'first'),
    ubicacion_geografica=('País del Cliente', 'first'),
    fecha_venta=('Fecha de Venta', 'first'),
    genero=('Género', 'first'),
    dia_semana=('dia_semana', 'first')
    ).reset_index()
pedidos

pedidos.head()

Unnamed: 0,Fecha de Venta,monto_venta,cantidad_ventas,promedio_venta,maximo_venta,minimo_venta,canal_ventas,ubicacion_geografica,fecha_venta,genero,dia_semana
0,2022-01-01,8834.39,3,2944.796667,4291.34,2034.87,Online,Sweden,2022-01-01,Female,Saturday
1,2022-01-02,9922.29,2,4961.145,8038.5,1883.79,In-store,Indonesia,2022-01-02,Male,Sunday
2,2022-01-03,22026.45,5,4405.29,7727.8,243.01,In-store,China,2022-01-03,Male,Monday
3,2022-01-04,3599.8,2,1799.9,2651.1,948.7,Phone,Portugal,2022-01-04,Female,Tuesday
4,2022-01-05,21601.52,3,7200.506667,9331.89,4642.52,Online,Thailand,2022-01-05,Male,Wednesday


In [63]:
# Análisis describe
pedidos.describe()

Unnamed: 0,Fecha de Venta,monto_venta,cantidad_ventas,promedio_venta,maximo_venta,minimo_venta,fecha_venta
count,342,342.0,342.0,342.0,342.0,342.0,342
mean,2022-06-30 22:27:22.105263104,14554.569006,2.923977,4808.53051,6742.264357,2817.829883,2022-06-30 22:27:22.105263104
min,2022-01-01 00:00:00,91.31,1.0,91.31,91.31,14.28,2022-01-01 00:00:00
25%,2022-04-01 06:00:00,6861.7425,2.0,3372.14875,4996.7975,1053.54,2022-04-01 06:00:00
50%,2022-06-29 12:00:00,13094.19,3.0,4880.622,7403.93,2213.09,2022-06-29 12:00:00
75%,2022-10-02 18:00:00,20816.15,4.0,6378.345,8892.06,4292.01,2022-10-02 18:00:00
max,2022-12-30 00:00:00,52357.06,10.0,9996.41,9996.41,9996.41,2022-12-30 00:00:00
std,,9952.543758,1.59363,2020.034906,2621.857202,2255.37273,


In [64]:
# Análisis por dia de la semana
conteo_dia_semana = pedidos['dia_semana'].value_counts().sort_index()
conteo_dia_semana

Unnamed: 0_level_0,count
dia_semana,Unnamed: 1_level_1
Friday,48
Monday,46
Saturday,52
Sunday,51
Thursday,47
Tuesday,50
Wednesday,48


El dia de mayor venta es sabado, coincide con la hipotesis del fin de semana siendo el segundo el domingo de mayor venta.

In [56]:
# Análisis por ubicacion
conteo_ubicacion = pedidos['ubicacion_geografica'].value_counts().sort_index()
conteo_ubicacion

Unnamed: 0_level_0,count
ubicacion_geografica,Unnamed: 1_level_1
Afghanistan,4
Aland Islands,1
Argentina,7
Armenia,1
Aruba,1
...,...
Ukraine,6
United States,10
Vietnam,2
Zambia,2


In [65]:
cantVentas = sum(conteo_ubicacion)
porcentajeChina = conteo_ubicacion['China']/ cantVentas if cantVentas > 0 else 0
print('Ventas en China:', conteo_ubicacion['China'])
print('Total de Ventas:', cantVentas)
print('Procentaje de China:', round(porcentajeChina*100,1))

Ventas en China: 65
Total de Ventas: 342
Procentaje de China: 19.0


El porcentaje de ventas en China es muy inferior al esperado.

In [66]:
cantVentas = sum(conteo_ubicacion)
porcentajeUnitedStates = conteo_ubicacion['United States']/ cantVentas if cantVentas > 0 else 0
print('Ventas en United States:', conteo_ubicacion['United States'])
print('Total de Ventas:', cantVentas)
print('Procentaje de United States:', round(porcentajeUnitedStates*100,1))

Ventas en United States: 10
Total de Ventas: 342
Procentaje de United States: 2.9


In [67]:
# Análisis por canal
conteo_canal = pedidos['canal_ventas'].value_counts().sort_index()
conteo_canal

Unnamed: 0_level_0,count
canal_ventas,Unnamed: 1_level_1
In-store,121
Online,101
Phone,120


El canal in-store (en tienda) representa el mayor volumen de ventas


In [69]:
# Análisis por genero
conteo_genero = pedidos['genero'].value_counts().sort_index()
conteo_genero

Unnamed: 0_level_0,count
genero,Unnamed: 1_level_1
Agender,3
Bigender,7
Female,162
Genderfluid,6
Genderqueer,4
Male,152
Non-binary,7
Polygender,1


El mayor porcentaje de ventas se lo llevan las identificadas como femeninos.