#Etapa 1: Recopilación y Preparación de Datos (Clases 1 a 4)

Objetivo: Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

Actividades:

1- Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.

2- Realizar un script básico que calcule las ventas mensuales utilizando variables y operadores.

3- Estructuras de Datos: Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.

4- Introducción a Pandas: realizar un análisis exploratorio inicial de los DataFrames.

5- Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.


##Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.

In [1]:
import pandas as pd

dfVentas = pd.read_csv('https://docs.google.com/spreadsheets/d/e/2PACX-1vSYz9Te7ugIr7tKtBxlwny-B7Hf18VS1F-wS-UzyIkRB7V5LfEBQbicgK-1WMSvzYMbckP6RCZXTZSU/pub?output=csv')
dfClientes = pd.read_csv('https://docs.google.com/spreadsheets/d/e/2PACX-1vTHb6ptnC3cgqdYl6plOhXKkM2QjtF28a60Xs3MhWvYBWItL4DjRIIaxFxmVeXqDUQmpIxgAD3rtUqE/pub?output=csv')
dfMarketing = pd.read_csv('https://docs.google.com/spreadsheets/d/e/2PACX-1vSVDYEjlSHtOjTpj6aysH9H38Nm5Ob-4kaFahqfMzLqQO9lgkHLg1PH9TjObzeH--sPXgNpxubLUtab/pub?output=csv')

dfVentas

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos
...,...,...,...,...,...,...
3030,1837,Horno eléctrico,$104.12,9.0,30/12/2024,Electrodomésticos
3031,2276,Laptop,$85.27,9.0,30/12/2024,Electrónica
3032,2696,Laptop,$107.81,4.0,30/12/2024,Electrónica
3033,2913,Smartphone,$99.85,7.0,30/12/2024,Electrónica


##Realizar un script básico que calcule las ventas mensuales utilizando variables y operadores.

In [2]:
# tipo de datos de la columna 'fecha_venta' : object, se cambia a datatime para poder trabajar sobre las fechas
# parámetros :
# -format : para indicar el formato de la fecha y,
# -errors : para evitar valores nulos (lo transforma en NaT)
dfVentas['fecha_venta'] = pd.to_datetime(dfVentas['fecha_venta'], format='%d/%m/%Y', errors='coerce')
dfVentas['fecha_venta']

# agrego columna 'mes' para poder agrupar por ese criterio
dfVentas['mes'] = dfVentas['fecha_venta'].dt.month

# modifico tipo de dato en columna 'precio' para trabajar los valores
dfVentas['precio'] = dfVentas['precio'].str.replace('$', '')
dfVentas['precio'] = pd.to_numeric(dfVentas['precio'], errors='coerce')
dfVentas['precio_final'] = dfVentas['precio'] * dfVentas['cantidad']

# calculo de ventas mensuales
ventas_mensuales = dfVentas.groupby('mes')['precio_final'].sum()

ventas_mensuales

Unnamed: 0_level_0,precio_final
mes,Unnamed: 1_level_1
1,129604.99
2,118672.44
3,136779.15
4,144380.1
5,143727.25
6,108480.17
7,116229.97
8,119680.15
9,115787.85
10,112117.13


##Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.

Me oriente por un diccionario para facilitar la identificación de los registros, tanto como su acceso.

ej : dfVentas[0]['producto'], para acceder al primer elemento de la lista. Y al ser una lista de diccionarios, se usa la clave, para obtener el valor búscado.

In [3]:
# reducir el dataframe a las tres columnas necesarias
datosDeVentas = dfVentas[['producto', 'precio', 'cantidad']]

# convertir el nuevo df a un diccionario
# orient='records' permite tomar cada linea como un diccionario
# el nombre de la columna es la clave
dictVentas = datosDeVentas.to_dict(orient='records')

dictVentas[0]['producto']

'Cuadro decorativo'

##Realizar un análisis exploratorio inicial de los DataFrames.

  --> La función -info()-

In [4]:
# La función -info()- brinda un panorama general del dataframe.
# Es posible identificar nombres de columnas, tipo de dato almacenado y cantidad de registros.
# Así como la cantidad de registros nulos en cada columna.

# Los dataframes no contienen valores nulos significativos,
# pero tal vez sería conveniente modificar algunos tipos de datos.
dfVentas.info()
print()
print()
dfClientes.info()
print()
print()
dfMarketing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3035 entries, 0 to 3034
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   id_venta      3035 non-null   int64         
 1   producto      3035 non-null   object        
 2   precio        3033 non-null   float64       
 3   cantidad      3033 non-null   float64       
 4   fecha_venta   3035 non-null   datetime64[ns]
 5   categoria     3035 non-null   object        
 6   mes           3035 non-null   int32         
 7   precio_final  3033 non-null   float64       
dtypes: datetime64[ns](1), float64(3), int32(1), int64(1), object(2)
memory usage: 178.0+ KB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  567 non-null    int64  
 1   nombre      567 non-null    object 
 2   edad        567 non-null  

  -->  La función head()

In [5]:
# La función head() nos permite visualizar los datos en forma general.
# Es posible obtener una cantidad 'n' de registros.

print("dataframe VENTAS")
print(dfVentas.head())
print()
print()
print("dataframe CLIENTES")
print(dfClientes.head(10))
print()
print()
print("dataframe MARKETING")
print(dfMarketing.head(3))

dataframe VENTAS
   id_venta           producto  precio  cantidad fecha_venta  \
0       792  Cuadro decorativo   69.94       5.0  2024-01-02   
1       811    Lámpara de mesa  105.10       5.0  2024-01-02   
2      1156           Secadora   97.96       3.0  2024-01-02   
3      1372           Heladera  114.35       8.0  2024-01-02   
4      1546           Secadora  106.21       4.0  2024-01-02   

           categoria  mes  precio_final  
0         Decoración    1        349.70  
1         Decoración    1        525.50  
2  Electrodomésticos    1        293.88  
3  Electrodomésticos    1        914.80  
4  Electrodomésticos    1        424.84  


dataframe CLIENTES
   id_cliente               nombre  edad                 ciudad  ingresos
0           1      Aloysia Screase    44          Mar del Plata  42294.68
1           2  Kristina Scaplehorn    25                Posadas  24735.04
2           3       Filip Castagne    50            Resistencia  35744.85
3           4          Liuka 

  --> La función -isnull()-

In [6]:
# Da mayor claridad en cuánto a la cantidad de valores nulos en cada columna

print("df VENTAS")
print(dfVentas.isnull().sum())
print()
print("df CLIENTES")
print(dfClientes.isnull().sum())
print()
print("df MARKETING")
print(dfMarketing.isnull().sum())

df VENTAS
id_venta        0
producto        0
precio          2
cantidad        2
fecha_venta     0
categoria       0
mes             0
precio_final    2
dtype: int64

df CLIENTES
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

df MARKETING
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64


  -->  La función -describe()-

In [7]:
# Permite obtener valores estadísticos de los dataframes.
# Tanto de todo el df como de algunas columnas

print(dfVentas['precio'].describe())
print()
print(dfClientes['ingresos'].describe())
print()
dfMarketing.describe(include='all')

count    3033.000000
mean       75.289034
std        28.734666
min        26.000000
25%        50.020000
50%        75.270000
75%       100.040000
max       124.970000
Name: precio, dtype: float64

count      567.000000
mean     34668.739012
std      12974.531446
min        170.290000
25%      26015.240000
50%      35066.830000
75%      42457.100000
max      88053.010000
Name: ingresos, dtype: float64



Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
count,90.0,90,90,90.0,90,90
unique,,30,3,,78,78
top,,Adorno de pared,TV,,25/09/2024,05/05/2024
freq,,3,30,,2,3
mean,45.5,,,4.928667,,
std,26.124701,,,0.94775,,
min,1.0,,,2.95,,
25%,23.25,,,4.3725,,
50%,45.5,,,4.9,,
75%,67.75,,,5.5625,,


  -->  La función -duplicate()-

In [8]:
# Brinda un panoramo de registros duplicados en los dataframes
print("Cantidad de duplicados en VENTAS : ",dfVentas.duplicated().sum(), " de ", len(dfVentas))
print("Cantidad de duplicados en CLIENTES : ",dfClientes.duplicated().sum(), " de ", len(dfClientes))
print("Cantidad de duplicados en MARKETING : ",dfMarketing.duplicated().sum(), " de ", len(dfMarketing))

Cantidad de duplicados en VENTAS :  35  de  3035
Cantidad de duplicados en CLIENTES :  0  de  567
Cantidad de duplicados en MARKETING :  0  de  90


## Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.

### Resultado del análisis exploratorio :
  - existen valores nulos, pero no en cantidades significativas.
  - en relación a los valores duplicados no representan una proporción considerable.
  - en algunas columnas se podría modificar el tipo de datos para un mejor procesamiento.

#----------------------------------------------------------------------------------

#Etapa 2: Preprocesamiento y Limpieza de Datos (Clases 5 a 8)

Objetivo: Demostrar conocimiento de las técnicas de limpieza y transformación de datos.

Actividades:

1- Limpieza de Datos: Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.

2- Transformación de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.

3- Agregación: Resumir las ventas por categoría de producto y analizar los ingresos generados.

4- Integración de Datos: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.

##Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.

In [9]:
"""                            ---- dataframe Ventas----

# Previo análisis se detectaron duplicados y valores nulos en el dataframe 'VENTAS'
# se eliminan valores nulos ya que se detecta una cantidad irrelevante. """
print("     valores nulos     ")
print("antes:")
print(dfVentas.isnull().sum())
print()
dfVentas.dropna(inplace=True)
print("después:")
print(dfVentas.isnull().sum())


# se eliminan los duplicados.
print()
print()
print("Duplicados en el dataframe Ventas antes del drop_duplicate: ", dfVentas.duplicated().sum())
dfVentas.drop_duplicates(inplace=True)
print("Duplicados en el dataframe Ventas después del drop_duplicate: ", dfVentas.duplicated().sum())
print()
print()

# Se modifica el tipo de datos en las columnas 'cantidad, producto y categoría'.
dfVentas['cantidad'] = dfVentas['cantidad'].astype(int)
dfVentas['producto'] = dfVentas['producto'].astype(str)
dfVentas['categoria'] = dfVentas['categoria'].astype(str)

     valores nulos     
antes:
id_venta        0
producto        0
precio          2
cantidad        2
fecha_venta     0
categoria       0
mes             0
precio_final    2
dtype: int64

después:
id_venta        0
producto        0
precio          0
cantidad        0
fecha_venta     0
categoria       0
mes             0
precio_final    0
dtype: int64


Duplicados en el dataframe Ventas antes del drop_duplicate:  35
Duplicados en el dataframe Ventas después del drop_duplicate:  0




In [10]:
"""                          ---- dataframe Clientes----

# No se detectaron duplicados y valores nulos en el dataframe 'CLIENTES'
 tampoco es necesario realizar limpieza de datos ni modificaciones de tipos"""
dfClientes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  567 non-null    int64  
 1   nombre      567 non-null    object 
 2   edad        567 non-null    int64  
 3   ciudad      567 non-null    object 
 4   ingresos    567 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 22.3+ KB


In [11]:
"""                          ---- dataframe Marketing----

# No se detectaron duplicados y valores nulos en el dataframe 'MARKETING'
# se modifican tipos de datos de columnas 'fecha_inicio, fecha_fin' para un mejor procesamiento."""

dfMarketing.columns
dfMarketing['fecha_inicio'] = pd.to_datetime(dfMarketing['fecha_inicio'], format='%d/%m/%Y', errors='coerce')
print("tipo de dato 'fecha_inicio' : ", dfMarketing['fecha_inicio'].apply(type).unique())

dfMarketing['fecha_fin'] = pd.to_datetime(dfMarketing['fecha_fin'], format='%d/%m/%Y', errors='coerce')
print("tipo de dato 'fecha_fin' : ", dfMarketing['fecha_fin'].apply(type).unique())

tipo de dato 'fecha_inicio' :  [<class 'pandas._libs.tslibs.timestamps.Timestamp'>]
tipo de dato 'fecha_fin' :  [<class 'pandas._libs.tslibs.timestamps.Timestamp'>]


##Transformación de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento

In [12]:
# Se genera un nuevo df agrupando por 'producto' y acumulando el 'precio_final' de cada venta
# inplace=True, modifica el df original.
dfProductosVendidos = dfVentas.groupby('producto')['precio_final'].sum()
dfProductosVendidos.sort_values(ascending=False, inplace=True)
dfProductosVendidos

Unnamed: 0_level_0,precio_final
producto,Unnamed: 1_level_1
Lámpara de mesa,82276.38
Auriculares,74175.58
Microondas,72562.89
Cafetera,59607.31
Cuadro decorativo,54297.6
Smartphone,54132.44
Secadora,52115.45
Jarrón decorativo,51130.88
Batidora,50979.2
Rincón de plantas,50456.45


## Resumir las ventas por categoría de producto y analizar los ingresos generados.

In [13]:
 # El nuevo df 'ventasPorCategoria' contiene las ventas acumuladas por cada categoría.
 ventasPorCategoria = dfVentas.groupby('categoria')['precio_final'].sum()

 ventasPorCategoria.sort_values(ascending=False, inplace=True)
 ventasPorCategoria

Unnamed: 0_level_0,precio_final
categoria,Unnamed: 1_level_1
Electrodomésticos,505299.63
Electrónica,482577.8
Decoración,479216.09


## Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.

In [19]:
mergeVentasMarketing = pd.merge(dfVentas, dfMarketing, on='producto', how='inner')

mergeVentasMarketing

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,mes,precio_final,id_campanha,canal,costo,fecha_inicio,fecha_fin
0,792,Cuadro decorativo,69.94,5,2024-01-02,Decoración,1,349.70,1,RRSS,5.27,2024-04-27,2024-06-04
1,792,Cuadro decorativo,69.94,5,2024-01-02,Decoración,1,349.70,31,Email,5.28,2024-08-15,2024-09-12
2,792,Cuadro decorativo,69.94,5,2024-01-02,Decoración,1,349.70,61,TV,5.30,2024-11-05,2024-12-23
3,811,Lámpara de mesa,105.10,5,2024-01-02,Decoración,1,525.50,32,Email,5.54,2024-03-28,2024-04-20
4,811,Lámpara de mesa,105.10,5,2024-01-02,Decoración,1,525.50,2,RRSS,5.88,2024-05-30,2024-06-29
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8989,2913,Smartphone,99.85,7,2024-12-30,Electrónica,12,698.95,51,Email,4.65,2024-05-28,2024-06-15
8990,2913,Smartphone,99.85,7,2024-12-30,Electrónica,12,698.95,81,TV,4.78,2024-09-28,2024-10-24
8991,2930,Consola de videojuegos,55.47,6,2024-12-30,Electrónica,12,332.82,50,Email,4.97,2024-05-03,2024-05-28
8992,2930,Consola de videojuegos,55.47,6,2024-12-30,Electrónica,12,332.82,20,RRSS,3.16,2024-07-15,2024-08-03
