# Análisis de datos con Pyhon - Pre-entrega
### Nombre y apellido: Sebastian Hernan Ariel Robledo

---
# Etapa 1

## Importar Datasets
### Actividad 1

In [None]:
# Carga de datasets alojados en github
urlClientes = "https://raw.githubusercontent.com/v0ltax/TT-2C2025-Data-Analitycs-Notebooks/refs/heads/main/_Pre-Entrega/clientes.csv"
urlMarketing = "https://raw.githubusercontent.com/v0ltax/TT-2C2025-Data-Analitycs-Notebooks/refs/heads/main/_Pre-Entrega/marketing.csv"
urlVentas = "https://raw.githubusercontent.com/v0ltax/TT-2C2025-Data-Analitycs-Notebooks/refs/heads/main/_Pre-Entrega/ventas.csv"

import pandas as pd

df_clientes = pd.read_csv(urlClientes)
df_marketing = pd.read_csv(urlMarketing)
df_ventas = pd.read_csv(urlVentas)

In [None]:
df_ventas

## Script básico
### Actividades 2 y 3

In [None]:
# Generamos una lista de diccionarios que contenga algunos datos
ventas = [
  {'producto': 'Laptop', 'precio': 500.0, 'cantidad': 3},
  {'producto': 'Heladera', 'precio': 1000.0, 'cantidad': 5},
  {'producto': 'Smartphone', 'precio': 100.0, 'cantidad': 15}
]

In [None]:
# Calculamos las ventas acumuladas - map
ventas_totales = sum(map(lambda x: x['precio'] * x['cantidad'], ventas))
ventas_totales

In [None]:
# Calculamos las ventas acumuladas - listas por comprensión
venta_acumuladas = sum([venta["precio"] * venta["cantidad"] for venta in ventas])
venta_acumuladas

## Dataframe ventas
### Actividad 4
### Análisis exploratorio de **datos**

Aplicamos los métodos de EDA vistos en clase, `info`, `columns`, `dtypes`, `head`, `tail`, `sample`, `unique`, `value_counts`, `describe`, `duplicated`, `isnull`, etc. y documentamos las observaciones:

In [None]:
# Aplicamos info() para familiarizarnos con el dataframe
df_ventas.info()

In [None]:
# Visualizamos los primeros registros con head()
# también podemos usar tail() para visualizar los últimos
df_ventas.head()

In [None]:
# Usar sample() para tomar registros al azar
df_ventas.sample(5)

In [None]:
# Analizamos el campo precio
# Si es numericos se puede aplicar describe()
df_ventas["precio"].describe()

In [None]:
# Analizamos el campo cantidad
# si es numerico se puede aplicar describe()
df_ventas["cantidad"].sample(5)

In [None]:
# Analizamos el campo fecha_venta
df_ventas["fecha_venta"]

In [None]:
# Analizamos el campo categoria
# Probar con value_counts y unique
df_ventas["categoria"].value_counts()

### Actividad 5
### Calidad de datos

In [None]:
# Buscamos registros duplicados
df_ventas.duplicated().sum()

In [None]:
# Visualizamos los duplicados
# keep: 'first', 'last', False
df_ventas[df_ventas.duplicated(keep=False)].sort_values(by="id_venta")

In [None]:
# Buscamos datos nulos
df_ventas.isnull().sum()

In [None]:
# Visualizar los nulos
# df_ventas[df_ventas.isnull().any(axis=1)]
df_ventas[df_ventas.isnull().any(axis=1)]

In [None]:
# Analizar los precios de los NaN a ver que opciones tenemos
# df_ventas[df_ventas["producto"]=="Elementos de cerámica"]
df_ventas["producto"].value_counts()
# df_ventas["producto"].unique()


### Observaciones
* Cantidad de registros: 3035
* Columnas 6
* 35 duplicados, eliminarlos
* Algunos nulos (2), 1% del faltante, dropna
* Campo precio: encontre `$`, removerlo y luego cambiar el dtype a float64
* Campo fecha: ajustar a dtype datetime

## Dataframe marketing

### Analisis exploratorio de datos

Aplicamos los métodos de EDA vistos en clase, `info`, `columns`, `dtypes`, `head`, `tail`, `sample`, `unique`, `value_counts`, `describe`, `duplicated`, `isnull`, etc. y documentamos las observaciones:

In [None]:
# Aplicamos info() para familiarizarnos con el dataframe
df_marketing.info()

In [None]:
# Visualizamos los primeros registros con head()
# también podemos usar tail() para visualizar los últimos
df_marketing.head()

In [None]:
# Analizamos el campo costo
df_marketing["costo"].sample(5)

In [None]:
# Analizamos el campo fecha_inicio
df_marketing["fecha_inicio"].sample(5)

In [None]:
# Analizamos el campo fecha_fin
df_marketing["fecha_fin"].sample(5)

### Calidad de los datos

In [None]:
# Buscamos registros duplicados
df_marketing.duplicated().sum()

In [None]:
# Buscamos registros nulos
df_marketing.isnull().sum()

### Observaciones
* Cantidad de registros: 90
* Columnas: 6
* 0 duplicados
* 0 nulos
* Campo fecha_inicio: ajustar a dtype datetime
* Campo fecha_fin: ajustar a dtype datetime

## Dataframe clientes

### Analisis exploratorio de datos

In [None]:
# Aplicamos info() para familiarizarnos con el dataframe
df_clientes.info()

In [None]:
# para ver los datos head y tail del dataframe
df_clientes

### Calidad de los datos

In [None]:
# Buscamos registros duplicados
df_clientes.duplicated().sum()

In [None]:
# Buscamos datos nulos
df_clientes.isnull().sum()

### Observaciones
* Cantidad de registros: 567
* Columnas: 5
* 0 duplicados
* 0 nulos

---
# Etapa 2

## Limpieza de datos
Actividad 1 - Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.

### Dataframe ventas

* 35 duplicados, eliminarlos - se eliminaron 35 duplicados
* Algunos nulos (2), 1% del faltante, dropna - se eliminaron 2 registros con 2 NaN
* Campo precio: encontre `$`, removerlo y luego cambiar el dtype a float64 - Ok
* Campo fecha: ajustar a dtype datetime - Ok

In [None]:
# Eliminamos registros duplicados
# atributos a evaluar, keep, ignore_index, inplace
df_ventas.drop_duplicates(inplace=True, ignore_index=True)

In [None]:
# Validamos que no haya duplicados
df_ventas.duplicated().sum()

In [None]:
# Eliminamos registros con datos nulos
df_ventas.dropna(inplace=True)

In [None]:
# Validamos que no haya nulos
# df_ventas.isnull().sum()
df_ventas.info()

In [None]:
# Eliminamos el caracter especial $ de precio
# Normalización: usar replace()
# De ser necesario, podemos usar el atributo regex=True
df_ventas["precio"] = df_ventas["precio"].str.strip().str.replace("$", "")

In [None]:
# Validamos que precio no contenga $
df_ventas["precio"].sample(3)

In [None]:
# Convertimos precio de str a float
# Podemos usar pd.to_numeric o astype o incluso combinarlos
df_ventas["precio"] = df_ventas["precio"].astype(float)

In [None]:
# Convertir el dtype de cantidad, de float64 a int64
df_ventas["cantidad"]= df_ventas["cantidad"].astype(int)

In [None]:
# Validar la conversion a int
df_ventas["cantidad"].dtypes

In [None]:
# Convertir el campo fecha_venta a dtype datetime
# pd.to_datetime(df_ventas["fecha_venta"], format="%d/%m/%Y")
# pd.to_datetime(df_ventas["fecha_venta"], dayfirst=True)
df_ventas['fecha_venta'] = pd.to_datetime(df_ventas['fecha_venta'], format="%d/%m/%Y")

In [None]:
# Validar la conversion de fecha
df_ventas['fecha_venta'].dtype

### Dataframe marketing

*** Acciones ***

In [None]:
# Convertir el campo fecha_inicio a dtype datetime


In [None]:
# Convertir el campo fecha_fin a dtype datetime


In [None]:
# Validamos los cambios


## Transformación de datos
Actividad 2 - Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.

In [None]:
df_ventas.head(2)

In [None]:
# Transformación:
# Calculamos el valor de cada venta = precio * cantidad
# Agregamos una nueva columnas
df_ventas["valor_venta"] = df_ventas["precio"] * df_ventas["cantidad"]

In [None]:
# Visualizamos
df_ventas.head(2)

In [None]:
# Agregación:
# Agrupar valor_venta por producto
# Sumamos las ventas dentro de cada grupo
tabla_ventas = (df_ventas.groupby("producto", as_index=False)["valor_venta"].sum())
tabla_ventas.head()

In [None]:
# Usemos describe para analizar algunos valores del dataframe resultante
tabla_ventas.describe()

In [None]:
# Agregamos un plot para visualizar graficamente la distribución
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(tabla_ventas["valor_venta"], bins=30, kde=True, edgecolor="black")
plt.title("Distribución de Valor de Venta con Curva de Densidad")
plt.xlabel("Valor de venta")
plt.ylabel("Frecuencia")
plt.show()

In [None]:
# Calcular el percentil 75 (umbral de alto rendimiento)
umbral_ventas = tabla_ventas["valor_venta"].quantile(0.75)
umbral_ventas

In [None]:
# Identificar productos que superan el umbral
# productos_top = tabla_ventas.query("valor_venta >= @umbral")
productos_top = tabla_ventas[tabla_ventas["valor_venta"] >= umbral_ventas]
productos_top

## Agregación
Actividad 3 - Resumir las ventas por categoría de producto y analizar los ingresos generados.

In [None]:
df_ventas.columns

In [None]:
# Agrupamos por categoria y agregamos la suma
ventas_categoria = df_ventas.groupby("categoria", as_index=False)["valor_venta"].sum()
ventas_categoria.head()

In [None]:
ventas_categoria

In [None]:
# Ordenar y mostrar los resultados
ventas_categoria

## Integración de datos
Actividad 4 - Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.

In [None]:
df_ventas.head(2)

In [None]:
df_marketing.info()

In [None]:
# Unir los datasets ventas y marketing por columna 'producto'
ventas_marketing = pd.merge(df_ventas, df_marketing, on="producto", how="left")

In [None]:
# Verificar coincidencias (muestra)
ventas_marketing.head()

### Analizamos el impacto de la campaña

In [None]:
# Nos quedamos solo con los registros de ventas durante la campaña de marketing
# Seleccionamos solo los campos que nos interesan: "producto", "valor_venta", "costo"


In [None]:
# Agrupamos por producto y hacemos una agregación por "valor de venta" y "costo"
ventas_marketing.groupby("categoria")[["valor_venta","costo"]].sum()

In [None]:
# Generamos una nueva columna con la diferencia entre lo vendido y lo invertido en la campaña
