<a href="https://colab.research.google.com/github/oyhenart/IAO-Football-Analytics/blob/main/Pre_Entrega.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Etapa 1: Recopilación y Preparación de Datos (Clases 1 a 4)
**Objetivo:** Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

**Actividades:**

**1-** Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.

**2-** Realizar un script básico que calcule las ventas mensuales utilizando variables y operadores.

**3-** Estructuras de Datos: Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.

**4-** Introducción a Pandas: realizar un análisis exploratorio inicial de los DataFrames.

**5-** Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.

# Etapa 2: Preprocesamiento y Limpieza de Datos (Clases 5 a 8)
**Objetivo**: Demostrar conocimiento de las técnicas de limpieza y transformación de datos.
**Actividadesl:**

**1-** Limpieza de Datos: Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.

**2-** Transformación de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.

**3-** Agregación: Resumir las ventas por categoría de producto y analizar los ingresos generados.

**4-** Integración de Datos: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.

## Etapa 1


---
**Conclusiones**

Se trabajó en la recolección y limpieza de los datos, resolviendo los típicos problemas de formatos y valores faltantes.

Después se exploraron las variables principales para entender la estructura del dataset y ver qué información podía aportar.


En esta parte el foco fue ordenar y conocer bien la base antes de meterse con análisis más profundos.


Para cerrar, se logró una base sólida y confiable para seguir trabajando, con un panorama claro de qué datos hay y cuáles pueden servir más adelante.



In [None]:
import pandas as pd

# Updated URL to download the CSV data directly
ventas = pd.read_csv('https://docs.google.com/spreadsheets/d/1I9PNmJNTcgwtFPVL69GUTpnnqPoI2EbQ3oApyPKa6W8/export?format=csv')
marketing = pd.read_csv('https://docs.google.com/spreadsheets/d/1jaov3E_NZfYSfd8RjlYRrkNOYr5v0Jas_39b-WYbXno/export?format=csv')
clientes = pd.read_csv('https://docs.google.com/spreadsheets/d/1r97bpzHDpVHzUUqa2W4cigtlMqZw130Y5Y8cVub8SCk/export?format=csv')


In [None]:
#ver si se carga bien
ventas

In [None]:
#ver si se carga bien
marketing

In [None]:
#ver si se carga bien
clientes

In [None]:
ventas['precio'] = ventas['precio'].replace('[\$]', '', regex=True).astype(float)
#sacamos simbolos y convertimos a float

In [None]:
#Convertir fecha al formato de fecha
ventas["fecha_venta"] = pd.to_datetime(ventas["fecha_venta"], dayfirst=True)

#Creo una nueva tabla 'total'
ventas["ventas_total"] = ventas["precio"] * ventas["cantidad"]

#Realizado un script básico que calcule las ventas mensuales utilizando variables y operadores.
ventas["Mes"] = ventas["fecha_venta"].dt.to_period("M")

ventas_mensuales = ventas.groupby("Mes")["ventas_total"].sum().reset_index()

print(ventas_mensuales)

In [None]:
#Estructuras de Datos: Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.

ventas_dicccionario = {
    "producto": list(ventas["producto"]),
    "precio": list(ventas["precio"]),
    "cantidad": list(ventas["cantidad"])
}
#Para representar las ventas, uso un diccionario, ya que cada producto puede tener clave y valores

In [None]:
#Introducción a Pandas: realizar un análisis exploratorio inicial de los DataFrames.
ventas.info()
ventas.describe()
ventas["producto"].value_counts()

In [None]:
#Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.

#Nulos
print("Valores nulos por columna:")
print(ventas.isnull().sum())

#Duplicados
duplicados = ventas[ventas.duplicated()]
print("Cantidad de filas duplicadas:", ventas.duplicated().sum())
display(duplicados)


“El dataset de ventas contiene 3035 registros, con 8 valores nulos en las columnas **precio**, **cantidad**, **total**, **venta_total** y 35 registros duplicados.”

> Se recomienda eliminarlos antes del análisis.



### CLIENTES

In [None]:
#vemos los clientes
print(clientes)

In [None]:
#printeo un ejemplo
print('Primeras filas de clientes: ')
print(clientes.head())

In [None]:
#chequear nulls
print('Valores nulos por columna:')
print(clientes.isnull().sum())

In [None]:
print(f'Cantidad de filas duplicadas: {clientes.duplicated().sum()}')

No hay errores en la lista de Clientes

### MARKETING

In [None]:
'''
voy a repetir el proceso,
pero con la nueva tabla.
'''
print(marketing)

In [None]:
print('Primeras filas de marketing: ')
print(marketing.head())

In [None]:
#ver nulls
print('Valores nulos por columna:')
print(marketing.isnull().sum())

In [None]:
print(f'Cantidad de filas duplicadas: {clientes.duplicated().sum()}')

No hay errores en la tabla de Marketing

In [None]:
#paso las columnas de ingresos a float

clientes['ingresos'] = clientes['ingresos'].astype(float)
clientes.columns = clientes.columns.str.strip()
marketing.columns = marketing.columns.str.strip()

# Etapa 2

---
**Conclusiones**

El análisis exploratorio: se revisaron estadísticas básicas y se vieron tendencias generales.

Todo el foco estuvo en observar comportamientos y encontrar primeros indicios, sin todavía buscar modelos o predicciones.

Se lograron observaciones útiles sobre el comportamiento general de los datos, lo que deja bien planteado el camino para un análisis más profundo.



In [None]:
#Transformación de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.

ventas.dtypes

In [None]:
#grupo ventas totale x producto
ventas_producto = ventas.groupby("producto")["ventas_total"].sum().reset_index()
ventas_producto

In [None]:
#percentil
umbral = ventas_producto["ventas_total"].quantile(0.75)
umbral

In [None]:
#seleccion x filtrado
mejores_productos = ventas_producto[ventas_producto["ventas_total"] >= umbral]
mejores_productos

In [None]:
#ALTO RENDIMIENTO
ventas_alto_rendimiento = ventas[ventas["producto"].isin(mejores_productos["producto"])]
ventas_alto_rendimiento

In [None]:
#chequear si se ven los resultados
print(ventas_alto_rendimiento)
print(ventas_producto)
print(mejores_productos)

In [None]:
print('Primeras filas de ventas_alto_rendimiento: ')
print(ventas_alto_rendimiento.head())

print('\nPrimeras filas de ventas_producto: ')
print(ventas_producto.head())

print('\nPrimeras filas de mejores_productos: ')
print(mejores_productos.head())

In [None]:
#agregacion x cat de proucto
ventas_por_categoria = ventas.groupby("categoria")["ventas_total"].sum().reset_index()
ventas_por_categoria

In [None]:
ventas_por_categoria.columns = ["categoria", "ingresos_totales"]
ventas_por_categoria = ventas_por_categoria.sort_values(by="ingresos_totales", ascending=False)
ventas_por_categoria

In [None]:
#printeo
print('Ingresos totales por categoria: ')
print(ventas_por_categoria)

In [None]:
'''
 merge de ventas x marketing
convierto fechas
'''
#fechas
marketing['fecha_inicio'] = pd.to_datetime(marketing['fecha_inicio'], dayfirst=True)
marketing['fecha_fin'] = pd.to_datetime(marketing['fecha_fin'], dayfirst=True)

#merge
ventas_marketing = pd.merge(ventas, marketing, on='producto', how='left')

In [None]:
#printeo
print('ventas x marketing: ')
print(ventas_marketing[['producto', 'fecha_venta', 'canal', 'costo']].head())

In [None]:
#ver si ocurrio durante el periodo
ventas_marketing['en_periodo'] = (
    (ventas_marketing['fecha_venta'] >= ventas_marketing['fecha_inicio']) &
    (ventas_marketing['fecha_venta'] <= ventas_marketing['fecha_fin'])
)

In [None]:
impacto = ventas_marketing.groupby('en_periodo')['ventas_total'].sum().reset_index()
impacto.columns = ['en_periodo', 'ingresos_totales']

In [None]:
#printeo
print('Impacto del periodo de marketing: ')
print(impacto)