# Ejercicio 1: Limpieza de datos con Pandas
Para este primer desafío, te enfrentarás a un conjunto de datos simple. Tu objetivo es utilizar la librería pandas para realizar una limpieza básica.

## Escenario:

Trabajas en una empresa de ventas de tecnología y te han proporcionado un archivo de ventas (ventas_tecnologia.csv) que necesitas analizar. Sin embargo, el archivo no está perfecto:
1. La columna de precio tiene valores faltantes (NaN).
2. La columna de fecha está en formato de texto (string) y necesitas convertirla a un formato de fecha para poder realizar análisis temporales.
3. Existen filas duplicadas que no aportan valor y deben ser eliminadas.

## Instrucciones:

1. Carga el archivo: Carga el archivo ventas_tecnologia.csv en un DataFrame de pandas.
2. Maneja valores faltantes: Rellena los valores faltantes en la columna precio con el precio promedio de todos los productos.
3. Convierte el tipo de dato: Convierte la columna fecha a un tipo de dato datetime.
4. Elimina duplicados: Elimina las filas duplicadas del DataFrame.
5. Guarda el resultado: Guarda el DataFrame limpio en un nuevo archivo CSV llamado ventas_limpias.csv.

In [6]:
import pandas as pd

In [7]:
#Variables
input_file = '../datasets/ventas_tecnologia.csv'
output_file = '../outputs/ventas_limpias.csv'

In [8]:
#Leer csv con read_csv
df = pd.read_csv(input_file)
display(df)

Unnamed: 0,id_venta,producto,precio,fecha
0,1,Laptop,1200.0,2023-01-15
1,2,Mouse,25.0,2023-01-16
2,3,Teclado,75.0,2023-01-17
3,4,Laptop,,2023-01-18
4,5,Monitor,250.0,2023-01-19
5,6,Mouse,25.0,2023-01-16
6,7,Auriculares,80.0,2023-01-20


In [9]:
#Calcula el precio promedio de todos los productos
mean_price = df.precio.mean()
mean_price

np.float64(275.8333333333333)

In [10]:
#Rellenar los valores NaN de la columna precio con el precio promedio
df['precio'] = df.precio.fillna(value=mean_price)
df

Unnamed: 0,id_venta,producto,precio,fecha
0,1,Laptop,1200.0,2023-01-15
1,2,Mouse,25.0,2023-01-16
2,3,Teclado,75.0,2023-01-17
3,4,Laptop,275.833333,2023-01-18
4,5,Monitor,250.0,2023-01-19
5,6,Mouse,25.0,2023-01-16
6,7,Auriculares,80.0,2023-01-20


In [11]:
#Castear la columna fecha a Datetime
df['fecha'] = pd.to_datetime(df['fecha'])
df

Unnamed: 0,id_venta,producto,precio,fecha
0,1,Laptop,1200.0,2023-01-15
1,2,Mouse,25.0,2023-01-16
2,3,Teclado,75.0,2023-01-17
3,4,Laptop,275.833333,2023-01-18
4,5,Monitor,250.0,2023-01-19
5,6,Mouse,25.0,2023-01-16
6,7,Auriculares,80.0,2023-01-20


In [12]:
#Eliminar duplicados del df
#NOTA: Hay distincion por id_venta y fechas que los matienen como unicos todos los registros
df = df.drop_duplicates()
df

Unnamed: 0,id_venta,producto,precio,fecha
0,1,Laptop,1200.0,2023-01-15
1,2,Mouse,25.0,2023-01-16
2,3,Teclado,75.0,2023-01-17
3,4,Laptop,275.833333,2023-01-18
4,5,Monitor,250.0,2023-01-19
5,6,Mouse,25.0,2023-01-16
6,7,Auriculares,80.0,2023-01-20


In [13]:
#Se guarda el archivo final
df.to_csv(output_file,index=False)