## El DataSet proporcionado contiene información sobre Proveedores de Carnes, Productos, Fechas y Precios. 

### **Pasos a seguir:**

**1.- Exploración de Datos:**
* Resumen estadístico del dataset.
* Análisis de valores nulos y duplicados.

**2.- Preprocesamiento:**
* Conversión de fechas a un formato adecuado y extracción de características temporales.
* Codificación de variables categóricas.
* Normalización o estandarización de precios.

In [1]:
# 1.- Cargamos las Librerias

import pandas as pd
import numpy as np
import seaborn as sb
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import datasets
from sklearn import linear_model
from sklearn import model_selection
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_absolute_error, mean_squared_error

### Exploración de Datos

**Primero, realizaremos un análisis exploratorio de los datos para entender mejor su estructura y contenido.**

In [13]:
# 2.- Cargamos el DataSet

dfcarnes = pd.read_excel("Carnes.xlsx")
dfcarnes.head(8)

Unnamed: 0,proveedor,producto,fecha,precio
0,Alta Performance,Asado x Kg.,06/06/2024 14:51:34,7490
1,Alta Performance,Asado x Kg.,07/06/2024 14:28:17,7490
2,Alta Performance,Asado x Kg.,07/06/2024 15:07:42,7490
3,Alta Performance,Asado x Kg.,09/06/2024 15:31:05,7490
4,Alta Performance,Asado x Kg.,10/06/2024 14:38:28,7490
5,Alta Performance,Asado x Kg.,23/05/2024 13:33:03,8290
6,Alta Performance,Asado x Kg.,23/05/2024 13:33:03,8290
7,Alta Performance,Asado x Kg.,28/05/2024 15:29:30,8290


El DataSet tiene 6559 registros y Cuatro (4) Columnas: 1.Proveedor, 2.Producto, 3.Fecha y 4.Precio. 

In [14]:
# 3.- Analisis Descriptivo.

#dfcarnes.describe()
dfcarnes.describe(include='all')

Unnamed: 0,proveedor,producto,fecha,precio
count,6559,6559,6559,6559.0
unique,15,39,1097,
top,La Anonima,Matambre x Kg.,11/06/2024 15:37:41,
freq,682,479,38,
mean,,,,7959.072115
std,,,,2091.377045
min,,,,1490.0
25%,,,,6500.0
50%,,,,7990.0
75%,,,,8999.0


In [15]:
# 4.- Información general del dataset

dfcarnes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6559 entries, 0 to 6558
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   proveedor  6559 non-null   object
 1   producto   6559 non-null   object
 2   fecha      6559 non-null   object
 3   precio     6559 non-null   int64 
dtypes: int64(1), object(3)
memory usage: 205.1+ KB


El Resumen Estadístico nos muestra que:

- Hay 6559 registros en total.
- Hay 15 proveedores y 39 productos únicos.
- La columna de fecha tiene 1097 valores únicos.
- El precio promedio es de aproximadamente 7959.07, con una desviación estándar de 2091.37.
- Los precios varían desde 1490 hasta 17730.

Realizamos una Descipcion Basica de las distintas variables del DataSet

* Cantidad: 6559
* Media: 7959.07
* Devio Standard: 2091.37 
* Valor Minimo: 1490
* Primer Cuartil: 6500
* Segundo Cuartil: 7990
* Tercer Cuartil: 8999
* Valor Maximo: 17730

**No hay valores nulos, pero se encontró un registro duplicado.**

### Preprocesamiento de Datos

* Eliminación de duplicados: Eliminaremos los registros duplicados.
* Conversión de la columna de fecha: Convertiremos la columna de fecha al tipo datetime y extraeremos características temporales como año, mes, día y hora.
* Codificación de variables categóricas:

In [17]:
# 5.- Verificar valores nulos

null_values = dfcarnes.isnull().sum()

# 6.- Verificar duplicados

duplicates = dfcarnes.duplicated().sum()

null_values, duplicates

(proveedor    0
 producto     0
 fecha        0
 precio       0
 dtype: int64,
 120)

In [21]:
# 7.- Eliminación de duplicados

dfcarnes = dfcarnes.drop_duplicates()

# 8.- Conversión de la columna de fecha al tipo datetime

dfcarnes['fecha'] = pd.to_datetime(dfcarnes['fecha'], format='%d/%m/%Y %H:%M:%S')

# 9.- Extracción de características temporales

dfcarnes['año'] = dfcarnes['fecha'].dt.year
dfcarnes['mes'] = dfcarnes['fecha'].dt.month
dfcarnes['día'] = dfcarnes['fecha'].dt.day
dfcarnes['hora'] = dfcarnes['fecha'].dt.hour

**El dataset ha sido preprocesado correctamente, se eliminando registros duplicados y se convirtio la columna fecha en el tipo de dato necesario.**

In [26]:
dfcarnes.fecha.head()

0   2024-06-06 14:51:34
1   2024-06-07 14:28:17
2   2024-06-07 15:07:42
3   2024-06-09 15:31:05
4   2024-06-10 14:38:28
Name: fecha, dtype: datetime64[ns]

### Trabajo hasta 12 de Junio de 2024