<a href="https://colab.research.google.com/github/Raghnus/predicciones-ventas/blob/main/LimpiezaDatos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Proceso de limpieza de datos**
###Autor: Juan Játiva
###Fecha de creación: 2022/01/15
###Fecha última actualización: 2022/01/15

##**Descripción**
Dentro de este documento se va a proceder a montar y limpiar los datos que vamos a utilizar para la predicción de ventas en el proyecto.

##**Monteja de datos**
Conección con la fuente de datos

In [15]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


###**Importación de librerias**

In [16]:
import pandas as pd

###**Carga de datos en un Dataframe**
Por medio de la libreria pandas, leemos el archivo que contiene la información y creamos una copia de la información en la cual trabajaremos para la limpieza, se realiza una breve previsualización de los datos.

In [20]:
fileName = '/content/drive/MyDrive/PTCienciaDatos/PandasParaManipulacionDeDatos/sales_predictions.csv'
df_ventas = pd.read_csv(fileName)
df_ventas_clon = df_ventas
df_ventas_clon.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


###**Limpieza**
Iniciamos analizando la información recibida

In [7]:
df_ventas_clon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


In [11]:
df_ventas_clon.describe()

Unnamed: 0,Item_Weight,Item_Visibility,Item_MRP,Outlet_Establishment_Year,Item_Outlet_Sales
count,7060.0,8523.0,8523.0,8523.0,8523.0
mean,12.857645,0.066132,140.992782,1997.831867,2181.288914
std,4.643456,0.051598,62.275067,8.37176,1706.499616
min,4.555,0.0,31.29,1985.0,33.29
25%,8.77375,0.026989,93.8265,1987.0,834.2474
50%,12.6,0.053931,143.0128,1999.0,1794.331
75%,16.85,0.094585,185.6437,2004.0,3101.2964
max,21.35,0.328391,266.8884,2009.0,13086.9648


In [10]:
perdidos_weight=round((((df_ventas_clon['Item_Weight'].isna().sum())/len(df_ventas_clon['Item_Weight']))*100),2)
perdidos_size=round((((df_ventas_clon['Outlet_Size'].isna().sum())/len(df_ventas_clon['Outlet_Size']))*100),2)
df_perdidos = pd.DataFrame(data=[['Item_Weight',perdidos_weight],
                                 ['Outlet_Size',perdidos_size]], columns= ['Columnas','% Perdidos'])
df_perdidos

Unnamed: 0,Columnas,% Perdidos
0,Item_Weight,17.17
1,Outlet_Size,28.28


En base a la información obtenida del Dataframe y de los estadísticos respectivos a las variables se decide no quitar registros, a su vez se opta por llenar los registros faltantes en el caso de "Item_Weight" por el métod de interpolación lineal, y para "Outlet_Size" por k-vecino

In [45]:
df_ventas_clon['Item_Weight']=df_ventas_clon['Item_Weight'].interpolate(method='linear')
df_ventas_clon['Outlet_Size']=df_ventas_clon['Outlet_Size'].fillna(method='ffill')
df_ventas_clon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                8523 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                8523 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


De esta forma, posterior a los procesos, podemos ver que la información ya no posee valores faltantes.