<a href="https://colab.research.google.com/github/PedroJesusBenito/predicciones-de-ventas/blob/main/predicciones_de_ventas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Vamos a trabajar con estos datos

**Lo primero será montar el drive**

In [511]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


**Luego cargamos las bibliotecas**

In [512]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

**Ahora vamos a cargar el dataset a trabajar**

In [513]:
ventas= "/content/drive/MyDrive/sales_predictions_2023.csv"
df= pd.read_csv(ventas)

**Comprovamos que haya cargado bien**

In [514]:
df.head(3)

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27


**Ahora vamos a traer el diccionario del dataset**

# Diccionario del dataset

Nombre de la variable

Descripción

Item_Identifier

Identificación única del producto

Item_Weight

Peso del producto

Item_Fat_Content

Si el producto es bajo en grasa o regular

Item_Visibility

Porcentaje de la superficie total de exposición de todos los productos de una tienda asignada al producto concreto

Item_Type

Categoría a la que el producto pertenece

Item_MRP

Precio máximo de venta al público (precio de catálogo) del producto

Outlet_Identifier

Identificación única de la tienda

Outlet_Establishment_Year

El año en que se estableció la tienda

Outlet_Size

El tamaño de la tienda en cuanto al área total

Outlet_Location_Type

El tipo de área donde se encuentra la tienda

Outlet_Type

Si el punto de venta es una tienda de comestibles o algún tipo de supermercado

Item_Outlet_Sales

Ventas del producto en una tienda particular. Es la variable objetivo a predecir.



**Ya que no pudimos traer la tabla, la imformación está desordenada y el diccionario pierde su propósito. Vamos a corregir la presentación del diciconario:**

In [515]:
#Ordenemos este diccionario haciendo un dataframe con su información
diccionario = pd.DataFrame()

In [516]:
#Comprobamos
diccionario

In [517]:
#Creamos la primera columna:
diccionario["Nombre de la variable"] = ["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility", "Item_Type", "Item_MRP",
                                        "Outlet_Identifier", "Outlet_Establishment_Year", "Outlet_Size", "Outlet_Location_Type",
                                        "Outlet_Type", "Item_Outlet_Sales"]

In [518]:
#Comprobamos
diccionario

Unnamed: 0,Nombre de la variable
0,Item_Identifier
1,Item_Weight
2,Item_Fat_Content
3,Item_Visibility
4,Item_Type
5,Item_MRP
6,Outlet_Identifier
7,Outlet_Establishment_Year
8,Outlet_Size
9,Outlet_Location_Type


In [519]:
#Y luego creamos la segunda columna:
diccionario["Descripción"] = ["Identificación única del producto", "Peso del producto", "Si el producto es bajo en grasa o regular",
                              "Porcentaje de la superficie total de exposición de todos los productos de una tienda asignada al producto concreto",
                              "Categoría a la que el producto pertenece", "Precio máximo de venta al público (precio de catálogo) del producto",
                              "Identificación única de la tienda", "El año en que se estableció la tienda", "El tamaño de la tienda en cuanto al área total",
                              "El tipo de área donde se encuentra la tienda", "Si el punto de venta es una tienda de comestibles o algún tipo de supermercado",
                              "Ventas del producto en una tienda particular. Es la variable objetivo a predecir."]

In [520]:
#Comprobamos
diccionario.head(3)

Unnamed: 0,Nombre de la variable,Descripción
0,Item_Identifier,Identificación única del producto
1,Item_Weight,Peso del producto
2,Item_Fat_Content,Si el producto es bajo en grasa o regular


ahora sí:

# Diccionario del dataset

In [521]:
diccionario

Unnamed: 0,Nombre de la variable,Descripción
0,Item_Identifier,Identificación única del producto
1,Item_Weight,Peso del producto
2,Item_Fat_Content,Si el producto es bajo en grasa o regular
3,Item_Visibility,Porcentaje de la superficie total de exposició...
4,Item_Type,Categoría a la que el producto pertenece
5,Item_MRP,Precio máximo de venta al público (precio de c...
6,Outlet_Identifier,Identificación única de la tienda
7,Outlet_Establishment_Year,El año en que se estableció la tienda
8,Outlet_Size,El tamaño de la tienda en cuanto al área total
9,Outlet_Location_Type,El tipo de área donde se encuentra la tienda


# Vamos a explorar el dataset

**1)¿Cuántas filas y columnas?**

In [522]:
df.shape

(8523, 12)

Tenemos 8523 filas y 12 columnas, es un data ser muy completo

**2) ¿Cuáles son los tipos de datos en cada variable?**

In [523]:
df.dtypes

Item_Identifier               object
Item_Weight                  float64
Item_Fat_Content              object
Item_Visibility              float64
Item_Type                     object
Item_MRP                     float64
Outlet_Identifier             object
Outlet_Establishment_Year      int64
Outlet_Size                   object
Outlet_Location_Type          object
Outlet_Type                   object
Item_Outlet_Sales            float64
dtype: object

Dada la información que nos entrega el diccionario, el tipo de dato está en linea con lo esperado

**3) ¿Hay duplicados? Si es el caso, eliminen algunos duplicados.**

In [524]:
df.duplicated().sum()

0

No encontramos ningún duplicado en todas las columnas, seguimos explorando

**4) Identifiquen los valores faltantes.**

In [525]:
df.isna().sum()

Item_Identifier                 0
Item_Weight                  1463
Item_Fat_Content                0
Item_Visibility                 0
Item_Type                       0
Item_MRP                        0
Outlet_Identifier               0
Outlet_Establishment_Year       0
Outlet_Size                  2410
Outlet_Location_Type            0
Outlet_Type                     0
Item_Outlet_Sales               0
dtype: int64

Encontramos 1463 valores faltantes en la columna "Item_Weight" y 2410 datos faltantes en la columna "Outlet_Size"
Lo primero que vamos a hacer es revisar el porcentaje que representan estos faltantes el total de los datos

In [526]:
((df["Item_Weight"].isna().sum()*100)/df.shape[0]).round(1)

17.2

Los datos faltentas de la columna "Item_Wheight" representan un 17,2% del total. Es un porcentaje demasiado alto para eliminar

In [527]:
((df["Outlet_Size"].isna().sum()*100)/df.shape[0]).round(1)

28.3

Los datos faltentas de la columna "Outlet_Size" representan un 28.3% del total. Al igual que en el caso anterior, es un porcentaje demasiado alto para eliminar y aún más alto que el anterior.

**5) Decidan cómo abordar los valores faltantes y cómo hacerlo. (Esto requiere sus criterios, así que expliquen su elección).**

Lo primero que vamos a hacer es intentar recuperar algunos de esos datos. Para ello, vamos a analizar más en profundidad las columnas con datos faltantes: "Item_Wheight" y "Outlet_Size"

Lo primero será saber cuántos valores únicos hay dentro de cada una de las columnas

In [528]:
df.nunique()

Item_Identifier              1559
Item_Weight                   415
Item_Fat_Content                5
Item_Visibility              7880
Item_Type                      16
Item_MRP                     5938
Outlet_Identifier              10
Outlet_Establishment_Year       9
Outlet_Size                     3
Outlet_Location_Type            3
Outlet_Type                     4
Item_Outlet_Sales            3493
dtype: int64

Podemos ver que la cantidad de valores únicos de la columna "Outlet_Size" son 3, lo que es muchísimo menos que la cantidad de su contraparte "Item_Identifier" que tiene 1559 valores únicos.
Siendo este el caso, vamos a comenzar analizando la columna "Outlet_Size".
Veamos cuáles son sus valores

In [529]:
df["Outlet_Size"].value_counts()

Medium    2793
Small     2388
High       932
Name: Outlet_Size, dtype: int64

Ya sabemos los valores únicos y vemos que son acorde a su columna. Sin embargo, estos datos no nos ayudan a llenar los faltantes. Vamos a revisar el diccionario del dataset en busca de una guía

In [530]:
#Al haber convertido nuestro diccionario en un DataFrame, lo podemos llamar a conveniencia
diccionario

Unnamed: 0,Nombre de la variable,Descripción
0,Item_Identifier,Identificación única del producto
1,Item_Weight,Peso del producto
2,Item_Fat_Content,Si el producto es bajo en grasa o regular
3,Item_Visibility,Porcentaje de la superficie total de exposició...
4,Item_Type,Categoría a la que el producto pertenece
5,Item_MRP,Precio máximo de venta al público (precio de c...
6,Outlet_Identifier,Identificación única de la tienda
7,Outlet_Establishment_Year,El año en que se estableció la tienda
8,Outlet_Size,El tamaño de la tienda en cuanto al área total
9,Outlet_Location_Type,El tipo de área donde se encuentra la tienda


Podemos ver que hay una identificación única dela tienda, quizás estos valores nos puedan dar alguna pista con respecto a nuestros datos faltantes

In [531]:
diccionario.iloc[6:7, :]

Unnamed: 0,Nombre de la variable,Descripción
6,Outlet_Identifier,Identificación única de la tienda


Revisemos más en detalle esta columna

In [532]:
df["Outlet_Identifier"].nunique()

10

Tenemos 10 valores únicos, veámoslos

In [533]:
df["Outlet_Identifier"].value_counts()

OUT027    935
OUT013    932
OUT049    930
OUT046    930
OUT035    930
OUT045    929
OUT018    928
OUT017    926
OUT010    555
OUT019    528
Name: Outlet_Identifier, dtype: int64

Revisemos uno a uno estos valores en busca de alguna información sobre nuestros datos faltantes

In [534]:
df[df["Outlet_Identifier"] == "OUT027"].iloc[:, 6:9]

Unnamed: 0,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size
7,OUT027,1985,Medium
18,OUT027,1985,Medium
21,OUT027,1985,Medium
36,OUT027,1985,Medium
38,OUT027,1985,Medium
...,...,...,...
8472,OUT027,1985,Medium
8485,OUT027,1985,Medium
8487,OUT027,1985,Medium
8488,OUT027,1985,Medium


Podemos ver que el tamaño de la tienda "OUT027" es siempre "Medium", por lo tanto ya encontramos una correlación y ahora podemos rellenar con este valor los faltantes para este outlet. ¿Pasará lo mismo con los items?

In [535]:
#Traigamos el diccionario
diccionario

Unnamed: 0,Nombre de la variable,Descripción
0,Item_Identifier,Identificación única del producto
1,Item_Weight,Peso del producto
2,Item_Fat_Content,Si el producto es bajo en grasa o regular
3,Item_Visibility,Porcentaje de la superficie total de exposició...
4,Item_Type,Categoría a la que el producto pertenece
5,Item_MRP,Precio máximo de venta al público (precio de c...
6,Outlet_Identifier,Identificación única de la tienda
7,Outlet_Establishment_Year,El año en que se estableció la tienda
8,Outlet_Size,El tamaño de la tienda en cuanto al área total
9,Outlet_Location_Type,El tipo de área donde se encuentra la tienda


Vamos a revisar la columna "Item_Identifier"

In [536]:
diccionario.iloc[6:7, :]

Unnamed: 0,Nombre de la variable,Descripción
6,Outlet_Identifier,Identificación única de la tienda


Esta columna tenía muchos valores únicos, recordemos cuántos

In [537]:
df["Item_Identifier"].nunique()

1559

Veamos cuáles son

In [538]:
df["Item_Identifier"].value_counts()

FDW13    10
FDG33    10
NCY18     9
FDD38     9
DRE49     9
         ..
FDY43     1
FDQ60     1
FDO33     1
DRF48     1
FDC23     1
Name: Item_Identifier, Length: 1559, dtype: int64

Repitamos el ejercicio anterior de comparar algún valor único con la columna donde faltan datos "Item_Weight"

In [539]:
df[df["Item_Identifier"] == "FDW13"].iloc[:, 0:2]

Unnamed: 0,Item_Identifier,Item_Weight
256,FDW13,8.5
1141,FDW13,8.5
2190,FDW13,8.5
3928,FDW13,
3978,FDW13,8.5
6499,FDW13,8.5
6587,FDW13,8.5
7029,FDW13,8.5
8025,FDW13,
8032,FDW13,8.5


Podemos ver que se cumple el mismo tipo de correlación: Dado que las columnas "Identifier" nos permiten identificar un producto o una tienda en específico, esto permite que podamos rellenar todos nuestros datos faltantes con la información de otra fila con el mismo identificador.
Esto presenta un desafío, ya que al ser tantos valores específicos, tomaría mucho tiempo digitar uno a uno sus valores. Vamos a buscar una forma de automatizar este proceso recorriendo las columnas.

In [540]:
#buscamos acceder a los valores de "Item_Weight" para cada valor único de "Item_Identifier". Partamos con uno
df[df["Item_Identifier"] == "FDW13"].head(3)

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
256,FDW13,8.5,Low Fat,0.098438,Canned,51.1324,OUT017,2007,,Tier 2,Supermarket Type1,259.662
1141,FDW13,8.5,Low Fat,0.097866,Canned,51.1324,OUT035,2004,Small,Tier 2,Supermarket Type1,1350.2424
2190,FDW13,8.5,Low Fat,0.098283,Canned,51.3324,OUT018,2009,Medium,Tier 3,Supermarket Type2,934.7832


Ahora necesitamos una forma de llamar a cada valor de "Item_Identifier".

Usando **.at** podemos obtener el contenido de la celda sin el índice.
En este código x irá cambiando de valor a medida que recorramos el DataFrame

In [541]:
x = 0
item_id = df.at[x, "Item_Identifier"]
item_id

'FDA15'

Es importante notar que si bien usar **.loc** parece ser lo mismo, a la hora de llamar el este resultado es donde hay problemas.

In [542]:
df.loc[x, "Item_Identifier"]

'FDA15'

Para poder llamar más adelante al valor de "Item_Weight" para cada valor específico de "Item_Identifier" usaremos la moda y la variable anterior.

Nótese el uso de **[0]**  para limpiar el resultado y que nos entregue sólo el valor numérico que usaremos para llenar nuestros valores faltantes

In [543]:
df[df["Item_Identifier"] == item_id]["Item_Weight"].mode()[0]

9.3

Ya tenemos una forma de llamar los valoresde "Item_Identifier" y una forma de obtener de ellos el valor que necesitamos para rellenarlos faltates.

Identifiquemos ahora los faltantes

In [544]:
df.isna().sum()[df.isna().sum() != 0]

Item_Weight    1463
Outlet_Size    2410
dtype: int64

Obtengamos dos DataFrames en función de los faltantes y guardémoslos en variables

In [545]:
df_sin_peso = df[df["Item_Weight"].isna()]

Comprobemos

In [546]:
df_sin_peso.head(3)

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,,Low Fat,0.12747,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636
18,DRI11,,Low Fat,0.034238,Hard Drinks,113.2834,OUT027,1985,Medium,Tier 3,Supermarket Type3,2303.668
21,FDW12,,Regular,0.0354,Baking Goods,144.5444,OUT027,1985,Medium,Tier 3,Supermarket Type3,4064.0432


In [547]:
df_sin_size = df[df["Outlet_Size"].isna()]

In [548]:
df_sin_size.head(3)

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
8,FDH17,16.2,Regular,0.016687,Frozen Foods,96.9726,OUT045,2002,,Tier 2,Supermarket Type1,1076.5986
9,FDU28,19.2,Regular,0.09445,Frozen Foods,187.8214,OUT017,2007,,Tier 2,Supermarket Type1,4710.535


Ahora que ya tenemos eso listo, veamos cuáles son los valores únicos dentro de las columnas identificadoras en cada una de nuestras variables



In [549]:
df_sin_peso["Item_Identifier"].value_counts()

FDK08    2
FDA08    2
FDV23    2
FDY56    2
FDI04    2
        ..
FDM44    1
FDZ48    1
FDK41    1
FDD57    1
NCN18    1
Name: Item_Identifier, Length: 1142, dtype: int64

In [550]:
df_sin_size["Outlet_Identifier"].value_counts()

OUT045    929
OUT017    926
OUT010    555
Name: Outlet_Identifier, dtype: int64

Traslademos estos valores a una lista y la guardamos en una variable

In [551]:
lista_item_ids = df_sin_peso["Item_Identifier"].unique().tolist()

Comprobamos

In [552]:
lista_item_ids

['FDP10',
 'DRI11',
 'FDW12',
 'FDC37',
 'FDC14',
 'FDV20',
 'FDX10',
 'FDB34',
 'FDS02',
 'FDI26',
 'FDF09',
 'FDY40',
 'FDY45',
 'FDN48',
 'NCL18',
 'FDR12',
 'FDQ49',
 'FDU04',
 'NCP18',
 'FDD10',
 'DRE60',
 'FDW39',
 'FDX34',
 'FDY25',
 'NCR53',
 'FDH35',
 'DRK12',
 'FDR07',
 'NCB30',
 'DRY23',
 'FDQ28',
 'NCO17',
 'FDT12',
 'FDO08',
 'NCX06',
 'FDE40',
 'FDX49',
 'FDI24',
 'FDS45',
 'NCO07',
 'DRF27',
 'FDX25',
 'NCX42',
 'FDG33',
 'DRM47',
 'FDS46',
 'FDX21',
 'NCU05',
 'DRF15',
 'FDQ04',
 'FDH19',
 'FDZ10',
 'NCF07',
 'FDJ08',
 'FDM25',
 'FDV60',
 'FDV13',
 'FDM50',
 'FDY31',
 'DRQ35',
 'NCW17',
 'FDN60',
 'FDN58',
 'FDC41',
 'FDO01',
 'FDY49',
 'FDJ22',
 'FDN39',
 'FDJ56',
 'FDX26',
 'FDZ07',
 'NCW53',
 'FDX31',
 'FDR43',
 'FDP22',
 'FDU02',
 'NCK31',
 'FDU45',
 'FDW24',
 'DRP35',
 'FDW35',
 'FDW23',
 'DRH03',
 'FDW27',
 'FDS09',
 'NCO54',
 'FDS26',
 'DRB48',
 'FDU56',
 'FDX14',
 'FDH28',
 'NCT41',
 'FDO11',
 'FDR56',
 'FDE53',
 'DRN36',
 'FDZ47',
 'NCJ54',
 'NCE06',
 'FDO19',


Ahora con la otra columna

In [553]:
lista_outlet_ids = df_sin_size["Outlet_Identifier"].unique().tolist()

Comprobamos

In [554]:
lista_outlet_ids

['OUT010', 'OUT045', 'OUT017']

Bien, ya tenemos las listas. Ahora obtengamos el valor que corresponde cada id en nuestras listas buscnado la moda de cada uno

In [555]:
item_weight_mode = []
for x in lista_item_ids:
  mode_result=  df.loc[df["Item_Identifier"]]==x,["Item_Weight"].mode()
  if not mode_result.empty:
    item_weight_mode.append(mode_result.iloc[0])
  else:
    item_weight_mode.append(None)

KeyError: ignored

In [None]:
item_weight_mode.append(df.loc[df["Item_Identifier"] == x, :]["Item_Weight"].mode())

In [None]:
item_weight_mode.append(df.loc[df["Item_Identifier"] == x, :]["Item_Weight"].mode())

Comprobamos

In [None]:
item_weight_mode2 = []
for x in item_weight_mode.index():
  item_weight_mode2.append(item_weight_mode[x])


Esta lista tiene información que no necesitamos, vamos a limpiarla

In [None]:
df['Item_Weight'].fillna(df.groupby(['Item_Identifier'])['Item_Weight'].transform('mean'), inplace=True)

# **AQUI SE TRABAJA LA FUNCION**

In [627]:
ventas= "/content/drive/MyDrive/sales_predictions_2023.csv"
df= pd.read_csv(ventas)

In [589]:
a = df
b = a


usamos lafunción

In [649]:
#Otra prueba
#Probando la función
def test(dataframe, column_to_fill, column_to_fill_index, column_identifier):
  for x in range(len(dataframe)):
    filler = dataframe.at[x, column_identifier]
    filler_mode = dataframe.loc[dataframe[column_identifier] == filler, :][column_to_fill].mode()[0]
    if dataframe.iloc[x:x+1, column_to_fill_index:column_to_fill_index+1].isnull().values.any() is True:
      dataframe[column_to_fill].fillna(filler_mode, limit=1, inplace=True)

In [696]:
reemplazador(df, "Item_Weight", 1, "Item_Identifier")

KeyError: ignored

In [694]:
#Probando la función
def reemplazador(dataframe, column_to_fill, column_to_fill_index, column_identifier):
  new_df = dataframe.copy()
  for x in range(len(new_df)):
    filler = new_df.at[x, column_identifier]
    filler_mode = new_df.loc[new_df[column_identifier] == filler, :][column_to_fill].mode()[0]
    if new_df.iloc[x:x+1, column_to_fill_index:column_to_fill_index+1].isnull().values.any() is True:
      dataframe[column_to_fill].fillna(filler_mode, limit=1, inplace=True)

In [682]:
range(len(b))

range(0, 8523)

In [683]:
#This works
for x in range(len(b)):
  if x < 5:
    print(x)

0
1
2
3
4


In [685]:
#This works
a.at[5, "Item_Identifier"]

'FDP36'

In [687]:
#This works
filler = a.at[7, "Item_Identifier"]
filler_mode = a.loc[a["Item_Identifier"] == filler, :]["Item_Weight"].mode()[0]
filler_mode

19.0

In [688]:
#This works
x = 22
a.iloc[x:x+1, 1:1+1].isnull().values.any()

False

In [693]:
#This works
b["Item_Weight"].fillna(filler_mode, limit=1, inplace=True)
b.isna().sum()

Item_Identifier                 0
Item_Weight                  1383
Item_Fat_Content                0
Item_Visibility                 0
Item_Type                       0
Item_MRP                        0
Outlet_Identifier               0
Outlet_Establishment_Year       0
Outlet_Size                  2410
Outlet_Location_Type            0
Outlet_Type                     0
Item_Outlet_Sales               0
dtype: int64

In [574]:
#Why doen't THIS work?
df.apply(reemplazador(df, "Item_Weight", 1, "Item_Identifier"))

KeyError: ignored

In [83]:
#Tal vez cambiando el if
def reemplazador(dataframe, column_to_fill, column_identifier):
  contador = 0
  for x in dataframe.iloc[contador:contador+1,:]:
    contador = contador + 1
    filler = dataframe.at[contador, column_identifier]
    filler_mode = dataframe.loc[dataframe[column_identifier] == filler, :][column_to_fill].mode()[0]
    if dataframe.iloc[contador:contador+1,:][[column_to_fill]].isnull().values.any() is True:
      dataframe[column_to_fill].fillna(filler_mode, limit=1, inplace=True)

In [87]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

AssertionError: ignored

In [180]:
#La más cercana, ahora con una copia, otro intento, otra vez
def reemplazador(dataframe, column_to_fill, column_to_fill_index, column_identifier):
  new_df = dataframe.copy()
  for x in range(len(new_df)):
    filler = new_df.at[x, column_identifier]
    filler_mode = new_df.loc[new_df[column_identifier] == filler, :][column_to_fill].mode()[0]
    if new_df.iloc[x:x+1, column_to_fill_index:column_to_fill_index+1].isnull().values.any() is True:
      dataframe.iloc[x:x+1,column_to_fill_index:column_to_fill_index+1].fillna(filler_mode, limit=1, inplace=True)

In [181]:
df.apply(reemplazador(df, "Item_Weight", 1, "Item_Identifier"))

KeyError: ignored

In [179]:
for x in range(len(new)):
  new.iloc[x:x+1,:].fillna(x, limit=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new.iloc[x:x+1,:].fillna(x, limit=1, inplace=True)


In [178]:
new.iloc[x:x+1,:]

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,0.0,Low Fat,0.12747,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636


In [174]:
new

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,,Low Fat,0.127470,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636
18,DRI11,,Low Fat,0.034238,Hard Drinks,113.2834,OUT027,1985,Medium,Tier 3,Supermarket Type3,2303.6680
21,FDW12,,Regular,0.035400,Baking Goods,144.5444,OUT027,1985,Medium,Tier 3,Supermarket Type3,4064.0432
23,FDC37,,Low Fat,0.057557,Baking Goods,107.6938,OUT019,1985,Small,Tier 1,Grocery Store,214.3876
29,FDC14,,Regular,0.072222,Canned,43.6454,OUT019,1985,Small,Tier 1,Grocery Store,125.8362
...,...,...,...,...,...,...,...,...,...,...,...,...
8485,DRK37,,Low Fat,0.043792,Soft Drinks,189.0530,OUT027,1985,Medium,Tier 3,Supermarket Type3,6261.8490
8487,DRG13,,Low Fat,0.037006,Soft Drinks,164.7526,OUT027,1985,Medium,Tier 3,Supermarket Type3,4111.3150
8488,NCN14,,Low Fat,0.091473,Others,184.6608,OUT027,1985,Medium,Tier 3,Supermarket Type3,2756.4120
8490,FDU44,,Regular,0.102296,Fruits and Vegetables,162.3552,OUT019,1985,Small,Tier 1,Grocery Store,487.3656


In [170]:
for x in range(new):

TypeError: ignored

In [161]:
z = new.index.to_list
z

<bound method IndexOpsMixin.tolist of Int64Index([   7,   18,   21,   23,   29,   36,   38,   39,   49,   59,
            ...
            8458, 8463, 8469, 8472, 8480, 8485, 8487, 8488, 8490, 8504],
           dtype='int64', length=1463)>

In [172]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

KeyError: ignored

In [165]:
print(new.index)

Int64Index([   7,   18,   21,   23,   29,   36,   38,   39,   49,   59,
            ...
            8458, 8463, 8469, 8472, 8480, 8485, 8487, 8488, 8490, 8504],
           dtype='int64', length=1463)


In [173]:
new = df[df["Item_Weight"].isna()]
new

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,,Low Fat,0.127470,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636
18,DRI11,,Low Fat,0.034238,Hard Drinks,113.2834,OUT027,1985,Medium,Tier 3,Supermarket Type3,2303.6680
21,FDW12,,Regular,0.035400,Baking Goods,144.5444,OUT027,1985,Medium,Tier 3,Supermarket Type3,4064.0432
23,FDC37,,Low Fat,0.057557,Baking Goods,107.6938,OUT019,1985,Small,Tier 1,Grocery Store,214.3876
29,FDC14,,Regular,0.072222,Canned,43.6454,OUT019,1985,Small,Tier 1,Grocery Store,125.8362
...,...,...,...,...,...,...,...,...,...,...,...,...
8485,DRK37,,Low Fat,0.043792,Soft Drinks,189.0530,OUT027,1985,Medium,Tier 3,Supermarket Type3,6261.8490
8487,DRG13,,Low Fat,0.037006,Soft Drinks,164.7526,OUT027,1985,Medium,Tier 3,Supermarket Type3,4111.3150
8488,NCN14,,Low Fat,0.091473,Others,184.6608,OUT027,1985,Medium,Tier 3,Supermarket Type3,2756.4120
8490,FDU44,,Regular,0.102296,Fruits and Vegetables,162.3552,OUT019,1985,Small,Tier 1,Grocery Store,487.3656


In [138]:
new.at[7, "Item_Identifier"]

'FDP10'

In [137]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

KeyError: ignored

In [134]:
new.at[7, "Item_Identifier"]

'FDP10'

In [116]:
 filler = df.at[6, "Item_Identifier"]

In [119]:
a = df.loc[df["Item_Identifier"] == filler, :]["Item_Weight"].mode()[0]
type(a)

numpy.float64

In [108]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

KeyError: ignored

In [99]:
#La más cercana, ahora con una copia
def reemplazador(dataframe, column_to_fill, column_identifier):
  new_df = dataframe.copy()
  for x in range(len(new_df)):
    filler = new_df.at[x, column_identifier]
    filler_mode = new_df.loc[new_df[column_identifier] == filler, :][column_to_fill].mode()[0]
    if new_df.iloc[x:x+1,:][[column_to_fill]].isnull().values.any() is True:
      dataframe[column_to_fill].fillna(filler_mode, limit=1, inplace=True)

In [101]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

KeyError: ignored

In [97]:
#La más cercana
def reemplazador(dataframe, column_to_fill, column_identifier):
  for x in range(len(dataframe)):
    filler = dataframe.at[x, column_identifier]
    filler_mode = dataframe.loc[dataframe[column_identifier] == filler, :][column_to_fill].mode()[0]
    if dataframe.iloc[x:x+1,:][[column_to_fill]].isnull().values.any() is True:
      dataframe[column_to_fill].fillna(filler_mode, limit=1, inplace=True)

In [100]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

KeyError: ignored

In [96]:
df["Item_Weight"].isna().sum()

1463

In [56]:
for x in range(len(df)):
    fixed["Item_Weight"].fillna(x, limit=1, inplace=True)

In [58]:
fixed["Item_Weight"].sort_values()

7          0.0
18         1.0
21         2.0
23         3.0
29         4.0
         ...  
8485    1458.0
8487    1459.0
8488    1460.0
8490    1461.0
8504    1462.0
Name: Item_Weight, Length: 8523, dtype: float64

In [54]:
#filler_mode is well defined
a = df.loc[df["Item_Identifier"] == filler, :]["Item_Weight"].mode()[0]
type(a)

numpy.float64

In [51]:
#filler is well defined
filler = df.at[3123, "Item_Identifier"]

In [36]:
range(len(df))

range(0, 8523)

KeyError: ignored

In [401]:
df.loc[df["Item_Identifier"] == "FDP10"]["Item_Weight"].mode()[0]

19.0

In [405]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

AssertionError: ignored

In [385]:
fixed.fillna(12, limit=1 inplace=True)

SyntaxError: ignored

In [410]:
fixed = df[df["Item_Weight"].isna()]
fixed


Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,,Low Fat,0.127470,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636
18,DRI11,,Low Fat,0.034238,Hard Drinks,113.2834,OUT027,1985,Medium,Tier 3,Supermarket Type3,2303.6680
21,FDW12,,Regular,0.035400,Baking Goods,144.5444,OUT027,1985,Medium,Tier 3,Supermarket Type3,4064.0432
23,FDC37,,Low Fat,0.057557,Baking Goods,107.6938,OUT019,1985,Small,Tier 1,Grocery Store,214.3876
29,FDC14,,Regular,0.072222,Canned,43.6454,OUT019,1985,Small,Tier 1,Grocery Store,125.8362
...,...,...,...,...,...,...,...,...,...,...,...,...
8485,DRK37,,Low Fat,0.043792,Soft Drinks,189.0530,OUT027,1985,Medium,Tier 3,Supermarket Type3,6261.8490
8487,DRG13,,Low Fat,0.037006,Soft Drinks,164.7526,OUT027,1985,Medium,Tier 3,Supermarket Type3,4111.3150
8488,NCN14,,Low Fat,0.091473,Others,184.6608,OUT027,1985,Medium,Tier 3,Supermarket Type3,2756.4120
8490,FDU44,,Regular,0.102296,Fruits and Vegetables,162.3552,OUT019,1985,Small,Tier 1,Grocery Store,487.3656


In [411]:
fixed.iloc[0:0+1,:][["Item_Weight"]].isnull().values.any()

True

In [352]:
fixed.iloc[0:0+1,:][["Item_Weight"]]

Unnamed: 0,Item_Weight
7,


In [366]:
df.apply(reemplazador(df, "Item_Weight", "Item_Identifier"))

TypeError: ignored

In [340]:
fixed

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,,Low Fat,0.127470,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636
18,DRI11,,Low Fat,0.034238,Hard Drinks,113.2834,OUT027,1985,Medium,Tier 3,Supermarket Type3,2303.6680
21,FDW12,,Regular,0.035400,Baking Goods,144.5444,OUT027,1985,Medium,Tier 3,Supermarket Type3,4064.0432
23,FDC37,,Low Fat,0.057557,Baking Goods,107.6938,OUT019,1985,Small,Tier 1,Grocery Store,214.3876
29,FDC14,,Regular,0.072222,Canned,43.6454,OUT019,1985,Small,Tier 1,Grocery Store,125.8362
...,...,...,...,...,...,...,...,...,...,...,...,...
8485,DRK37,,Low Fat,0.043792,Soft Drinks,189.0530,OUT027,1985,Medium,Tier 3,Supermarket Type3,6261.8490
8487,DRG13,,Low Fat,0.037006,Soft Drinks,164.7526,OUT027,1985,Medium,Tier 3,Supermarket Type3,4111.3150
8488,NCN14,,Low Fat,0.091473,Others,184.6608,OUT027,1985,Medium,Tier 3,Supermarket Type3,2756.4120
8490,FDU44,,Regular,0.102296,Fruits and Vegetables,162.3552,OUT019,1985,Small,Tier 1,Grocery Store,487.3656


In [329]:
def reemplazador(dataframe, column_to_fill, column_identifier):
  contador = 0
  for x in dataframe.iloc[contador:contador+1,:]:
    contador = contador + 1
    filler = dataframe.at[contador, column_identifier]
    filler_mode = dataframe.at[dataframe[column_identifier] == filler, :][column_to_fill].mode()[0]
    if column_to_fill is pd.NA:
      dataframe.iloc[contador:contador+1,:].fillna(filler_mode, limit=1, inplace=True)

In [327]:
df[~df["Item_Weight"].isna()]

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.300,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.1380
1,DRC01,5.920,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.500,Low Fat,0.016760,Meat,141.6180,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.2700
3,FDX07,19.200,Regular,0.000000,Fruits and Vegetables,182.0950,OUT010,1998,,Tier 3,Grocery Store,732.3800
4,NCD19,8.930,Low Fat,0.000000,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052
...,...,...,...,...,...,...,...,...,...,...,...,...
8518,FDF22,6.865,Low Fat,0.056783,Snack Foods,214.5218,OUT013,1987,High,Tier 3,Supermarket Type1,2778.3834
8519,FDS36,8.380,Regular,0.046982,Baking Goods,108.1570,OUT045,2002,,Tier 2,Supermarket Type1,549.2850
8520,NCJ29,10.600,Low Fat,0.035186,Health and Hygiene,85.1224,OUT035,2004,Small,Tier 2,Supermarket Type1,1193.1136
8521,FDN46,7.210,Regular,0.145221,Snack Foods,103.1332,OUT018,2009,Medium,Tier 3,Supermarket Type2,1845.5976


In [328]:
df.loc[df["Item_Identifier"] == a, :]["Item_Weight"].mode()[0]

9.3

In [309]:
df.loc[df["Item_Identifier"] == a, :]["Item_Weight"].mode()

0    9.3
Name: Item_Weight, dtype: float64

In [294]:
def contt(a):
  contador = 0
  for x in a:
    contador = contador + 1
    if contador <10:
      print(contador)
print(contt([1,2,1,2,1,2,1,2,12,12,1,2,1,2,1,2,1,2,20]))

1
2
3
4
5
6
7
8
9
None


In [296]:
df.apply(reemplazador(df,"Item_Weight", "Item_Identifier"))

AssertionError: ignored

In [298]:
a = df.at[0,"Item_Identifier"]
a

'FDA15'

In [279]:
df.loc[df["Item_Identifier"]] == a

KeyError: ignored

In [None]:
def reemplazador(dataframe, column_to_fill, column_identifier):
  contador = 0
  for x in dataframe.iloc[contador:contador+1,:]:
    contador = contador + 1
    filler = dataframe.at[contador, column_identifier]
    filler_mode = dataframe.at[dataframe[column_identifier] == filler, :][column_to_fill].mode()[0]
    if dataframe.iloc[contador:contador+1,:][[column_to_fill]] is pd.NA:
      dataframe.iloc[contador:contador+1,:].fillna(filler_mode, inplace=True)

In [None]:
fixed.fillna(fixed[fixed["Item_Identifier"] == x]["Item_Weight"].mode(),limit = 1)

In [269]:
a = df.at[0,"Item_Identifier"]

In [270]:
a

'FDA15'

In [262]:
print(a)

0    FDA15
Name: Item_Identifier, dtype: object


In [286]:
df.loc[df["Item_Identifier"] == "FDA15", :]["Item_Weight"].mean()

9.3

In [204]:
a = df.iloc[0:1,:]["Item_Identifier"].to_list()

In [205]:
print(f"hola soy {a}")

hola soy ['FDA15']


In [176]:
df.iloc[7:8, :]["Item_Weight"].mode()

Series([], Name: Item_Weight, dtype: float64)

In [285]:
df.loc[df["Item_Identifier"] == "FDA15", :]["Item_Weight"].mode()

0    9.3
Name: Item_Weight, dtype: float64

In [183]:
a

0    FDA15
Name: Item_Identifier, dtype: object

In [158]:
def reemplazador(column_to_fill, column_from):
  for x in column_from:
    fixed.fillna(fixed[fixed["Item_Identifier"] == x]["Item_Weight"].mode(),limit = 1)

In [None]:
df[df["Item_Identifier"] == "FDW13"]

In [None]:
df["Item_Weight"].apply(lambda x : if x is na)

In [152]:
fixed.head(1)

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
7,FDP10,,Low Fat,0.12747,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636


In [146]:
fixed = df[df["Item_Weight"].isna()]

In [160]:
fixed.apply(reemplazador(fixed["Item_Weight"], fixed["Item_Identifier"]))

AssertionError: ignored