# **FRUITS SIZE TRANSFORM.**

## **Importación de librerías.**

In [1]:
import pandas as pd

## **Carga de datos.**

In [2]:
fruit_size_df = pd.read_csv('../data/fruits_data_size.csv')

## **Transformación del DataFrame.**

In [3]:
fruit_size_df

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79
5,2,mandarin,mandarin,80,5.8,4.3,0.77
6,2,mandarin,mandarin,80,5.9,4.3,0.81
7,2,mandarin,mandarin,76,5.8,4.0,0.81
8,1,apple,braeburn,178,7.1,7.8,0.92
9,1,apple,braeburn,172,7.4,7.0,0.89


### **Columnas.**

In [4]:
fruit_size_df.columns

Index(['fruit_label', 'fruit_name', 'fruit_subtype', 'mass', 'width', 'height',
       'color_score'],
      dtype='object')

In [5]:
# eliminar columnas que no aportan valor
fruit_size_df.drop(['fruit_label', 'mass', 'color_score'], axis=1, inplace=True)

fruit_size_df.head()

Unnamed: 0,fruit_name,fruit_subtype,width,height
0,apple,granny_smith,8.4,7.3
1,apple,granny_smith,8.0,6.8
2,apple,granny_smith,7.4,7.2
3,mandarin,mandarin,6.2,4.7
4,mandarin,mandarin,6.0,4.6


In [6]:
# modificar traduciendo el nombre de las columnas
fruit_size_df = fruit_size_df.rename(columns={'fruit_name': 'producto', 'fruit_subtype': 'tipo', 'width': 'ancho', 'height': 'alto'})

fruit_size_df.head()

Unnamed: 0,producto,tipo,ancho,alto
0,apple,granny_smith,8.4,7.3
1,apple,granny_smith,8.0,6.8
2,apple,granny_smith,7.4,7.2
3,mandarin,mandarin,6.2,4.7
4,mandarin,mandarin,6.0,4.6


In [7]:
# unir las columnas "producto" y "tipo"
fruit_size_df['producto'] = fruit_size_df['producto'].str.cat(fruit_size_df['tipo'], sep=' ')
fruit_size_df.drop(['tipo'], axis=1, inplace=True)

fruit_size_df.head()

Unnamed: 0,producto,ancho,alto
0,apple granny_smith,8.4,7.3
1,apple granny_smith,8.0,6.8
2,apple granny_smith,7.4,7.2
3,mandarin mandarin,6.2,4.7
4,mandarin mandarin,6.0,4.6


### **Filas.**

In [8]:
fruit_size_df['producto'].unique()

array(['apple granny_smith', 'mandarin mandarin', 'apple braeburn',
       'apple golden_delicious', 'apple cripps_pink',
       'orange spanish_jumbo', 'orange selected_seconds',
       'orange turkey_navel', 'lemon spanish_belsan', 'lemon unknown'],
      dtype=object)

In [9]:
# eliminar filas que no aportan valor
fruits_to_drop = ['apple braeburn', 'apple cripps_pink', 'orange spanish_jumbo', 'orange selected_seconds', 'lemon unknown']
fruit_size_df = fruit_size_df[~fruit_size_df['producto'].isin(fruits_to_drop)]
fruit_size_df = fruit_size_df.reset_index(drop=True)

fruit_size_df

Unnamed: 0,producto,ancho,alto
0,apple granny_smith,8.4,7.3
1,apple granny_smith,8.0,6.8
2,apple granny_smith,7.4,7.2
3,mandarin mandarin,6.2,4.7
4,mandarin mandarin,6.0,4.6
5,mandarin mandarin,5.8,4.3
6,mandarin mandarin,5.9,4.3
7,mandarin mandarin,5.8,4.0
8,apple golden_delicious,7.3,7.7
9,apple golden_delicious,7.6,7.3


In [10]:
fruit_size_df['producto'].unique()

array(['apple granny_smith', 'mandarin mandarin',
       'apple golden_delicious', 'orange turkey_navel',
       'lemon spanish_belsan'], dtype=object)

In [11]:
# modificar traduciendo los nombres de la columna "producto"
fruit_size_df['producto'].replace({
    'apple granny_smith': 'Manzana Granny Smith',
    'mandarin mandarin': 'Mandarina',
    'apple golden_delicious': 'Manzana Golden',
    'orange turkey_navel': 'Naranja para mesa',
    'lemon spanish_belsan': 'Limón'
}, inplace=True)

fruit_size_df

Unnamed: 0,producto,ancho,alto
0,Manzana Granny Smith,8.4,7.3
1,Manzana Granny Smith,8.0,6.8
2,Manzana Granny Smith,7.4,7.2
3,Mandarina,6.2,4.7
4,Mandarina,6.0,4.6
5,Mandarina,5.8,4.3
6,Mandarina,5.9,4.3
7,Mandarina,5.8,4.0
8,Manzana Golden,7.3,7.7
9,Manzana Golden,7.6,7.3


In [12]:
# seleccionar las filas donde la columna "producto" sea igual a "Manzana Granny Smith"
granny_smith_df = fruit_size_df.loc[fruit_size_df['producto'] == 'Manzana Granny Smith']

# calcular la media de las columnas "ancho" y "alto" en esas filas
ancho_media = granny_smith_df['ancho'].mean()
alto_media = granny_smith_df['alto'].mean()

# crear una nueva fila con los valores "Manzana Granny Smith" en la columna "producto" y los valores calculados de la media en las columnas "ancho" y "alto"
granny_smith_nuevo_df = pd.DataFrame({'producto': ['Manzana Granny Smith'], 'ancho': [ancho_media], 'alto': [alto_media]})

# eliminar las filas originales de la tabla con la columna "producto" igual a "Manzana Granny Smith"
fruit_size_df = fruit_size_df.loc[fruit_size_df['producto'] != 'Manzana Granny Smith']

# añadir la nueva fila a la tabla
fruit_size_df = pd.concat([fruit_size_df, granny_smith_nuevo_df], ignore_index=True)

# redondear a un decimal
fruit_size_df['ancho'] = fruit_size_df['ancho'].round(1)

fruit_size_df

Unnamed: 0,producto,ancho,alto
0,Mandarina,6.2,4.7
1,Mandarina,6.0,4.6
2,Mandarina,5.8,4.3
3,Mandarina,5.9,4.3
4,Mandarina,5.8,4.0
5,Manzana Golden,7.3,7.7
6,Manzana Golden,7.6,7.3
7,Manzana Golden,7.7,7.1
8,Manzana Golden,7.6,7.5
9,Manzana Golden,7.5,7.6


In [13]:
# filtrar filas donde el valor de la columna "producto" sea "Mandarina"
mandarina_df = fruit_size_df[fruit_size_df["producto"] == 'Mandarina']

# calcular media de las columnas "ancho" y "alto"
ancho_media = mandarina_df['ancho'].mean()
alto_media = mandarina_df['alto'].mean()

# unificar filas de la columna "producto" donde sea "Mandarina" en una fila única
mandarina_df = mandarina_df.drop_duplicates(subset=['producto'])

# rellenar las columnas "ancho" y "alto" con el valor de la media
mandarina_df['ancho'] = round(ancho_media, 1)
mandarina_df['alto'] = round(alto_media, 1)

# unir dataframe con el dataframe original, sustituyendo las filas donde el valor de la columna "producto" sea "Mandarina"
fruit_size_df = pd.concat([fruit_size_df[fruit_size_df['producto'] != 'Mandarina'], mandarina_df], ignore_index=True)

fruit_size_df

Unnamed: 0,producto,ancho,alto
0,Manzana Golden,7.3,7.7
1,Manzana Golden,7.6,7.3
2,Manzana Golden,7.7,7.1
3,Manzana Golden,7.6,7.5
4,Manzana Golden,7.5,7.6
5,Naranja para mesa,7.5,8.1
6,Naranja para mesa,7.6,7.8
7,Naranja para mesa,7.1,7.9
8,Naranja para mesa,7.1,7.6
9,Naranja para mesa,7.3,7.3


In [14]:
# seleccionar las filas que corresponden a "Manzana Golden"
golden_df = fruit_size_df.loc[fruit_size_df['producto'] == 'Manzana Golden']

# calcular la media de las columnas "ancho" y "alto"
ancho_media = golden_df['ancho'].mean()
alto_media = golden_df['alto'].mean()

# crear una fila única con los valores de la media para "Manzana Golden"
golden_fila = pd.DataFrame([['Manzana Golden', ancho_media, alto_media]], columns=['producto', 'ancho', 'alto'])

# eliminar las filas originales de "Manzana Golden"
fruit_size_df = fruit_size_df.loc[fruit_size_df['producto'] != 'Manzana Golden']

# concatenar la nueva fila y el dataframe original
fruit_size_df = pd.concat([fruit_size_df, golden_fila], ignore_index=True)

# redondear a un decimal
fruit_size_df['ancho'] = fruit_size_df['ancho'].round(1)
fruit_size_df['alto'] = fruit_size_df['alto'].round(1)

fruit_size_df


Unnamed: 0,producto,ancho,alto
0,Naranja para mesa,7.5,8.1
1,Naranja para mesa,7.6,7.8
2,Naranja para mesa,7.1,7.9
3,Naranja para mesa,7.1,7.6
4,Naranja para mesa,7.3,7.3
5,Naranja para mesa,7.2,7.8
6,Naranja para mesa,6.8,7.4
7,Naranja para mesa,7.1,7.5
8,Naranja para mesa,7.6,8.2
9,Naranja para mesa,7.2,7.2


In [15]:
# filtrar el dataframe para seleccionar solo las filas que contengan "Naranja para mesa"
naranja_df = fruit_size_df[fruit_size_df['producto'] == 'Naranja para mesa']

# calcular la media de las columnas 'ancho' y 'alto'
ancho_media = naranja_df['ancho'].mean()
alto_media = naranja_df['alto'].mean()

# unificar todas las filas en una única fila, con la media de los valores de las columnas 'ancho' y 'alto'
nueva_fila = pd.DataFrame({'producto': ['Naranja para mesa'], 'ancho': [ancho_media], 'alto': [alto_media]})

# eliminar las filas antiguas correspondientes a 'Naranja para mesa'
fruit_size_df = fruit_size_df[fruit_size_df['producto'] != 'Naranja para mesa']

# concatenar el dataframe antiguo con la nueva fila unificada
fruit_size_df = pd.concat([fruit_size_df, nueva_fila])

# redondear a un decimal
fruit_size_df['ancho'] = fruit_size_df['ancho'].round(1)
fruit_size_df['alto'] = fruit_size_df['alto'].round(1)

fruit_size_df

Unnamed: 0,producto,ancho,alto
10,Limón,7.2,10.3
11,Limón,7.3,10.5
12,Limón,7.2,9.2
13,Limón,7.3,10.2
14,Limón,7.3,9.7
15,Limón,7.3,10.1
16,Manzana Granny Smith,7.9,7.1
17,Mandarina,5.9,4.4
18,Manzana Golden,7.5,7.4
0,Naranja para mesa,7.2,7.7


In [16]:
# obtener las filas donde el producto sea "Limón"
limon_df = fruit_size_df[fruit_size_df['producto'] == 'Limón']

# calcular la media de las columnas "ancho" y "alto"
limon_media = limon_df[['ancho', 'alto']].mean().round(1)

# unir las filas del producto "Limón" en una sola fila
limon_fila = limon_df.head(1).copy()
limon_fila['ancho'] = limon_media['ancho']
limon_fila['alto'] = limon_media['alto']
limon_fila = limon_fila.reset_index(drop=True)

# eliminar las filas originales del producto "Limón"
fruit_size_df = fruit_size_df[fruit_size_df['producto'] != 'Limón']

# agregar la nueva fila del producto "Limón" con los valores actualizados
fruit_size_df = pd.concat([fruit_size_df, limon_fila], ignore_index=True)

fruit_size_df

Unnamed: 0,producto,ancho,alto
0,Manzana Granny Smith,7.9,7.1
1,Mandarina,5.9,4.4
2,Manzana Golden,7.5,7.4
3,Naranja para mesa,7.2,7.7
4,Limón,7.3,10.0


## **Exportación.**

In [17]:
# exportar el DataFrame limpio y transformado a ".csv"
fruit_size_df.to_csv('../data/frutas_tamaño.csv', index=False)