In [2]:
import pandas as pd
import numpy as np

In [3]:
#import the file from csv
df= pd.read_csv('produccion_grano_arroz.csv')
df

Unnamed: 0,variedad,periodo,prod_grano
0,Variedad_10,Septiembre,110.247315
1,Variedad_4,Julio,94.635580
2,Variedad_3,Agosto,82.776571
3,Variedad_3,Agosto,623.238808
4,Variedad_7,Septiembre,127.659983
...,...,...,...
1341,Variedad_10,Septiembre,665.053862
1342,Variedad_1,Junio,476.488559
1343,Variedad_3,Septiembre,311.573574
1344,Variedad_7,Agosto,235.494110


## Checking general information

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1346 entries, 0 to 1345
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   variedad    1346 non-null   object 
 1   periodo     1346 non-null   object 
 2   prod_grano  1187 non-null   float64
dtypes: float64(1), object(2)
memory usage: 31.7+ KB


In [5]:
#Detecting nulls:
df.prod_grano.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
1341    False
1342    False
1343    False
1344    False
1345    False
Name: prod_grano, Length: 1346, dtype: bool

In [9]:
df.prod_grano.isnull().mean() #11.8% of the data in prod_grano is null

0.11812778603268945

In [7]:
df.variedad.unique()

array(['Variedad_10', 'Variedad_4', 'Variedad_3', 'Variedad_7',
       'Variedad_8', 'Variedad_5', 'Variedad_2', 'Variedad_6',
       'Variedad_9', 'Variedad_1'], dtype=object)

In [8]:
df.periodo.unique()

array(['Septiembre', 'Julio', 'Agosto', 'Junio'], dtype=object)

In [10]:
len(df.variedad.unique()) #How many rice varieties we have?

10

In [11]:
df.groupby(['variedad']).count()

Unnamed: 0_level_0,periodo,prod_grano
variedad,Unnamed: 1_level_1,Unnamed: 2_level_1
Variedad_1,132,117
Variedad_10,125,115
Variedad_2,129,112
Variedad_3,135,123
Variedad_4,142,125
Variedad_5,152,129
Variedad_6,133,118
Variedad_7,123,111
Variedad_8,137,125
Variedad_9,138,112


In [13]:
df.groupby(['variedad','periodo']).agg({'prod_grano':'mean','periodo':'count'})

Unnamed: 0_level_0,Unnamed: 1_level_0,prod_grano,periodo
variedad,periodo,Unnamed: 2_level_1,Unnamed: 3_level_1
Variedad_1,Junio,333.232947,66
Variedad_1,Septiembre,336.187431,66
Variedad_10,Junio,263.891973,60
Variedad_10,Septiembre,283.156357,65
Variedad_2,Julio,332.854397,64
Variedad_2,Septiembre,301.819933,65
Variedad_3,Agosto,298.684554,71
Variedad_3,Septiembre,276.523964,64
Variedad_4,Agosto,281.046982,74
Variedad_4,Julio,258.742811,68


In [16]:
df.groupby(['variedad','periodo']).agg({'prod_grano':('mean','count'),'periodo':'count'}) 
#We can detect how many null data we have, if we compare the count of the production, and counting the period
#for example in the firts row we have 5 nulls, and 10 in the second one.

Unnamed: 0_level_0,Unnamed: 1_level_0,prod_grano,prod_grano,periodo
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count,count
variedad,periodo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Variedad_1,Junio,333.232947,61,66
Variedad_1,Septiembre,336.187431,56,66
Variedad_10,Junio,263.891973,56,60
Variedad_10,Septiembre,283.156357,59,65
Variedad_2,Julio,332.854397,58,64
Variedad_2,Septiembre,301.819933,54,65
Variedad_3,Agosto,298.684554,64,71
Variedad_3,Septiembre,276.523964,59,64
Variedad_4,Agosto,281.046982,66,74
Variedad_4,Julio,258.742811,59,68


In [17]:
#We want to fill the null with the most accurate main data:
df.groupby(['variedad','periodo']).prod_grano.transform(lambda x: x.fillna(x.mean()))

0       110.247315
1        94.635580
2        82.776571
3       623.238808
4       127.659983
           ...    
1341    665.053862
1342    476.488559
1343    311.573574
1344    235.494110
1345    143.471066
Name: prod_grano, Length: 1346, dtype: float64

In [18]:
#We will save it in a new column
df['prod_fillna']= df.groupby(['variedad','periodo']).prod_grano.transform(lambda x: x.fillna(x.mean()))
df['prod_fillna']

0       110.247315
1        94.635580
2        82.776571
3       623.238808
4       127.659983
           ...    
1341    665.053862
1342    476.488559
1343    311.573574
1344    235.494110
1345    143.471066
Name: prod_fillna, Length: 1346, dtype: float64

In [20]:
df[df.prod_grano.isnull()]

Unnamed: 0,variedad,periodo,prod_grano,prod_fillna
15,Variedad_4,Julio,,258.742811
16,Variedad_2,Septiembre,,301.819933
23,Variedad_1,Junio,,333.232947
27,Variedad_1,Junio,,333.232947
30,Variedad_5,Julio,,323.656949
...,...,...,...,...
1308,Variedad_1,Septiembre,,336.187431
1310,Variedad_9,Junio,,295.430666
1311,Variedad_1,Septiembre,,336.187431
1317,Variedad_5,Julio,,323.656949


## We need to "join" a new dataset with the Rice flower production

In [21]:
df_flower = pd.read_csv('produccion_flor_arroz.csv')
df_flower

Unnamed: 0,variedad,nombre_var,prod_floral
0,Variedad_10,Wild Rice,26
1,Variedad_4,Sushi,45
2,Variedad_3,Jazmín,24
3,Variedad_3,Jazmín,84
4,Variedad_7,Carnaroli,23
...,...,...,...
1341,Variedad_10,Wild Rice,91
1342,Variedad_1,Arborio,61
1343,Variedad_3,Jazmín,50
1344,Variedad_7,Carnaroli,78


In [23]:
df_flower.nombre_var.unique()

array(['Wild Rice', 'Sushi', 'Jazmín', 'Carnaroli', 'Thai Rojo',
       'Valencia', 'Basmati', 'Negro Venere', 'Bomba', 'Arborio'],
      dtype=object)

In [26]:
len(df_flower.nombre_var.unique())

10

In [27]:
#We will "merge" the new dataset
pd.merge(df,df_flower,left_index =True, right_index=True)

Unnamed: 0,variedad_x,periodo,prod_grano,prod_fillna,variedad_y,nombre_var,prod_floral
0,Variedad_10,Septiembre,110.247315,110.247315,Variedad_10,Wild Rice,26
1,Variedad_4,Julio,94.635580,94.635580,Variedad_4,Sushi,45
2,Variedad_3,Agosto,82.776571,82.776571,Variedad_3,Jazmín,24
3,Variedad_3,Agosto,623.238808,623.238808,Variedad_3,Jazmín,84
4,Variedad_7,Septiembre,127.659983,127.659983,Variedad_7,Carnaroli,23
...,...,...,...,...,...,...,...
1341,Variedad_10,Septiembre,665.053862,665.053862,Variedad_10,Wild Rice,91
1342,Variedad_1,Junio,476.488559,476.488559,Variedad_1,Arborio,61
1343,Variedad_3,Septiembre,311.573574,311.573574,Variedad_3,Jazmín,50
1344,Variedad_7,Agosto,235.494110,235.494110,Variedad_7,Carnaroli,78


In [28]:
#Now, we can save it
df_total = pd.merge(df,df_flower,left_index =True, right_index=True)
df_total

Unnamed: 0,variedad_x,periodo,prod_grano,prod_fillna,variedad_y,nombre_var,prod_floral
0,Variedad_10,Septiembre,110.247315,110.247315,Variedad_10,Wild Rice,26
1,Variedad_4,Julio,94.635580,94.635580,Variedad_4,Sushi,45
2,Variedad_3,Agosto,82.776571,82.776571,Variedad_3,Jazmín,24
3,Variedad_3,Agosto,623.238808,623.238808,Variedad_3,Jazmín,84
4,Variedad_7,Septiembre,127.659983,127.659983,Variedad_7,Carnaroli,23
...,...,...,...,...,...,...,...
1341,Variedad_10,Septiembre,665.053862,665.053862,Variedad_10,Wild Rice,91
1342,Variedad_1,Junio,476.488559,476.488559,Variedad_1,Arborio,61
1343,Variedad_3,Septiembre,311.573574,311.573574,Variedad_3,Jazmín,50
1344,Variedad_7,Agosto,235.494110,235.494110,Variedad_7,Carnaroli,78


In [29]:
df_total.groupby(['nombre_var','periodo']).std(numeric_only=True) # to calculate the standard deviation

Unnamed: 0_level_0,Unnamed: 1_level_0,prod_grano,prod_fillna,prod_floral
nombre_var,periodo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Arborio,Junio,162.437508,156.06491,21.085551
Arborio,Septiembre,167.570521,154.14246,20.632476
Basmati,Julio,154.079977,146.559292,21.21021
Basmati,Septiembre,159.275439,144.942837,22.191561
Bomba,Junio,161.386434,147.964141,21.965982
Bomba,Septiembre,148.548928,130.868099,21.230083
Carnaroli,Agosto,150.711825,141.647736,23.276398
Carnaroli,Septiembre,175.56072,168.211797,21.068754
Jazmín,Agosto,168.915853,160.247649,25.176056
Jazmín,Septiembre,145.689631,139.788797,20.909385


In [30]:
#save the document in csv:
df_total.to_csv('Produccion_arroz.csv', index=False)

In [32]:
pd.read_csv('Produccion_arroz.csv')

Unnamed: 0,variedad_x,periodo,prod_grano,prod_fillna,variedad_y,nombre_var,prod_floral
0,Variedad_10,Septiembre,110.247315,110.247315,Variedad_10,Wild Rice,26
1,Variedad_4,Julio,94.635580,94.635580,Variedad_4,Sushi,45
2,Variedad_3,Agosto,82.776571,82.776571,Variedad_3,Jazmín,24
3,Variedad_3,Agosto,623.238808,623.238808,Variedad_3,Jazmín,84
4,Variedad_7,Septiembre,127.659983,127.659983,Variedad_7,Carnaroli,23
...,...,...,...,...,...,...,...
1341,Variedad_10,Septiembre,665.053862,665.053862,Variedad_10,Wild Rice,91
1342,Variedad_1,Junio,476.488559,476.488559,Variedad_1,Arborio,61
1343,Variedad_3,Septiembre,311.573574,311.573574,Variedad_3,Jazmín,50
1344,Variedad_7,Agosto,235.494110,235.494110,Variedad_7,Carnaroli,78


In [33]:
df=pd.read_csv('Produccion_arroz.csv')

In [34]:
df.drop( columns = 'variedad_y', inplace=True) #eliminate columns are duplicate

In [35]:
df.rename(columns = {'variedad_x':'variedad'}, inplace=True) #rename columns

Create pivot tables

In [36]:
df.groupby(['variedad','periodo']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,prod_grano,prod_fillna,prod_floral
variedad,periodo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Variedad_1,Junio,333.232947,333.232947,63.121212
Variedad_1,Septiembre,336.187431,336.187431,63.80303
Variedad_10,Junio,263.891973,263.891973,60.583333
Variedad_10,Septiembre,283.156357,283.156357,58.276923
Variedad_2,Julio,332.854397,332.854397,62.5
Variedad_2,Septiembre,301.819933,301.819933,57.815385
Variedad_3,Agosto,298.684554,298.684554,59.28169
Variedad_3,Septiembre,276.523964,276.523964,57.0625
Variedad_4,Agosto,281.046982,281.046982,58.121622
Variedad_4,Julio,258.742811,258.742811,57.132353


In [37]:
df.groupby(['variedad','periodo']).mean(numeric_only=True).reset_index()

Unnamed: 0,variedad,periodo,prod_grano,prod_fillna,prod_floral
0,Variedad_1,Junio,333.232947,333.232947,63.121212
1,Variedad_1,Septiembre,336.187431,336.187431,63.80303
2,Variedad_10,Junio,263.891973,263.891973,60.583333
3,Variedad_10,Septiembre,283.156357,283.156357,58.276923
4,Variedad_2,Julio,332.854397,332.854397,62.5
5,Variedad_2,Septiembre,301.819933,301.819933,57.815385
6,Variedad_3,Agosto,298.684554,298.684554,59.28169
7,Variedad_3,Septiembre,276.523964,276.523964,57.0625
8,Variedad_4,Agosto,281.046982,281.046982,58.121622
9,Variedad_4,Julio,258.742811,258.742811,57.132353


In [38]:
df_agrupado =df.groupby(['variedad','periodo']).mean(numeric_only=True).reset_index()

In [39]:
df_agrupado.pivot(index='variedad', columns='periodo', values= 'prod_fillna')

periodo,Agosto,Julio,Junio,Septiembre
variedad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Variedad_1,,,333.232947,336.187431
Variedad_10,,,263.891973,283.156357
Variedad_2,,332.854397,,301.819933
Variedad_3,298.684554,,,276.523964
Variedad_4,281.046982,258.742811,,
Variedad_5,302.044726,323.656949,,
Variedad_6,,295.197747,,329.800283
Variedad_7,302.540243,,,327.845678
Variedad_8,321.858973,287.956528,,
Variedad_9,,,295.430666,279.48487


In [40]:
df_pivot = df.pivot_table(index='variedad', columns='periodo', values= 'prod_fillna')

In [41]:
df_pivot.reset_index(inplace=True)

In [42]:
df_pivot

periodo,variedad,Agosto,Julio,Junio,Septiembre
0,Variedad_1,,,333.232947,336.187431
1,Variedad_10,,,263.891973,283.156357
2,Variedad_2,,332.854397,,301.819933
3,Variedad_3,298.684554,,,276.523964
4,Variedad_4,281.046982,258.742811,,
5,Variedad_5,302.044726,323.656949,,
6,Variedad_6,,295.197747,,329.800283
7,Variedad_7,302.540243,,,327.845678
8,Variedad_8,321.858973,287.956528,,
9,Variedad_9,,,295.430666,279.48487
