In [9]:
%matplotlib inline
# Enabling reloading extension to use external python files
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [10]:
import pandas as pd
import numpy as np
import os.path
import os
import columns
import datasets
import seasons
import directory_utils

In [11]:
data_dict = {sheet_name: [] for sheet_name in datasets.SHEETS_NAMES}
data_dict

{'111': [], '222': [], '333': [], '265': []}

In [12]:
def read_sheet_as_data_frame(xls, sheet_name):
    sheet = pd.read_excel(xls, sheet_name=sheet_name)
    
    columns_to_drop = []
    for column in sheet.columns:
        if(columns.UNNAMED in column):
            columns_to_drop.append(column)
    df = sheet.drop(columns_to_drop, axis=1) 
    
    return df

In [13]:
spreadsheet_names = [str(1997+w) for w in range(0,20)]

for name in spreadsheet_names:
    file_path = datasets.ORIGINAL_DATA_SETS_PATH + "/" + name + ".xlsx"
    
    if os.path.isfile(file_path):
        with pd.ExcelFile(file_path) as xls:          
            for sheet_name in datasets.SHEETS_NAMES:
                if sheet_name in xls.sheet_names:
                    df = read_sheet_as_data_frame(xls,sheet_name)
                    data_dict[sheet_name].append(df)

    else:
        print('File "' + file_path + '" was not found.')       

In [14]:
data_frames = {sheet_name: pd.concat(data_frames) for sheet_name, data_frames in data_dict.items()}
for name, data_frame in data_frames.items():
    print('Shape of \"' + name + '\":' + str(data_frame.shape))

Shape of "111":(997961, 18)
Shape of "222":(6549, 21)
Shape of "333":(24178, 10)
Shape of "265":(6499, 13)


In [15]:
directory_utils.create_if_doesnt_exist(datasets.MERGED_CSVS_DIRECTORY_PATH)

for sheet_name, data_frame in data_frames.items():
    csv_output_file_path = datasets.MERGED_CSVS_DIRECTORY_PATH + '/' + sheet_name + '.csv'
    data_frame.to_csv(csv_output_file_path , index = False, encoding=datasets.DEFAULT_CSV_ENCODING)

In [17]:
data_frame_111 = data_frames[datasets.SHEET_111_NAME]
data_frame_222 = data_frames[datasets.SHEET_222_NAME]
data_frame_333 = data_frames[datasets.SHEET_333_NAME]
data_frame_265 = data_frames[datasets.SHEET_265_NAME]

### Analyzing 111 data frame

In [18]:
data_frame_111.head(2)

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instante da aquisição (°),Radiação Incidente total de 10 leituras (KW/m2),Radiação Refletida Total de 10 leituras (KW/m2),Fluxo Positivo de calor no solo total de 10 leituras (W/m2),Fluxo negativo de calor no solo . total de 10 leituras (W/m2),Umidade relativa Média (%),Temperatura do Ar Média (°C),Temperatura do solo 1 Média (°C) à 3cm no solo,Temperatura do solo 2Média (°C) à 6cm no solo,Temperatura do solo 3Média (°C) Colocado sensor de UV em 31/07/09,Pressão (hPa),Chuva total do período (mm)
0,111,1998,1.0,10,2.56,1728.0,129.2,0.0,0.0,0.0,-486.6,100.0,22.14,26.06,27.25,29.02,946.0,0
1,111,1998,1.0,20,2403.0,1682.0,90.0,0.0,0.0,0.0,-482.9,100.0,22.13,26.05,27.25,29.02,946.0,0


In [19]:
data_frame_111.columns

Index(['Cod', 'Ano', 'Dia Juliano', 'Hora - minuto',
       'Veloc. Instantânea do Vento a 5 metros (m/s)',
       'Veloc. Instantânea do Vento a 2 metros (m/s)',
       'Direção do Vento no instante da aquisição (°)',
       'Radiação Incidente total de 10 leituras (KW/m2)',
       'Radiação Refletida Total de 10 leituras (KW/m2)',
       'Fluxo Positivo de calor no solo total de 10 leituras (W/m2)',
       'Fluxo negativo de calor no solo . total de 10 leituras (W/m2)',
       'Umidade relativa Média (%)', 'Temperatura do Ar Média (°C)',
       'Temperatura do solo  1 Média (°C) à 3cm no solo',
       'Temperatura do solo 2Média (°C) à 6cm no solo ',
       'Temperatura do solo 3Média (°C) Colocado sensor de UV em 31/07/09',
       'Pressão (hPa)', 'Chuva total do período (mm)'],
      dtype='object')

In [20]:
data_frame_111.Cod.unique()

array([111, 333, 265, 222])

In [21]:
print(data_frame_111[data_frame_111.Cod != 111][columns.YEAR].unique())

[2005]


In [22]:
data_frame_111.isnull().sum()

Cod                                                                     0
Ano                                                                     0
Dia Juliano                                                             0
Hora - minuto                                                           0
Veloc. Instantânea do Vento a 5 metros (m/s)                            0
Veloc. Instantânea do Vento a 2 metros (m/s)                            0
Direção do Vento no instante da aquisição (°)                           0
Radiação Incidente total de 10 leituras (KW/m2)                         0
Radiação Refletida Total de 10 leituras (KW/m2)                         0
Fluxo Positivo de calor no solo total de 10 leituras (W/m2)             0
Fluxo negativo de calor no solo . total de 10 leituras (W/m2)        1825
Umidade relativa Média (%)                                           1826
Temperatura do Ar Média (°C)                                         1826
Temperatura do solo  1 Média (°C) à 3c

In [23]:
data_frame_111.describe()

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instante da aquisição (°),Radiação Incidente total de 10 leituras (KW/m2),Radiação Refletida Total de 10 leituras (KW/m2),Fluxo Positivo de calor no solo total de 10 leituras (W/m2),Fluxo negativo de calor no solo . total de 10 leituras (W/m2),Umidade relativa Média (%),Temperatura do Ar Média (°C),Temperatura do solo 1 Média (°C) à 3cm no solo,Temperatura do solo 2Média (°C) à 6cm no solo,Pressão (hPa)
count,997961.0,997961.0,997961.0,997961.0,997961.0,997961.0,997961.0,997961.0,997961.0,997961.0,996136.0,996135.0,996135.0,995770.0,995770.0,995770.0
mean,111.5029,2007.051017,183.586042,1192.166297,1475.224883,917.671706,239.113364,741.601105,274.279981,370.378574,-1738.391017,73.584838,26.199319,1400.862837,1363.3195,946.107381
std,10.151583,5.468526,105.384332,692.75557,1357.186893,1144.058003,554.738891,1577.788541,904.804691,1171.193961,2848.168698,27.801138,242.126065,2778.728437,2748.226063,82.97414
min,111.0,1998.0,-53.36,10.0,-6999.0,0.0,0.0,-6999.0,0.0,0.0,-6999.0,-6999.0,-6999.0,-6999.0,-6999.0,-6999.0
25%,111.0,2002.0,93.0,610.0,1.01,0.539,97.7,0.0,0.0,0.0,-639.4,60.15,18.18,20.53,21.21,942.0
50%,111.0,2007.0,184.0,1210.0,1481.0,1.01,156.8,0.0,0.0,0.0,-246.2,77.1,21.18,24.52,24.97,947.0
75%,111.0,2012.0,275.0,1810.0,2265.0,1716.0,256.5,426.2,1.18,166.6,0.0,88.6,25.14,32.24,30.0,952.0
max,333.0,2139.0,654.0,6640.0,6996.0,6999.0,6999.0,6999.0,6999.0,6999.0,6538.0,6836.0,182266.0,6999.0,6999.0,2802.0


### Analyzing 222 data frame

In [24]:
data_frame_222.head(2)

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. máxima do Vento a 5 metros (m/s),Veloc. máxima do Vento a 2 metros (m/s),Direção do Vento no instante da veloc. Máx.(°),Horário de ocorrência vr máx. veloc. do vento,Radiação Incidente Total do dia (KW/m2),Radiação Refletida Total do dia (KW/m2),...,Fluxo Negativo de calor no solo. Total do dia (KW/m2),Temperatura do Ar Máxima do dia (°C),Horário de ocorrência da Temp. Ar Máxima(°C),Temperatura do Ar Mínima do dia (°C),Horário de ocorrência da Temp. Ar Minima,Temperatura do Solo 1 Máxima do dia (°C),Horário de ocorrência da Temp. Solo 1 Máxima.,Temperatura do Solo 1 Mínima do dia (°C),Horário de ocorrência da Temp. Solo 1 minima,Chuva total do dia (mm)
0,222,1998,1,2400,6169.0,3978.0,183.6,1654,347.6,80.8,...,-36.22,35.51,723,20.44,2221.0,47.87,1449,25.97,18.0,0.4
1,222,1998,2,2400,4737.0,2493.0,172.5,2219,346.8,80.9,...,-25.89,34.05,1507,22.09,728.0,47.97,1307,24.97,728.0,0.0


In [25]:
data_frame_222.columns

Index(['Cod', 'Ano', 'Dia Juliano', 'Hora - minuto',
       'Veloc. máxima do Vento a 5 metros (m/s)',
       'Veloc. máxima do Vento a 2 metros (m/s)',
       'Direção do Vento no instante da veloc. Máx.(°)',
       'Horário de ocorrência vr máx. veloc. do vento',
       'Radiação Incidente Total do dia (KW/m2)',
       'Radiação Refletida Total do dia (KW/m2)',
       'Fluxo positivo de calor no solo Total do dia (KW/m2)',
       'Fluxo Negativo de calor no solo. Total do dia (KW/m2)',
       'Temperatura do Ar  Máxima do dia (°C)',
       'Horário de ocorrência da Temp. Ar Máxima(°C)',
       'Temperatura do Ar Mínima do dia (°C)',
       'Horário de ocorrência da Temp. Ar Minima',
       'Temperatura do Solo 1 Máxima do dia (°C)',
       'Horário de ocorrência da Temp. Solo 1 Máxima.',
       'Temperatura do Solo 1 Mínima do dia (°C)',
       'Horário de ocorrência da Temp. Solo 1 minima',
       'Chuva total do dia (mm)'],
      dtype='object')

In [26]:
data_frame_222.Cod.unique()

array([222], dtype=object)

In [27]:
print(data_frame_222[data_frame_222.Cod != 222][columns.YEAR].unique())

[]


In [28]:
data_frame_222.isnull().sum()

Cod                                                        0
Ano                                                        0
Dia Juliano                                                0
Hora - minuto                                              0
Veloc. máxima do Vento a 5 metros (m/s)                    0
Veloc. máxima do Vento a 2 metros (m/s)                    0
Direção do Vento no instante da veloc. Máx.(°)             0
Horário de ocorrência vr máx. veloc. do vento              0
Radiação Incidente Total do dia (KW/m2)                    0
Radiação Refletida Total do dia (KW/m2)                    0
Fluxo positivo de calor no solo Total do dia (KW/m2)       0
Fluxo Negativo de calor no solo. Total do dia (KW/m2)      0
Temperatura do Ar  Máxima do dia (°C)                      1
Horário de ocorrência da Temp. Ar Máxima(°C)               1
Temperatura do Ar Mínima do dia (°C)                       1
Horário de ocorrência da Temp. Ar Minima                   1
Temperatura do Solo 1 Má

In [29]:
data_frame_222.describe()

Unnamed: 0,Veloc. máxima do Vento a 5 metros (m/s),Veloc. máxima do Vento a 2 metros (m/s),Direção do Vento no instante da veloc. Máx.(°),Radiação Incidente Total do dia (KW/m2),Radiação Refletida Total do dia (KW/m2),Fluxo positivo de calor no solo Total do dia (KW/m2),Temperatura do Ar Mínima do dia (°C),Horário de ocorrência da Temp. Ar Minima,Temperatura do Solo 1 Mínima do dia (°C),Horário de ocorrência da Temp. Solo 1 minima,Chuva total do dia (mm)
count,6549.0,6549.0,6549.0,6549.0,6549.0,6549.0,6548.0,6548.0,6548.0,6547.0,6398.0
mean,3654.072321,2570.834417,255.329031,207.310601,116.726013,103.65542,51.338462,788.171808,825.707949,780.307927,266.352734
std,2037.660809,1887.186029,500.146554,271.055305,390.699278,706.735965,463.721316,653.936034,2302.646231,611.769402,1018.298531
min,0.0,0.0,0.0,0.0,0.0,-931.0,0.0,0.0,-6999.0,0.0,0.0
25%,3089.0,4.58,133.6,102.0,43.06,-210.6,14.0475,500.0,15.48,559.0,0.0
50%,4031.0,2854.0,181.7,204.3,67.16,24.45,16.94,558.0,19.87,650.0,0.0
75%,5011.0,3913.0,280.5,270.0,101.6,93.1,19.1,652.0,23.0625,733.0,2.8
max,6973.0,6973.0,6897.0,6232.0,6909.0,6801.0,6991.0,2400.0,6999.0,2400.0,6858.0


### Analyzing 333 data frame

In [30]:
data_frame_333.head(2)

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instantânea (°),Umidade relativa Instantânea (%),Temperatura do Ar Instantânea (°C),Pressão
0,333,1998,1.0,700,1.03,0.733,8.68,100.0,34.01,961
1,333,1998,1.0,900,1069.0,0.886,39.85,84.9,28.72,944


In [31]:
data_frame_333.columns

Index(['Cod', 'Ano', 'Dia Juliano', 'Hora - minuto',
       'Veloc. Instantânea do Vento a 5 metros (m/s)',
       'Veloc. Instantânea do Vento a 2 metros (m/s)',
       'Direção do Vento no instantânea  (°)',
       'Umidade relativa Instantânea  (%)',
       'Temperatura do Ar Instantânea (°C)', 'Pressão'],
      dtype='object')

In [32]:
data_frame_333.Cod.unique()

array([333], dtype=object)

In [33]:
print(data_frame_333[data_frame_333.Cod != 333][columns.YEAR].unique())

[]


In [34]:
data_frame_333.isnull().sum()

Cod                                             0
Ano                                             0
Dia Juliano                                     0
Hora - minuto                                   0
Veloc. Instantânea do Vento a 5 metros (m/s)    0
Veloc. Instantânea do Vento a 2 metros (m/s)    0
Direção do Vento no instantânea  (°)            0
Umidade relativa Instantânea  (%)               0
Temperatura do Ar Instantânea (°C)              0
Pressão                                         0
dtype: int64

In [35]:
data_frame_333.describe()

Unnamed: 0,Dia Juliano,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instantânea (°),Umidade relativa Instantânea (%),Temperatura do Ar Instantânea (°C)
count,24178.0,24178.0,24178.0,24178.0,24178.0,24178.0
mean,180.280594,1428.712099,1049.277256,249.146238,69.299668,27.329861
std,105.508862,1265.989075,1135.71034,559.080532,19.558733,168.207714
min,-53.36,0.0,0.0,0.0,7.77,-165.2
25%,89.0,1.01,0.775,101.9,54.45,19.17
50%,179.0,1481.0,1206.0,159.7,71.8,22.545
75%,272.0,2187.0,1755.0,271.8,84.7,26.71
max,366.0,6895.0,6679.0,6952.0,100.0,6999.0


### Analyzing 265 data frame

In [36]:
data_frame_265.head(2)

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Chuva das 7 h as 7 h,Temperatura do Ar máxima do dia °C,Horário de ocorrência da Temp. Ar máxima,Temperatura do Ar Minima do dia (°C),Horário de ocorrência da Temp. Ar minima,Umidade máxima,Hora,Umidade mínima,Hora.1
0,265,1998,1.0,700,0.0,34.01,700,22.09,6.0,100.0,700,59.75,1627
1,265,1998,2.0,700,0.4,35.51,723,20.44,2221.0,100.0,700,56.44,1445


In [37]:
data_frame_265.columns

Index(['Cod', 'Ano', 'Dia Juliano', 'Hora - minuto', 'Chuva das 7 h as 7 h',
       'Temperatura do Ar máxima do dia °C',
       'Horário de ocorrência da Temp. Ar máxima',
       'Temperatura do Ar Minima do dia (°C)',
       'Horário de ocorrência da Temp. Ar minima', 'Umidade máxima', 'Hora',
       'Umidade mínima', 'Hora.1'],
      dtype='object')

In [38]:
data_frame_265.Cod.unique()

array([265], dtype=object)

In [39]:
print(data_frame_265[data_frame_265.Cod != 265][columns.YEAR].unique())

[]


In [40]:
data_frame_265.isnull().sum()

Cod                                         0
Ano                                         0
Dia Juliano                                 0
Hora - minuto                               0
Chuva das 7 h as 7 h                        0
Temperatura do Ar máxima do dia °C          0
Horário de ocorrência da Temp. Ar máxima    0
Temperatura do Ar Minima do dia (°C)        5
Horário de ocorrência da Temp. Ar minima    5
Umidade máxima                              0
Hora                                        0
Umidade mínima                              0
Hora.1                                      0
dtype: int64

In [41]:
data_frame_265.describe()

Unnamed: 0,Dia Juliano,Chuva das 7 h as 7 h,Temperatura do Ar máxima do dia °C,Temperatura do Ar Minima do dia (°C),Horário de ocorrência da Temp. Ar minima,Umidade máxima,Umidade mínima
count,6499.0,6499.0,6499.0,6494.0,6494.0,6499.0,6499.0
mean,183.456169,273.551853,30.682508,63.357569,599.026024,92.179024,47.394752
std,105.597193,1039.788042,122.336787,549.082764,309.99617,7.413493,108.395252
min,-53.36,0.0,11.66,-6999.0,-6999.0,51.08,-6999.0
25%,92.0,0.0,26.14,13.8325,509.0,88.1,37.08
50%,184.0,0.0,28.9,16.95,606.0,93.6,46.28
75%,275.0,2.8,31.405,19.23,701.0,98.5,56.92
max,366.0,6999.0,6999.0,6991.0,2400.0,100.0,5044.0
