# Análises Base CEPAGRI


### 1. Import das bases

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### 2. Tratamento das bases

#### Criando array com o nome das planilhas com as informações

In [52]:
planilha = [str(1997+w) for w in range(0,20)]
planilha

['1997',
 '1998',
 '1999',
 '2000',
 '2001',
 '2002',
 '2003',
 '2004',
 '2005',
 '2006',
 '2007',
 '2008',
 '2009',
 '2010',
 '2011',
 '2012',
 '2013',
 '2014',
 '2015',
 '2016']

### Lendo cada planilha separando por abas iguais (111, 222, 333 e 265), em 4 dataframes

Se a coluna vier com a string "Unnamed" contido no nome, ela é dropada, pois é um erro de leitura de planilha do excel

In [53]:
data_111 = []
for p in planilha:
    name =p+'.xlsx'
    data_111.append(pd.read_excel(name, sheetname="111"))

In [54]:
for i in range(len(planilha)):
    to_drop = []
    for var in data_111[i].columns:
        if("Unnamed" in var):
            to_drop.append(var)
    data_111[i] = data_111[i].drop(to_drop, axis=1) 

In [55]:
data_222 = []
for p in planilha:
    name =p+'.xlsx'
    data_222.append(pd.read_excel(name, sheetname="222"))

In [56]:
for i in range(len(planilha)):
    to_drop = []
    for var in data_222[i].columns:
        if("Unnamed" in var):
            to_drop.append(var)
    data_222[i] = data_222[i].drop(to_drop, axis=1) 

#### Foi visto que nas abas 333, a partir de 2013 não existe essa aba nas planilhas e portanto limitou-se a leitura até 2012

In [59]:
data_333 = []
for p in planilha:
    if(int(p)<2013):
        name =p+'.xlsx'
        print(name)
        data_333.append(pd.read_excel(name, sheetname="333"))

1997.xlsx
1998.xlsx
1999.xlsx
2000.xlsx
2001.xlsx
2002.xlsx
2003.xlsx
2004.xlsx
2005.xlsx
2006.xlsx
2007.xlsx
2008.xlsx
2009.xlsx
2010.xlsx
2011.xlsx
2012.xlsx


In [61]:
for i in range(len(planilha)-4):
    to_drop = []
    for var in data_333[i].columns:
        if("Unnamed" in var):
            to_drop.append(var)
    data_333[i] = data_333[i].drop(to_drop, axis=1) 

In [62]:
data_265 = []
for p in planilha:
    name =p+'.xlsx'
    data_265.append(pd.read_excel(name, sheetname="265"))

In [63]:
for i in range(len(planilha)):
    to_drop = []
    for var in data_265[i].columns:
        if("Unnamed" in var):
            to_drop.append(var)
    data_265[i] = data_265[i].drop(to_drop, axis=1) 

#### Checando o tamanhos das bases

In [155]:
# for i in range(len(data_111)):
#     print("Base ", i, " tem tamanho ", data_111[i].shape, "\n")

In [156]:
# for i in range(len(data_222)):
#     print("Base ", i, " tem tamanho ", data_222[i].shape, "\n")

In [157]:
# for i in range(len(data_333)):
#     print("Base ", i, " tem tamanho ", data_333[i].shape, "\n")

In [158]:
# for i in range(len(data_265)):
#     print("Base ", i, " tem tamanho ", data_265[i].shape, "\n")

#### Consolidando as bases

In [71]:
full_111 = data_111[0]

for i in range(1,len(data_111) - 1):
    full_111 = pd.concat([full_111, data_111[i]], axis = 0)

In [74]:
full_111.shape

(997705, 18)

In [75]:
full_222 = data_222[0]

for i in range(1,len(data_222) - 1):
    full_222 = pd.concat([full_222, data_222[i]], axis = 0)

In [76]:
full_222.shape

(6548, 21)

In [77]:
full_333 = data_333[0]

for i in range(1,len(data_333) - 1):
    full_333 = pd.concat([full_333, data_333[i]], axis = 0)

In [78]:
full_333.shape

(25320, 10)

In [79]:
full_265 = data_265[0]

for i in range(1,len(data_265) - 1):
    full_265 = pd.concat([full_265, data_265[i]], axis = 0)

In [80]:
full_265.shape

(6498, 13)

#### Salvando as bases consolidadas em arquivo csv

In [81]:
full_111.to_csv("base_111.csv", index = False)
full_222.to_csv("base_222.csv", index = False)
full_333.to_csv("base_333.csv", index = False)
full_265.to_csv("base_265.csv", index = False)

### 3. Análise das bases

In [82]:
full_111.head(2)

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instante da aquisição (°),Radiação Incidente total de 10 leituras (KW/m2),Radiação Refletida Total de 10 leituras (KW/m2),Fluxo Positivo de calor no solo total de 10 leituras (W/m2),Fluxo negativo de calor no solo . total de 10 leituras (W/m2),Umidade relativa Média (%),Temperatura do Ar Média (°C),Temperatura do solo 1 Média (°C) à 3cm no solo,Temperatura do solo 2Média (°C) à 6cm no solo,Temperatura do solo 3Média (°C) Colocado sensor de UV em 31/07/09,Pressão (hPa),Chuva total do período (mm)
0,111,1997,1.0,10,1618.0,1115.0,8.32,0.0,0.0,0.0,-443.0,92.3,19.84,21.04,22.68,24.59,943.0,0
1,111,1997,1.0,20,0.99,0.763,20.59,0.0,0.0,0.0,-443.0,93.1,19.63,20.97,22.65,24.52,943.0,0


In [83]:
full_222.head(2)

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. máxima do Vento a 5 metros (m/s),Veloc. máxima do Vento a 2 metros (m/s),Direção do Vento no instante da veloc. Máx.(°),Horário de ocorrência vr máx. veloc. do vento,Radiação Incidente Total do dia (KW/m2),Radiação Refletida Total do dia (KW/m2),...,Fluxo Negativo de calor no solo. Total do dia (KW/m2),Temperatura do Ar Máxima do dia (°C),Horário de ocorrência da Temp. Ar Máxima(°C),Temperatura do Ar Mínima do dia (°C),Horário de ocorrência da Temp. Ar Minima,Temperatura do Solo 1 Máxima do dia (°C),Horário de ocorrência da Temp. Solo 1 Máxima.,Temperatura do Solo 1 Mínima do dia (°C),Horário de ocorrência da Temp. Solo 1 minima,Chuva total do dia (mm)
0,222,1997,1,2400,6031.0,2677.0,99.6,1923,270.8,53.81,...,-34.76,30.16,1255,18.5,551,34.53,1258,19.15,606,0.0
1,222,1997,2,2400,4756.0,1758.0,119.5,45,165.3,27.46,...,-26.86,26.15,1417,19.15,2355,27.66,1425,19.65,2352,0.0


In [84]:
full_333.head()

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instantânea (°),Umidade relativa Instantânea (%),Temperatura do Ar Instantânea (°C),Pressão
0,333,1997,1,700,3344.0,1973.0,89.1,89.7,20.47,942
1,333,1997,1,900,2618.0,1544.0,185.6,80.2,23.38,944
2,333,1997,1,1400,2422.0,1422.0,44.37,62.04,28.23,942
3,333,1997,1,1500,2089.0,1253.0,37.73,62.9,27.86,941
4,333,1997,1,2100,4501.0,2509.0,138.6,82.6,21.21,944


In [86]:
full_265.head()

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Chuva das 7 h as 7 h,Temperatura do Ar máxima do dia °C,Horário de ocorrência da Temp. Ar máxima,Temperatura do Ar Minima do dia (°C),Horário de ocorrência da Temp. Ar minima,Umidade máxima,Hora,Umidade mínima,Hora.1
0,265,1997,1,700,0.0,31.11,1356,18.5,551.0,,,,
1,265,1997,2,700,0.0,30.16,1255,19.21,510.0,,,,
2,265,1997,3,700,0.0,26.15,1417,17.88,533.0,,,,
3,265,1997,4,700,0.0,25.74,1208,17.81,126.0,,,,
4,265,1997,5,700,0.0,29.69,1625,17.95,535.0,,,,


### 3.1. Analise para a base 111

In [87]:
full_111.columns

Index(['Cod', 'Ano', 'Dia Juliano', 'Hora - minuto',
       'Veloc. Instantânea do Vento a 5 metros (m/s)',
       'Veloc. Instantânea do Vento a 2 metros (m/s)',
       'Direção do Vento no instante da aquisição (°)',
       'Radiação Incidente total de 10 leituras (KW/m2)',
       'Radiação Refletida Total de 10 leituras (KW/m2)',
       'Fluxo Positivo de calor no solo total de 10 leituras (W/m2)',
       'Fluxo negativo de calor no solo . total de 10 leituras (W/m2)',
       'Umidade relativa Média (%)', 'Temperatura do Ar Média (°C)',
       'Temperatura do solo  1 Média (°C) à 3cm no solo',
       'Temperatura do solo 2Média (°C) à 6cm no solo ',
       'Temperatura do solo 3Média (°C) Colocado sensor de UV em 31/07/09',
       'Pressão (hPa)', 'Chuva total do período (mm)'],
      dtype='object')

In [161]:
full_111.Cod.unique()

array([111, 333, 265, 222], dtype=int64)

#### Aparentemente algo está errado em 2005, é só a marcação de código ou os dados também?

Dentro da base 111 em 2005 existe Cod que são 222, 333 e 265

In [103]:
print(full_111[full_111.Cod == 222]['Ano'].unique())
print(full_111[full_111.Cod == 333]['Ano'].unique())
print(full_111[full_111.Cod == 265]['Ano'].unique())

[2005]
[2005]
[2005]


### Checando valores missings

In [104]:
full_111.isnull().sum()

Cod                                                                     0
Ano                                                                     0
Dia Juliano                                                             0
Hora - minuto                                                           0
Veloc. Instantânea do Vento a 5 metros (m/s)                            0
Veloc. Instantânea do Vento a 2 metros (m/s)                            0
Direção do Vento no instante da aquisição (°)                           0
Radiação Incidente total de 10 leituras (KW/m2)                         0
Radiação Refletida Total de 10 leituras (KW/m2)                         0
Fluxo Positivo de calor no solo total de 10 leituras (W/m2)             0
Fluxo negativo de calor no solo . total de 10 leituras (W/m2)        1825
Umidade relativa Média (%)                                           1826
Temperatura do Ar Média (°C)                                         1826
Temperatura do solo  1 Média (°C) à 3c

Pequeno teste de tendência de temperatura, onde foi visto que existem valores fora das escalas esperadas

In [134]:
# temp_2001 = full_111[full_111.Ano == 2015]['Temperatura do Ar Média (°C)']

In [159]:
# plt.figure(figsize=(20,6))
# plt.plot(temp_2001[(temp_2001<50) & (temp_2001 >=0)])

### 3.2. Informações das variáveis:

In [154]:
full_111.describe()

Unnamed: 0,Cod,Ano,Dia Juliano,Hora - minuto,Veloc. Instantânea do Vento a 5 metros (m/s),Veloc. Instantânea do Vento a 2 metros (m/s),Direção do Vento no instante da aquisição (°),Radiação Incidente total de 10 leituras (KW/m2),Radiação Refletida Total de 10 leituras (KW/m2),Fluxo Positivo de calor no solo total de 10 leituras (W/m2),Fluxo negativo de calor no solo . total de 10 leituras (W/m2),Umidade relativa Média (%),Temperatura do Ar Média (°C),Temperatura do solo 1 Média (°C) à 3cm no solo,Temperatura do solo 2Média (°C) à 6cm no solo,Pressão (hPa)
count,997705.0,997705.0,997705.0,997705.0,997705.0,997705.0,997705.0,997705.0,997705.0,997705.0,995880.0,995879.0,995879.0,995514.0,995514.0,995514.0
mean,111.503029,2006.049183,183.574166,1192.172977,1434.735636,877.778706,273.632008,791.007292,280.373982,375.408254,-1383.991541,74.045735,25.871349,1037.172846,997.479443,946.43359
std,10.152882,5.476202,105.365608,692.751398,1332.101405,1114.843558,669.646808,1644.318924,910.445572,1150.692398,2581.836905,27.871503,238.368677,2460.041175,2417.8446,82.999421
min,111.0,1997.0,-53.36,10.0,-6999.0,0.0,0.0,-6999.0,0.0,0.0,-6999.0,-6999.0,-6999.0,-6999.0,-6999.0,-6999.0
25%,111.0,2001.0,93.0,610.0,0.959,0.539,93.1,0.0,0.0,0.0,-430.2,60.59,18.14,20.25,20.95,943.0
50%,111.0,2006.0,184.0,1210.0,1481.0,1.01,155.5,0.0,0.0,0.0,-228.6,77.5,21.14,24.11,24.61,947.0
75%,111.0,2011.0,275.0,1810.0,2199.0,1696.0,259.4,471.8,0.919,217.0,0.0,89.2,25.1,29.82,28.5,952.0
max,333.0,2139.0,654.0,6640.0,6996.0,6999.0,6999.0,6999.0,6999.0,6999.0,6538.0,6836.0,182266.0,6999.0,6999.0,2802.0


O que significa esses valores absurdos? 6999 e 0 6999 e demias valores totalmente fora de escala para a variável? é algum tipo de missing ou erro no equipamento?
