# Prática 1 - Exploração de Dados

#Nome: Ricardo França Fernandes do Vale     No. USP: 9293477

## Dataset 1 - Boston Housing

O primeiro dataset a ser utilizado para a exploração de dados é "Boston Housing Data". O dataset contém 13 atributos, 12 contínuos e 1 binário, referentes a características gerais das moradias nos subúrbios de Boston, e uma classe, atributo contínuo que é referente ao valor mediano das moradias com proprietário dentro de uma região da cidade.
A base de dados pode ser importada no código a seguir:

In [1]:
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np

O primeiro passo é levantar três hipóteses sobre este dataset. Analisando os atributos, podemos inferir, a priori que:

* Quanto menor a taxa de crime (CRIM), maior a incidência de professores de ensino básico (PTRATIO); 
* Quanto mais perto de centros de emprego (DIS), maior o preço das casas habitadas (MEDV);
* Quanto menor a incidência de comércio/empresas (maior o ZN), menor o preço das casas habitadas (MEDV).

O dataset deve ser carregado:

In [8]:
data = load_boston()

O segundo passo é realizar a limpeza dos dados, permitindo apenas que 5 atributos sejam mantidos no dataset para realizar uma melhora no teste das hipóteses, sendo assim, mantivemos apenas os atributos CRIM (taxa de crimes na região), ZN (proporção de espaços residenciais em áreas de 25000 pés quadrados), NOX (concentração de óxido nítrico, que configura poluição), DIS (distância ponderada dos centros de emprego na cidade) e PTRATIO (índice de professores de ensino básico na região de interesse), além da classe MEDV, que é o valor mediano das casas habitadas na região de interesse.

Escolhemos os dados acima porque todos eles tem correlação estrita com a classe, além de possuírem uma padronização no tratamento por serem todos dados contínuos. Por ser uma base de dados pequena, não realizaremos a exclusão direta das colunas inutilizadas, apenas realizaremos as operações nas colunas de interesse.

A partir de agora, serão testadas as hipóteses, sendo realizadas as operações de explora

### 1a. Hipótese: Quanto menor a taxa de crime (CRIM), maior a incidência de professores de ensino básico (PTRATIO)

É pretendido medir os quartis de CRIM e verificar que nos primeiros 2 quartis, os valores de PTRATIO associados são diretamente proporcionais. Para isso, será criado um dictionary em que os values serão representadas pelos valores de PTRATIO e as keys pelos valores de CRIM, em que ordenaremos para achar os quartis. Para isso, será feito o procedimento abaixo:

In [37]:
keys = (data['data'])[:, 0]
values = (data['data'])[:, 10]
hip1 = dict(zip(keys, values))
sorted_keys = sorted(hip1)

#Obtendo segundo quartil, valores menores que a mediana
sorted_keys = np.array(sorted_keys)
median = np.percentile(sorted_keys, 50)
print("Mediana de CRIM: "+ str(median))

#Obtendo 2 vetores, um para valores abaixo da mediana e outro para valores acima da mediana
[q1, q2] = np.array_split(sorted_keys, 2) 

Mediana de CRIM: 0.25651


Sendo assim, os valores em q1 (valores abaixo da mediana, ou melhor, do segundo quartil), deverão ter uma média de valores de PTRATIO (sem tratamentos especiais) maior do que o restante dos valores. Isso fomentaria a hipótese de que as menores taxas de crime incidiriam na maior incidência de professores de ensino básico. Portanto, obtém-se as médias de PTRATIO abaixo:

In [40]:
seed = 0
for key in q1:
    seed = seed + hip1[key]
mean_q1 = seed/float(len(q1))

seed = 0
for key in q2:
    seed = seed + hip1[key]
mean_q2 = seed/float(len(q2))

print("Média da taxa de professores em regiões de menor criminalidade: "+ str(mean_q1))
print("Média da taxa de professores em regiões de maior criminalidade: "+ str(mean_q2))

Média da taxa de professores em regiões de menor criminalidade: 17.924206349206326
Média da taxa de professores em regiões de maior criminalidade: 18.999206349206258


CONCLUSÃO: A média dos valores abaixo da mediana deveria ser maior do que a média dos valores maiores que ela. Com a conjuntura atual, dá a entender que lugares com mais criminalidade tem mais professores de ensino básico, sendo isso o oposto da hipótese. Alguns fatores cruciais para determinar a correlação entre taxa de crime e incidência de professores podem ter sido desconsiderados, como o fato de áreas com maior índice de pessoas por metro quadrado terá, consequentemente, mais professores por metro quadrado, às vezes podendo até independer da própria taxa de criminalidade. *HIPÓTESE FALHA!*

### 2a. Hipótese: Quanto mais perto de centros de emprego (DIS), maior o preço das casas habitadas (MEDV)

É pretendido medir os quartis de DIS e verificar que nos primeiros 2 quartis, os valores de MEDV associados são diretamente proporcionais. Para isso, será criado um dictionary em que os values serão representadas pelos valores de MEDV e as keys pelos valores de DIS, em que ordenaremos para achar os quartis. Para isso, será feito o procedimento abaixo:

In [71]:
keys = (data['data'])[:, 7]
values = data['target']
hip2 = dict(zip(keys, values))
sorted_keys = sorted(hip2)

#Obtendo segundo quartil, valores menores que a mediana
sorted_keys = np.array(sorted_keys)
median = np.percentile(sorted_keys, 50)
print("Mediana de DIS: "+ str(median))

#Obtendo 2 vetores, um para valores abaixo da mediana e outro para valores acima da mediana
[q1, q2] = np.array_split(sorted_keys, 2) 

Mediana de DIS: 2.73225


Sendo assim, os valores em q1 (valores abaixo da mediana, ou melhor, do segundo quartil), deverão ter uma média de valores de MEDV (sem tratamentos especiais) menor do que o restante dos valores. O array_split garante que o corte seja de valores abaixo e acima da mediana, respectivamente alocados em q1 e em q2, tendo em vista que o vetor está ordenado. A obtenção da média é feita de maneira similar ao experimento anterior.

In [74]:
seed = 0
for key in q1:
    seed = seed + hip2[key]
mean_q1 = seed/float(len(q1))

seed = 0
for key in q2:
    seed = seed + hip2[key]
mean_q2 = seed/float(len(q2))

print("Média do valor (em $1000) das casas haitadas em regiões mais distantes de centros de emprego: "+ str(mean_q1))
print("Média do valor (em $1000) das casas haitadas em regiões mais próximas de centros de emprego: "+ str(mean_q2))

Média do valor (em $1000) das casas haitadas em regiões mais distantes de centros de emprego: 18.948058252427185
Média do valor (em $1000) das casas haitadas em regiões mais próximas de centros de emprego: 24.656796116504843


CONCLUSÃO: Dessa vez, a hipótese parece estar mais próxima de estar correta, já que os lugares mais próximos de centros de emprego possuem, de fato, as casas habitadas de maior valor. *HIPÓTESE VERDADEIRA!*

### 3a. Hipótese: Quanto menor a incidência de comércio/empresas (maior o ZN), menor o preço das casas habitadas (MEDV)

É pretendido medir os quartis de ZN e verificar que nos primeiros 2 quartis, os valores de MEDV associados são inversamente proporcionais. Para isso, será criado um dictionary em que os values serão representadas pelos valores de MEDV e as keys pelos valores de ZN, em que ordenaremos para achar os quartis. Para isso, será feito o procedimento abaixo:

In [75]:
keys = (data['data'])[:, 1]
values = data['target']
hip3 = dict(zip(keys, values))
sorted_keys = sorted(hip3)

#Obtendo segundo quartil, valores menores que a mediana
sorted_keys = np.array(sorted_keys)
median = np.percentile(sorted_keys, 50)
print("Mediana de ZN: "+ str(median))

#Obtendo 2 vetores, um para valores abaixo da mediana e outro para valores acima da mediana
[q1, q2] = np.array_split(sorted_keys, 2) 

Mediana de ZN: 37.5


Sendo assim, os valores em q1 (valores abaixo da mediana, ou melhor, do segundo quartil), deverão ter uma média de valores de MEDV (sem tratamentos especiais) maior do que o restante dos valores. O array_split garante que o corte seja de valores abaixo e acima da mediana, respectivamente alocados em q1 e em q2, tendo em vista que o vetor está ordenado. A obtenção da média é feita de maneira similar aos experimentos anteriores.

In [76]:
seed = 0
for key in q1:
    seed = seed + hip3[key]
mean_q1 = seed/float(len(q1))

seed = 0
for key in q2:
    seed = seed + hip3[key]
mean_q2 = seed/float(len(q2))

print("Média do valor (em $1000) das casas haitadas em regiões com menos áreas residenciais: "+ str(mean_q1))
print("Média do valor (em $1000) das casas haitadas em regiões com mais áreas residenciais: "+ str(mean_q2))

Média do valor (em $1000) das casas haitadas em regiões com menos áreas residenciais: 27.93846153846154
Média do valor (em $1000) das casas haitadas em regiões com mais áreas residenciais: 28.869230769230775


CONCLUSÃO: Os valores das médias foram muito próximos, mesmo assim, a proporcionalidade inversa entre áreas com residências dentro de determinadas regiões e o valor mediano das casas habitadas não é garantido. Isso pode ter acontecido pelo fato de que áreas não residenciais não necessariamente são área com comércio e/ou empresas, como foi assumido, mas sim, terrenos sem uso. *HIPÓTESE FALHA!*

Para este dataset, não houve problemas de dados ausentes e ruídos.

## Dataset 2 - Agro

Neste dataset, podem ser vistos alguns dados relativos a hectares de plantios observados pela Agro, cujo o intuito é observar falhas no plantio. Os dados obtidos nele envolvem informações sobre fazendas como temperatura, incidência de chuva e outros índices um pouco mais específicos da área. Abaixo será carregado o dataset:

In [2]:
dataset = pd.read_csv(
        './falhas_plantio_hashing.csv', 
        sep=';', header=0, encoding='latin1')
dataset

Unnamed: 0.1,Unnamed: 0,Fazenda,Zona,Talhao,Nome_Estacao_SM1,INSTANCIA1,CD_EMPRESA1,Tipo_prop1,CD_SAFRA,Area_Plantio,...,EPT_mm_December,EPT_mm_February,EPT_mm_January,EPT_mm_July,EPT_mm_June,EPT_mm_March,EPT_mm_May,EPT_mm_November,EPT_mm_October,EPT_mm_September
0,1,8065492367f538812f3928137e492c36,dd4ad37ee474732a009111e3456e7ed7,71db8a6cad03244e6e50f0ad8bc95a65,9d808d5988da444614e97bb46dfcc388,4770fa66c5954411ff928125d447259b,c7f66da1cae4f223b9bae717f05900f7,c7f66da1cae4f223b9bae717f05900f7,21617,24.25,...,,,,,,,,,,
1,2,8065492367f538812f3928137e492c36,dd4ad37ee474732a009111e3456e7ed7,8f3571abef23f6aca0f7b8666a74e7e0,9d808d5988da444614e97bb46dfcc388,4770fa66c5954411ff928125d447259b,c7f66da1cae4f223b9bae717f05900f7,c7f66da1cae4f223b9bae717f05900f7,21617,13.59,...,,,,,,,,,,
2,3,8065492367f538812f3928137e492c36,dd4ad37ee474732a009111e3456e7ed7,fa5a4df7ac0f9782037da890557fd8b8,9d808d5988da444614e97bb46dfcc388,4770fa66c5954411ff928125d447259b,c7f66da1cae4f223b9bae717f05900f7,c7f66da1cae4f223b9bae717f05900f7,21617,11.34,...,,,,,,,,,,
3,4,f648ef67be4ec669a2cf9f44a14ad6f4,3a289991381335a0fc94ad80f79fe88e,4b5630ee914e848e8d07221556b0a2fb,bb4b9c9cb3eb0376a9c896805d07adcb,8fdf2b1125e197b694ab48c195f7743f,40755f30599581bfb1186f077db8f580,c01f179e4b57ab8bd9de309e6d576c48,21617,23.16,...,157.8,128.95,134.18,99.63,75.31,139.11,83.1,152.3,151.4,130.1
4,5,f648ef67be4ec669a2cf9f44a14ad6f4,3a289991381335a0fc94ad80f79fe88e,c01f179e4b57ab8bd9de309e6d576c48,bb4b9c9cb3eb0376a9c896805d07adcb,8fdf2b1125e197b694ab48c195f7743f,40755f30599581bfb1186f077db8f580,c01f179e4b57ab8bd9de309e6d576c48,21617,7.36,...,157.8,128.95,134.18,99.63,75.31,139.11,83.1,152.3,151.4,130.1
5,6,f648ef67be4ec669a2cf9f44a14ad6f4,3a289991381335a0fc94ad80f79fe88e,11946e7a3ed5e1776e81c0f0ecd383d0,bb4b9c9cb3eb0376a9c896805d07adcb,8fdf2b1125e197b694ab48c195f7743f,40755f30599581bfb1186f077db8f580,c01f179e4b57ab8bd9de309e6d576c48,21617,20.93,...,157.8,128.95,134.18,99.63,75.31,139.11,83.1,152.3,151.4,130.1
6,7,f648ef67be4ec669a2cf9f44a14ad6f4,3a289991381335a0fc94ad80f79fe88e,234a2a5581872457b9fe1187d1616b13,bb4b9c9cb3eb0376a9c896805d07adcb,8fdf2b1125e197b694ab48c195f7743f,40755f30599581bfb1186f077db8f580,c01f179e4b57ab8bd9de309e6d576c48,21617,17.93,...,157.8,128.95,134.18,99.63,75.31,139.11,83.1,152.3,151.4,130.1
7,8,f648ef67be4ec669a2cf9f44a14ad6f4,3a289991381335a0fc94ad80f79fe88e,dd4ad37ee474732a009111e3456e7ed7,bb4b9c9cb3eb0376a9c896805d07adcb,8fdf2b1125e197b694ab48c195f7743f,40755f30599581bfb1186f077db8f580,c01f179e4b57ab8bd9de309e6d576c48,21617,17.73,...,157.8,128.95,134.18,99.63,75.31,139.11,83.1,152.3,151.4,130.1
8,9,f648ef67be4ec669a2cf9f44a14ad6f4,3a289991381335a0fc94ad80f79fe88e,25e6a154090e35101d7678d6f034353a,9d808d5988da444614e97bb46dfcc388,4770fa66c5954411ff928125d447259b,c7f66da1cae4f223b9bae717f05900f7,c7f66da1cae4f223b9bae717f05900f7,21617,0.96,...,,,,,,,,,,
9,10,647052da17e3340e599d54abde4858a7,4d4c1ad2286f1a7670a024467dd10808,4b5630ee914e848e8d07221556b0a2fb,bb4b9c9cb3eb0376a9c896805d07adcb,8fdf2b1125e197b694ab48c195f7743f,40755f30599581bfb1186f077db8f580,c01f179e4b57ab8bd9de309e6d576c48,21617,10.16,...,157.8,128.95,134.18,99.63,75.31,139.11,83.1,152.3,151.4,130.1


"Considera-se falha no plantio o intervalo de área maior que 30cm em que há ausência da planta estabelecida. [...] O número de falhas oscila com tendência de alta nas últimas safras. Dentre os motivos de falhas estão: *aumento da mecanização, clima e combinação de fatores como tipo de solo, época do plantio e tipo da cana*."
Conforme o excerto da descrição da base de dados, são levantadas algumas hipóteses de alto nível sobre as falhas no plantio, portanto, podemos transcrevê-las para estas hipóteses:

* Plantios onde há uma incidência maior de chuvas podem ter maior incidência de falhas
* Solos com menor duração de chuvas se encontram em regiões com as maiores incidências de chuva
* Em adição à segunda hipótese, fazendas com maior resistência de solo tem maior radiação solar

Sendo assim, os 5 atributos a serem mantidos seriam: o percentual de falhas, a duração do solo perante a chuvas, a área de plantio e uma média anual de chuvas e de radiação solar, que seriam obtidas por transformação de dados.

In [3]:
percFalha = dataset.Perc_Falha.apply(pd.to_numeric, errors='coerce')
duracaoChuvaSolo = dataset.Duracao_Chuva_Solo.apply(pd.to_numeric, errors='coerce')
areaPlantio = dataset.Area_Plantio.apply(pd.to_numeric, errors='coerce')
radSolar = dataset[['Rad_Solar_MJm2_April', 'Rad_Solar_MJm2_August', 'Rad_Solar_MJm2_December', 'Rad_Solar_MJm2_February', 'Rad_Solar_MJm2_January', 'Rad_Solar_MJm2_July', 'Rad_Solar_MJm2_June', 'Rad_Solar_MJm2_March', 'Rad_Solar_MJm2_May', 'Rad_Solar_MJm2_November', 'Rad_Solar_MJm2_October', 'Rad_Solar_MJm2_September']].apply(pd.to_numeric, errors='coerce').mean(axis=1)
chuva = dataset[['Chuva_April', 'Chuva_August', 'Chuva_December', 'Chuva_February', 'Chuva_January', 'Chuva_July', 'Chuva_June', 'Chuva_March', 'Chuva_May', 'Chuva_November', 'Chuva_October', 'Chuva_September']].apply(pd.to_numeric, errors='coerce').mean(axis=1)

### 1a. Hipótese: Plantios onde há uma incidência maior de chuvas podem ter maior incidência de falhas

A verificação será baseada na descrição dos dois vetores de dados e na comparação de medianas (para a incidência de chuvas):

In [6]:
percFalha.describe()

count    5722.000000
mean        0.058502
std         0.090499
min         0.000000
25%         0.009200
50%         0.026200
75%         0.065875
max         0.990800
Name: Perc_Falha, dtype: float64

In [7]:
chuva.describe()

count    5035.000000
mean       94.157508
std        38.251504
min         3.183333
25%        82.791667
50%       107.175000
75%       125.050000
max       142.158333
dtype: float64

Pelo conteúdo das porcentagens de falha, é possível perceber alta discrepância entre a mediana e a média, sendo este segundo valor 44% maior que o primeiro, indicando que os outliers têm influência no cálculo da média. A discrepância também ocorre na média de chuvas do ano, cuja média é 13% menor que a mediana, sofrendo a influência de outliers dos limites inferiores. Percebe-se, também, que, há mais dados faltantes em relação a chuvas, mas nada que ultrapasse a metade dos dados.

Portanto, uma abordagem ingênua, porém válida é mapear chuvas com os percentuais de falha de plantio e dividir o dataset ordenado por média anual de chuvas de acordo com os valores dos indices pluviométricos. Nestes blocos, será medida a mediana; sendo assim, a mediana dos valores relativos às falhas de plantio devem ser maiores no bloco com o aumento dos valores de índices pluviométricos.

A escolha pela mediana se dá pelo fato de que as médias, em ambos os vetores de dados, encontram-se influenciadas pelos outliers.

In [188]:
keys = chuva
values = percFalha

#obtendo limitantes para limpeza de dados
keys_min = keys.min()
keys_max = keys.max()

mapping1 = pd.concat([keys, values], axis=1)

#Tirando valores NaN
keys = keys[keys <= keys_max]
keys = keys[keys >= keys_min]
keys = np.array(keys)
keys = np.sort(keys)

print("Índices pluviométricos encontrados: ")
print(str(np.unique(keys)) + '\n\n')
possible_rain_values = np.unique(keys)

for key in possible_rain_values:
    aux = np.copy(mapping1.values[:,0])
    print('Índice de chuvas: ', end='')
    print(key)
    print('Mediana do percentual de falhas: ', end='')
    print(np.nanmedian(mapping1.values[np.where(aux == key), 1]))
    print('\n')

 

Índices pluviométricos encontrados: 
[  3.18333333  29.7375      36.70833333  46.69166667  52.75
  60.575       82.79166667  85.95833333  89.19166667  92.65833333
  94.4         94.66666667  94.90833333 106.45       107.175
 110.725      113.58333333 118.75833333 123.30833333 125.05
 126.35833333 126.41666667 128.55       142.15833333]


Índice de chuvas: 3.1833333333333336
Mediana do percentual de falhas: 0.015050000000000001


Índice de chuvas: 29.737499999999997
Mediana do percentual de falhas: 0.058249999999999996


Índice de chuvas: 36.70833333333333
Mediana do percentual de falhas: 0.01925


Índice de chuvas: 46.69166666666667
Mediana do percentual de falhas: 0.0182


Índice de chuvas: 52.74999999999999
Mediana do percentual de falhas: 0.0454


Índice de chuvas: 60.574999999999996
Mediana do percentual de falhas: 0.0104


Índice de chuvas: 82.79166666666667
Mediana do percentual de falhas: 0.0129


Índice de chuvas: 85.95833333333333
Mediana do percentual de falhas: 0.0364


Índi

CONCLUSÃO: Os valores das chuvas e do percentual de falhas não tiveram correlação alguma, provavelmente, pelo fato das chuvas não serem fator isolado na causa de falhas de plantio. Outro fator que pode ter deturpado o resultado é a utilização de média para medir as chuvas do ano todo. *HIPÓTESE FALHA!*

### 2a. hipótese: Solos com menor duração de chuvas se encontram em regiões com as maiores incidências de chuva

Partindo de uma premissa inspirada na teoria da Evolução de Charles Darwin, mais precisamente na seleção natural, o indivíduo que evolui se adapta ao ambiente em que se encontra. Realizando silogismos a partir disso, regiões que estão habituadas a ter grande índice de chuvas, tendem a ter uma preservação baixa da chuva, enquanto plantios de regiões mais secas devem preservar mais a água da chuva. Vamos observar as medidas de ambos os atributos: duracaoChuvaSolo e chuva

In [195]:
duracaoChuvaSolo.describe()

count    1.782000e+03
mean     5.478569e+04
std      1.673514e+05
min      1.000000e+00
25%      9.137500e+02
50%      5.042000e+03
75%      2.206050e+04
max      2.075392e+06
Name: Duracao_Chuva_Solo, dtype: float64

In [196]:
chuva.describe()

count    5035.000000
mean       94.157508
std        38.251504
min         3.183333
25%        82.791667
50%       107.175000
75%       125.050000
max       142.158333
dtype: float64

Mais uma vez nesse experimento, temos um atributo em que a mediana é significativamente menor que a média, dessa vez, isso ocorre para o atributo duracaoChuvaSolo. Portanto, a medição ocorrerá de forma parecida com a primeira hipótese: dados os índices de chuva, serão observadas as medianas de duração de chuva no solo; e esses dados devem ser inversamente proporcionais.

In [197]:
keys = chuva
values = duracaoChuvaSolo

#obtendo limitantes para limpeza de dados
keys_min = keys.min()
keys_max = keys.max()

mapping1 = pd.concat([keys, values], axis=1)

#Tirando valores NaN
keys = keys[keys <= keys_max]
keys = keys[keys >= keys_min]
keys = np.array(keys)
keys = np.sort(keys)

print("Índices pluviométricos encontrados: ")
print(str(np.unique(keys)) + '\n\n')
possible_rain_values = np.unique(keys)

for key in possible_rain_values:
    aux = np.copy(mapping1.values[:,0])
    print('Índice de chuvas: ', end='')
    print(key)
    print('Mediana do percentual de falhas: ', end='')
    print(np.nanmedian(mapping1.values[np.where(aux == key), 1]))
    print('\n')


Índices pluviométricos encontrados: 
[  3.18333333  29.7375      36.70833333  46.69166667  52.75
  60.575       82.79166667  85.95833333  89.19166667  92.65833333
  94.4         94.66666667  94.90833333 106.45       107.175
 110.725      113.58333333 118.75833333 123.30833333 125.05
 126.35833333 126.41666667 128.55       142.15833333]


Índice de chuvas: 3.1833333333333336
Mediana do percentual de falhas: 3485.5


Índice de chuvas: 29.737499999999997
Mediana do percentual de falhas: 9602.0


Índice de chuvas: 36.70833333333333
Mediana do percentual de falhas: 3735.0


Índice de chuvas: 46.69166666666667
Mediana do percentual de falhas: 4109.0


Índice de chuvas: 52.74999999999999
Mediana do percentual de falhas: 3788.5


Índice de chuvas: 60.574999999999996
Mediana do percentual de falhas: 4947.5


Índice de chuvas: 82.79166666666667
Mediana do percentual de falhas: 4765.0


Índice de chuvas: 85.95833333333333
Mediana do percentual de falhas: 5472.0


Índice de chuvas: 89.191666666666

CONCLUSÃO: Os valores das chuvas e a duração de chuva no solo não tiveram correlação alguma, provavelmente, pelo fato das chuvas não serem fator isolado na adaptação do plantio. Outro fator que pode ter deturpado o resultado é a utilização de média para medir as chuvas do ano todo. *HIPÓTESE FALHA!*

### 3a. hipótese: Fazendas com maior resistência de solo tem maior radiação solar

Dada a mesma premissa evolutiva, regiões que estão habituadas a ter grande radiação solar, tendem a ter uma preservação alta da chuva, esperando-se uma relação de proporcionalidade direta. Vamos observar as medidas de ambos os atributos: duracaoChuvaSolo e radSolar

In [199]:
duracaoChuvaSolo.describe()

count    1.782000e+03
mean     5.478569e+04
std      1.673514e+05
min      1.000000e+00
25%      9.137500e+02
50%      5.042000e+03
75%      2.206050e+04
max      2.075392e+06
Name: Duracao_Chuva_Solo, dtype: float64

In [200]:
radSolar.describe()

count    5035.000000
mean       16.200158
std         1.379969
min        13.667500
25%        15.471667
50%        16.005833
75%        17.270833
max        19.892500
dtype: float64

Diferentemente dos outros atributos, a média é muito próxima da mediana na Radiação Solar, por isso, para observar a relação entre as duas variáveis, será necessário observar a média da radiação solar nos valores abaixo e acima da mediana do vetor de duração de Chuvas no solo.

In [57]:
keys = duracaoChuvaSolo
values = radSolar

#obtendo limitantes para limpeza de dados
keys_min = keys.min()
keys_max = keys.max()

mapping1 = pd.concat([keys, values], axis=1)

#Tirando valores NaN
keys = keys[keys <= keys_max]
keys = keys[keys >= keys_min]
keys = np.array(keys)
keys = np.sort(keys)

median = np.percentile(keys, 50)
print("Mediana da duração do solo na chuva: "+ str(median))

#Obtendo 2 vetores, um para valores abaixo da mediana e outro para valores acima da mediana
q1 = keys[np.where(keys <= median)]
q2 = keys[np.where(keys > median)]

valuesUnderMedian = 0
valuesAboveMedian = 0

#calculo da media do 50-percentil
aux_vect = np.copy(mapping1.values[:,0])
amount = 0 
for key in np.unique(q1):
    aux = np.array(mapping1.values[np.where(aux_vect == key), 1])
    amount = amount + aux.size
    chunk = np.nansum(aux)
    valuesUnderMedian = valuesUnderMedian + chunk

valuesUnderMedian = valuesUnderMedian/amount
    
#calculo da media do restante dos valores
aux_vect = np.copy(mapping1.values[:,0])
amount = 0 
for key in np.unique(q2):
    aux = np.array(mapping1.values[np.where(aux_vect == key), 1])
    amount = amount + aux.size
    chunk = np.nansum(aux)
    valuesAboveMedian = valuesAboveMedian + chunk

valuesAboveMedian = valuesAboveMedian/amount
    
print('Media da radiação solar anual para valores abaixo da mediana: ', end='')
print(np.nanmean(valuesUnderMedian))
print('Media da radiação solar anual para valores acima da mediana: ', end='')
print(np.nanmean(valuesAboveMedian))


Mediana da duração do solo na chuva: 5042.0
Media da radiação solar anual para valores abaixo da mediana: 15.778171530115955
Media da radiação solar anual para valores acima da mediana: 16.001852787130584


CONCLUSÃO: Dessa vez, a hipótese parece estar mais próxima de estar correta, já que os plantios com maior duração de chuva nos solos (interpretado como maior resistência) tem uma média de radiação solar levemente mais alta. *HIPÓTESE POSSIVELMENTE VERDADEIRA!*, depende muito do comportamento da média em relação aos outliers.


Para este dataset, o grande problema foi encontrar uma maneira correta de mapear os dados e encontrar medidas que calculassem os valores sem incluir valores NaN.
