# Exercícios 1 a 10: Fundamentos de Ciência de Dados

In [None]:
# Importando bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit
import os

In [None]:
# **Exercício 1: Manipulação de arrays NumPy – Umidade do solo**

# Objetivo:  
#   1.Criar um array 5x7 com dados de umidade do solo (8–25%) e  
#   2. calcular:  
#    a) Média diária  
#    b) Profundidade com maior variação  
#    c) Dias com média geral abaixo de 12%

# Aplicação: análise de perfis de umidade em campo

# Dados simulados: 5 profundidades x 7 dias
np.random.seed(42)
umidade = np.random.uniform(8, 25, size=(5, 7))

# a) Média diária (por coluna)
media_diaria = umidade.mean(axis=0)

# b) Profundidade com maior variação (por linha)
var_profundidade = umidade.var(axis=1)
prof_maior_var = np.argmax(var_profundidade)  # índice da profundidade

# c) Dias com média geral < 12%
media_geral_dia = umidade.mean(axis=0)
dias_criticos = np.where(media_geral_dia < 12)[0]

print("🔍 Resultados - Exercício 1")
print(f"Média diária: {media_diaria}")
print(f"Profundidade com maior variação: {prof_maior_var} (índice)")
print(f"Dias com média < 12%: {dias_criticos}")

In [None]:
# **Exercício 2: Filtros e máscaras com NumPy – Temperatura do ar**
#
# Objetivo: Dado um array 24x7 com temperaturas horárias:
# a) Encontre os dias com mais de 5h acima de 32°C
# b) Calcule a amplitude térmica diária
# c) Identifique o horário médio de pico de temperatura
#
# Aplicação: avaliação de estresse térmico em culturas

# Dados simulados
np.random.seed(43)
temp_horario = np.random.normal(28, 4, size=(24, 7))  # 24h x 7 dias

# a) Dias com >5h acima de 32°C
acima_32 = temp_horario > 32
horas_por_dia = acima_32.sum(axis=0)
dias_criticos = np.where(horas_por_dia > 5)[0]

# b) Amplitude térmica diária
amp_diaria = temp_horario.max(axis=0) - temp_horario.min(axis=0)

# c) Horário médio de pico
horario_pico = np.argmax(temp_horario, axis=0)
hora_media_pico = np.mean(horario_pico)

print("🔍 Resultados - Exercício 2")
print(f"Dias com >5h >32°C: {dias_criticos}")
print(f"Amplitude térmica média: {amp_diaria.mean():.2f} °C")
print(f"Horário médio de pico: {hora_media_pico:.1f} h")

In [None]:
# **Exercício 3: Leitura e filtragem com Pandas – Precipitação**
#
# Objetivo: Ler dados de precipitação e:
# a) Filtrar dias com chuva > 15 mm
# b) Selecionar apenas a estação "Campo A"
# c) Criar média móvel de 3 dias
#
# Aplicação: análise de risco de encharcamento

# Dados simulados
np.random.seed(44)
datas = pd.date_range("2024-01-01", periods=100)
df_chuva = pd.DataFrame({
    'data': datas,
    'estacao': np.random.choice(['Campo A', 'Campo B', 'Laboratório'], 100),
    'chuva_mm': np.random.exponential(6, 100).clip(0, 50)
})

# a) Chuva > 15 mm
chuva_alta = df_chuva[df_chuva['chuva_mm'] > 15]

# b) Estação "Campo A"
campo_a = df_chuva[df_chuva['estacao'] == 'Campo A']

# c) Média móvel de 3 dias
df_chuva['media_movel_3d'] = df_chuva['chuva_mm'].rolling(3, min_periods=1).mean()

print("🔍 Resultados - Exercício 3")
print(f"Dias com chuva >15 mm: {len(chuva_alta)}")
print(f"Dados da estação Campo A: {len(campo_a)} linhas")
print("Primeiras 5 médias móveis:")
print(df_chuva[['chuva_mm', 'media_movel_3d']].head())

In [None]:
# **Exercício 6: Visualização – Umidade do solo em profundidades**
#
# Objetivo: Plote umidade em 4 profundidades ao longo do tempo com:
# a) Linhas com cores diferentes
# b) Título e rótulos
# c) Salvar como PDF
#
# Aplicação: monitoramento de sensores de umidade

# Dados simulados
tempo = np.arange(10)
profundidades = ['0-10cm', '10-20cm', '20-30cm', '30-40cm']
dados_umidade = np.array([20-2*t + np.random.normal(0,1,10) for t in range(4)])

plt.figure(figsize=(10, 6))
for i, prof in enumerate(profundidades):
    plt.plot(tempo, dados_umidade[i], label=prof, linewidth=2)

plt.title('Evolução da Umidade do Solo em Diferentes Profundidades', fontsize=14)
plt.xlabel('Tempo (dias)')
plt.ylabel('Umidade (%)')
plt.legend(title='Profundidade')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('umidade_solo.pdf', dpi=300, bbox_inches='tight')  # Salva como PDF
plt.show()

print("✅ Gráfico salvo como 'umidade_solo.pdf'")

In [None]:
# **Exercício 5: Agregação com Pandas – Consumo de tratores**
#
# Objetivo: Analisar dados de tratores:
# a) Calcule consumo médio por modelo
# b) Combine com tabela de manutenção
# c) Crie pivot table por modelo e turno
#
# Aplicação: análise de eficiência operacional

# Dados principais
modelos = ['Valtra 120', 'Massey 285', 'John Deere 5075']
df_trator = pd.DataFrame({
    'modelo': np.random.choice(modelos, 100),
    'turno': np.random.choice(['manhã', 'tarde', 'noite'], 100),
    'consumo_lh': np.random.normal(9, 1, 100)
})

# Tabela de manutenção (simulada)
df_mant = pd.DataFrame({
    'modelo': modelos,
    'ult_manutencao': ['2024-01-15', '2024-02-10', '2024-01-30']
})

# a) Consumo médio por modelo
consumo_medio = df_trator.groupby('modelo')['consumo_lh'].mean()

# b) Merge com manutenção
df_completo = pd.merge(df_trator, df_mant, on='modelo', how='left')

# c) Pivot table
pivot = pd.pivot_table(df_trator, values='consumo_lh', index='modelo', columns='turno', aggfunc='mean')

print("🔍 Resultados - Exercício 5")
print("Consumo médio por modelo:")
print(consumo_medio.round(2))
print("\nPivot table (consumo por turno):")
print(pivot.round(2))

In [None]:
# **Exercício 6: Visualização – Umidade do solo em profundidades**
#
# Objetivo: Plote umidade em 4 profundidades ao longo do tempo com:
# a) Linhas com cores diferentes
# b) Título e rótulos
# c) Salvar como PDF
#
# Aplicação: monitoramento de sensores de umidade

# Dados simulados
tempo = np.arange(10)
profundidades = ['0-10cm', '10-20cm', '20-30cm', '30-40cm']
dados_umidade = np.array([20-2*t + np.random.normal(0,1,10) for t in range(4)])

plt.figure(figsize=(10, 6))
for i, prof in enumerate(profundidades):
    plt.plot(tempo, dados_umidade[i], label=prof, linewidth=2)

plt.title('Evolução da Umidade do Solo em Diferentes Profundidades', fontsize=14)
plt.xlabel('Tempo (dias)')
plt.ylabel('Umidade (%)')
plt.legend(title='Profundidade')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('umidade_solo.pdf', dpi=300, bbox_inches='tight')  # Salva como PDF
plt.show()

print("✅ Gráfico salvo como 'umidade_solo.pdf'")

In [None]:
# **Exercício 7: Boxplot e histograma – Diâmetro de frutos**
#
# Objetivo: Compare 3 tratamentos de irrigação com:
# a) Boxplot
# b) Histograma sobreposto
# c) Barras com erro padrão
#
# Aplicação: classificação de frutos por tamanho

# Dados simulados
trat_a = np.random.normal(5.0, 0.8, 30)  # mm
trat_b = np.random.normal(6.2, 0.9, 30)
trat_c = np.random.normal(5.8, 0.7, 30)

# a) Boxplot
plt.figure(figsize=(12, 4))
plt.subplot(1, 3, 1)
plt.boxplot([trat_a, trat_b, trat_c], tick_labels=['A', 'B', 'C'])
plt.title('Boxplot')

# b) Histograma sobreposto
plt.subplot(1, 3, 2)
plt.hist(trat_a, alpha=0.6, label='A', bins=8)
plt.hist(trat_b, alpha=0.6, label='B', bins=8)
plt.hist(trat_c, alpha=0.6, label='C', bins=8)
plt.title('Histograma')
plt.legend()

# c) Barras com erro
medias = [trat_a.mean(), trat_b.mean(), trat_c.mean()]
erros = [trat_a.std(), trat_b.std(), trat_c.std()]
plt.subplot(1, 3, 3)
plt.bar(['A','B','C'], medias, yerr=erros, capsize=5, color=['C0','C1','C2'])
plt.title('Média com erro')
plt.tight_layout()
plt.show()

In [None]:
# **Exercício 8: Análise exploratória – Evapotranspiração**
#
# Objetivo: Analise ETc de 3 culturas:
# a) Plote evolução temporal
# b) Calcule correlação com radiação
# c) Gere boxplot comparativo
#
# Aplicação: planejamento de irrigação

# %% Dados simulados (CORRIGIDO)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Configuração
np.random.seed(42)
datas = pd.date_range("2024-01-01", periods=90)
culturas = np.random.choice(['milho', 'feijao', 'soja'], 90)

# Médias de ETc por cultura
medias_et = {'milho': 3.2, 'feijao': 2.1, 'soja': 2.8}

# Mapeia média para cada linha e adiciona ruído
medias = [medias_et[cultura] for cultura in culturas]
etcs = np.random.normal(medias, 0.3)  # desvio padrão de 0.3

# Radiação solar simulada (independente)
radiacao = np.random.normal(25, 5, 90)

# Cria DataFrame
df_et = pd.DataFrame({
    'data': datas,
    'cultura': culturas,
    'ETc': etcs,
    'radiacao': radiacao
})

# %% a) Evolução temporal
df_pivot = df_et.pivot(index='data', columns='cultura', values='ETc')
df_pivot.plot(
    title='Evapotranspiração das culturas ao longo do tempo',
    xlabel='Data',
    ylabel='ETc (mm/dia)',
    figsize=(10, 5)
)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# %% b) Correlação entre ETc e radiação
corr = df_et['ETc'].corr(df_et['radiacao'])
print(f"📊 Correlação ETc vs. radiação: {corr:.3f}")

# %% c) Boxplot por cultura
plt.figure(figsize=(8, 5))
df_et.boxplot(column='ETc', by='cultura', grid=False, ax=plt.gca())
plt.suptitle('')  # remove título automático
plt.title('Distribuição de ETc por cultura')
plt.ylabel('ETc (mm/dia)')
plt.xlabel('Cultura')
plt.grid(True, axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("✅ Exercício 8 concluído com sucesso!")

In [None]:
# **Exercício 9: Teste estatístico – Rendimento de grãos**
#
# Objetivo: Compare dois sistemas de plantio:
# a) Teste t independente
# b) Calcule tamanho do efeito (Cohen's d)
# c) Interprete o valor de p
#
# Aplicação: validação de tratamentos experimentais

# %% Dados simulados (CORRIGIDO)
np.random.seed(43)

# Sistemas de plantio
n = 30
sistema_a = np.random.normal(3.2, 0.4, n)  # Plantio direto
sistema_b = np.random.normal(3.0, 0.5, n)  # Convencional

# Cria DataFrame
df_rend = pd.DataFrame({
    'rendimento': np.concatenate([sistema_a, sistema_b]),
    'sistema': ['Plantio Direto'] * n + ['Convencional'] * n
})

# %% a) Teste t independente
from scipy.stats import ttest_ind
t, p = ttest_ind(sistema_a, sistema_b)

# %% b) Tamanho do efeito: Cohen's d
mean_diff = sistema_a.mean() - sistema_b.mean()
pooled_std = np.sqrt(((n-1)*sistema_a.std()**2 + (n-1)*sistema_b.std()**2) / (2*n - 2))
cohens_d = mean_diff / pooled_std

# %% Resultados
print("🔍 RESULTADOS - TESTE ESTATÍSTICO")
print("=" * 40)
print(f"Plantio Direto: média = {sistema_a.mean():.2f} t/ha")
print(f"Convencional:   média = {sistema_b.mean():.2f} t/ha")
print(f"Teste t: t = {t:.2f}, p = {p:.4f}")
print(f"Cohen's d: {cohens_d:.3f}")
print("=" * 40)
print("Interpretação:")

if p < 0.05:
    print("✅ Diferença estatisticamente significativa (p < 0.05)")
else:
    print("❌ Sem diferença significativa")

if abs(cohens_d) > 0.8:
    print("→ Tamanho do efeito GRANDE (relevância prática)")
elif abs(cohens_d) > 0.5:
    print("→ Tamanho do efeito MÉDIO")
else:
    print("→ Tamanho do efeito pequeno")

# %% Visualização
plt.figure(figsize=(7, 5))
plt.boxplot([sistema_a, sistema_b], labels=['Plantio Direto', 'Convencional'])
plt.ylabel('Rendimento (t/ha)')
plt.title('Comparação de Rendimento entre Sistemas de Plantio')
plt.grid(True, axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# **Exercício 10: Ajuste de curvas e interpolação**
#
# Objetivo: Ajuste um modelo exponencial à curva de secagem.
# a) Defina a função exponencial
# b) Ajuste com curve_fit
# c) Plote dados e curva ajustada
#
# Aplicação: modelagem de processos de pós-colheita

# %% Dados simulados (CORRIGIDO)
np.random.seed(44)

# Tempo em horas
tempo = np.linspace(0, 10, 11)

# Modelo verdadeiro: U(t) = a * exp(-b*t) + c
a_true, b_true, c_true = 12.0, 0.3, 10.0
umidade_real = a_true * np.exp(-b_true * tempo) + c_true

# Adiciona ruído realista
umidade_medida = umidade_real + np.random.normal(0, 0.2, len(tempo))

# %% a) Definir modelo exponencial
def modelo_exp(t, a, b, c):
    return a * np.exp(-b * t) + c

# %% b) Ajustar modelo aos dados
from scipy.optimize import curve_fit
params, pcov = curve_fit(modelo_exp, tempo, umidade_medida)

# Extrair parâmetros
a_fit, b_fit, c_fit = params
erros = np.sqrt(np.diag(pcov))  # erros padrão dos parâmetros

# Calcular R²
residuos = umidade_medida - modelo_exp(tempo, *params)
sqr = np.sum(residuos**2)
sqt = np.sum((umidade_medida - umidade_medida.mean())**2)
r2 = 1 - (sqr / sqt)

# %% c) Plotar resultados
plt.figure(figsize=(9, 6))
plt.scatter(tempo, umidade_medida, color='red', s=80, label='Dados medidos', zorder=5)
plt.plot(tempo, modelo_exp(tempo, *params), 'b-', linewidth=2, label='Curva ajustada')

# Configurar gráfico
plt.xlabel('Tempo (horas)', fontsize=12)
plt.ylabel('Umidade do grão (% b.s.)', fontsize=12)
plt.title('Ajuste de Modelo Exponencial à Curva de Secagem', fontsize=14)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)

# Inserir parâmetros no gráfico
texto = (f'Ajuste: $U(t) = a \cdot e^{{-bt}} + c$\n'
         f'a = {a_fit:.2f} ± {erros[0]:.2f}\n'
         f'b = {b_fit:.3f} ± {erros[1]:.3f}\n'
         f'c = {c_fit:.2f} ± {erros[2]:.2f}\n'
         f'R² = {r2:.4f}')
props = dict(boxstyle='round', facecolor='wheat', alpha=0.8)
plt.gca().text(0.02, 0.98, texto, transform=plt.gca().transAxes, fontsize=10,
               verticalalignment='top', bbox=props)

plt.tight_layout()
plt.show()

# %% Resultados numéricos
print("🔧 PARÂMETROS AJUSTADOS")
print(f"a (amplitude):     {a_fit:.3f} ± {erros[0]:.3f} %")
print(f"b (taxa de secagem): {b_fit:.4f} ± {erros[1]:.4f} h⁻¹")
print(f"c (umidade final):   {c_fit:.3f} ± {erros[2]:.3f} %")
print(f"Coeficiente de determinação (R²): {r2:.4f}")
print("\n💡 Interpretação:")
print(f"O grão tende a estabilizar em cerca de {c_fit:.1f}% de umidade.")
print(f"A secagem é mais rápida nas primeiras {1/b_fit:.1f} horas.")