# Exerc√≠cios 1 a 10: Fundamentos de Ci√™ncia de Dados

In [None]:
# Importando bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit
import os

In [None]:
# **Exerc√≠cio 1: Manipula√ß√£o de arrays NumPy ‚Äì Umidade do solo**

# Objetivo:  
#   1.Criar um array 5x7 com dados de umidade do solo (8‚Äì25%) e  
#   2. calcular:  
#    a) M√©dia di√°ria  
#    b) Profundidade com maior varia√ß√£o  
#    c) Dias com m√©dia geral abaixo de 12%

# Aplica√ß√£o: an√°lise de perfis de umidade em campo

# Dados simulados: 5 profundidades x 7 dias
np.random.seed(42)
umidade = np.random.uniform(8, 25, size=(5, 7))

# a) M√©dia di√°ria (por coluna)
media_diaria = umidade.mean(axis=0)

# b) Profundidade com maior varia√ß√£o (por linha)
var_profundidade = umidade.var(axis=1)
prof_maior_var = np.argmax(var_profundidade)  # √≠ndice da profundidade

# c) Dias com m√©dia geral < 12%
media_geral_dia = umidade.mean(axis=0)
dias_criticos = np.where(media_geral_dia < 12)[0]

print("üîç Resultados - Exerc√≠cio 1")
print(f"M√©dia di√°ria: {media_diaria}")
print(f"Profundidade com maior varia√ß√£o: {prof_maior_var} (√≠ndice)")
print(f"Dias com m√©dia < 12%: {dias_criticos}")

In [None]:
# **Exerc√≠cio 2: Filtros e m√°scaras com NumPy ‚Äì Temperatura do ar**
#
# Objetivo: Dado um array 24x7 com temperaturas hor√°rias:
# a) Encontre os dias com mais de 5h acima de 32¬∞C
# b) Calcule a amplitude t√©rmica di√°ria
# c) Identifique o hor√°rio m√©dio de pico de temperatura
#
# Aplica√ß√£o: avalia√ß√£o de estresse t√©rmico em culturas

# Dados simulados
np.random.seed(43)
temp_horario = np.random.normal(28, 4, size=(24, 7))  # 24h x 7 dias

# a) Dias com >5h acima de 32¬∞C
acima_32 = temp_horario > 32
horas_por_dia = acima_32.sum(axis=0)
dias_criticos = np.where(horas_por_dia > 5)[0]

# b) Amplitude t√©rmica di√°ria
amp_diaria = temp_horario.max(axis=0) - temp_horario.min(axis=0)

# c) Hor√°rio m√©dio de pico
horario_pico = np.argmax(temp_horario, axis=0)
hora_media_pico = np.mean(horario_pico)

print("üîç Resultados - Exerc√≠cio 2")
print(f"Dias com >5h >32¬∞C: {dias_criticos}")
print(f"Amplitude t√©rmica m√©dia: {amp_diaria.mean():.2f} ¬∞C")
print(f"Hor√°rio m√©dio de pico: {hora_media_pico:.1f} h")

In [None]:
# **Exerc√≠cio 3: Leitura e filtragem com Pandas ‚Äì Precipita√ß√£o**
#
# Objetivo: Ler dados de precipita√ß√£o e:
# a) Filtrar dias com chuva > 15 mm
# b) Selecionar apenas a esta√ß√£o "Campo A"
# c) Criar m√©dia m√≥vel de 3 dias
#
# Aplica√ß√£o: an√°lise de risco de encharcamento

# Dados simulados
np.random.seed(44)
datas = pd.date_range("2024-01-01", periods=100)
df_chuva = pd.DataFrame({
    'data': datas,
    'estacao': np.random.choice(['Campo A', 'Campo B', 'Laborat√≥rio'], 100),
    'chuva_mm': np.random.exponential(6, 100).clip(0, 50)
})

# a) Chuva > 15 mm
chuva_alta = df_chuva[df_chuva['chuva_mm'] > 15]

# b) Esta√ß√£o "Campo A"
campo_a = df_chuva[df_chuva['estacao'] == 'Campo A']

# c) M√©dia m√≥vel de 3 dias
df_chuva['media_movel_3d'] = df_chuva['chuva_mm'].rolling(3, min_periods=1).mean()

print("üîç Resultados - Exerc√≠cio 3")
print(f"Dias com chuva >15 mm: {len(chuva_alta)}")
print(f"Dados da esta√ß√£o Campo A: {len(campo_a)} linhas")
print("Primeiras 5 m√©dias m√≥veis:")
print(df_chuva[['chuva_mm', 'media_movel_3d']].head())

In [None]:
# **Exerc√≠cio 6: Visualiza√ß√£o ‚Äì Umidade do solo em profundidades**
#
# Objetivo: Plote umidade em 4 profundidades ao longo do tempo com:
# a) Linhas com cores diferentes
# b) T√≠tulo e r√≥tulos
# c) Salvar como PDF
#
# Aplica√ß√£o: monitoramento de sensores de umidade

# Dados simulados
tempo = np.arange(10)
profundidades = ['0-10cm', '10-20cm', '20-30cm', '30-40cm']
dados_umidade = np.array([20-2*t + np.random.normal(0,1,10) for t in range(4)])

plt.figure(figsize=(10, 6))
for i, prof in enumerate(profundidades):
    plt.plot(tempo, dados_umidade[i], label=prof, linewidth=2)

plt.title('Evolu√ß√£o da Umidade do Solo em Diferentes Profundidades', fontsize=14)
plt.xlabel('Tempo (dias)')
plt.ylabel('Umidade (%)')
plt.legend(title='Profundidade')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('umidade_solo.pdf', dpi=300, bbox_inches='tight')  # Salva como PDF
plt.show()

print("‚úÖ Gr√°fico salvo como 'umidade_solo.pdf'")

In [None]:
# **Exerc√≠cio 5: Agrega√ß√£o com Pandas ‚Äì Consumo de tratores**
#
# Objetivo: Analisar dados de tratores:
# a) Calcule consumo m√©dio por modelo
# b) Combine com tabela de manuten√ß√£o
# c) Crie pivot table por modelo e turno
#
# Aplica√ß√£o: an√°lise de efici√™ncia operacional

# Dados principais
modelos = ['Valtra 120', 'Massey 285', 'John Deere 5075']
df_trator = pd.DataFrame({
    'modelo': np.random.choice(modelos, 100),
    'turno': np.random.choice(['manh√£', 'tarde', 'noite'], 100),
    'consumo_lh': np.random.normal(9, 1, 100)
})

# Tabela de manuten√ß√£o (simulada)
df_mant = pd.DataFrame({
    'modelo': modelos,
    'ult_manutencao': ['2024-01-15', '2024-02-10', '2024-01-30']
})

# a) Consumo m√©dio por modelo
consumo_medio = df_trator.groupby('modelo')['consumo_lh'].mean()

# b) Merge com manuten√ß√£o
df_completo = pd.merge(df_trator, df_mant, on='modelo', how='left')

# c) Pivot table
pivot = pd.pivot_table(df_trator, values='consumo_lh', index='modelo', columns='turno', aggfunc='mean')

print("üîç Resultados - Exerc√≠cio 5")
print("Consumo m√©dio por modelo:")
print(consumo_medio.round(2))
print("\nPivot table (consumo por turno):")
print(pivot.round(2))

In [None]:
# **Exerc√≠cio 6: Visualiza√ß√£o ‚Äì Umidade do solo em profundidades**
#
# Objetivo: Plote umidade em 4 profundidades ao longo do tempo com:
# a) Linhas com cores diferentes
# b) T√≠tulo e r√≥tulos
# c) Salvar como PDF
#
# Aplica√ß√£o: monitoramento de sensores de umidade

# Dados simulados
tempo = np.arange(10)
profundidades = ['0-10cm', '10-20cm', '20-30cm', '30-40cm']
dados_umidade = np.array([20-2*t + np.random.normal(0,1,10) for t in range(4)])

plt.figure(figsize=(10, 6))
for i, prof in enumerate(profundidades):
    plt.plot(tempo, dados_umidade[i], label=prof, linewidth=2)

plt.title('Evolu√ß√£o da Umidade do Solo em Diferentes Profundidades', fontsize=14)
plt.xlabel('Tempo (dias)')
plt.ylabel('Umidade (%)')
plt.legend(title='Profundidade')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('umidade_solo.pdf', dpi=300, bbox_inches='tight')  # Salva como PDF
plt.show()

print("‚úÖ Gr√°fico salvo como 'umidade_solo.pdf'")

In [None]:
# **Exerc√≠cio 7: Boxplot e histograma ‚Äì Di√¢metro de frutos**
#
# Objetivo: Compare 3 tratamentos de irriga√ß√£o com:
# a) Boxplot
# b) Histograma sobreposto
# c) Barras com erro padr√£o
#
# Aplica√ß√£o: classifica√ß√£o de frutos por tamanho

# Dados simulados
trat_a = np.random.normal(5.0, 0.8, 30)  # mm
trat_b = np.random.normal(6.2, 0.9, 30)
trat_c = np.random.normal(5.8, 0.7, 30)

# a) Boxplot
plt.figure(figsize=(12, 4))
plt.subplot(1, 3, 1)
plt.boxplot([trat_a, trat_b, trat_c], tick_labels=['A', 'B', 'C'])
plt.title('Boxplot')

# b) Histograma sobreposto
plt.subplot(1, 3, 2)
plt.hist(trat_a, alpha=0.6, label='A', bins=8)
plt.hist(trat_b, alpha=0.6, label='B', bins=8)
plt.hist(trat_c, alpha=0.6, label='C', bins=8)
plt.title('Histograma')
plt.legend()

# c) Barras com erro
medias = [trat_a.mean(), trat_b.mean(), trat_c.mean()]
erros = [trat_a.std(), trat_b.std(), trat_c.std()]
plt.subplot(1, 3, 3)
plt.bar(['A','B','C'], medias, yerr=erros, capsize=5, color=['C0','C1','C2'])
plt.title('M√©dia com erro')
plt.tight_layout()
plt.show()

In [None]:
# **Exerc√≠cio 8: An√°lise explorat√≥ria ‚Äì Evapotranspira√ß√£o**
#
# Objetivo: Analise ETc de 3 culturas:
# a) Plote evolu√ß√£o temporal
# b) Calcule correla√ß√£o com radia√ß√£o
# c) Gere boxplot comparativo
#
# Aplica√ß√£o: planejamento de irriga√ß√£o

# %% Dados simulados (CORRIGIDO)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Configura√ß√£o
np.random.seed(42)
datas = pd.date_range("2024-01-01", periods=90)
culturas = np.random.choice(['milho', 'feijao', 'soja'], 90)

# M√©dias de ETc por cultura
medias_et = {'milho': 3.2, 'feijao': 2.1, 'soja': 2.8}

# Mapeia m√©dia para cada linha e adiciona ru√≠do
medias = [medias_et[cultura] for cultura in culturas]
etcs = np.random.normal(medias, 0.3)  # desvio padr√£o de 0.3

# Radia√ß√£o solar simulada (independente)
radiacao = np.random.normal(25, 5, 90)

# Cria DataFrame
df_et = pd.DataFrame({
    'data': datas,
    'cultura': culturas,
    'ETc': etcs,
    'radiacao': radiacao
})

# %% a) Evolu√ß√£o temporal
df_pivot = df_et.pivot(index='data', columns='cultura', values='ETc')
df_pivot.plot(
    title='Evapotranspira√ß√£o das culturas ao longo do tempo',
    xlabel='Data',
    ylabel='ETc (mm/dia)',
    figsize=(10, 5)
)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# %% b) Correla√ß√£o entre ETc e radia√ß√£o
corr = df_et['ETc'].corr(df_et['radiacao'])
print(f"üìä Correla√ß√£o ETc vs. radia√ß√£o: {corr:.3f}")

# %% c) Boxplot por cultura
plt.figure(figsize=(8, 5))
df_et.boxplot(column='ETc', by='cultura', grid=False, ax=plt.gca())
plt.suptitle('')  # remove t√≠tulo autom√°tico
plt.title('Distribui√ß√£o de ETc por cultura')
plt.ylabel('ETc (mm/dia)')
plt.xlabel('Cultura')
plt.grid(True, axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("‚úÖ Exerc√≠cio 8 conclu√≠do com sucesso!")

In [None]:
# **Exerc√≠cio 9: Teste estat√≠stico ‚Äì Rendimento de gr√£os**
#
# Objetivo: Compare dois sistemas de plantio:
# a) Teste t independente
# b) Calcule tamanho do efeito (Cohen's d)
# c) Interprete o valor de p
#
# Aplica√ß√£o: valida√ß√£o de tratamentos experimentais

# %% Dados simulados (CORRIGIDO)
np.random.seed(43)

# Sistemas de plantio
n = 30
sistema_a = np.random.normal(3.2, 0.4, n)  # Plantio direto
sistema_b = np.random.normal(3.0, 0.5, n)  # Convencional

# Cria DataFrame
df_rend = pd.DataFrame({
    'rendimento': np.concatenate([sistema_a, sistema_b]),
    'sistema': ['Plantio Direto'] * n + ['Convencional'] * n
})

# %% a) Teste t independente
from scipy.stats import ttest_ind
t, p = ttest_ind(sistema_a, sistema_b)

# %% b) Tamanho do efeito: Cohen's d
mean_diff = sistema_a.mean() - sistema_b.mean()
pooled_std = np.sqrt(((n-1)*sistema_a.std()**2 + (n-1)*sistema_b.std()**2) / (2*n - 2))
cohens_d = mean_diff / pooled_std

# %% Resultados
print("üîç RESULTADOS - TESTE ESTAT√çSTICO")
print("=" * 40)
print(f"Plantio Direto: m√©dia = {sistema_a.mean():.2f} t/ha")
print(f"Convencional:   m√©dia = {sistema_b.mean():.2f} t/ha")
print(f"Teste t: t = {t:.2f}, p = {p:.4f}")
print(f"Cohen's d: {cohens_d:.3f}")
print("=" * 40)
print("Interpreta√ß√£o:")

if p < 0.05:
    print("‚úÖ Diferen√ßa estatisticamente significativa (p < 0.05)")
else:
    print("‚ùå Sem diferen√ßa significativa")

if abs(cohens_d) > 0.8:
    print("‚Üí Tamanho do efeito GRANDE (relev√¢ncia pr√°tica)")
elif abs(cohens_d) > 0.5:
    print("‚Üí Tamanho do efeito M√âDIO")
else:
    print("‚Üí Tamanho do efeito pequeno")

# %% Visualiza√ß√£o
plt.figure(figsize=(7, 5))
plt.boxplot([sistema_a, sistema_b], labels=['Plantio Direto', 'Convencional'])
plt.ylabel('Rendimento (t/ha)')
plt.title('Compara√ß√£o de Rendimento entre Sistemas de Plantio')
plt.grid(True, axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# **Exerc√≠cio 10: Ajuste de curvas e interpola√ß√£o**
#
# Objetivo: Ajuste um modelo exponencial √† curva de secagem.
# a) Defina a fun√ß√£o exponencial
# b) Ajuste com curve_fit
# c) Plote dados e curva ajustada
#
# Aplica√ß√£o: modelagem de processos de p√≥s-colheita

# %% Dados simulados (CORRIGIDO)
np.random.seed(44)

# Tempo em horas
tempo = np.linspace(0, 10, 11)

# Modelo verdadeiro: U(t) = a * exp(-b*t) + c
a_true, b_true, c_true = 12.0, 0.3, 10.0
umidade_real = a_true * np.exp(-b_true * tempo) + c_true

# Adiciona ru√≠do realista
umidade_medida = umidade_real + np.random.normal(0, 0.2, len(tempo))

# %% a) Definir modelo exponencial
def modelo_exp(t, a, b, c):
    return a * np.exp(-b * t) + c

# %% b) Ajustar modelo aos dados
from scipy.optimize import curve_fit
params, pcov = curve_fit(modelo_exp, tempo, umidade_medida)

# Extrair par√¢metros
a_fit, b_fit, c_fit = params
erros = np.sqrt(np.diag(pcov))  # erros padr√£o dos par√¢metros

# Calcular R¬≤
residuos = umidade_medida - modelo_exp(tempo, *params)
sqr = np.sum(residuos**2)
sqt = np.sum((umidade_medida - umidade_medida.mean())**2)
r2 = 1 - (sqr / sqt)

# %% c) Plotar resultados
plt.figure(figsize=(9, 6))
plt.scatter(tempo, umidade_medida, color='red', s=80, label='Dados medidos', zorder=5)
plt.plot(tempo, modelo_exp(tempo, *params), 'b-', linewidth=2, label='Curva ajustada')

# Configurar gr√°fico
plt.xlabel('Tempo (horas)', fontsize=12)
plt.ylabel('Umidade do gr√£o (% b.s.)', fontsize=12)
plt.title('Ajuste de Modelo Exponencial √† Curva de Secagem', fontsize=14)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)

# Inserir par√¢metros no gr√°fico
texto = (f'Ajuste: $U(t) = a \cdot e^{{-bt}} + c$\n'
         f'a = {a_fit:.2f} ¬± {erros[0]:.2f}\n'
         f'b = {b_fit:.3f} ¬± {erros[1]:.3f}\n'
         f'c = {c_fit:.2f} ¬± {erros[2]:.2f}\n'
         f'R¬≤ = {r2:.4f}')
props = dict(boxstyle='round', facecolor='wheat', alpha=0.8)
plt.gca().text(0.02, 0.98, texto, transform=plt.gca().transAxes, fontsize=10,
               verticalalignment='top', bbox=props)

plt.tight_layout()
plt.show()

# %% Resultados num√©ricos
print("üîß PAR√ÇMETROS AJUSTADOS")
print(f"a (amplitude):     {a_fit:.3f} ¬± {erros[0]:.3f} %")
print(f"b (taxa de secagem): {b_fit:.4f} ¬± {erros[1]:.4f} h‚Åª¬π")
print(f"c (umidade final):   {c_fit:.3f} ¬± {erros[2]:.3f} %")
print(f"Coeficiente de determina√ß√£o (R¬≤): {r2:.4f}")
print("\nüí° Interpreta√ß√£o:")
print(f"O gr√£o tende a estabilizar em cerca de {c_fit:.1f}% de umidade.")
print(f"A secagem √© mais r√°pida nas primeiras {1/b_fit:.1f} horas.")