# Projeto M37 - AWS S3 + Athena com o dataset Iris

## ✅ Etapas realizadas
1. Geração do arquivo `iris.csv` com o dataset Iris (sklearn).
2. Upload do CSV para o bucket S3: `iris-catherine`.
3. Criação de bucket de resultados do Athena: `iriscatherineresultados`.
4. Configuração do Athena para usar o bucket de resultados.
5. Criação da tabela externa no Athena usando `OpenCSVSerde` e `skip.header.line.count = 1`.
6. Consulta de exemplo com `SELECT *`.
7. Consulta de média por classe com `GROUP BY`.

## 📊 Geração do arquivo iris.csv

In [None]:
import pandas as pd
from sklearn.datasets import load_iris

# Carregando dados do sklearn
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df["class"] = pd.Categorical.from_codes(iris.target, iris.target_names)

# Renomeando colunas
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

# Salvando CSV
df.to_csv("iris.csv", index=False)
print("Arquivo iris.csv gerado com sucesso!")

## 🔗 Upload para o S3
- Bucket criado: `iris-catherine`
- Caminho do arquivo: `s3://iris-catherine/iris.csv`

## 🛠️ Comando SQL executado no Athena

In [None]:
CREATE EXTERNAL TABLE iris_data_corrigida (
  sepal_length DOUBLE,
  sepal_width DOUBLE,
  petal_length DOUBLE,
  petal_width DOUBLE,
  class STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  "separatorChar" = ",",
  "quoteChar" = "\""
)
LOCATION 's3://iris-catherine/'
TBLPROPERTIES (
  'has_encrypted_data'='false',
  'skip.header.line.count'='1'
);

## ✅ Consulta de teste

In [None]:
SELECT * FROM iris_data_corrigida LIMIT 5;

### 📸 Resultado da consulta SELECT *

<img src="/mnt/data/8ffc9c6f-15ce-4d17-bdb2-7dd6785d0682.png" alt="Consulta SELECT *" width="800"/>

## 📈 Consulta analítica

In [None]:
SELECT class, AVG(sepal_length) AS media_sepal
FROM iris_data_corrigida
GROUP BY class;

### 📸 Resultado da média do sepal_length por classe

<img src="/mnt/data/d88124d9-1780-4ed3-906b-508e13f88609.png" alt="Consulta média" width="800"/>

## 🧾 Resultado
As consultas foram executadas com sucesso, conforme os prints enviados. O Athena retornou as médias por classe conforme esperado.

> Atividade finalizada com sucesso 🎯