<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Computação em Nuvem I
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Amazon Web Services;</li>
  <li>AWS IAM;</li>
  <li>AWS S3;</li>
  <li>AWS Athena.</li>
</ol>

---

# **Exercícios**

# **ANALISE DE DADOS NO ATHENA AWS** | Computação em Nuvem

***Sobre os dados***:

**Explorando o Conjunto de Dados das Espécies de Íris**

*O conjunto de dados sobre as espécies de íris é uma rica fonte de informações que nos permite compreender as nuances das características morfológicas dessas flores. Estes dados, muitas vezes utilizados em estudos botânicos e análises estatísticas, oferecem insights valiosos sobre as diferenças distintas entre as três principais espécies: Virginica, Setosa e Versicolor.*

* Por tanto, esses dados são facilmente extraídos da biblioteca Seaborn, nesta situação baixamos o conjunto de dados via Python usando o google colab.


```python
import seaborn as sns
import pandas as pd

iris= sns.load_dataset('iris')
iris.to_csv('iris.csv', index=False, header=False)


```

* Após baixarmor o conjunto de dados, usaremos computação e, nuvem para tratamento das informações, isso para aprimorar a prática, então decidi trabalhar os conceitos da AWS S3 e ATHENA, usando os serviços que amplamente vem crescendo.


# **AWS**

---





**1.   CRIAÇÃO DO BUCKET NO S3**


---



Definido o nome do Buket
* bucket-eder-iris
* Importado o Arquivo iris.csv




**2.   CRIAÇÃO DA BASE DE DADOS NO ATHENA**
* Basedo no conjunto de dados, criamos a tabela com seus devidos tipos.


---


```sql
CREATE EXTERNAL TABLE iris(
sepal_length double,
sepal_width double,
petal_length double,
petal_width double,
specie string

) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES ( 'serialization.format' = ',', 'field.delim' = ',' )
LOCATION 's3://bucket-eder-iris/' TBLPROPERTIES ('has_encrypted_data'='false')
```


*A computação em nuvem tem desempenhado um papel transformador em diversas áreas da tecnologia e negócios, oferecendo uma série de benefícios que impactam positivamente organizações e usuários individuais. Aqui estão algumas razões:*



**1. Acessibilidade Global:**
* A computação em nuvem permite o acesso remoto a recursos computacionais a partir de qualquer lugar do mundo, desde que haja uma conexão à internet. Isso é crucial para empresas globais, equipes distribuídas e usuários individuais que buscam flexibilidade e mobilidade.
Economia de Custos:


**2. Diminuoção de custos:**
* Ao utilizar serviços em nuvem, as organizações podem reduzir significativamente seus custos de infraestrutura. Em vez de investir em hardware e manutenção física, elas podem alugar recursos conforme necessário, pagando apenas pelo que utilizam. Isso possibilita a redução de despesas operacionais e a alocação mais eficiente de recursos financeiros.


**3. Escalabilidade:**
* Os serviços em nuvem oferecem escalabilidade instantânea. Empresas podem facilmente aumentar ou diminuir os recursos computacionais conforme a demanda, evitando a necessidade de investir antecipadamente em infraestrutura que talvez não seja totalmente utilizada.

# **CONSULTAS SQL NO ATHENA**

# **1. Exploração dos dados**
* A exploração de dados refere-se ao processo de investigação e análise inicial de conjuntos de dados para extrair informações relevantes e insights. Essa prática é fundamental para compreender a natureza dos dados disponíveis e identificar padrões ou tendências significativas. A exploração de dados geralmente envolve a utilização de técnicas estatísticas e visualizações para fornecer uma visão mais clara e compreensível dos dados. Esse processo é crucial para a tomada de decisões informada, identificação de oportunidades, detecção de padrões e anomalias, bem como para o suporte à inovação e ao desenvolvimento estratégico. A exploração de dados é uma etapa inicial essencial em qualquer projeto de análise de dados, pois ajuda a definir as direções subsequentes da análise e a maximizar o valor dos dados disponíveis.

```sql

-- Consultando as primeiras 10 linhas da tabela, para entender os dados

select * from iris limit 10

```
![](https://github.com/edersonss1987/AthenaEDAIris/blob/main/from_limit_10.png?raw=true)



---

```sql

-- Verificanfo o total de linhas no nosso conjunto de dados

select count(*) as Total_de_linhas from iris

```
![](https://github.com/edersonss1987/AthenaEDAIris/blob/main/total_de_linhas.png?raw=true)



---


```sql

--contagem de dados por espécie de flor, agrupado

select count(*)as Total_por_tipo, specie from iris where specie in ('setosa', 'virginica','versicolor') group by specie;


```
![](https://github.com/edersonss1987/AthenaEDAIris/blob/main/total_por_especie.png?raw=true)



# **2. Analise Exploratória dos dados**
* O objetivo é conhecer nossos dados, para que possamos realizar pergunta e extrairmos informações e/ou Insigths, a análise de dados é essencial para aproveitar o potencial dos dados disponíveis, transformando informações brutas em conhecimentos acionáveis. Essa prática tornou-se uma ferramenta essencial em diversos setores, capacitando as organizações a prosperar em um ambiente cada vez mais orientado por dados.


---



```sql

-- Valores das Médias para cada pétala e sépala
-- Desta forma podemos olhar os numeros, comparar as médias

select
    specie,
    round(avg(sepal_length), 4) as media_de_Comprimento_da_sepala,
    round(avg(sepal_width),  4) as media_de_Largura_da_sepala,
    round(avg(petal_length), 4) as media_de_Comprimento_da_petala,
    round(avg(petal_width),  4) as media_de_Largura_da_petala
from iris
group by specie
order by media_de_Comprimento_da_sepala desc
```
![](https://github.com/edersonss1987/AthenaEDAIris/blob/main/medias.png?raw=true)



---



```sql

-- Valores máximos e mínimos para cada petala, sepala.

SELECT specie,
    MAX(sepal_length) AS max_sepal_length,
    MAX(sepal_width) AS max_sepal_width,
    MAX(petal_length) AS max_petal_length,
    MAX(petal_width) AS max_petal_width,
    MIN(sepal_length) AS min_sepal_length,
    MIN(sepal_width) AS min_sepal_width,
    MIN(petal_length) AS min_petal_length,
    MIN(petal_width) AS min_petal_width
FROM iris
group by specie order by max_sepal_length desc
```
![](https://github.com/edersonss1987/AthenaEDAIris/blob/main/max_min.png?raw=true)

# **3. CONCLUSÃO**

* ***Análise Comparativa das Espécies de Iris: Virginica, Setosa e Versicolor***

Ao explorarmos as características morfológicas das três espécies de íris - Virginica, Setosa e Versicolor - é evidente que cada uma delas possui distintas dimensões em suas sépalas e pétalas. Vamos examinar detalhadamente as características que diferenciam essas espécies.

1. **Virginica: A Majestosa**
A Virginica destaca-se por apresentar as maiores dimensões em termos de comprimento tanto em sépalas quanto em pétalas. As consultas médias, máximas e mínimas revelam que suas pétalas são especialmente notáveis, sendo mais longas e largas em comparação com as outras espécies. Além disso, ao analisarmos a largura das sépalas, percebemos que ela ocupa uma posição intermediária entre a Setosa e a Versicolor. Dessa forma, concluímos que, dentre as três espécies, a Virginica é a maior em termos de dimensões.

2. **Setosa: A Delicada**
Contrastando com a Virginica, a Setosa exibe características opostas. Suas dimensões são consistentemente menores, evidenciadas pelo menor comprimento em sépalas e pétalas. Além disso, destaca-se por ter a maior largura de sépala e a menor largura de pétala. A Setosa, portanto, se destaca como a menor entre as três espécies de íris.

3. **Versicolor: O Meio Termo Equilibrado**
A Versicolor, ao contrário da Virginica e da Setosa, mostra-se como uma espécie equilibrada em termos de dimensões. Suas medidas estão situadas entre as valores de Virginica e Setosa, exceto pela largura média e máxima das sépalas, que são menores em comparação com as outras espécies. Em relação à largura de pétala, ela se encontra na mediana entre as três. Dessa forma, podemos concluir que a Versicolor não se destaca como a maior nem a menor, mas sim como o meio termo em termos de dimensões.

Essa análise das características morfológicas das espécies de íris fornece uma compreensão mais aprofundada de suas diferenças e semelhanças. Cada uma delas possui suas características únicas.

![](https://github.com/edersonss1987/AthenaEDAIris/blob/main/todas%20juntas.png?raw=true)

![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/884px-Iris_virginica.jpg/)