# Exercício de Prática – Introdução ao Pandas (Parte II)

Você é um cientista de dados ambientais e recebeu um conjunto de dados sobre **qualidade da água em diferentes cidades do Brasil**. O arquivo `agua.csv` contém as seguintes colunas:

* `estado` → Estado norte-americano
* `ano` → Ano da coleta
* `pH` → pH médio da água
* `oxigenio` → Concentração de oxigênio dissolvido (mg/L)
* `poluente` → Tipo de poluente principal (`Metais`, `Nutrientes`, `Orgânicos`)
* `nivel_poluicao` → Classificação da poluição (`Baixo`, `Médio`, `Alto`)

---

### **Tarefas**

1. **Leitura de dados**

   * Leia o arquivo `agua.csv` em um DataFrame chamado `df`.
   * Exiba as **5 primeiras linhas** e use `.info()` para verificar os tipos de dados.


2. **Revisão: Indexação e Seleção**

   * Selecione apenas as colunas `estado`, `ano` e `pH`.
   * Filtre os dados do ano **2015** com `nivel_poluicao == 'Alto'`.

3. **Revisão: Valores Ausentes**

   * Descubra se existem valores ausentes em alguma coluna (`isnull()`).
   * Preencha os valores ausentes de `oxigenio` com a **média** da coluna.

4. **Revisão: Duplicados**

   * Verifique se existem linhas duplicadas (`duplicated()`).
   * Se sim, remova os duplicados e mostre o novo tamanho do DataFrame.

5. **Concatenação e Merge**

   * Crie um DataFrame `estados_info` com as colunas `estado`, `regiao`, `area` e `habitantes`.

| Estado              | Região       | Área (km²) | Habitantes (Censo 2022) |
| ------------------- | ------------ | ---------: | ----------------------: |
| Acre                | Norte        |    164 123 |                 830 018 |
| Alagoas             | Nordeste     |     27 778 |               3 127 683 |
| Amapá               | Norte        |    142 828 |                 733 759 |
| Amazonas            | Norte        |  1 559 159 |               3 941 613 |
| Bahia               | Nordeste     |    564 733 |              14 136 417 |
| Ceará               | Nordeste     |    148 894 |               8 791 688 |
| Distrito Federal    | Centro-Oeste |      5 802 |               2 817 381 |
| Espírito Santo      | Sudeste      |     46 077 |               3 833 712 |
| Goiás               | Centro-Oeste |    340 106 |               7 056 495 |
| Maranhão            | Nordeste     |    331 936 |               6 775 152 |
| Mato Grosso         | Centro-Oeste |    903 357 |               3 658 649 |
| Mato Grosso do Sul  | Centro-Oeste |    357 145 |               2 756 700 |
| Minas Gerais        | Sudeste      |    586 528 |              20 538 718 |
| Pará                | Norte        |  1 247 689 |               8 116 132 |
| Paraíba             | Nordeste     |     56 467 |               3 974 495 |
| Paraná              | Sul          |    199 315 |              11 444 380 |
| Pernambuco          | Nordeste     |     98 312 |               9 058 931 |
| Piauí               | Nordeste     |    251 529 |               3 271 199 |
| Rio de Janeiro      | Sudeste      |     43 696 |              16 054 524 |
| Rio Grande do Norte | Nordeste     |     52 811 |               3 302 729 |
| Rio Grande do Sul   | Sul          |    281 748 |              10 880 506 |
| Rondônia            | Norte        |    237 576 |               1 581 196 |
| Roraima             | Norte        |    224 300 |                 636 303 |
| Santa Catarina      | Sul          |     95 730 |               7 610 361 |
| São Paulo           | Sudeste      |    248 209 |              44 420 459 |
| Sergipe             | Nordeste     |     21 938 |               2 211 868 |
| Tocantins           | Norte        |    277 720 |               1 511 460 |

   * Faça um `merge()` entre `df` e `estados_info`.

6. **GroupBy e Agregação**

   * Agrupe os dados por `regiao` e calcule o **pH médio** e o **oxigênio médio** de cada região.
   * Descubra qual região teve o **maior nível médio de oxigênio**.

7. **Transformação e Filtragem**

   * Use `.transform()` para normalizar o `oxigenio` de cada região (dividindo pela média regional).
   * Use `.filter()` para manter apenas estados com média de pH **maior que 7.5**.

8. **Pivot e Tabelas Dinâmicas**

   * Crie uma tabela dinâmica (`pivot_table`) mostrando a média de `oxigenio` para cada `estado` em cada `ano`.
   * Reorganize os dados com `.stack()` e depois volte ao formato original com `.unstack()`.

9. **Reorganização Avançada**

   * Transforme o DataFrame para formato **long** usando `.melt()`. Use `estado` e `ano` como identificadores, e `pH` e `oxigenio` como valores.
   * Converta a coluna `nivel_poluicao` em variáveis dummies com `pd.get_dummies()`.
   * Depois, reconverta para a forma categórica original com `from_dummies()`.

10. **Crosstab, Cut e Factorize**

* Use `pd.crosstab()` para contar quantas ocorrências de cada `nivel_poluicao` existem em cada `regiao`.
* Use `pd.cut()` para classificar o `oxigenio` em 3 categorias: **baixo**, **médio** e **alto**.
* Use `pd.factorize()` para transformar a coluna `poluente` em códigos numéricos.

11. **Salvar DataFrame(s)**

* Use `.to_csv()` para salvar DataFrame no formato csv.