# Exercícios de Pandas

Agora que já estudamos o **Pandas**, é hora de praticar!

Começaremos com tarefas simples e, em seguida, avançaremos para questões mais desafiadoras.

Primeiro importe _pandas_ e _numpy_.

In [None]:
# código aqui

#### Pandas Series e Index

Crie uma *Series* chamada populacao com os seguintes dados:

In [None]:
populacao = pd.Series(
    [12.3, 8.9, 15.6, 3.4],
    index=['Cidade A', 'Cidade B', 'Cidade C', 'Cidade D']
)

Atividades:
1. Mostre os **valores** e os **índices** separadamente.
2. Acesse o valor da **Cidade B** usando o índice.
3. Multiplique todos os valores por `1000` (habitantes em milhares).

In [None]:
# codigo aqui

### Pandas DataFrame

Construa um *DataFrame* com informações sobre cidades:

In [None]:
dados = {
    'cidade': ['Cidade A', 'Cidade B', 'Cidade C', 'Cidade D'],
    'estado': ['SP', 'RJ', 'MG', 'RS'],
    'populacao_mil': [12.3, 8.9, 15.6, 3.4],
    'area_km2': [450, 300, 1200, 500]
}

cidades = pd.DataFrame(dados)

Atividades:
1. Exiba as **5 primeiras linhas** (`head()`).
2. Mostre apenas as colunas `cidade` e `populacao_mil`.
3. Calcule a **densidade populacional** (`populacao_mil / area_km2`).

In [None]:
# codigo aqui

### Ufuncs e alinhamento de índices

Crie duas _Series_:

In [None]:
s1 = pd.Series([2, 4, 6], index=['a', 'b', 'c'])
s2 = pd.Series([1, 3, 5], index=['b', 'c', 'd'])

Atividades:
1. Some `s1 + s2`. O que acontece com os índices diferentes?
2. Use `np.square(s1)` para aplicar uma ufunc do NumPy.

In [None]:
# codigo aqui

### Funções principais

Use o _DataFrame_ cidades e aplique:
1. info()
2. describe()
3. tail(2)

In [None]:
# codigo aqui

Pergunta: Qual cidade tem a **maior área**?

In [None]:
# codigo aqui

### Manipulação de valores ausentes

Adicione valores ausentes ao DataFrame:

In [None]:
cidades.loc[2, 'populacao_mil'] = np.nan
cidades.loc[3, 'estado'] = np.nan

Atividades
1. Detecte os valores nulos com isnull().
2. Substitua os valores ausentes de população pela média.
3. Remova as linhas que têm estado nulo.

In [None]:
# codigo aqui

### Remover duplicatas

Adicione uma linha duplicada:

In [None]:
cidades = pd.concat([cidades, cidades.iloc[[0]]], ignore_index=True)

Atividades:
1. Verifique se há duplicatas.
2. Remova as duplicatas.

In [None]:
# codigo aqui

### Índices Hierárquicos

Construa um DataFrame com índices hierárquicos:

In [None]:
index = pd.MultiIndex.from_product(
    [['2023', '2024'], ['Cidade A', 'Cidade B']],
    names=['Ano', 'Cidade']
)

dados = pd.DataFrame(
    np.random.randint(100, 500, (4, 2)),
    index=index,
    columns=['População', 'Área']
)

Atividades:
1. Acesse os dados da Cidade A em 2024.
2. Transforme o DataFrame com .unstack().
3. Retorne ao formato original com .stack().

In [None]:
# codigo aqui

### Desafio

In [None]:
# Criando dados fictícios de usinas renováveis
dados_usinas = {
    "usina": ["Solar Norte", "Solar Sul", "Eolica Litoral", "Eolica Interior", "Solar Nordeste", "Eolica Serra"],
    "estado": ["AM", "RS", "CE", "MG", "PE", "BA"],
    "tipo": ["Solar", "Solar", "Eólica", "Eólica", "Solar", "Eólica"],
    "capacidade_MW": [120, 80, 200, 150, np.nan, 300],
    "ano_instalacao": [2015, 2018, 2012, 2019, 2020, np.nan],
}
usinas = pd.DataFrame(dados_usinas)
usinas

Atividades:
1. Series e Index
    - Crie uma Series apenas com as capacidades instaladas (`capacidade_MW`).
    - Defina o índice como o nome das usinas.
2. Seleção de Dados
    - Selecione apenas as usinas do tipo **Solar**.
    - Selecione a linha referente à "Eolica Serra".
3. Ufuncs e Alinhamento de Índices
    - Crie duas Series fictícias:
        - `custo_instalacao` (em milhões R$)
        - `capacidade_MW`
    - Depois calcule o **custo por MW** (`custo_instalacao / capacidade_MW`) e analise os índices alinhados.
4. Funções Principais
    - Use `head()`, `tail()`, `info()` e `describe()` no DataFrame `usinas`.
    - Qual é a usina com **maior capacidade instalada**?
5. Valores Ausentes - Deteccao
    - Identifique em quais colunas há valores nulos (`.isnull().any()`).
    - Conte quantos valores nulos há em cada coluna (`.isnull().sum()`).
6. Valores Ausentes - Substituicao e Remocao
    - Substitua o valor nulo de `capacidade_MW` pela média da coluna.
    - Remova as linhas que têm `ano_instalacao` nulo.
7. Duplicatas
    - Duplique a linha da "Solar Norte".
    - Detecte duplicatas com `.duplicated()`.
    - Remova duplicatas com `.drop_duplicates()`.
8. Índices Hierárquicos – Construção
    - Crie um MultiIndex combinando:
        - Anos `[2021, 2022, 2023]`
        - Tipos de usina `['Solar', 'Eólica']`
    - E associe a cada combinação uma geração de energia simulada (em GWh).
9. Índices Hierárquicos – Seleção
    - Acesse os dados de geração para **Eólica em 2022**.
    - Acesse apenas a coluna de geração GWh.
10. Stack e Unstack
    - Transforme o DataFrame com MultiIndex em formato wide com `.unstack()`.
    - Depois volte ao formato original com `.stack()`.