# Curso de Jupyter Notebooks: Manipulação de Dados com pandas

> Instruções: leia a explicação de cada seção/subseção e tente executar os códigos apresentados. 
Quando houverem códigos comentados, tire o símbolo de comentário (#) e execute o código

## Seção 1: Introdução ao pandas
### O que é pandas?
> Pandas é uma biblioteca de código aberto para manipulação e análise de dados em Python.
Ela oferece estruturas de dados e ferramentas para trabalhar com dados de forma eficiente.

In [None]:
## certificando que possuímos a biblioteca instalada em nosso ambiente
# !pip install pandas

In [None]:
## importando a biblioteca
# import pandas as pd

## Seção 2: Criação e Leitura de DataFrames

> Os DataFrames são uma das principais estruturas de dados do pandas.
Eles são semelhantes a tabelas em bancos de dados relacionais ou planilhas do Excel.
Podemos criar DataFrames a partir de diferentes fontes de dados, como dicionários, listas e arquivos CSV.

### Criando um dataframe a partir de um dicionário
```
# definição do dicionário
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela'],
    'Idade': [23, 35, 45, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador']
}

# criação do dataframe, passando o dicionário como parâmetro
df = pd.DataFrame(data)
print("DataFrame criado a partir de um dicionário:")
df
```

In [None]:
# tente executar o código acima aqui

### Criando um dataframe a partir de um arquivo CSV

> Podemos ler arquivos CSV diretamente em um DataFrame usando a função read_csv do pandas.
O arquivo CSV deve estar no mesmo diretório do notebook ou o caminho deve ser especificado.

```
df_csv = pd.read_csv('dados_exemplo.csv')
print("DataFrame lido de um arquivo CSV:")
df_csv.head()
```

In [None]:
# tente executar o código acima aqui

### Visualizando um dataframe

> Como estamos em um notebook interativo, podemos pedir ao notebook para exibir o dataframe diretamente, referenciando o nome do mesmo. Mas também é possível pedir para imprimir o dataframe, usando a função print(). Experimente as duas opções na célula abaixo.

In [None]:
# tente executar o código acima aqui

> Se quisermos, podemos imprimir somente uma coluna: `df_csv['Nome']`

> Ou uma seleção de colunas: `df_csv[['Nome', 'Idade']]`

In [None]:
# execute o código acima aqui

### A estrutura Series no Pandas

> Cada coluna no Pandas é representada por uma estrutura de dados chamada `Series`. Um objeto `Series` é sempre um array unidimensional.

> Observe a saída ao imprimir a coluna 'Nome' do `df_csv`

In [2]:
# execute o código aqui

## Seção 3: Filtragem de Dados

> A filtragem de dados permite selecionar subconjuntos de dados com base em condições específicas.
Por exemplo, podemos filtrar linhas que atendem a uma condição lógica.

### Filtrando linhas com base em uma condição

```
print("Filtrando pessoas com idade acima de 30:")
df_filtrado = df_csv[df_csv['Idade'] > 30]
df_filtrado
```

In [None]:
# tente executar o código acima aqui

In [None]:
# agora tente fazer um outro filtro à sua escolha

## Seção 4: Estatísticas Básicas

> Pandas facilita o cálculo de estatísticas descritivas, como média, mediana, desvio padrão, etc.
Essas estatísticas ajudam a entender melhor a distribuição e as características dos dados.

### Calculando estatísticas descritivas
```
print("Estatísticas descritivas do DataFrame:")
df.describe()
```

In [None]:
# tente executar o código acima aqui

## Seção 5: Agrupamento de Dados

> O agrupamento de dados é útil para realizar agregações e sumarizações com base em uma ou mais colunas.
A função groupby permite agrupar os dados e aplicar funções de agregação, como média, soma, etc.

### Agrupando dados

> Podemos agrupar dados de um dataframe usando a função groupby(). Para isso, passamos como parâmetro o nome da coluna pela qual desejamos agrupar os dados. A função retorna um dataframe agrupado. Agora é necessário usar alguma função de agregação para exibir os dados sobre os grupos. Podemos usar funções como mean(), min(), max(), sum(), etc.

> No exemplo abaixo, agrupamos o dataframe por cidade e exibimos a média de idade em cada cidade.

```
print("Média de idade por cidade:")
df_grupo = df_csv.groupby('Cidade').mean()
df_grupo
```

In [None]:
# tente executar o código acima aqui

In [None]:
# tente descobrir a maior e a menor idade de cada cidade do dataframe df_csv

## Seção 6: Ordenação de Dados

> A ordenação de dados facilita a visualização e análise, organizando os dados em ordem crescente ou decrescente.
A função sort_values permite ordenar o DataFrame com base em uma ou mais colunas.
O parâmetro `ascending` permite escolher se deseja uma ordem ascendente ou descendente.

### Ordenando por idade de forma crescente
```
print("DataFrame ordenado por idade:")
df_ordenado = df_csv.sort_values(by='Idade')
df_ordenado
```

### Ordenando por idade de forma decrescente
```
print("DataFrame ordenado por idade:")
df_ordenado = df_csv.sort_values(by='Idade', ascending=False)
df_ordenado
```

In [None]:
# tente executar o código acima aqui

## Seção 7: Combinação de DataFrames

> Combinar DataFrames permite unir dados de diferentes fontes.
Pandas oferece várias funções para combinar DataFrames, como concat e merge.

### Concatenando DataFrames

> Concatenar dataframes significa juntar os dados de um ou mais dataframes, um após o outro.
O parâmetro `ignore_index=True` pode ser usado para indicar que não queremos que os índices do segundo dataset sejam mantidos. Ou seja, queremos continuar a contagem de índices do dataset original
```
data2 = {
    'Nome': ['Marcela', 'Heleno'],
    'Idade': [22, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro']
}
df2 = pd.DataFrame(data2)
print("Concatenando dois DataFrames:")
df_concatenado = pd.concat([df_csv, df2], ignore_index=True)
df_concatenado
```

In [None]:
# tente executar o código acima aqui

### Mesclando DataFrames

> A função merge permite combinar DataFrames com base em colunas comuns, similar a junções em bancos de dados relacionais.

> O parâmetro `on` indica qual coluna será utilizada para fazer a mesclagem. Já o parâmetro `how` indica como a mesclagem deve ser feita: inner, outer, left, right, etc. Funciona da mesma forma que no SQL.

```
data_left = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Nota1': [85, 90, 78]
}
data_right = {
    'Nome': ['Ana', 'Bruno', 'Daniela'],
    'Nota2': [88, 79, 85]
}

df_left = pd.DataFrame(data_left)
df_right = pd.DataFrame(data_right)
print("Mesclando dois DataFrames com base na coluna 'Nome':")
df_merge = pd.merge(df_left, df_right, on='Nome', how='outer')
df_merge
```

In [None]:
# tente executar o código acima aqui