# Pandas

ChatGPT-3 definindo Pandas, a partir do seguinte prompt: "defina pandas em um parágrafo, destacando sua importância para análise de dados"

>O pandas é uma poderosa biblioteca de Python amplamente utilizada na análise de dados. Sua importância reside na capacidade de simplificar e agilizar tarefas relacionadas à manipulação e exploração de dados tabulares, como planilhas ou tabelas de bancos de dados. Com o pandas, os analistas de dados podem facilmente importar, limpar, transformar, agregar e visualizar dados, permitindo uma compreensão mais profunda e insights valiosos a partir de conjuntos de dados complexos. Ao oferecer uma estrutura de dados flexível chamada DataFrame, o pandas se tornou uma ferramenta indispensável para cientistas de dados, analistas de negócios e pesquisadores em diversas áreas, contribuindo significativamente para a eficiência e qualidade das análises de dados.

DataFrames: são estruturas de dados tabulares semelhantes a tabelas de banco de dados ou planilhas do Excel.

## Instalando a biblioteca Pandas

```bash
pip install pandas
```

O `pip` é um gerenciador de pacotes do Python. Ele é usado para instalar e gerenciar pacotes de software escritos na linguagem Python.

Para saber mais sobre instalação e uso do pip, veja a lição "Instalação de Módulos Python com pip" de Fred Gibbs no [The Programming Historian](https://programminghistorian.org/pt/licoes/instalacao-modulos-python-pip).

## Importando a biblioteca Pandas

Para utilizar a biblioteca Pandas, é preciso importá-la no seu código. Para isso, basta usar o comando `import` seguido do nome da biblioteca:

In [1]:
import pandas as pd


## Criando um *Dataframe* a partir de um dicionário

```python
df = pd.DataFrame(<seus dados aqui>)
```

Para criar um objeto DataFrame, basta passar seus dados como argumento para a função `pd.DataFrame()`. Lembrando que `pd` é o alias (*apelidinho*) que utilizamos para importar a biblioteca pandas.

No exemplo abaixo, vamos criar um dicionário com três chaves: 'A', 'B' e 'C'. Cada chave possui uma lista com cinco valores inteiros. 
    
Em seguida, vamos criar um DataFrame a partir do dicionário.

In [2]:
# criando uma variável para receber o dicionário
dados = {'A': [1,2,3,4,5],
         'B': [6,7,8,9,10],
         'C': [0,10,100,1000,10000]}

In [3]:
dados

{'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [0, 10, 100, 1000, 10000]}

In [4]:
type(dados)

dict

In [5]:
dicionario = {
    'Nomes': ['João', 'Maria', 'José', 'Pedro'],
    'Idades': [25, 30, 40, 50],
    'Cidades': ['Manaus', 'Rio de Janeiro', 'Salvador', 'Salvador']
}

In [6]:
dicionario.keys()

dict_keys(['Nomes', 'Idades', 'Cidades'])

In [7]:
dicionario.values()


dict_values([['João', 'Maria', 'José', 'Pedro'], [25, 30, 40, 50], ['Manaus', 'Rio de Janeiro', 'Salvador', 'Salvador']])

In [8]:
dicionario['Nomes']

['João', 'Maria', 'José', 'Pedro']

In [9]:
dicionario['Idades']

[25, 30, 40, 50]

In [10]:
dicionario['Cidades']

['Manaus', 'Rio de Janeiro', 'Salvador', 'Salvador']


No exemplo acima, o dicionário possui três chaves: 'Nomes', 'Idades' e 'Cidades'. Cada chave é associada a uma lista de valores.

Se passarmos esse dicionário como argumento para a função `pd.DataFrame()`, o pandas irá criar um DataFrame com três colunas (a partir das chaves) e cinco linhas (a partir dos valores).

In [11]:
# Criar um dataframe
df = pd.DataFrame(dicionario)

## Informações gerais sobre o DataFrame

Vamos começar com o exemplo simples do DataFrame criado a partir do dicionário de nomes, idades e cidades.

Antes de explorar os dados de forma mais aprofundada, vamos verificar algumas informações gerais sobre o DataFrame.

### Primeiras linhas


In [12]:
df.head()

Unnamed: 0,Nomes,Idades,Cidades
0,João,25,Manaus
1,Maria,30,Rio de Janeiro
2,José,40,Salvador
3,Pedro,50,Salvador


### Últimas linhas


In [13]:
df.tail()

Unnamed: 0,Nomes,Idades,Cidades
0,João,25,Manaus
1,Maria,30,Rio de Janeiro
2,José,40,Salvador
3,Pedro,50,Salvador


### Mostrar a forma do dataframe (linhas, colunas)


In [None]:
df.shape

### Descrição estatística do dataframe


In [None]:
df.describe()

### Informações completas do dataframe


In [None]:
df.info()

### Mostrar colunas


In [None]:
df.columns

## Manipulando DataFrames

### Renomear colunas


In [None]:
df.rename(columns={'Nomes': 'nome', 'Idades': 'idade', 'Cidades': 'cidade'}, inplace=True)

In [None]:
df

### Adicionar colunas


In [None]:
df['nota'] = [9.5, 4.0, 8.8, 3.0]
df

In [None]:
df['id'] = [1, 2, 3, 4]
df

### Deletar uma coluna


In [None]:
df.drop('id', axis=1, inplace=True)
df

### Incluir um linha

In [None]:
# incluir Pedro ao final do dataframe
df.loc[4] = ['Pedro', 50, 'Salvador', 3.0]

In [None]:
df

In [None]:
df.loc[0] = ['Pedro', 50, 'Salvador', 3.0]
df

In [None]:
df.loc[0] = ['João', 25, 'Manaus', 9.5]
df

### Excluir uma linha pelo índice

In [None]:
df.drop(4, axis=0, inplace=True)

In [None]:
df

É possível excluir várias linhas de uma vez, passando uma lista de índices para a função `drop()`.

```python
df.drop([1,2,3], axis=0, inplace=True)
```

## Concatenando DataFrames

Para isso usamos a função `pd.concat()`.

In [None]:
novo_dict = {
    'Nomes': ['Luiza', 'Carolina', 'Vitor', 'Gabriel'],
    'Idades': [20, 20, 22, 31],
    'Cidades': ['Manaus', 'Rio de Janeiro', 'Salvador', 'Salvador']
}

In [None]:
df2 = pd.DataFrame(novo_dict)


In [None]:
# concatenar dataframes
df_concat = pd.concat([df, df2])


In [None]:
df_concat

É importante avaliar os nomes das colunas e o índice dos dataframes que serão concatenados. Se os nomes das colunas forem diferentes, o pandas irá criar novas colunas. Se os índices forem diferentes, o pandas irá criar novas linhas (com valores NaN).

In [None]:
df.columns

In [None]:
df2.columns

In [None]:
df2.rename(columns={'Nomes': 'nome', 'Idades': 'idade', 'Cidades': 'cidade'}, inplace=True)
df2.columns

In [None]:
df_concat = pd.concat([df, df2])
df_concat

In [None]:
df_concat.loc[0]

### Resetar o index após a concatenação


In [None]:
# resetar o index e remover o antigo
df_concat.reset_index(inplace=True)
df_concat

In [None]:
df_concat.loc[0]

In [None]:
# remover a coluna `index` para 'index original'
df_concat.rename(columns={'index': 'index_original'}, inplace=True)
df_concat

### NaN - Not a Number - valores ausentes


In [None]:
# média das notas
df_concat['nota'].mean()

In [None]:
# Verificar se há valores nulos
df_concat['nota'].isnull()


In [None]:
# preencher valores ausentes
df_concat.fillna(0, inplace=True)
df_concat

Também é possível deletar linhas que possuem valores NaN em uma coluna específica.

```python
#drop NAN values
df.dropna(inplace=True)
```

### Trabalhando com números inteiros e floats

In [None]:
# Encontrar o maior valor da coluna `nota`
df_concat['nota'].max()


In [None]:
#  Encontrar o menor valor da coluna `nota`
print(df_concat['nota'].min())

In [None]:
# Encontrar a média da coluna `nota`
print(df_concat['nota'].mean())


In [None]:
# Encontrar a mediana da coluna `nota`
print(df_concat['nota'].median())

## Contar valores únicos em uma coluna

In [None]:
# Contar a quantidade de valores da coluna `nota`
df_concat['nota'].value_counts()

## Iterar nas linhas de um DataFrame: `iterrows()`

Iterar nas linhas da coluna `nota` e imprimir apenas as notas maiores que 7.

In [None]:
# iterar nas linhas e imprimir apenas notas maiores do que 7
for index, row in df_concat.iterrows():
    if row['nota'] > 7:
        print(row['nome'], row['nota'])

### query()

E se quisermos iterar nas linhas e criar um novo DataFrame apenas com as linhas que possuem notas menores que 7?

In [None]:
# iterar nas linhas e criar um 
# novo dataframe com as notas menores do que 7
lista = []
for index, row in df_concat.iterrows():
    if row['nota'] < 7:
        lista.append(row)

df_novo = pd.DataFrame(lista)
df_novo

Há um jeito mais fácil de fazer isso: usando o método `query()`.

In [None]:
df_novo = df_concat.query('nota < 7')
df_novo

## Agrupando valores para análise

In [None]:
df_concat.groupby('cidade')

In [None]:
# group by a column and count the number of occurrences
df_concat.groupby(by=['nota']).count()

In [None]:
#Avaliar quais cidades tiveram mais notas maiores que 7 a partir do dataframe `df`.
df_concat.query('nota > 7').groupby('cidade').count()


## apply(): aplicar uma função a uma coluna

Vamos tentar incluir uma coluna 'resultado'. 

- Se a nota for igual ou maior que 7, o resultado é aprovado',
- Se for entre 5 e 6.9, o resultado é 'recuperação',
- Sse for menor que 5, o resultado é 'reprovado'

In [None]:
def calcular_resultado(nota):
    """
    Recebe uma nota e retorna o resultado do aluno com base na nota.
    """
    if nota >= 7:
        return 'aprovado'
    elif nota >= 5 and nota < 7:
        return 'recuperação'
    else:
        return 'reprovado'


In [None]:
# método apply: aplica uma função a cada linha do dataframe
df_concat['resultado'] = df_concat['nota'].apply(calcular_resultado)
df_concat

Mesma coisa com uma função lambda (que é uma função anônima e não vamos nos aprofundar nisso agora):

```python
df['resultado'] = df['nota'].apply(lambda x: 'aprovado' if x >= 7 else ('recuperação' if x >= 5 and x < 7 else 'reprovado'))
```

## Salvando um DataFrame em um arquivo

Podemos salvar nosso DataFrame em arquivos com diferentes formatos: csv, excel, json, html, etc.

Veja a tabela com alguns formatos e os métodos de salvar:

|Formato|Salvar com|
|---|---|
|csv|`df.to_csv('nome_do_arquivo.csv')`|
|json|`df.to_json('nome_do_arquivo.json')`|
|html|`df.to_html('nome_do_arquivo.html')`|


In [None]:
df_concat.to_csv('resultado_completo.csv', index=False, sep=',')

In [None]:
# salvar o dataframe em um arquivo csv apenas com as colunas nome, nota e resultado
df_concat[['nome', 'nota', 'resultado']].to_csv('resultado.csv', index=False)


In [None]:
# salvar em json com utf-8
df_concat[['nome', 'nota', 'resultado']].to_json('resultado.json', orient='records', force_ascii=False)


In [None]:
df_concat[['nome', 'nota', 'resultado']].to_html('resultado.html', index=False)

Na célula acima, utilizamos df_concat[[]] retorna um novo dataframe.

# Analisando dados na prática

Exemplo com dados da HDB.

Aqui veremos um exemplo com um dataset mais complexo, com 69 linhas e 8 colunas. 

Esse dataset é resultado da utilização da ferramenta pyHDB, uma ferramenta de auxílio metodológico para a pesquisa na Hemeroteca Digital Brasileira da Biblioteca Nacional.

A ferramenta foi desenvolvida por mim e está disponível no GitHub: https://ericbrasiln.github.io/pyHDB/.

Para mais informações sobre seus usos e aspectos teóricos e metodológicos de seu desenvolvimento veja o artigo [pyHDB - Ferramenta Heurística para a Hemeroteca Digital Brasileira: utilizando técnicas de web scraping para a pesquisa em História](https://www.historiadahistoriografia.com.br/revista/article/view/1904) publicano na Revista História da Historiografia.

Ao invés de criar um dataframe a partir de um dicionário como fizemos anteriormente, vamos criar um dataframe a partir de um arquivo CSV.

O CSV (*Comma Separated Values*) é um formato de arquivo que armazena dados tabulares em texto simples. 

Cada linha do arquivo de texto é uma linha da tabela e as colunas são separadas por vírgulas. Esses arquivos podem ser abertos em qualquer editor de texto ou planilha.

Para criar um dataframe a partir de um arquivo CSV, basta utilizar a função `pd.read_csv()` e passar o caminho do arquivo como argumento.

Também é possível criar um dataframe a partir de um arquivo Excel, utilizando a função `pd.read_excel()`.

Antes de analisarmos nossos dados com o pandas, vamos dar uma olhada no arquivo CSV em um editor de planilhas comum.

In [None]:
df_hdb = pd.read_csv('./assets/moyses-zacharias_2023-09-13_14-52-48.csv')

In [None]:
df_hdb.head()

In [None]:
df_hdb = pd.read_csv('./assets/moyses-zacharias_2023-09-13_14-52-48.csv', index_col=0)


In [None]:
df_hdb.head(10)

In [None]:
df_hdb.tail(10)

In [None]:
# print column names
df_hdb.columns

In [None]:
df_hdb.shape

In [None]:
df_hdb.info()

In [None]:
df_hdb['Acervo'][:20]

In [None]:
# group by column 'Acervo'
gb_acervo = df_hdb.groupby('Acervo')
gb_acervo

In [None]:
# count the number of occurrences and sort by descending order
gb_acervo.size()

In [None]:
gb_acervo.size().sort_values(ascending=False)

Para fazermos uma análise mais completa dos dados, precisamos excluir o padrão '- XXXX a XXXX' e manter apenas o nome do jornal na coluna 'Acervo'. 

Mas como faremos isso? um por um?

Vamos usar expressões regulares! E pedir uma ajudinha ao ChatGPT-3.

## Expressões regulares

Expressões regulares são padrões utilizados para selecionar combinações de caracteres em uma string. Tudo é possível com expressões regulares, mas ao mesmo tempo elas podem ser bem complicadas.

Veja a lição [Understanding Regular Expressions](http://programminghistorian.org/en/lessons/understanding-regular-expressions) de Doug Knox no Programming Historian para saber mais sobre expressões regulares. Ela ainda está em inglês (e se alguém quiser traduzir para publicarmos em português, será muito bem-vindo e só entrar em contato comigo!).

Prompt para o ChatGPT-3.5:

>Escreva uma expressão regular para selecionar o padrão '- XXXX a XXXX'. O XXXX corresponde a um ano de quatro dígitos.

Essa foi a resposta que o ChatGPT-3.5 me deu:

---
Você pode usar a seguinte expressão regular para selecionar o padrão "- XXXX a XXXX", onde XXXX representa um ano de quatro dígitos:

```regex
-\s\d{4}\s+a\s+\d{4}
```

Aqui está uma breve explicação da expressão regular:

- `-\s`: Isso corresponde ao caractere "-" seguido de um espaço em branco.
- `\d{4}`: Isso corresponde a quatro dígitos consecutivos, que representam um ano de quatro dígitos.
- `\s+a\s+`: Isso corresponde a um ou mais espaços em branco, seguidos pela letra "a" em minúsculas e mais um ou mais espaços em branco.
- `\d{4}`: Isso corresponde novamente a quatro dígitos consecutivos para o segundo ano de quatro dígitos.

Essa expressão regular capturará padrões como "- 2021 a 2022", onde "2021" e "2022" são anos de quatro dígitos separados pelo texto "a".


In [None]:
# use re to find the pattern and replace it with a new string
df_hdb['Acervo'] = df_hdb['Acervo'].str.replace(' -\s\d{4}\s+a\s+\d{4}', '', regex=True)


In [None]:
df_hdb['Acervo'] = df_hdb['Acervo'].str.replace(' -\s\d{4}', '', regex=True)

In [None]:
df_hdb['Acervo']

In [None]:
df_hdb_acervo = df_hdb.groupby('Acervo').size().sort_values(ascending=False)
df_hdb_acervo

In [None]:
df_hdb_acervo.info()

In [None]:
# group by column 'Acervo' and 'Ano'
df_hdb_acervo_ano = df_hdb.groupby(['Acervo', 'Ano']).size()
df_hdb_acervo_ano

In [None]:
# plot a bar chart of column 'Ano' and 'Acervo'
df_hdb['Acervo'].value_counts().plot(kind='bar')


In [None]:
# filter by 'Ano'
df_hdb.filter(items=['Ano', 'Acervo'])\
    .groupby(['Ano', 'Acervo'])\
    .size()
    

In [None]:
# filter by 'Ano' between 1901 and 1940
df2 = df_hdb.filter(items=['Ano', 'Acervo'])\
          .query('Ano > 1901 and Ano < 1940')\
              

In [None]:
df2

In [None]:
df2.sort_values(by='Ano', ascending=True)

In [None]:
# contar anos com maior frequência e  mostrar num gráfico
df2['Ano'].value_counts().plot(kind='bar')

In [None]:
# contar anos com maior frequência e  mostrar num gráfico, ordenando por ano
df2['Ano'].value_counts().sort_index().plot(kind='bar')


In [None]:
df2['Acervo'].value_counts().plot(kind='bar')

---

[Próximo →](dia4.ipynb)

[← Anterior](dia2.md)

[↑ Início](./README.md)