# Pandas

ChatGPT-3 definindo Pandas, a partir do seguinte prompt: "defina pandas em um parágrafo, destacando sua importância para análise de dados"

>O pandas é uma poderosa biblioteca de Python amplamente utilizada na análise de dados. Sua importância reside na capacidade de simplificar e agilizar tarefas relacionadas à manipulação e exploração de dados tabulares, como planilhas ou tabelas de bancos de dados. Com o pandas, os analistas de dados podem facilmente importar, limpar, transformar, agregar e visualizar dados, permitindo uma compreensão mais profunda e insights valiosos a partir de conjuntos de dados complexos. Ao oferecer uma estrutura de dados flexível chamada DataFrame, o pandas se tornou uma ferramenta indispensável para cientistas de dados, analistas de negócios e pesquisadores em diversas áreas, contribuindo significativamente para a eficiência e qualidade das análises de dados.

DataFrames: são estruturas de dados tabulares semelhantes a tabelas de banco de dados ou planilhas do Excel.

## Instalando a biblioteca Pandas

```bash
pip install pandas
```

O `pip` é um gerenciador de pacotes do Python. Ele é usado para instalar e gerenciar pacotes de software escritos na linguagem Python.

Para saber mais sobre instalação e uso do pip, veja a lição "Instalação de Módulos Python com pip" de Fred Gibbs no [The Programming Historian](https://programminghistorian.org/pt/licoes/instalacao-modulos-python-pip).

## Importando a biblioteca Pandas

Para utilizar a biblioteca Pandas, é preciso importá-la no seu código. Para isso, basta usar o comando `import` seguido do nome da biblioteca:

In [None]:
import pandas as pd

## Criando um Dataframe a partir de um dicionário

```python
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
```

Um dicionário no Python é uma estrutura de dados que armazena pares de chave-valor. Em python, definimos um dicionário utilizando chaves {} e separando cada par chave-valor com dois pontos :. Cada chave é associada a um valor, que pode ser um número, uma string, uma lista, um dicionário, etc.

No exemplo acima, o dicionário possui duas chaves: 'col1' e 'col2'. O pandas utiliza as chaves do dicionário para criar os nomes das colunas do DataFrame e as listas de valores para criar as linhas do DataFrame.

Para criar um objeto DataFrame a partir de um dicionário, basta passar o dicionário como argumento para a função `pd.DataFrame()`. Lembrando que `pd` é o alias (apelidinho) que utilizamos para importar a biblioteca pandas.

No exemplo abaixo, vamos criar um dicionário com três chaves: 'A', 'B' e 'C'. Cada chave possui uma lista com cinco valores inteiros. 
    
Em seguida, vamos criar um DataFrame a partir do dicionário.

In [None]:
# criando uma variável para receber o dicionário
dados = {'A': [1,2,3,4,5],
         'B': [6,7,8,9,10],
         'C': [0,10,100,1000,10000],}

In [None]:
type(dados)

In [None]:
# Create a dataframe
df = pd.DataFrame(dados)

In [None]:
# print the dataframe's shape
print(df.shape)

In [None]:
# head of the dataframe
print(df.head())

In [None]:
# rename a column
df.rename(columns={'A': 'a', 'B': 'b', 'C': 'c'}, inplace=True)

In [None]:
# delete a column
df.drop('c', axis=1, inplace=True)

In [None]:
# add a column
df['D'] = [1, 1, 5, 5, 5]

In [None]:
#find the max value in a column
print(df['a'].max())

#find the min value in a column
print(df['a'].min())

In [None]:
#find the mean value in a column
print(df['a'].mean())

#find the median value in a column
print(df['a'].median())

In [None]:
# count the number of occurrences of a value in a column
print(df['D'].value_counts())

In [None]:
#new dataframe selecting two columns
selected_columns = ['a', 'D']
df_selected = df[selected_columns]
# or df_selected = df.filter(items=selected_columns)
print(df_selected)

In [None]:
#drop NAN values
df_selected.dropna(inplace=True)
print(df_selected)

In [None]:
# group by a column
df_grouped = df.groupby('a')
print(df_grouped.size())


# Exemplo com HDB

In [None]:
df_hdb = pd.read_csv('hdb_est.csv')
print(df_hdb.head())

In [None]:
# print column names
print(df_hdb.columns)

In [None]:
# drop column 'Unnamed: 0'
df_hdb.drop('Unnamed: 0', axis=1, inplace=True)

In [None]:
# use re to find the pattern and replace it with a new string
df_hdb['Acervo'] = df_hdb['Acervo'].str.replace('- \d{4} a \d{4}', '', regex=True)
df_hdb['Acervo'] = df_hdb['Acervo'].str.replace('- \d{4}', '', regex=True)

In [None]:
# group by column 'Acervo'
df_hdb_acervo = df_hdb.groupby('Acervo')
print(df_hdb_acervo.size())

In [None]:
# group by column 'Acervo' and 'Ano'
df_hdb_acervo_ano = df_hdb.groupby(['Acervo', 'Ano'])
print(df_hdb_acervo_ano.size())

In [None]:
# histogram of column 'Ano'
df_hdb_acervo_ano['Ano'].hist()

In [None]:
# plot a bar chart of column 'Ano' and 'Acervo'
df_hdb['Acervo'].value_counts().plot(kind='bar')


In [None]:
# filter by 'Acervo'
df_hdb.filter(items=['Ano', 'Acervo'])\
    .groupby(['Acervo', 'Ano'])\
    .size()


In [None]:
# filter by 'Ano'
df_hdb.filter(items=['Ano', 'Acervo'])\
    .groupby(['Ano', 'Acervo'])\
    .size()
    

In [None]:
# filter by 'Ano' between 1901 and 1940
df2 = df_hdb.filter(items=['Ano', 'Acervo'])\
          .query('Ano > 1901 and Ano < 1940')\
              

---

[Próximo →](dia4.ipynb)

[← Anterior](dia2.md)

[↑ Início](./README.md)