# Pandas

ChatGPT-3 definindo Pandas, a partir do seguinte prompt: "defina pandas em um parágrafo, destacando sua importância para análise de dados"

>O pandas é uma poderosa biblioteca de Python amplamente utilizada na análise de dados. Sua importância reside na capacidade de simplificar e agilizar tarefas relacionadas à manipulação e exploração de dados tabulares, como planilhas ou tabelas de bancos de dados. Com o pandas, os analistas de dados podem facilmente importar, limpar, transformar, agregar e visualizar dados, permitindo uma compreensão mais profunda e insights valiosos a partir de conjuntos de dados complexos. Ao oferecer uma estrutura de dados flexível chamada DataFrame, o pandas se tornou uma ferramenta indispensável para cientistas de dados, analistas de negócios e pesquisadores em diversas áreas, contribuindo significativamente para a eficiência e qualidade das análises de dados.

DataFrames: são estruturas de dados tabulares semelhantes a tabelas de banco de dados ou planilhas do Excel.

## Instalando a biblioteca Pandas

```bash
pip install pandas
```

O `pip` é um gerenciador de pacotes do Python. Ele é usado para instalar e gerenciar pacotes de software escritos na linguagem Python.

Para saber mais sobre instalação e uso do pip, veja a lição "Instalação de Módulos Python com pip" de Fred Gibbs no [The Programming Historian](https://programminghistorian.org/pt/licoes/instalacao-modulos-python-pip).

## Importando a biblioteca Pandas

Para utilizar a biblioteca Pandas, é preciso importá-la no seu código. Para isso, basta usar o comando `import` seguido do nome da biblioteca:

In [1]:
import pandas as pd

## Criando um *Dataframe* a partir de um dicionário

```python
df = pd.DataFrame(<seus dados aqui>)
```

Para criar um objeto DataFrame, basta passar seus dados como argumento para a função `pd.DataFrame()`. Lembrando que `pd` é o alias (*apelidinho*) que utilizamos para importar a biblioteca pandas.

No exemplo abaixo, vamos criar um dicionário com três chaves: 'A', 'B' e 'C'. Cada chave possui uma lista com cinco valores inteiros. 
    
Em seguida, vamos criar um DataFrame a partir do dicionário.

In [3]:
# criando uma variável para receber o dicionário
dados = {'A': [1,2,3,4,5],
         'B': [6,7,8,9,10],
         'C': [0,10,100,1000,10000],}

In [4]:
type(dados)

dict

Um dicionário no Python é uma estrutura de dados que armazena pares de chave-valor. Em python, definimos um dicionário utilizando chaves {} e separando cada par chave-valor com dois pontos. Cada chave é associada a um valor, que pode ser um número, uma string, uma lista, um dicionário, etc.


In [35]:
dicionario = {
    'Nomes': ['João', 'Maria', 'José', 'Pedro'],
    'Idades': [25, 30, 40, 50],
    'Cidades': ['Manaus', 'Rio de Janeiro', 'Salvador', 'Salvador']
}

In [14]:
dicionario.keys()

dict_keys(['Nomes', 'Idades', 'Cidades'])

In [15]:
dicionario.values()


dict_values([['João', 'Maria', 'José', 'Pedro'], [25, 30, 40, 50], ['Manaus', 'Rio de Janeiro', 'Salvador']])

In [16]:
dicionario['Nomes']

['João', 'Maria', 'José', 'Pedro']

In [17]:
dicionario['Idades']

[25, 30, 40, 50]

In [21]:
dicionario['Cidades']

['Manaus', 'Rio de Janeiro', 'Salvador', '']


No exemplo acima, o dicionário possui três chaves: 'Nomes', 'Idades' e 'Cidades'. Cada chave é associada a uma lista de valores.

Se passarmos esse dicionário como argumento para a função `pd.DataFrame()`, o pandas irá criar um DataFrame com três colunas (a partir das chaves) e cinco linhas (a partir dos valores).

In [36]:
# Create a dataframe
df = pd.DataFrame(dicionario)

In [37]:
# print the dataframe's shape
print(df.shape)

(4, 3)


In [38]:
# head of the dataframe
print(df.head())

   Nomes  Idades         Cidades
0   João      25          Manaus
1  Maria      30  Rio de Janeiro
2   José      40        Salvador
3  Pedro      50        Salvador


In [39]:
# rename a column
df.rename(columns={'Nomes': 'nome', 'Idades': 'idade', 'Cidades': 'cidade'}, inplace=True)

In [40]:
# add a column
df['D'] = [1, 1, 5, 5]
df

Unnamed: 0,nome,idade,cidade,D
0,João,25,Manaus,1
1,Maria,30,Rio de Janeiro,1
2,José,40,Salvador,5
3,Pedro,50,Salvador,5


In [41]:
# delete a column
df.drop('D', axis=1, inplace=True)
df

Unnamed: 0,nome,idade,cidade
0,João,25,Manaus
1,Maria,30,Rio de Janeiro
2,José,40,Salvador
3,Pedro,50,Salvador


In [42]:
#find the max value in a column
print(df['idade'].max())


50


In [43]:
#find the min value in a column
print(df['idade'].min())

25


In [44]:
#find the mean value in a column
print(df['idade'].mean())


36.25


In [45]:
#find the median value in a column
print(df['idade'].median())

35.0


In [47]:
# count the number of occurrences of a value in a column
df['cidade'].value_counts()

Salvador          2
Manaus            1
Rio de Janeiro    1
Name: cidade, dtype: int64

In [50]:
#new dataframe selecting two columns
selected_columns = ['nome', 'cidade']
df_selected = df[selected_columns]
# or df_selected = df.filter(items=selected_columns)
print(df_selected)

    nome          cidade
0   João          Manaus
1  Maria  Rio de Janeiro
2   José        Salvador
3  Pedro        Salvador


In [51]:
#drop NAN values
df_selected.dropna(inplace=True)
print(df_selected)

    nome          cidade
0   João          Manaus
1  Maria  Rio de Janeiro
2   José        Salvador
3  Pedro        Salvador


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_selected.dropna(inplace=True)


In [53]:
# group by a column
df_grouped = df.groupby('cidade')
df_grouped


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ff96973cee0>

# Exemplo com HDB

In [None]:
df_hdb = pd.read_csv('hdb_est.csv')
print(df_hdb.head())

In [None]:
# print column names
print(df_hdb.columns)

In [None]:
# drop column 'Unnamed: 0'
df_hdb.drop('Unnamed: 0', axis=1, inplace=True)

In [None]:
# use re to find the pattern and replace it with a new string
df_hdb['Acervo'] = df_hdb['Acervo'].str.replace('- \d{4} a \d{4}', '', regex=True)
df_hdb['Acervo'] = df_hdb['Acervo'].str.replace('- \d{4}', '', regex=True)

In [None]:
# group by column 'Acervo'
df_hdb_acervo = df_hdb.groupby('Acervo')
print(df_hdb_acervo.size())

In [None]:
# group by column 'Acervo' and 'Ano'
df_hdb_acervo_ano = df_hdb.groupby(['Acervo', 'Ano'])
print(df_hdb_acervo_ano.size())

In [None]:
# histogram of column 'Ano'
df_hdb_acervo_ano['Ano'].hist()

In [None]:
# plot a bar chart of column 'Ano' and 'Acervo'
df_hdb['Acervo'].value_counts().plot(kind='bar')


In [None]:
# filter by 'Acervo'
df_hdb.filter(items=['Ano', 'Acervo'])\
    .groupby(['Acervo', 'Ano'])\
    .size()


In [None]:
# filter by 'Ano'
df_hdb.filter(items=['Ano', 'Acervo'])\
    .groupby(['Ano', 'Acervo'])\
    .size()
    

In [None]:
# filter by 'Ano' between 1901 and 1940
df2 = df_hdb.filter(items=['Ano', 'Acervo'])\
          .query('Ano > 1901 and Ano < 1940')\
              

---

[Próximo →](dia4.ipynb)

[← Anterior](dia2.md)

[↑ Início](./README.md)