<a href="https://colab.research.google.com/github/Sigerip/curso-data-viz/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2. Pandas básico

Este módulo apresenta uma visão geral das funcionalidades fundamentais da biblioteca Pandas em Python, voltado para iniciantes.

## 2.1 O que é Pandas?

Pandas é uma biblioteca de código aberto para manipulação e análise de dados. Ela oferece estruturas de dados eficientes (Series e DataFrame) e diversas funções para leitura, limpeza, transformação e agregação de dados.

## 2.2 Instalação

Para instalar o Pandas, utilize o pip:

In [1]:
%pip install pandas



Note: you may need to restart the kernel to use updated packages.


## 2.3 Importando o Pandas
Usamos o `import` para chamar a biblioteca em nosso código. O `as` é utilizado para criar um "apelídio" para a biblioteca, sendo uma forma mais simples de chamar a função posteriormente no código.

In [2]:
import pandas as pd

## 2.4 Estruturas de Dados Principais

### 2.4.1 Series

Uma Series é um array unidimensional rotulado. Ela pode conter qualquer tipo de dado (inteiros, strings, floats, etc.).
```
Array é um conjunto de valores organizados, como [10, 20, 30, 40], que representa uma lista no Python.
```

In [3]:
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s)

a    10
b    20
c    30
dtype: int64


## 2.4.2 DataFrame

Um DataFrame é uma tabela bidimensional, semelhante a uma planilha, com linhas e colunas. Ele pode conter diferentes tipos de dados em cada coluna.

In [4]:
df = pd.DataFrame({
    'Produto': ['Arroz', 'Feijão', 'Macarrão'],
    'Preço': [20.0, 7.5, 5.0],
    'Estoque': [50, 100, 200]
})
print(df)

    Produto  Preço  Estoque
0     Arroz   20.0       50
1    Feijão    7.5      100
2  Macarrão    5.0      200


## 2.5 Leitura e Escrita de Dados
Abaixo estão os principais métodos de ler e salvar arquivos com Pandas.

### 2.5.1 CSV
```python
df = pd.read_csv('dados.csv')         # lê o arquivo CSV
df.to_csv('saida.csv', index=False)   # salva o DataFrame em CSV
```

### 2.5.2 Excel
```python
df = pd.read_excel('dados.xlsx', sheet_name='Plan1')  # lê o arquivo Excel
df.to_excel('saida.xlsx', index=False)                # salva o DataFrame em Excel
```

### 2.5.3 Outros formatos

`parquet:` pd.read_parquet, df.to_parquet

`JSON:` pd.read_json, df.to_json

`HTML:` pd.read_html

`SQL:` pd.read_sql

## 2.6 Inspeção Inicial dos Dados
Algumas funções úteis para inspecionar os dados logo após a leitura do arquivo:

In [5]:
print("Primeiras 5 linhas")
print(df.head())      # primeiras 5 linhas
print("\nÚltimas 3 linhas")
print(df.tail(3))     # últimas 3 linhas
print("\nNúmero de linhas e colunas")
print(df.shape)       # linhas e colunas
print("\ntipos e valores nulos")
print(df.info())      # tipos e valores nulos
print("\nestatísticas descritivas")
print(df.describe())  # estatísticas descritivas

Primeiras 5 linhas
    Produto  Preço  Estoque
0     Arroz   20.0       50
1    Feijão    7.5      100
2  Macarrão    5.0      200

Últimas 3 linhas
    Produto  Preço  Estoque
0     Arroz   20.0       50
1    Feijão    7.5      100
2  Macarrão    5.0      200

Número de linhas e colunas
(3, 3)

tipos e valores nulos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Produto  3 non-null      object 
 1   Preço    3 non-null      float64
 2   Estoque  3 non-null      int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 204.0+ bytes
None

estatísticas descritivas
           Preço     Estoque
count   3.000000    3.000000
mean   10.833333  116.666667
std     8.036376   76.376262
min     5.000000   50.000000
25%     6.250000   75.000000
50%     7.500000  100.000000
75%    13.750000  150.000000
max    20.000000  200.000000


## 2.7 Seleção e Filtragem

### 2.7.1 Seleção de Colunas

In [6]:
precos = df['Preço']
print(precos)

0    20.0
1     7.5
2     5.0
Name: Preço, dtype: float64


### 2.7.2 Seleção de Linhas por Índice

In [7]:
linha0 = df.loc[0]      # rótulo
linha1 = df.iloc[1]     # posição
print(linha0)
print(linha1)

Produto    Arroz
Preço       20.0
Estoque       50
Name: 0, dtype: object
Produto    Feijão
Preço         7.5
Estoque       100
Name: 1, dtype: object


### 2.7.3 Fatiamento

In [8]:
sub_df = df.loc[0:2, ['Produto', 'Preço']]
print(sub_df)

    Produto  Preço
0     Arroz   20.0
1    Feijão    7.5
2  Macarrão    5.0


### 2.7.4 Filtragem Condicional

In [9]:
filtro = df[df['Estoque'] > 100]
print(filtro)

    Produto  Preço  Estoque
2  Macarrão    5.0      200


## 2.8 Operações e Transformações

### 2.8.1 Adicionar e Remover Colunas

In [10]:
df['Valor Total'] = df['Preço'] * df['Estoque'] # cria coluna chamada 'Valor Total'
print(df)
df.drop('Valor Total', axis=1, inplace=True)    # remove a coluna 'Valor Total'
print(df)

    Produto  Preço  Estoque  Valor Total
0     Arroz   20.0       50       1000.0
1    Feijão    7.5      100        750.0
2  Macarrão    5.0      200       1000.0
    Produto  Preço  Estoque
0     Arroz   20.0       50
1    Feijão    7.5      100
2  Macarrão    5.0      200


### 2.8.2 Renomear Colunas

In [11]:
df.rename(columns={'Preço': 'Valor Unitário'}, inplace=True)
print(df)

    Produto  Valor Unitário  Estoque
0     Arroz            20.0       50
1    Feijão             7.5      100
2  Macarrão             5.0      200


### 2.8.3 Ordenação

In [12]:
df_sorted = df.sort_values(by='Valor Unitário', ascending=False)
print(df_sorted)

    Produto  Valor Unitário  Estoque
0     Arroz            20.0       50
1    Feijão             7.5      100
2  Macarrão             5.0      200


### 2.8.4 Aplicar Funções

In [13]:
df['Preço Desconto'] = df['Valor Unitário'].apply(lambda x: x * 0.9)
print(df)

    Produto  Valor Unitário  Estoque  Preço Desconto
0     Arroz            20.0       50           18.00
1    Feijão             7.5      100            6.75
2  Macarrão             5.0      200            4.50


## 2.9 Agrupamento e Agregação

In [14]:
grupo = df.groupby('Produto')['Estoque'].sum()
print(grupo)

df_agg = df.groupby('Produto').agg({
    'Valor Unitário': 'mean',
    'Estoque': 'sum'
})
print(df_agg)

Produto
Arroz        50
Feijão      100
Macarrão    200
Name: Estoque, dtype: int64
          Valor Unitário  Estoque
Produto                          
Arroz               20.0       50
Feijão               7.5      100
Macarrão             5.0      200


## 2.10 Mesclagem e Concatenação

### 2.10.1 Concatenação (append)

In [15]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'A': [3, 4]})
df_concat = pd.concat([df1, df2], ignore_index=True)
print(df_concat)

   A
0  1
1  2
2  3
3  4


### 2.10.2 Merge (join)

In [16]:
df_left = pd.DataFrame({'Chave': [1, 2], 'Valor1': ['X', 'Y']})
df_right = pd.DataFrame({'Chave': [1, 2], 'Valor2': ['Z', 'W']})
df_merged = pd.merge(df_left, df_right, on='Chave', how='inner')
print(df_merged)

   Chave Valor1 Valor2
0      1      X      Z
1      2      Y      W


## 2.11 Tratamento de Valores Ausentes

In [17]:
df.dropna(inplace=True)      # remove linhas com NA
# ou
df.fillna(0, inplace=True)   # substitui NA por 0

## 2.12 Estatísticas e Descrições

In [18]:
print(df['Valor Unitário'].mean())       # média
print(df['Estoque'].median())   # mediana
print(df['Valor Unitário'].std())        # desvio padrão

10.833333333333334
100.0
8.036375634160796
