Link usado para a planilha https://hub.asimov.academy/blog/pandas-python/

<h2>Apostila: Introdução a biblioteca Pandas </h2>

---

***Pandas*** é um biblioteca para manipulação e análise de dados, escrita em Python. Essa é a biblioteca perfeita para iniciar suas análises exploratórias de dados, pois ela nos permite ler, manipular, agregar e plotar os dados em poucos passos.

## Quadro de Dados <br/>

---

***DataFrame*** é como se fosse uma planilha de Excel ou uma tabela de banco de dados. É composto por colunas, linhas e índice. Quando nós lemos algum arquivo de dados, ele se torna um DataFrame para o Pandas.

## Instalar bilioteca Pandas

---

# Celula do jupyter 
! Pip install pandas
# Terminal 
pip install pandas

## Importando a biblioteca

---

In [2]:
import pandas 

## Criando dados manualmente

---

In [7]:
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 35, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba']
}


### O que é um Dataframe? 
---

Um ***DataFrame*** do pandas é uma estrutura de dados de duas dimensões – linhas e colunas – que formam uma tabela. Cada coluna de um DataFrame possui um tipo de dado específico.

Assim como em uma planilha do Excel, um DataFrame pode ter diversas colunas de diferentes tipos de dados, como texto, números e datas. No entanto, o DataFrame oferece muito mais flexibilidade e funcionalidade.

In [10]:
df_funcionarios = pandas.DataFrame(dados)
print(dados)

[10, 20, 30, 40, 50]


### O que é uma Series do Pandas?
---



Uma ***Series do pandas*** é uma estrutura de dados de uma dimensão, análoga a uma coluna em uma tabela. Cada elemento em uma Series possui um índice, o que facilita sua manipulação. Por padrão, os índices são números inteiros crescentes, partindo do zero, mas podemos indicar valores para o índice usando listas

In [9]:
dados = [10, 20, 30, 40, 50]
series = pandas.Series(dados, index=['a', 'b', 'c', 'd', 'e'])

print(series)

a    10
b    20
c    30
d    40
e    50
dtype: int64


### O que é dtype em pandas?
---

O ***dtype*** em pandas refere-se ao tipo de dado armazenado em uma Series. Os tipos de dados comuns incluem int64 (números inteiros), float64 (números fracionados), datetime (datas e horas) e object (texto ou outros objetos).</br>
**Por que isso importa:** o dtype de uma coluna determina o tipo de operação que é possível realizar com ela.

In [11]:
df = pandas.DataFrame(dados)

# Verificando os tipos de dados das colunas
print(df.dtypes)

0    int64
dtype: object


### O que é uma operação vetorizada em pandas?
---

Uma ***operação vetorizada*** em pandas é uma operação que é aplicada a todos os elementos de uma Series ou DataFrame de uma só vez, sem a necessidade de loops de Python. </br>
Isso não só torna o código mais conciso, mas também acelera a operação significativamente. Operações que levariam horas em um conjunto de dados grande podem ser realizadas em minutos quando vetorizadas.</br>
**Por que isso importa:** operações vetorizadas aceleram a execução de um código de forma dramática. Entender como vetorizar operações é um requisito para se tornar um analista de dados experiente.

In [12]:
# Criando um DataFrame de exemplo
df = pandas.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

# Multiplicando todos os valores da coluna 'A' por 2
df['A'] = df['A'] * 2
print(df)

   A  B
0  2  5
1  4  6
2  6  7
3  8  8


### O que é uma operação inplace no pandas?
---

Uma operação inplace no pandas é uma operação que modifica o DataFrame ou Series original, em vez de retornar uma nova cópia. Como nenhum dado é copiado em memória, menos espaço da memória RAM é utilizado.</br>
***Por que isso importa:*** operações inplace reduzem drasticamente o consumo de memória RAM durante a manipulação dos dados.</br></br>

No exemplo abaixo, a coluna C é removida do DataFrame df. O argumento inplace=True faz com que essa alteração aconteça no DataFrame original em vez de retornar uma cópia com a alteração:

In [None]:
# Criando um DataFrame de exemplo
df = pandas.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

# Removendo a coluna 'C' do DataFrame original
df.drop('C', axis=1, inplace=True)
print(df)

### Como criar um DataFrame novo no pandas?
---

Para ***criar um DataFrame do zero*** no pandas, você pode utilizar diferentes objetos, como listas, dicionários ou até mesmo arquivos externos.</br></br>

O exemplo abaixo utiliza um dicionário como fonte de dados. No dicionário, cada chave representa o nome da coluna, enquanto o valor representa os dados da coluna respectiva:

In [None]:
# Criando um DataFrame a partir de um dicionário de listas
data = {
    'Nome': ['Adriano', 'Rodrigo', 'Juliano', 'Mateus'],
    'Sobrenome': ['Soares', 'Tadewald', 'Faccioni', 'Kienzle']
}
df = pandas.DataFrame(data)

print(df)

### Como ler planilhas de Excel com pandas em Python?

---

Para ler planilhas de Excel com pandas, basta utilizar a função pd.read_excel() e passar o caminho para o arquivo Excel. Caso o arquivo esteja no formato CSV, há também a função pd.read_csv(), que funciona de forma semelhante:

In [None]:
# Lendo uma planilha Excel
df_excel = pandas.read_excel('exemplo.xlsx')
print(df_excel.head())

# Lendo um arquivo CSV
df_csv = pandas.read_csv('exemplo.csv')
print(df_csv.head())

A documentação da função pd.read_excel() apresenta todos os outros argumentos que a função aceita. É possível selecionar a aba da planilha para ler ou então ignorar as primeiras linhas na tabela, por exemplo.</br>


### Como ler uma planilha do Google Sheets no pandas?
---

Se você utiliza as planilhas do Google Sheets  como fonte de dados, também conseguirá acessar suas informações sem precisar baixar sua planilha e importá-la em seu script toda vez.

Para isso, gere um link de compartilhamento da planilha em **Arquivo** → **Compartilhar** → **Publicar na Web**. </br>
***Atenção:*** isso fará com que os dados da planilha fiquem disponíveis para qualquer pessoa com o link!</br>
![image.png](attachment:image.png)</br>

Em seguida, na janela **Publicar na Web** escolha o formato CSV e clique em **Publicar:** </br>
![<image-2.png>](attachment:image-2.png)</br>

Um link será gerado com o compartilhamento direto para a planilha. Agora, basta referenciar este link dentro do seu código para baixar a planilha diretamente no pandas:

In [None]:

link_planilha = "https:// ... "  # Link completo vai aqui

df = pandas.read_csv(link_planilha)
print(df)

## Conhecendo seus dados

---

In [None]:
df.head ()

### T (Transposição)

In [None]:
df.T

### Dimensões do DF
Retorna a quantidade de linhas e colunas

In [None]:
df.shape

### Informações

In [None]:
df.info ()

### Estatísticas Descritivas
Retorna medidas de tendência central.

In [None]:
df.describe ()

## Trabalhando com colunas

---

### Adicionando uma nova coluna

In [None]:
df ['nm_mes'] = df ['data']. dt.month_name ()

### Excluindo uma coluna

Tome cuidado, pois irá apagar do seu DataFrame. 
Não apaga do arquivo.
Se apagar sem querer, só ler novamente o arquivo inicial.

In [None]:

del df ['nome_da_coluna']

## Filtrando o DataFrame
---

In [None]:
#Uma Condição
df[ df['nm_coluna' == 'XPTO' ] ]

#Múltiplas Condições
df [(df ['date'] >= '2020-05-01') & (df ['date'] <= '2020-05-31')]

# Pivotando ou agrupando

---

### Pivotando

In [None]:
pandas.pivot_table (df #Nome do DataFrame 
, índice    = "dia" #Linhas 
, colunas   = "month_nm" #Colunas 
, values    = "price" #Valor 
, aggfunc   = "mean" # Função de Agregação 
)

### Agrupamento

In [None]:
df.groupby (['month_nm', 'day']). agg ( 
{'price': 'mean' 
, 'order_id': 'count' 
} 
) .reset_index ()