#### **Introdução ao Pandas**

- **Conteúdos**:
  - Pandas é uma biblioteca Python para análise de dados, muito popular na ciência de dados e na análise de dados devido à sua eficiência e facilidade de uso.
  - Os principais objetos de Pandas são:
    - `Series`: Representa uma única coluna de dados.
    - `DataFrame`: Tabela de dados composta por várias colunas, similar a uma planilha do Excel.

- **Instalação** (caso ainda não esteja instalada):
  ```python
  !pip install pandas
  ```

- **Importando Pandas**:
  ```python
  import pandas as pd
  ```


#### **Carregando Dados**

- **Principais Funções**:
  - Pandas permite carregar dados de diversas fontes (CSV, Excel, JSON, SQL).
  - Principais métodos para carregar dados:
    - `pd.read_csv('nome_do_arquivo.csv')`
    - `pd.read_excel('nome_do_arquivo.xlsx')`
    - `pd.read_json('nome_do_arquivo.json')`

- **Explorando o DataFrame**:
  - Visualizar as primeiras linhas (cabeçalho da tabela):
    ```python
    df.head()
    ```
  - Visualizar as últimas linhas (rodapé da tabela):
    ```python
    df.tail()
    ```
  - Obter informações gerais do DataFrame, como o número de linhas, colunas e tipos de dados:
    ```python
    df.info()
    ```
  - Obter uma visão estatística básica, como médias, desvio padrão e valores mínimos e máximos das colunas numéricas:
    ```python
    df.describe()
    ```
  - Verificar o formato do DataFrame (quantidade de linhas e colunas):
    ```python
    df.shape
    ```
  - Listar os nomes das colunas:
    ```python
    df.columns
    ```




#### **Estrutura e Seleção de Dados**

- **Acessar colunas**:
    - Acessar uma única coluna:
      ```python
      df['nome_da_coluna']
      ```
    - Acessar múltiplas colunas:
      ```python
      df[['coluna1', 'coluna2']]
      ```
  
  - **Exemplo**:
    - Se temos uma coluna chamada `artist` com o nome dos artistas e uma coluna `popularity` com a popularidade das músicas, podemos selecionar apenas essas colunas:

      ```python
      df[['artist', 'popularity']]
      ```
   - **Filtragem de dados**:
    - Filtrar as linhas com base em uma condição:
      ```python
      df[df['popularity'] > 80]
      ```
    - Combinar condições (usando `&` para "e" e `|` para "ou"):
      ```python
      df[(df['popularity'] > 80) & (df['artist'] == 'Frank Sinatra')]
      ```
   
  

### Funções de seleção `loc`e `iloc`:
`loc` e `iloc`: são usadas para acessar e manipular dados em um DataFrame no Pandas:

### **`loc`**: Seleção por Rótulo

- `loc` é usado para acessar dados com base nos rótulos dos índices (nomes das linhas e colunas).

```python
# Exemplo com rótulos de linhas e colunas
df.loc['rótulo_linha', 'rótulo_coluna']
```


### **`iloc`**: Seleção por Posição Inteira

- **Descrição**: `iloc` é usado para acessar dados com base na posição numérica (inteiros) das linhas e colunas.

```python
# Exemplo com índices numéricos para linhas e colunas
df.iloc[1, 2]
```


### **Criando DataFrames Manualmente**




In [9]:
import pandas as pd

In [None]:
#dataframe com foco em artistas musicais (spotify)
# colunas: artista, categoria, album, ano, popularidade
## lista de listas

data = [
    ['Zé Ramalho', 'MPB', 'ZYX', 1970, 80],
    ['Raul Seixas', 'Rock', 'ABC', 1980, 90],
    ['Frank Sinatra', 'Jazz', '123', 1975, 100],
    ['BB King', 'Blues', 'AGR', 1971, 90]
]

In [10]:
df = pd.DataFrame(data, columns=['nome', 'estilo', 'album', 'ano_lancamento', 'popularidade'])
df

Unnamed: 0,nome,estilo,album,ano_lancamento,popularidade
0,Zé Ramalho,MPB,ZYX,1970,80
1,Raul Seixas,Rock,ABC,1980,90
2,Frank Sinatra,Jazz,123,1975,100
3,BB King,Blues,AGR,1971,90


In [19]:
#dataframe com foco em artistas musicais (spotify)
# colunas: artista, categoria, album, ano, popularidade
## Dicionário: chave, lista

data_dicionario = {
    'nome': ['Zé Ramalho', 'Raul Seixas', 'Frank Sinatra', 'BB King'],
    'estilo':['MPB', 'Rock', 'Jazz', 'Blues'],
    'album':['ZYX', 'ABC', '123', 'AGR'],
    'ano_lancamento': [1970, 1980, 1975, 1971],
    'popularidade': [80, 90, 100, 90]
}

In [26]:
df = pd.DataFrame(data_dicionario)
df

Unnamed: 0,nome,estilo,album,ano_lancamento,popularidade
0,Zé Ramalho,MPB,ZYX,1970,80
1,Raul Seixas,Rock,ABC,1980,90
2,Frank Sinatra,Jazz,123,1975,100
3,BB King,Blues,AGR,1971,90


In [27]:
# acesso aos dados

df['nome']

0       Zé Ramalho
1      Raul Seixas
2    Frank Sinatra
3          BB King
Name: nome, dtype: object

In [29]:
# combinando colunas

df[['nome', 'popularidade']]

Unnamed: 0,nome,popularidade
0,Zé Ramalho,80
1,Raul Seixas,90
2,Frank Sinatra,100
3,BB King,90


In [31]:
# filtros por operadores

df[df['popularidade'] > 80]

Unnamed: 0,nome,estilo,album,ano_lancamento,popularidade
1,Raul Seixas,Rock,ABC,1980,90
2,Frank Sinatra,Jazz,123,1975,100
3,BB King,Blues,AGR,1971,90


In [None]:
# selecao por por rotulos com loc

df.loc[1:3,['nome', 'ano_lancamento']]


Unnamed: 0,nome,ano_lancamento
1,Raul Seixas,1980
2,Frank Sinatra,1975
3,BB King,1971


In [37]:
# selecao por indices com iloc

df.iloc[0:2, 0:2]

Unnamed: 0,nome,estilo
0,Zé Ramalho,MPB
1,Raul Seixas,Rock
