# Apostila: Introdução à Biblioteca Pandas

##  O que é o Pandas?

Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Ela fornece estruturas de dados e funções necessárias para trabalhar com tabelas de dados, como DataFrames e Series.


---

##  Instalando o Pandas

Para começar a usar o Pandas, você precisa instalá-lo. Você pode instalar o Pandas via pip, caso ainda não o tenha instalado:

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install openpyxl





---

##  Importando a Biblioteca

Uma vez que o Pandas está instalado, você precisa importá-lo para o seu código Python. Por padrão, é comum usar o alias `pd` para o Pandas:

In [3]:
import pandas as pd


---

##  Estruturas de Dados Básicas

###  Series

Uma `Series` é uma estrutura de dados unidimensional, semelhante a um array ou uma lista.

In [4]:
# Criando uma Series
data = pd.Series([10, 20, 30, 40])
print(data)

0    10
1    20
2    30
3    40
dtype: int64



---


### DataFrame
Um `DataFrame` é uma estrutura de dados bidimensional, semelhante a uma tabela ou uma planilha do Excel.


In [5]:
# Criar um DataFrame
df = pd.DataFrame({
    'Nome': ['Maria', 'Joana', 'Camila'],
    'Idade': [25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
})
print(df)


     Nome  Idade          Cidade
0   Maria     25       São Paulo
1   Joana     30  Rio de Janeiro
2  Camila     35  Belo Horizonte


- Ler dados de arquivos CSV, Excel, SQL, etc.

`df = pd.read_csv('nome_arquivo.csv')`

- Escrever dados em arquivos CSV, Excel, etc.

`df.to_csv('novo_arquivo.csv', index=False)`

O parâmetro index=False garante que o índice (a coluna que mostra a posição de cada linha) não será incluído no arquivo CSV.

Se você usar index=True ou omitir o parâmetro, o arquivo CSV incluirá uma coluna adicional para o índice, resultando em algo assim:


---

##  Carregando Dados

---

###  De Arquivos CSV

Você pode carregar dados de um arquivo CSV usando a função `read_csv`:


In [None]:
df = pd.read_csv('C:\\Users\\Aluno Manhã\\Documents\\apostila_pandas\\1980sClassics.csv')
print(df.head())  # Exibe as primeiras linhas do DataFrame



---

###  De Arquivos Excel

Para arquivos Excel, use a função `read_excel`:


In [None]:
import os

# Path to your file
file_path = r'C:\\Users\\Aluno Manhã\\Documents\\apostila_pandas\\1980sClassics.xlsx'

# Check if the file exists
if os.path.exists(file_path):
    print("Arquivo encontrado.")
else:
    print("Arquivo não encontrado.")


Arquivo encontrado.



---

##  Manipulando Dados

---

###  Visualizando Dados

Você pode visualizar as primeiras e últimas linhas de um DataFrame com `head()` e `tail()`:

In [None]:
print(df.head())  # Primeiras 5 linhas
print(df.tail())  # Últimas 5 linhas

Resumo estatístico:

`print(df.describe())`


---

###  Selecionando Colunas

Para selecionar uma coluna específica, use a notação de colchetes:


In [None]:
import pandas as pd

# Path to your file
file_path = r'C:\Users\Aluno Manhã\Documents\apostila_pandas\1980sClassics.xlsx'

# Read Excel file
df = pd.read_excel(file_path)

# Print the first few rows of the DataFrame
print(df.head())

# Print specific columns
print(df[['Track', 'Artist', 'Duration']])

# Check if a column exists and print it
column_name = 'Artist'
if column_name in df.columns:
    print(df[column_name])
else:
    print(f"Column '{column_name}' does not exist.")


---

###  Filtrando Dados

Você pode filtrar dados com condições booleanas:


In [None]:
filtered_df = df[df['Year'] > 1980]
print(filtered_df)


---

##  Manipulação Avançada

---

###  Agrupando Dados

Você pode usar o método `groupby` para agrupar dados:


In [None]:
# Group by 'Track' and calculate the mean of numeric columns only
grouped = df.select_dtypes(include=['number']).groupby(df['Track']).mean()


---

###  Mesclando DataFrames

Para combinar DataFrames, você pode usar `merge`:

In [None]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nome': ['Ítalo', 'Pablo', 'Emanuel']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Salário': [5000, 6000, 7000]})
merged_df = pd.merge(df1, df2, on='ID')
print(merged_df)

   ID     Nome  Salário
0   1    Ítalo     5000
1   2    Pablo     6000
2   3  Emanuel     7000



---

##  Salvando Dados

---

###  Para CSV

Para salvar um DataFrame em um arquivo CSV:

In [None]:
df.to_csv(r'C:\Users\Aluno Manhã\Documents\apostila_pandas\Novo\novo.csv', index=False)


---

###  Para Excel

Para salvar um DataFrame em um arquivo Excel:


In [None]:
df.to_excel(r'C:\Users\Aluno Manhã\Documents\apostila_pandas\Novo\novo.xlsx', index=False)


---

##  Recursos Adicionais

- [Documentação Oficial do Pandas](https://pandas.pydata.org/pandas-docs/stable/)
- [Tutorial de Pandas no W3Schools](https://www.w3schools.com/python/pandas/default.asp)
