# Apostila: Introdução à Biblioteca Pandas

## 1. O que é o Pandas?

Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Ela fornece estruturas de dados e funções necessárias para trabalhar com tabelas de dados, como DataFrames e Series.


---

## 2. Instalando o Pandas

Para começar a usar o Pandas, você precisa instalá-lo. Você pode instalar o Pandas via pip, caso ainda não o tenha instalado:

In [57]:
!pip install pandas



In [27]:
pip install openpyxl

Collecting openpyxlNote: you may need to restart the kernel to use updated packages.

  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl.metadata (1.8 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.5



---

## 3. Importando a Biblioteca

Uma vez que o Pandas está instalado, você precisa importá-lo para o seu código Python. Por padrão, é comum usar o alias `pd` para o Pandas:

In [28]:
import pandas as pd


---

## 4. Estruturas de Dados Básicas

### 4.1 Series

Uma `Series` é uma estrutura de dados unidimensional, semelhante a um array ou uma lista.

In [22]:
# Criando uma Series
data = pd.Series([10, 20, 30, 40])
print(data)

0    10
1    20
2    30
3    40
dtype: int64



---


### 4.2 DataFrame
Um `DataFrame` é uma estrutura de dados bidimensional, semelhante a uma tabela ou uma planilha do Excel.


In [30]:
# Criando um DataFrame
data = {
    'Nome': ['Ítalo', 'Pablo', 'Emanuel'],
    'Idade': [27, 28, 17]
}
df = pd.DataFrame(data)
print(df)


      Nome  Idade
0    Ítalo     27
1    Pablo     28
2  Emanuel     17



---

## 5. Carregando Dados

---

### 5.1 De Arquivos CSV

Você pode carregar dados de um arquivo CSV usando a função `read_csv`:


In [31]:
df = pd.read_csv('C:\\Users\\Aluno Manhã\\Documents\\apostila_pandas\\1980sClassics.csv')
print(df.head())  # Exibe as primeiras linhas do DataFrame


                   Track              Artist Duration  Time_Signature  \
0                   Babe                Styx     3:38               4   
1               The Rose        Bette Midler     4:04               4   
2                   Cars          Gary Numan     4:08               4   
3                  Magic  Olivia Newton-John     2:17               4   
4  We Don’t Talk Anymore       Cliff Richard     3:37               4   

   Danceability  Energy  Key  Loudness  Mode  Speechiness  Acousticness  \
0         0.700   0.582   11    -5.960     0       0.0356       0.05020   
1         0.264   0.640    8    -6.221     1       0.0442       0.03930   
2         0.338   0.562    9    -7.181     1       0.0290       0.03900   
3         0.911   0.689    1    -6.176     1       0.2650       0.00119   
4         0.728   0.563    1    -8.053     0       0.1340       0.62100   

   Instrumentalness  Liveness  Valence    Tempo  Popularity  Year  
0          0.000000    0.0881    0.785  11


---

### 5.2 De Arquivos Excel

Para arquivos Excel, use a função `read_excel`:


In [38]:
import os

# Path to your file
file_path = r'C:\\Users\\Aluno Manhã\\Documents\\apostila_pandas\\1980sClassics.xlsx'

# Check if the file exists
if os.path.exists(file_path):
    print("Arquivo encontrado.")
else:
    print("Arquivo não encontrado.")


Arquivo encontrado.



---

## 6. Manipulando Dados

---

### 6.1 Visualizando Dados

Você pode visualizar as primeiras e últimas linhas de um DataFrame com `head()` e `tail()`:

In [36]:
print(df.head())  # Primeiras 5 linhas
print(df.tail())  # Últimas 5 linhas

                   Track              Artist Duration  Time_Signature  \
0                   Babe                Styx     3:38               4   
1               The Rose        Bette Midler     4:04               4   
2                   Cars          Gary Numan     4:08               4   
3                  Magic  Olivia Newton-John     2:17               4   
4  We Don’t Talk Anymore       Cliff Richard     3:37               4   

   Danceability  Energy  Key  Loudness  Mode  Speechiness  Acousticness  \
0         0.700   0.582   11    -5.960     0       0.0356       0.05020   
1         0.264   0.640    8    -6.221     1       0.0442       0.03930   
2         0.338   0.562    9    -7.181     1       0.0290       0.03900   
3         0.911   0.689    1    -6.176     1       0.2650       0.00119   
4         0.728   0.563    1    -8.053     0       0.1340       0.62100   

   Instrumentalness  Liveness  Valence    Tempo  Popularity  Year  
0          0.000000    0.0881    0.785  11


---

### 6.2 Selecionando Colunas

Para selecionar uma coluna específica, use a notação de colchetes:


In [45]:
import pandas as pd

# Path to your file
file_path = r'C:\Users\Aluno Manhã\Documents\apostila_pandas\1980sClassics.xlsx'

# Read Excel file
df = pd.read_excel(file_path)

# Print the first few rows of the DataFrame
print(df.head())

# Print specific columns
print(df[['Track', 'Artist', 'Duration']])

# Check if a column exists and print it
column_name = 'Artist'
if column_name in df.columns:
    print(df[column_name])
else:
    print(f"Column '{column_name}' does not exist.")

Columns: Index(['Track', 'Artist', 'Duration', 'Time_Signature', 'Danceability',
       'Energy', 'Key', 'Loudness', 'Mode', 'Speechiness', 'Acousticness',
       'Instrumentalness', 'Liveness', 'Valence', 'Tempo', 'Popularity',
       'Year'],
      dtype='object')
0                                       Babe
1                                   The Rose
2                                       Cars
3                                      Magic
4                      We Don’t Talk Anymore
                       ...                  
993                     When I Looked At Him
994                   I Remember Holding You
995                            Don’t Rush Me
996             I’ll Be Loving You (FOREVER)
997    Baby, I Love Your Way/Freebird Medley
Name: Track, Length: 998, dtype: object



---

### 6.3 Filtrando Dados

Você pode filtrar dados com condições booleanas:


In [48]:
filtered_df = df[df['Year'] > 1980]
print(filtered_df)

                                     Track                    Artist Duration  \
100                               Together                    Tierra     2:28   
101                             I Love You         Climax Blues Band     2:40   
102                                   Time  The Alan Parsons Project     3:49   
103                                  Woman               John Lennon     2:52   
104                     You Make My Dreams   Daryl Hall & John Oates     3:10   
..                                     ...                       ...      ...   
993                   When I Looked At Him                    Exposé     4:19   
994                 I Remember Holding You                 Boys Club     4:53   
995                          Don’t Rush Me              Taylor Dayne     4:32   
996           I’ll Be Loving You (FOREVER)     New Kids on the Block     6:04   
997  Baby, I Love Your Way/Freebird Medley             Will to Power     4:05   

     Time_Signature  Dancea


---

## 7. Manipulação Avançada

---

### 7.1 Agrupando Dados

Você pode usar o método `groupby` para agrupar dados:


In [52]:
# Group by 'Track' and calculate the mean of numeric columns only
grouped = df.select_dtypes(include=['number']).groupby(df['Track']).mean()


---

### 7.2 Mesclando DataFrames

Para combinar DataFrames, você pode usar `merge`:

In [53]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nome': ['Ítalo', 'Pablo', 'Emanuel']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Salário': [5000, 6000, 7000]})
merged_df = pd.merge(df1, df2, on='ID')
print(merged_df)

   ID     Nome  Salário
0   1    Ítalo     5000
1   2    Pablo     6000
2   3  Emanuel     7000



---

## 8. Salvando Dados

---

### 8.1 Para CSV

Para salvar um DataFrame em um arquivo CSV:

In [55]:
df.to_csv(r'C:\Users\Aluno Manhã\Documents\apostila_pandas\Novo\novo.csv', index=False)


---

### 8.2 Para Excel

Para salvar um DataFrame em um arquivo Excel:


In [56]:
df.to_excel(r'C:\Users\Aluno Manhã\Documents\apostila_pandas\Novo\novo.xlsx', index=False)


---

## 9. Recursos Adicionais

- [Documentação Oficial do Pandas](https://pandas.pydata.org/pandas-docs/stable/)
- [Tutorial de Pandas no W3Schools](https://www.w3schools.com/python/pandas/default.asp)
