# Aula 2 - Pandas para Análise de Dados

1. Instalação e Importação

In [1]:
!ls -al

'ls' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


In [2]:
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable
Collecting pandas
  Downloading pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.2.4-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.3-cp312-cp312-win_amd64.whl (11.5 MB)
   ---------------------------------------- 0.0/11.5 MB ? eta -:--:--
   ----- ---------------------------------- 1.6/11.5 MB 8.4 MB/s eta 0:00:02
   --------------- ------------------------ 4.5/11.5 MB 11.7 MB/s eta 0:00:01
   ------------------------ --------------- 7.1/11.5 MB 11.5 MB/s eta 0:00:01
   ------------------------------ --------- 8.7/11.5 MB 11.2 MB/s eta 0:00:01
   ---------------------------------------  11.3/11.5 MB 11.4 MB/s eta 0:00


[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: C:\Users\rafae\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


2. Importação do Pandas

In [None]:
import pandas as pd

3. Criando DataFrames

In [None]:
# A partir de um dicionário
# dados = {
#     'nome': ['Ana', 'João', 'Maria'],
#     'idade': [25, 30, 28],
#     'cidade': ['São Paulo', 'Rio', 'Brasília']
# }
# df = pd.DataFrame(dados)

# A partir de um arquivo CSV
# df = pd.read_csv('./dados.csv', sep='\t')

# # A partir de uma lista de listas
dados = [
    ['Ana', 25, 'São Paulo'],
    ['João', 30, 'Rio'],
    ['Maria', 28, 'Brasília']
]
df = pd.DataFrame(dados, columns=['NOME', 'IDADE', 'CIDADE'])

In [None]:
df

Unnamed: 0,NOME,IDADE,CIDADE
0,Ana,25,São Paulo
1,João,30,Rio
2,Maria,28,Brasília


4. Operações básicas com DataFrames

In [None]:
# Visualizar primeiras linhas
print(df.head(2))
df.head(2)

   NOME  IDADE     CIDADE
0   Ana     25  São Paulo
1  João     30        Rio


Unnamed: 0,NOME,IDADE,CIDADE
0,Ana,25,São Paulo
1,João,30,Rio


In [None]:
df.tail(2)

Unnamed: 0,NOME,IDADE,CIDADE
1,João,30,Rio
2,Maria,28,Brasília


In [None]:
# Informações sobre o DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   NOME    3 non-null      object
 1   IDADE   3 non-null      int64 
 2   CIDADE  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [None]:
# Estatísticas descritivas
print(df.describe())

           IDADE
count   3.000000
mean   27.666667
std     2.516611
min    25.000000
25%    26.500000
50%    28.000000
75%    29.000000
max    30.000000


In [None]:
df['NOME']

Unnamed: 0,NOME
0,Ana
1,João
2,Maria


In [None]:
df[['NOME', 'IDADE']]

Unnamed: 0,NOME,IDADE
0,Ana,25
1,João,30
2,Maria,28


In [None]:
df[['IDADE', 'NOME']]

Unnamed: 0,IDADE,NOME
0,25,Ana
1,30,João
2,28,Maria


In [None]:
# Filtrar dados
maiores_25 = df[df['IDADE'] > 25]
maiores_25

Unnamed: 0,NOME,IDADE,CIDADE
1,João,30,Rio
2,Maria,28,Brasília


In [None]:
# Seleção de colunas
nomes = df['NOME']
subset = df[['nome', 'idade']]



# Ordenar dados
# df_ordenado = df.sort_values('idade', ascending=False)

# Agrupar e agregar dados
media_idade_cidade = df.groupby('CIDADE')['IDADE'].mean()
media_idade_cidade = df.groupby('CIDADE').agg(
    {
        'IDADE': 'mean',
        'NOME': list
    }
)

In [None]:
media_idade_cidade

Unnamed: 0_level_0,IDADE,NOME
CIDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Brasília,28.0,[Maria]
Rio,30.0,[João]
São Paulo,25.0,[Ana]


5. Exemplo Prático: Análise de Vendas

In [None]:
# Criar dados de exemplo
dados_vendas = {
    'data': pd.date_range(start='2025-01-01', periods=10),
    'produto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'quantidade': [10, 15, 8, 12, 20, 5, 9, 11, 13, 7],
    'valor_unitario': [100, 150, 100, 200, 150, 100, 200, 150, 100, 200]
}
df = pd.DataFrame(dados_vendas)

# Criar coluna calculada
df['valor_total'] = df['quantidade'] * df['valor_unitario']

# Análise por produto
analise_produto = df.groupby('produto').agg({
    'quantidade': 'sum',
    'valor_total': 'sum'
}).round(2)

print("\nAnálise por Produto:")
print(analise_produto)

# Média de vendas diárias
media_diaria = df.groupby('data')['valor_total'].sum().mean()
print(f"\nMédia de vendas diárias: R$ {media_diaria:.2f}")

# Produto mais vendido
mais_vendido = df.groupby('produto')['quantidade'].sum().idxmax()
print(f"\nProduto mais vendido: {mais_vendido}")