# Introdu√ß√£o √† An√°lise de Dados com Pandas
## Processo Seletivo LADS - Etapa 2

### Instru√ß√µes:
- Este notebook √© um guia introdut√≥rio √† an√°lise de dados com Pandas
- Cada se√ß√£o cont√©m exemplos explicativos e exerc√≠cios pr√°ticos
- Complete todos os exerc√≠cios nas c√©lulas marcadas com "SEU C√ìDIGO AQUI"

### O que ser√° avaliado:
- Compreens√£o dos conceitos apresentados
- Capacidade de aplicar os conceitos em problemas pr√°ticos
- Organiza√ß√£o e clareza do c√≥digo
- An√°lise e interpreta√ß√£o dos resultados

### Instru√ß√µes importantes antes de come√ßar:

- **Execute todas as c√©lulas de c√≥digo em ordem sequencial** (de cima para baixo)
- N√£o pule c√©lulas de c√≥digo, mesmo que pare√ßam n√£o ter outputs vis√≠veis
- Isso garantir√° que todas as vari√°veis necess√°rias estejam carregadas para os exerc√≠cios
- Se encontrar erros do tipo "vari√°vel n√£o definida", volte e verifique se todas as c√©lulas anteriores foram executadas

- Para executar uma c√©lula de c√≥digo, voc√™ pode:
  - Pressionar **Ctrl + Enter** enquanto estiver na c√©lula
  - Ou clicar no bot√£o ‚ñ∂Ô∏è (play) na barra de ferramentas do seu editor de c√≥digo

---

### Antes de come√ßar, execute a c√©lula abaixo e digite seu nome completo:

In [3]:
nome = input('Seu nome: ')
print(f"Ol√°, {nome.title()}! Estamos animados para iniciar essa jornada de an√°lise de dados com voc√™!")

Ol√°, Fernando Augusto Concei√ß√£o De Oliveira! Estamos animados para iniciar essa jornada de an√°lise de dados com voc√™!


---

## 1. Primeiros Passos com Pandas

### 1.1 O que √© o Pandas?

Pandas √© uma biblioteca Python para an√°lise e manipula√ß√£o de dados. Ele oferece estruturas de dados flex√≠veis e ferramentas para trabalhar com dados estruturados de forma eficiente.

As duas principais estruturas de dados do Pandas s√£o:
- **Series**: Array unidimensional rotulado
- **DataFrame**: Estrutura bidimensional tabular com colunas rotuladas

Vamos come√ßar importando as bibliotecas necess√°rias:

In [3]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Configurando o matplotlib para mostrar gr√°ficos no notebook
%matplotlib inline

# Para ignorar os avisos desnecess√°rios
import warnings
warnings.filterwarnings('ignore')

### 1.2 Criando um DataFrame

Vamos criar um conjunto de dados de exemplo sobre vendas de uma loja virtual:

In [2]:
# Criando um dataset de exemplo
import numpy as np
import pandas as pd

np.random.seed(42)  # Para garantir reprodutibilidade

# Criando dados de exemplo
datas = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
categorias = ['Eletr√¥nicos', 'Roupas', 'Alimentos', 'Casa', 'Beleza']
produtos = {
    'Eletr√¥nicos': ['Smartphone', 'Laptop', 'Tablet', 'Fones de ouvido', 'Smart TV'],
    'Roupas': ['Camiseta', 'Cal√ßa', 'Vestido', 'Sapato', 'Jaqueta'],
    'Alimentos': ['Arroz', 'Feij√£o', '√ìleo', 'A√ß√∫car', 'Caf√©'],
    'Casa': ['Sof√°', 'Mesa', 'Cadeira', 'Cama', 'Arm√°rio'],
    'Beleza': ['Shampoo', 'Condicionador', 'Sabonete', 'Perfume', 'Hidratante']
}
regioes = ['Norte', 'Nordeste', 'Centro-Oeste', 'Sudeste', 'Sul']
estados = {
    'Norte': ['AM', 'PA', 'RO', 'RR', 'AC'],
    'Nordeste': ['BA', 'PE', 'CE', 'MA', 'PB'],
    'Centro-Oeste': ['DF', 'GO', 'MT', 'MS'],
    'Sudeste': ['SP', 'RJ', 'MG', 'ES'],
    'Sul': ['PR', 'SC', 'RS']
}
canais = ['Online', 'Loja F√≠sica', 'Aplicativo', 'Telefone']

# Gerando 1000 registros aleat√≥rios
n_registros = 1000
data_vendas = []

for _ in range(n_registros):
    data = np.random.choice(datas)
    categoria = np.random.choice(categorias)
    produto = np.random.choice(produtos[categoria])
    regiao = np.random.choice(regioes)
    estado = np.random.choice(estados[regiao])
    canal = np.random.choice(canais)
    valor = round(np.random.uniform(10, 5000), 2)  # Valor entre R$10 e R$5000
    quantidade = np.random.randint(1, 10)  # Entre 1 e 9 itens
    avaliacao = np.random.randint(1, 6)  # Avalia√ß√£o de 1 a 5 estrelas
    
    data_vendas.append({
        'data': data,
        'categoria': categoria,
        'produto': produto,
        'regiao': regiao,
        'estado': estado,
        'canal_venda': canal,
        'valor_venda': valor,
        'quantidade': quantidade,
        'avaliacao': avaliacao
    })

# Criando o DataFrame
df_vendas = pd.DataFrame(data_vendas)
df_vendas['data'] = df_vendas['data'].astype('object')

# Salvando como CSV para uso futuro
df_vendas.to_csv('dados_vendas.csv', index=False)

# Visualizando as primeiras linhas
df_vendas.head()

Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
0,2023-04-13 00:00:00,Casa,Arm√°rio,Centro-Oeste,MS,Online,2988.28,3,3
1,2023-03-29 00:00:00,Beleza,Perfume,Centro-Oeste,GO,Online,4849.85,6,2
2,2023-07-11 00:00:00,Casa,Arm√°rio,Norte,RR,Loja F√≠sica,2628.53,9,1
3,2023-02-28 00:00:00,Roupas,Sapato,Sudeste,ES,Aplicativo,2285.79,3,4
4,2023-02-24 00:00:00,Casa,Sof√°,Centro-Oeste,DF,Aplicativo,3404.73,9,2


### 1.3 Explorando os Dados B√°sicos

No Pandas, existem v√°rios m√©todos para explorar e entender os dados:

In [6]:
# Visualizando as primeiras linhas com head()
print("Primeiras 5 linhas do DataFrame:")
df_vendas.head()

Primeiras 5 linhas do DataFrame:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
0,2023-04-13 00:00:00,Casa,Arm√°rio,Centro-Oeste,MS,Online,2988.28,3,3
1,2023-03-29 00:00:00,Beleza,Perfume,Centro-Oeste,GO,Online,4849.85,6,2
2,2023-07-11 00:00:00,Casa,Arm√°rio,Norte,RR,Loja F√≠sica,2628.53,9,1
3,2023-02-28 00:00:00,Roupas,Sapato,Sudeste,ES,Aplicativo,2285.79,3,4
4,2023-02-24 00:00:00,Casa,Sof√°,Centro-Oeste,DF,Aplicativo,3404.73,9,2


In [7]:
# Visualizando as √∫ltimas linhas com tail()
print("√öltimas 5 linhas do DataFrame:")
df_vendas.tail()

√öltimas 5 linhas do DataFrame:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
995,2023-11-11 00:00:00,Eletr√¥nicos,Laptop,Nordeste,MA,Online,3838.49,9,2
996,2023-05-12 00:00:00,Alimentos,Feij√£o,Centro-Oeste,GO,Loja F√≠sica,540.33,1,3
997,2023-11-27 00:00:00,Beleza,Shampoo,Centro-Oeste,DF,Loja F√≠sica,4176.15,2,1
998,2023-11-06 00:00:00,Roupas,Cal√ßa,Nordeste,PE,Loja F√≠sica,2413.13,3,4
999,2023-05-16 00:00:00,Alimentos,√ìleo,Sudeste,MG,Loja F√≠sica,1162.59,1,3


In [18]:
# Verificando o formato do DataFrame (linhas, colunas) com shape
print(f"Formato do DataFrame: {df_vendas.shape}")
print(f"N√∫mero de linhas: {df_vendas.shape[0]}")
print(f"N√∫mero de colunas: {df_vendas.shape[1]}")

Formato do DataFrame: (1000, 9)
N√∫mero de linhas: 1000
N√∫mero de colunas: 9


In [19]:
print("Nomes das colunas:")
print(df_vendas.columns.tolist())

Nomes das colunas:
['data', 'categoria', 'produto', 'regiao', 'estado', 'canal_venda', 'valor_venda', 'quantidade', 'avaliacao']


### 1.4 Informa√ß√µes e Estat√≠sticas do DataFrame

Pandas oferece m√©todos para obter informa√ß√µes detalhadas e estat√≠sticas do DataFrame:

In [20]:
# Verificando informa√ß√µes sobre o DataFrame com info()
print("Informa√ß√µes do DataFrame:")
df_vendas.info()

Informa√ß√µes do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   data         1000 non-null   object 
 1   categoria    1000 non-null   object 
 2   produto      1000 non-null   object 
 3   regiao       1000 non-null   object 
 4   estado       1000 non-null   object 
 5   canal_venda  1000 non-null   object 
 6   valor_venda  1000 non-null   float64
 7   quantidade   1000 non-null   int64  
 8   avaliacao    1000 non-null   int64  
dtypes: float64(1), int64(2), object(6)
memory usage: 70.4+ KB


In [21]:
# Estat√≠sticas descritivas com describe()
print("Estat√≠sticas descritivas:")
df_vendas.describe()

Estat√≠sticas descritivas:


Unnamed: 0,valor_venda,quantidade,avaliacao
count,1000.0,1000.0,1000.0
mean,2436.61369,5.024,3.065
std,1459.09861,2.60196,1.413072
min,11.13,1.0,1.0
25%,1168.71,3.0,2.0
50%,2418.67,5.0,3.0
75%,3702.18,7.0,4.0
max,4997.31,9.0,5.0


In [9]:
# Contagem de valores √∫nicos com nunique()
print("N√∫mero de valores √∫nicos em cada coluna:")
df_vendas.nunique()

N√∫mero de valores √∫nicos em cada coluna:


data            338
categoria         5
produto          25
regiao            5
estado           21
canal_venda       4
valor_venda    1000
quantidade        9
avaliacao         5
dtype: int64

### 1.5 Verificando Valores √önicos e Nulos

In [23]:
# Verificando valores √∫nicos em uma coluna categ√≥rica
print("Categorias √∫nicas:")
df_vendas['categoria'].unique()

Categorias √∫nicas:


array([np.str_('Casa'), np.str_('Beleza'), np.str_('Roupas'),
       np.str_('Alimentos'), np.str_('Eletr√¥nicos')], dtype=object)

In [24]:
# Contando ocorr√™ncias de cada valor
print("Contagem de cada categoria:")
df_vendas['categoria'].value_counts()

Contagem de cada categoria:


categoria
Alimentos      212
Beleza         209
Roupas         200
Eletr√¥nicos    191
Casa           188
Name: count, dtype: int64

In [25]:
print("Valores nulos em cada coluna:")
df_vendas.isnull().sum()

Valores nulos em cada coluna:


data           0
categoria      0
produto        0
regiao         0
estado         0
canal_venda    0
valor_venda    0
quantidade     0
avaliacao      0
dtype: int64

#### Exerc√≠cio 1: Explora√ß√£o B√°sica de Dados
Agora √© sua vez de aplicar o que aprendeu para explorar o DataFrame:

##### 1.1 Use o m√©todo head() para mostrar as 10 primeiras linhas do DataFrame

In [19]:
print("Primeiras 10 linhas do DataFrame:")
print(df_vendas.head(10))

Primeiras 10 linhas do DataFrame:
                  data  categoria        produto        regiao estado  \
0  2023-04-13 00:00:00       Casa        Arm√°rio  Centro-Oeste     MS   
1  2023-03-29 00:00:00     Beleza        Perfume  Centro-Oeste     GO   
2  2023-07-11 00:00:00       Casa        Arm√°rio         Norte     RR   
3  2023-02-28 00:00:00     Roupas         Sapato       Sudeste     ES   
4  2023-02-24 00:00:00       Casa           Sof√°  Centro-Oeste     DF   
5  2023-03-30 00:00:00       Casa           Mesa      Nordeste     BA   
6  2023-09-21 00:00:00  Alimentos          Arroz       Sudeste     RJ   
7  2023-09-17 00:00:00     Beleza  Condicionador      Nordeste     MA   
8  2023-07-09 00:00:00     Beleza     Hidratante      Nordeste     PB   
9  2023-01-15 00:00:00     Beleza        Shampoo         Norte     AM   

   canal_venda  valor_venda  quantidade  avaliacao  
0       Online      2988.28           3          3  
1       Online      4849.85           6          2  


##### 1.2 Use shape para verificar quantas linhas e colunas tem o DataFrame

In [27]:
print("o numero de colunas da Dataframe:", df_vendas.shape[1])
print("Numero de linhas", df_vendas.shape[0])

o numero de colunas da Dataframe: 9
Numero de linhas 1000


##### 1.3 Use o m√©todo unique() para listar todas as regi√µes no DataFrame

In [28]:
print("Regi√µes contidas no Dataframe", df_vendas["regiao"].unique())

Regi√µes contidas no Dataframe [np.str_('Centro-Oeste') np.str_('Norte') np.str_('Sudeste')
 np.str_('Nordeste') np.str_('Sul')]


##### 1.4 Use o m√©todo value_counts() para contar quantas vendas existem por canal_venda

In [32]:
print("N√∫mero de vendas por canais abaixo:")
print(df_vendas["canal_venda"].value_counts())

N√∫mero de vendas por canais abaixo:
canal_venda
Loja F√≠sica    267
Telefone       251
Online         247
Aplicativo     235
Name: count, dtype: int64


##### 1.5 Use o m√©todo describe() para obter estat√≠sticas da coluna 'valor_venda'

In [33]:
print("Valores das vendas:")
print(df_vendas["valor_venda"].describe())

Valores das vendas:
count    1000.00000
mean     2436.61369
std      1459.09861
min        11.13000
25%      1168.71000
50%      2418.67000
75%      3702.18000
max      4997.31000
Name: valor_venda, dtype: float64


---

## 2. Sele√ß√£o e Filtragem de Dados

### 2.1 Selecionando Colunas

O Pandas oferece v√°rias maneiras de selecionar colunas em um DataFrame:

In [3]:
# Selecionando uma √∫nica coluna (retorna uma Series)

valores_venda = df_vendas['valor_venda']
print("Primeiros 5 valores da coluna 'valor_venda':")
valores_venda.head()

Primeiros 5 valores da coluna 'valor_venda':


0    2988.28
1    4849.85
2    2628.53
3    2285.79
4    3404.73
Name: valor_venda, dtype: float64

In [4]:
print(f"Tipo de dados: {type(valores_venda)}")

Tipo de dados: <class 'pandas.core.series.Series'>


In [5]:
# Selecionando m√∫ltiplas colunas (retorna um DataFrame)
selecao = df_vendas[['produto', 'valor_venda', 'quantidade']]

print("Primeiras 5 linhas das colunas selecionadas:")
selecao.head()

Primeiras 5 linhas das colunas selecionadas:


Unnamed: 0,produto,valor_venda,quantidade
0,Arm√°rio,2988.28,3
1,Perfume,4849.85,6
2,Arm√°rio,2628.53,9
3,Sapato,2285.79,3
4,Sof√°,3404.73,9


In [6]:
print(f"Tipo de dados: {type(selecao)}")

Tipo de dados: <class 'pandas.core.frame.DataFrame'>


### 2.2 Filtrando Linhas com Condi√ß√µes

Podemos filtrar linhas do DataFrame usando condi√ß√µes l√≥gicas:

In [7]:
# Filtragem b√°sica: vendas com valor acima de 1000
vendas_altas = df_vendas[df_vendas['valor_venda'] > 1000]
print(f"N√∫mero de vendas com valor acima de R$1000: {len(vendas_altas)}")

print("Primeiras 5 vendas com valor acima de R$1000:")
vendas_altas.head()

N√∫mero de vendas com valor acima de R$1000: 785
Primeiras 5 vendas com valor acima de R$1000:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
0,2023-04-13 00:00:00,Casa,Arm√°rio,Centro-Oeste,MS,Online,2988.28,3,3
1,2023-03-29 00:00:00,Beleza,Perfume,Centro-Oeste,GO,Online,4849.85,6,2
2,2023-07-11 00:00:00,Casa,Arm√°rio,Norte,RR,Loja F√≠sica,2628.53,9,1
3,2023-02-28 00:00:00,Roupas,Sapato,Sudeste,ES,Aplicativo,2285.79,3,4
4,2023-02-24 00:00:00,Casa,Sof√°,Centro-Oeste,DF,Aplicativo,3404.73,9,2


In [8]:
# Filtrando com m√∫ltiplas condi√ß√µes usando operadores l√≥gicos & (AND) e | (OR)

# Vendas de Eletr√¥nicos na regi√£o Sul
vendas_eletronicos_sul = df_vendas[(df_vendas['categoria'] == 'Eletr√¥nicos') & 
                                   (df_vendas['regiao'] == 'Sul')]
print(f"N√∫mero de vendas de Eletr√¥nicos na regi√£o Sul: {len(vendas_eletronicos_sul)}")

print("Primeiras 5 vendas de Eletr√¥nicos na regi√£o Sul:")
vendas_eletronicos_sul.head()

N√∫mero de vendas de Eletr√¥nicos na regi√£o Sul: 46
Primeiras 5 vendas de Eletr√¥nicos na regi√£o Sul:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
43,2023-04-27 00:00:00,Eletr√¥nicos,Fones de ouvido,Sul,PR,Loja F√≠sica,4576.92,2,1
48,2023-04-06 00:00:00,Eletr√¥nicos,Smart TV,Sul,RS,Loja F√≠sica,142.29,4,4
65,2023-12-27 00:00:00,Eletr√¥nicos,Tablet,Sul,SC,Online,1880.6,1,1
107,2023-05-25 00:00:00,Eletr√¥nicos,Laptop,Sul,RS,Aplicativo,593.32,6,3
109,2023-02-07 00:00:00,Eletr√¥nicos,Smartphone,Sul,PR,Aplicativo,3722.29,4,2


In [9]:
# Filtrando com OR l√≥gico

# Vendas muito altas (>3000) ou com avalia√ß√£o m√°xima (5)
vendas_premium = df_vendas[(df_vendas['valor_venda'] > 3000) | 
                          (df_vendas['avaliacao'] == 5)]

print(f"N√∫mero de vendas premium: {len(vendas_premium)}")

print("Primeiras 5 vendas premium:")
vendas_premium.head()

N√∫mero de vendas premium: 519
Primeiras 5 vendas premium:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
1,2023-03-29 00:00:00,Beleza,Perfume,Centro-Oeste,GO,Online,4849.85,6,2
4,2023-02-24 00:00:00,Casa,Sof√°,Centro-Oeste,DF,Aplicativo,3404.73,9,2
6,2023-09-21 00:00:00,Alimentos,Arroz,Sudeste,RJ,Telefone,3779.25,6,2
8,2023-07-09 00:00:00,Beleza,Hidratante,Nordeste,PB,Telefone,1790.2,9,5
10,2023-03-22 00:00:00,Alimentos,√ìleo,Norte,RO,Online,4632.24,9,4


### 2.3 Filtragem com isin() e between()

Pandas oferece m√©todos especiais para filtragens mais espec√≠ficas:

In [10]:
# Usando isin() para filtrar com uma lista de valores

# Vendas nas regi√µes Sul e Sudeste
regioes_sul_sudeste = ['Sul', 'Sudeste']
vendas_sul_sudeste = df_vendas[df_vendas['regiao'].isin(regioes_sul_sudeste)]

print(f"N√∫mero de vendas nas regi√µes Sul e Sudeste: {len(vendas_sul_sudeste)}")

print("Primeiras 5 vendas nas regi√µes Sul e Sudeste:")
vendas_sul_sudeste.head()

N√∫mero de vendas nas regi√µes Sul e Sudeste: 413
Primeiras 5 vendas nas regi√µes Sul e Sudeste:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
3,2023-02-28 00:00:00,Roupas,Sapato,Sudeste,ES,Aplicativo,2285.79,3,4
6,2023-09-21 00:00:00,Alimentos,Arroz,Sudeste,RJ,Telefone,3779.25,6,2
14,2023-02-21 00:00:00,Beleza,Perfume,Sul,RS,Aplicativo,2057.81,4,5
15,2023-06-09 00:00:00,Alimentos,√ìleo,Sudeste,RJ,Loja F√≠sica,4042.52,9,5
16,2023-05-14 00:00:00,Casa,Cama,Sudeste,ES,Telefone,4463.87,7,4


In [11]:
# Usando between() para filtrar valores em um intervalo

# Vendas com valor entre 1000 e 2000
vendas_1000_2000 = df_vendas[df_vendas['valor_venda'].between(1000, 2000)]

print(f"N√∫mero de vendas entre R$1000 e R$2000: {len(vendas_1000_2000)}")

print("Primeiras 5 vendas entre R$1000 e R$2000:")
vendas_1000_2000.head()

N√∫mero de vendas entre R$1000 e R$2000: 209
Primeiras 5 vendas entre R$1000 e R$2000:


Unnamed: 0,data,categoria,produto,regiao,estado,canal_venda,valor_venda,quantidade,avaliacao
7,2023-09-17 00:00:00,Beleza,Condicionador,Nordeste,MA,Loja F√≠sica,1981.8,4,4
8,2023-07-09 00:00:00,Beleza,Hidratante,Nordeste,PB,Telefone,1790.2,9,5
9,2023-01-15 00:00:00,Beleza,Shampoo,Norte,AM,Telefone,1980.46,8,3
11,2023-05-15 00:00:00,Eletr√¥nicos,Fones de ouvido,Nordeste,BA,Telefone,1860.38,8,5
18,2023-12-25 00:00:00,Alimentos,Arroz,Sul,PR,Aplicativo,1354.37,8,3


#### Exerc√≠cio 2: Sele√ß√£o e Filtragem de Dados
Agora, pratique a sele√ß√£o e filtragem de dados com os seguintes exerc√≠cios:

##### 2.1 Selecione apenas as colunas 'data', 'produto' e 'valor_venda' do DataFrame

In [22]:
selecao1 = df_vendas[['data', 'produto','valor_venda']]
print("Primeiras 5 vendas da sele√ß√£o")
selecao1.head(5)

Primeiras 5 vendas da sele√ß√£o


Unnamed: 0,data,produto,valor_venda
0,2023-04-13 00:00:00,Arm√°rio,2988.28
1,2023-03-29 00:00:00,Perfume,4849.85
2,2023-07-11 00:00:00,Arm√°rio,2628.53
3,2023-02-28 00:00:00,Sapato,2285.79
4,2023-02-24 00:00:00,Sof√°,3404.73


##### 2.2 Filtre o DataFrame para mostrar apenas as vendas do canal 'Online'

In [30]:
vendasOnline = df_vendas [df_vendas['canal_venda']== 'Online']
print(vendasOnline)
print(vendasOnline.head())

                    data    categoria   produto        regiao estado  \
0    2023-04-13 00:00:00         Casa   Arm√°rio  Centro-Oeste     MS   
1    2023-03-29 00:00:00       Beleza   Perfume  Centro-Oeste     GO   
10   2023-03-22 00:00:00    Alimentos      √ìleo         Norte     RO   
20   2023-04-23 00:00:00       Beleza   Shampoo         Norte     RO   
26   2023-05-24 00:00:00       Roupas  Camiseta       Sudeste     ES   
..                   ...          ...       ...           ...    ...   
988  2023-05-10 00:00:00       Roupas     Cal√ßa       Sudeste     SP   
990  2023-05-19 00:00:00       Beleza  Sabonete       Sudeste     ES   
992  2023-03-31 00:00:00  Eletr√¥nicos    Tablet           Sul     RS   
994  2023-08-05 00:00:00       Roupas     Cal√ßa         Norte     RR   
995  2023-11-11 00:00:00  Eletr√¥nicos    Laptop      Nordeste     MA   

    canal_venda  valor_venda  quantidade  avaliacao  
0        Online      2988.28           3          3  
1        Online      

##### 2.3 Filtre o DataFrame para mostrar vendas de 'Roupas' com valor acima de 500

In [54]:
roupasAcima500 = df_vendas[(df_vendas['produto'] == 'Roupas') & (df_vendas['valor_venda'] > 500)]
print(roupasAcima500.head())


Empty DataFrame
Columns: [data, categoria, produto, regiao, estado, canal_venda, valor_venda, quantidade, avaliacao]
Index: []


##### 2.4 Use o m√©todo isin() para filtrar vendas dos produtos 'Smartphone' e 'Laptop'

In [66]:
produtos_tecnologia = df_vendas[df_vendas['produto'].isin(['Smartphone', 'Laptop'])]
print(produtos_tecnologia.head())

                    data    categoria     produto        regiao estado  \
17   2023-08-19 00:00:00  Eletr√¥nicos  Smartphone         Norte     RO   
21   2023-08-12 00:00:00  Eletr√¥nicos  Smartphone  Centro-Oeste     GO   
50   2023-11-19 00:00:00  Eletr√¥nicos  Smartphone      Nordeste     CE   
82   2023-07-03 00:00:00  Eletr√¥nicos      Laptop         Norte     RR   
106  2023-02-11 00:00:00  Eletr√¥nicos      Laptop  Centro-Oeste     DF   

     canal_venda  valor_venda  quantidade  avaliacao  
17   Loja F√≠sica        12.60           9          3  
21   Loja F√≠sica      2659.36           6          4  
50      Telefone      1377.07           2          5  
82      Telefone      2301.09           2          5  
106  Loja F√≠sica      2703.51           1          1  


##### 2.5 Use o m√©todo between() para encontrar vendas com quantidades entre 3 e 5 unidades

In [70]:
vendas3a5Unidades = df_vendas [df_vendas['quantidade'].between(3,5)]
print("Vendas com 3-5 unidades")
print(vendas3a5Unidades.head())

Vendas com 3-5 unidades
                   data categoria        produto        regiao estado  \
0   2023-04-13 00:00:00      Casa        Arm√°rio  Centro-Oeste     MS   
3   2023-02-28 00:00:00    Roupas         Sapato       Sudeste     ES   
5   2023-03-30 00:00:00      Casa           Mesa      Nordeste     BA   
7   2023-09-17 00:00:00    Beleza  Condicionador      Nordeste     MA   
12  2023-04-09 00:00:00      Casa        Cadeira  Centro-Oeste     DF   

    canal_venda  valor_venda  quantidade  avaliacao  
0        Online      2988.28           3          3  
3    Aplicativo      2285.79           3          4  
5   Loja F√≠sica       497.38           4          4  
7   Loja F√≠sica      1981.80           4          4  
12   Aplicativo       606.78           3          1  


## 3. Ordena√ß√£o e Indexa√ß√£o

### 3.1 Ordenando Dados

O m√©todo `sort_values()` permite ordenar o DataFrame por uma ou mais colunas:

In [None]:
# Ordenando por uma coluna em ordem crescente (padr√£o)
df_ordenado_crescente = df_vendas.sort_values('valor_venda')

print("5 vendas com os menores valores:")
df_ordenado_crescente.head()

In [None]:
# Ordenando por uma coluna em ordem decrescente
df_ordenado_decrescente = df_vendas.sort_values('valor_venda', ascending=False)

print("5 vendas com os maiores valores:")
df_ordenado_decrescente.head()

In [None]:
# Ordenando por m√∫ltiplas colunas

# Primeiro por categoria (A-Z) e depois por valor_venda (maior para menor)
df_ordenado_multi = df_vendas.sort_values(['categoria', 'valor_venda'], 
                                         ascending=[True, False])

print("Ordena√ß√£o por categoria e depois por valor (decrescente):")
df_ordenado_multi.head(10)

### 3.2 Redefinindo e Usando √çndices

In [None]:
# Definindo uma coluna como √≠ndice
df_indexado = df_vendas.set_index('data')

print("DataFrame com 'data' como √≠ndice:")
df_indexado.head()

In [None]:
# Resetando o √≠ndice para voltar ao formato original
df_reset = df_indexado.reset_index()

print("DataFrame ap√≥s reset do √≠ndice:")
df_reset.head()

In [None]:
# Acessando dados atrav√©s do √≠ndice
# (Importante: assumindo que 'data' ainda √© o √≠ndice)
print("Vendas em uma data espec√≠fica:")
try:
    data_exemplo = df_indexado.index[0]  # Pegando a primeira data como exemplo
    print(f"Vendas em {data_exemplo}:")
    display(df_indexado.loc[data_exemplo])
except:
    print("Certifique-se de que o DataFrame est√° indexado por 'data'")

#### Exerc√≠cio 3: Ordena√ß√£o e Indexa√ß√£o
Agora, pratique a ordena√ß√£o e indexa√ß√£o com os seguintes exerc√≠cios:

##### 3.1 Ordene o DataFrame por 'avaliacao' em ordem decrescente e mostre as 10 primeiras linhas

In [None]:
# SEU C√ìDIGO AQUI

##### 3.2 Ordene o DataFrame primeiro por 'regiao' (A-Z) e depois por 'valor_venda' (maior para menor)

In [None]:
# SEU C√ìDIGO AQUI

##### 3.3 Defina a coluna 'produto' como √≠ndice do DataFrame e mostre as 5 primeiras linhas

In [None]:
# SEU C√ìDIGO AQUI

##### 3.4 Com o DataFrame indexado por 'produto' na quest√£o anterior, acesse os dados do produto 'Smartphone' (se existir)

Dica: use o .loc

In [None]:
# SEU C√ìDIGO AQUI

##### 3.5 Resete o √≠ndice para retornar √† forma original e mostre as 5 primeiras linhas

In [None]:
# SEU C√ìDIGO AQUI

---

## 4. M√©todos Estat√≠sticos e Agrega√ß√µes B√°sicas

O Pandas oferece diversos m√©todos para calcular estat√≠sticas e resumir informa√ß√µes.

### 4.1 Estat√≠sticas B√°sicas

In [None]:
# Calculando a m√©dia (mean) de uma coluna
media_valor = df_vendas['valor_venda'].mean()
print(f"Valor m√©dio de venda: R${media_valor:.2f}")

In [None]:
# Calculando a soma (sum) de uma coluna
total_vendas = df_vendas['valor_venda'].sum()
print(f"Valor total de vendas: R${total_vendas:.2f}")

In [None]:
# Calculando o m√≠nimo (min) e m√°ximo (max)
min_valor = df_vendas['valor_venda'].min()
max_valor = df_vendas['valor_venda'].max()

print(f"Menor valor de venda: R${min_valor:.2f}")
print(f"Maior valor de venda: R${max_valor:.2f}")

In [None]:
# Calculando a mediana (median / 50¬∫ percentil)
mediana_valor = df_vendas['valor_venda'].median()
print(f"Valor mediano de venda: R${mediana_valor:.2f}")

In [None]:
# Calculando outros percentis
percentil_25 = df_vendas['valor_venda'].quantile(0.25)
percentil_75 = df_vendas['valor_venda'].quantile(0.75)

print(f"25¬∫ percentil do valor de venda: R${percentil_25:.2f}")
print(f"75¬∫ percentil do valor de venda: R${percentil_75:.2f}")

In [None]:
# Calculando o desvio padr√£o (std) e vari√¢ncia (var)
desvio_padrao = df_vendas['valor_venda'].std()
variancia = df_vendas['valor_venda'].var()

print(f"Desvio padr√£o do valor de venda: R${desvio_padrao:.2f}")
print(f"Vari√¢ncia do valor de venda: R${variancia:.2f}")

### 4.2 Agrega√ß√µes por Categoria

In [None]:
# Calculando a m√©dia por categoria
media_por_categoria = df_vendas.groupby('categoria')['valor_venda'].mean()

print("Valor m√©dio de venda por categoria:")
media_por_categoria

In [None]:
# Calculando m√∫ltiplas estat√≠sticas por categoria
stats_por_categoria = df_vendas.groupby('categoria')['valor_venda'].agg(['count', 'mean', 'min', 'max'])

print("Estat√≠sticas por categoria:")
stats_por_categoria

In [None]:
# Renomeando as colunas para melhor legibilidade
stats_por_categoria.columns = ['Contagem', 'M√©dia', 'M√≠nimo', 'M√°ximo']

print("Estat√≠sticas por categoria (colunas renomeadas):")
stats_por_categoria

#### Exerc√≠cio 4: Estat√≠sticas e Agrega√ß√µes
Agora, pratique o c√°lculo de estat√≠sticas com os seguintes exerc√≠cios:

##### 4.1 Calcule a m√©dia da coluna 'quantidade'

In [None]:
# SEU C√ìDIGO AQUI

##### 4.2 Calcule a soma total da coluna 'valor_venda' para ter o faturamento total

In [None]:
# SEU C√ìDIGO AQUI

##### 4.3 Encontre o valor m√°ximo de 'avaliacao' de cada categoria de produto

In [None]:
# SEU C√ìDIGO AQUI

##### 4.4 Calcule o valor m√©dio de venda por regi√£o e ordene do maior para o menor

In [None]:
# SEU C√ìDIGO AQUI

##### 4.5 Calcule a contagem, m√©dia, m√≠nimo e m√°ximo de 'valor_venda' para cada canal_venda

In [None]:
# SEU C√ìDIGO AQUI

---

## 5. Agrupamento de Dados (GroupBy)

### 5.1 O Conceito de GroupBy

O m√©todo `groupby()` √© uma das ferramentas mais poderosas do Pandas. Ele permite dividir os dados em grupos com base em uma ou mais colunas e aplicar fun√ß√µes para calcular estat√≠sticas para cada grupo.

O processo de GroupBy geralmente segue tr√™s etapas:
1. **Split**: Dividir os dados em grupos
2. **Apply**: Aplicar uma fun√ß√£o a cada grupo
3. **Combine**: Combinar os resultados em uma estrutura de dados

In [None]:
# Exemplo b√°sico: agrupando por categoria e calculando a m√©dia de valor_venda
media_por_categoria = df_vendas.groupby('categoria')['valor_venda'].mean()
print("Valor m√©dio de venda por categoria:")
media_por_categoria

In [None]:
# Visualizando o tipo de dados retornado
print(f"Tipo de dados: {type(media_por_categoria)}")

### 5.2 Agrega√ß√µes com GroupBy

Podemos aplicar diferentes fun√ß√µes de agrega√ß√£o aos grupos:

In [None]:
# Contagem de vendas por regi√£o
contagem_por_regiao = df_vendas.groupby('regiao')['valor_venda'].count()

print("N√∫mero de vendas por regi√£o:")
contagem_por_regiao

In [None]:
# Soma do valor de vendas por regi√£o
soma_por_regiao = df_vendas.groupby('regiao')['valor_venda'].sum()

print("Valor total de vendas por regi√£o:")
soma_por_regiao

In [None]:
# Calculando m√∫ltiplas estat√≠sticas simultaneamente
stats_por_regiao = df_vendas.groupby('regiao')['valor_venda'].agg(['count', 'sum', 'mean', 'min', 'max'])

print("Estat√≠sticas completas por regi√£o:")
stats_por_regiao

### 5.3 GroupBy com M√∫ltiplas Colunas

Podemos agrupar por mais de uma coluna para an√°lises mais detalhadas:

In [None]:
# Agrupando por regi√£o e categoria
vendas_regiao_categoria = df_vendas.groupby(['regiao', 'categoria'])['valor_venda'].sum()

print("Total de vendas por regi√£o e categoria:")
vendas_regiao_categoria

In [None]:
# Convertendo para um formato mais leg√≠vel (tabela piv√¥)
vendas_pivot = vendas_regiao_categoria.unstack()

print("Tabela piv√¥ de vendas por regi√£o e categoria:")
vendas_pivot

### 5.4 Aplicando Diferentes Agrega√ß√µes a Diferentes Colunas

In [None]:
# Aplicando diferentes fun√ß√µes a diferentes colunas
agg_multiplas_colunas = df_vendas.groupby('categoria').agg({
    'valor_venda': ['sum', 'mean'],
    'quantidade': ['sum', 'mean'],
    'avaliacao': 'mean'
})

print("Agrega√ß√µes m√∫ltiplas por categoria:")
agg_multiplas_colunas

In [None]:
# Achatando os n√≠veis de √≠ndice das colunas para facilitar o acesso
agg_multiplas_colunas.columns = ['Valor Total', 'Valor M√©dio', 'Quantidade Total', 'Quantidade M√©dia', 'Avalia√ß√£o M√©dia']

print("Com colunas renomeadas:")
agg_multiplas_colunas

#### Exerc√≠cio 5: Agrupamento com GroupBy
Agora, pratique o uso do GroupBy com os seguintes exerc√≠cios:

##### 5.1 Agrupe os dados por 'canal_venda' e calcule o valor total de vendas para cada canal

In [None]:
# SEU C√ìDIGO AQUI

##### 5.2 Agrupe por 'estado' e calcule a quantidade m√©dia de itens vendidos por estado

In [None]:
# SEU C√ìDIGO AQUI

##### 5.3 Agrupe por 'categoria' e calcule a avalia√ß√£o m√©dia para cada categoria de produto

In [None]:
# SEU C√ìDIGO AQUI

##### 5.4 Agrupe por 'regiao' e 'canal_venda' e calcule o total de vendas para cada combina√ß√£o

In [None]:
# SEU C√ìDIGO AQUI

##### 5.5 Aplique m√∫ltiplas agrega√ß√µes (count, sum, mean) √† coluna 'valor_venda' ap√≥s agrupar por 'produto'

In [None]:
# SEU C√ìDIGO AQUI

---

## 6. Manipula√ß√£o de Dados e Cria√ß√£o de Colunas

### 6.1 Manipulando Tipos de Dados

In [None]:
# Verificando o tipo de dado da coluna 'data'
print(f"Tipo de dado da coluna 'data': {df_vendas['data'].dtype}")

In [None]:
# Convertendo a coluna 'data' para datetime
df_vendas['data'] = pd.to_datetime(df_vendas['data'])
print(f"Novo tipo de dado da coluna 'data': {df_vendas['data'].dtype}")

In [None]:
# Extraindo componentes da data
df_vendas['ano'] = df_vendas['data'].dt.year
df_vendas['mes'] = df_vendas['data'].dt.month
df_vendas['dia'] = df_vendas['data'].dt.day
df_vendas['dia_semana'] = df_vendas['data'].dt.day_name()

# Visualizando as novas colunas
print("Primeiras linhas com as novas colunas de data:")
df_vendas[['data', 'ano', 'mes', 'dia', 'dia_semana']].head()

### 6.2 Criando Novas Colunas com Opera√ß√µes Aritm√©ticas

In [None]:
# Criando uma coluna de valor total (valor_venda * quantidade)
df_vendas['valor_total'] = df_vendas['valor_venda'] * df_vendas['quantidade']

# Criando uma coluna de desconto (10% do valor_venda)
df_vendas['desconto'] = df_vendas['valor_venda'] * 0.1

# Criando uma coluna de valor com desconto
df_vendas['valor_com_desconto'] = df_vendas['valor_venda'] - df_vendas['desconto']

# Visualizando as novas colunas
print("Primeiras linhas com as novas colunas calculadas:")
df_vendas[['valor_venda', 'quantidade', 'valor_total', 'desconto', 'valor_com_desconto']].head()

### 6.3 Criando Colunas Categ√≥ricas com apply() e fun√ß√µes personalizadas

In [None]:
# Definindo uma fun√ß√£o para categorizar o valor da venda
def categorizar_valor(valor):
    if valor < 100:
        return 'Baixo'
    elif valor < 1000:
        return 'M√©dio'
    else:
        return 'Alto'

# Aplicando a fun√ß√£o √† coluna 'valor_venda' para criar a coluna 'faixa_preco'
df_vendas['faixa_preco'] = df_vendas['valor_venda'].apply(categorizar_valor)
df_vendas[['valor_venda', 'faixa_preco']].head()

In [None]:
# Definindo uma fun√ß√£o para categorizar a quantidade
def categorizar_quantidade(qtd):
    if qtd <= 2:
        return 'Pequeno'
    elif qtd <= 5:
        return 'M√©dio'
    else:
        return 'Grande'

# Aplicando a fun√ß√£o √† coluna 'quantidade'
df_vendas['tamanho_pedido'] = df_vendas['quantidade'].apply(categorizar_quantidade)
df_vendas[['quantidade', 'tamanho_pedido']].head()

In [None]:
# Visualizando as novas colunas categ√≥ricas
print("Primeiras linhas com as novas colunas categ√≥ricas:")
df_vendas[['valor_venda', 'faixa_preco', 'quantidade', 'tamanho_pedido']].head()

In [None]:
# Verificando a contagem de cada categoria
print("Contagem por faixa de pre√ßo:")
df_vendas['faixa_preco'].value_counts()

In [None]:
print("Contagem por tamanho de pedido:")
df_vendas['tamanho_pedido'].value_counts()

#### Exerc√≠cio 6: Manipula√ß√£o de Dados e Cria√ß√£o de Colunas
Agora, pratique a manipula√ß√£o de dados e cria√ß√£o de colunas:

##### 6.1 Crie uma coluna 'trimestre' baseada no m√™s da venda (1: Jan-Mar, 2: Abr-Jun, etc.)
Dica: voc√™ pode usar a fun√ß√£o math.ceil(mes/3) ou uma fun√ß√£o personalizada

In [None]:
# SEU C√ìDIGO AQUI

##### 6.2 Crie uma coluna 'dia_util' que indique se a venda ocorreu em um dia √∫til (segunda a sexta) ou fim de semana (s√°bado e domingo)
Dica: use o atributo .dt.dayofweek (0-4 para dias da semana, 5-6 para fim de semana)

In [None]:
# SEU C√ìDIGO AQUI

##### 6.3 Crie uma coluna 'margem_lucro' que √© 30% do valor_venda

In [None]:
# SEU C√ìDIGO AQUI

##### 6.4 Crie uma coluna categ√≥rica 'nivel_avaliacao' baseada na avalia√ß√£o: 'Ruim' (1-2), 'Regular' (3), 'Bom' (4), 'Excelente' (5)

In [None]:
# SEU C√ìDIGO AQUI

##### 6.5 Crie uma coluna 'acima_media' que tenha valor True se o valor_venda for superior √† m√©dia de todas as vendas e False caso contr√°rio

In [None]:
# SEU C√ìDIGO AQUI

---

# 7. Visualiza√ß√£o de Dados com Pandas
A visualiza√ß√£o √© uma parte fundamental da an√°lise de dados. O Pandas oferece uma integra√ß√£o com Matplotlib que facilita a cria√ß√£o de diversos tipos de gr√°ficos atrav√©s do m√©todo `.plot()`.

### 7.1 Gr√°ficos de Linha
Os gr√°ficos de linha s√£o √≥timos para mostrar mudan√ßas ao longo do tempo ou tend√™ncias.

In [None]:
# Agrupando vendas por m√™s
vendas_mensais = df_vendas.groupby('mes')['valor_total'].sum()

# Criando um simples gr√°fico de linha
vendas_mensais.plot(kind='line') # O par√¢metro 'kind' especifica qual tipo de gr√°fico queremos, nesse caso, linha (line)
plt.title('Valor Total de Vendas por M√™s') # T√≠tulo do gr√°fico
plt.xlabel('M√™s') # R√≥tulo do eixo x
plt.ylabel('Valor Total (R$)') # R√≥tulo do eixo y
plt.show()

### 7.2 Gr√°ficos de Barras
Os gr√°ficos de barras s√£o √≥timos para comparar valores entre diferentes categorias.

In [None]:
# Valor total de vendas por categoria
vendas_por_categoria = df_vendas.groupby('categoria')['valor_total'].sum()

# Criando um gr√°fico de barras simples
vendas_por_categoria.plot(kind='bar')
plt.title('Valor Total de Vendas por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Valor Total (R$)')
plt.show()

### 7.3 Histogramas
Histogramas mostram a distribui√ß√£o dos seus dados, dividindo os valores em intervalos (bins).

In [None]:
# Histograma dos valores de venda
df_vendas['valor_venda'].plot(kind='hist', bins=20)
plt.title('Distribui√ß√£o dos Valores de Venda')
plt.xlabel('Valor (R$)')
plt.ylabel('Frequ√™ncia')
plt.show()

### 7.4 Personalizando Gr√°ficos
Voc√™ pode personalizar seus gr√°ficos adicionando cores, marcadores e outros elementos.

In [None]:
# Personalizando um gr√°fico de linha
vendas_mensais.plot(
    kind='line',
    figsize=(10, 5),   # Tamanho da figura
    color='green',     # Cor da linha
    marker='o',        # Marcador nos pontos
    linestyle='--',    # Estilo da linha
    linewidth=2        # Espessura da linha
)
plt.title('Valor Total de Vendas por M√™s')
plt.xlabel('M√™s')
plt.ylabel('Valor Total (R$)')
plt.grid(True)
plt.show()

#### Exerc√≠cio 7: Visualiza√ß√£o de Dados
Agora √© sua vez de praticar a cria√ß√£o de gr√°ficos com Pandas:

##### 7.1 Crie um gr√°fico de barras mostrando o n√∫mero de vendas por canal_venda

In [None]:
# SEU C√ìDIGO AQUI

##### 7.2 Crie um gr√°fico de linha simples mostrando a m√©dia de valor_venda por m√™s

In [None]:
# SEU C√ìDIGO AQUI

##### 7.3 Crie um histograma da coluna 'avaliacao' e adicione um t√≠tulo

In [None]:
# SEU C√ìDIGO AQUI

##### 7.4 Crie um gr√°fico de barras mostrando o total de vendas por regi√£o

In [None]:
# SEU C√ìDIGO AQUI

---

# Voc√™ Chegou ao Fim!

Parab√©ns por ter chegado at√© aqui, guerreiro(a) dos dados! 
(A n√£o ser que voc√™ tenha pulado tudo e vindo direto pra c√°... hmm, estamos de olho üëÄ)

Esperamos que voc√™ tenha conseguido resolver todos os exerc√≠cios - ou pelo menos tenha quebrado a cabe√ßa tentando!

## üìã Antes de enviar, d√° uma conferida final:
- Todas as c√©lulas est√£o funcionando? (Por favor, diz que sim üôè)
- Voc√™ respondeu todas as quest√µes? (Aquela do meio era dif√≠cil, n√©?)
- O c√≥digo est√° rodando sem erros? (Ou sem MUITOS erros, pelo menos üòÖ)

## üì§ INSTRU√á√ïES DE ENTREGA:
- Envie este notebook para: lads.unama@gmail.com
- Prazo: Domingo, 18/05/2025, √†s 23:59

Voc√™ pode mandar o arquivo direto ou o link do seu GitHub - escolha a op√ß√£o que te deixa mais zen!

Boa sorte e at√© a pr√≥xima fase (pensamento positivo, n√©?)! üí™

‚Äî Equipe LADS, que j√° est√° ansiosa pra ver a magia que voc√™ fez com esses dados