# Exploração inicial: Ver as colunas do dataset

In [None]:
import pandas as pd

# Carregar o dataset
df = pd.read_csv('superstore.csv', encoding='ISO-8859-1')

# Exibir as primeiras linhas do dataset para inspecionar
df.head()



Unnamed: 0,Linha ID,Ordem ID,Data Ordem,Data Envio,Modo Envio,Cliente ID,Nome Cliente,Segmento,PaÃ­s,Cidade,...,Codigo Postal,Regiao,Produto ID,Categoria,Sub-Categoria,Nome Produto,Vendas,Quantidade,Desconto,Lucro
0,1,CA-2016-152156,11/8/2016,11/11/2016,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136
1,2,CA-2016-152156,11/8/2016,11/11/2016,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582
2,3,CA-2016-138688,6/12/2016,6/16/2016,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,...,90036,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62,2,0.0,6.8714
3,4,US-2015-108966,10/11/2015,10/18/2015,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775,5,0.45,-383.031
4,5,US-2015-108966,10/11/2015,10/18/2015,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368,2,0.2,2.5164


In [None]:
# Exibir as colunas do dataset
df.columns

Index(['Linha ID', 'Ordem ID', 'Data Ordem', 'Data Envio', 'Modo Envio',
       'Cliente ID', 'Nome Cliente', 'Segmento', 'PaÃ­s', 'Cidade', 'Estado',
       'Codigo Postal', 'Regiao', 'Produto ID', 'Categoria', 'Sub-Categoria',
       'Nome Produto', 'Vendas', 'Quantidade', 'Desconto', 'Lucro'],
      dtype='object')

# Estatísticas descritivas

In [None]:
df.describe()

Unnamed: 0,Linha ID,Codigo Postal,Vendas,Quantidade,Desconto,Lucro
count,9994.0,9994.0,9994.0,9994.0,9994.0,9994.0
mean,4997.5,55190.379428,229.858001,3.789574,0.156203,28.656896
std,2885.163629,32063.69335,623.245101,2.22511,0.206452,234.260108
min,1.0,1040.0,0.444,1.0,0.0,-6599.978
25%,2499.25,23223.0,17.28,2.0,0.0,1.72875
50%,4997.5,56430.5,54.49,3.0,0.2,8.6665
75%,7495.75,90008.0,209.94,5.0,0.2,29.364
max,9994.0,99301.0,22638.48,14.0,0.8,8399.976


> Dica do Allan: O método `describe` é usado para gerar estatísticas descritivas de um DataFrame ou de uma Série. Ele fornece um resumo estatístico útil das colunas numéricas ou categóricas, dependendo do contexto.

#### O que ele retorna para colunas **numéricas**:
- **count**: Quantidade de valores não nulos.
- **mean**: Média dos valores.
- **std**: Desvio padrão.
- **min**: Valor mínimo.
- **25%**: Primeiro quartil (25% dos dados abaixo deste valor).
- **50%**: Mediana (50% dos dados abaixo deste valor).
- **75%**: Terceiro quartil (75% dos dados abaixo deste valor).
- **max**: Valor máximo.



O método `describe` é excelente para obter uma visão geral rápida de seus dados e identificar tendências ou possíveis problemas (como valores ausentes ou outliers).

# Operações nos DataFrames

In [None]:
# Dividir o DataFrame em dois subconjuntos por região
df_west = df[df['Regiao'] == 'West']
df_south = df[df['Regiao'] == 'South']

In [None]:
# Somar as vendas ('Vendas') por região
sales_west = df_west['Vendas'].sum()
sales_south = df_south['Vendas'].sum()

In [None]:
sales_west

725457.8245

In [None]:
sales_south

391721.905

# Operações condicionais para criar colunas derivadas

In [None]:
# Criar uma coluna indicando se houve desconto
df['Desconto_Aplicado'] = df['Desconto'] > 0

# Exibir as primeiras linhas com a nova coluna
print("\nNova coluna 'Desconto_aplicado':")
df[['Desconto', 'Desconto_Aplicado']].head()



Nova coluna 'Desconto_aplicado':


Unnamed: 0,Desconto,Desconto_Aplicado
0,0.0,False
1,0.0,False
2,0.0,False
3,0.45,True
4,0.2,True


# Criação de novas colunas

In [None]:
# Criar uma nova coluna de "Lucro por Unidade" (Lucro / Quantidade)
df['Lucro por Unidade'] = df['Lucro'] / df['Quantidade']

In [None]:
df[['Lucro', 'Quantidade', 'Lucro por Unidade']].head()

Unnamed: 0,Lucro,Quantidade,Lucro por Unidade
0,41.9136,2,20.9568
1,219.582,3,73.194
2,6.8714,2,3.4357
3,-383.031,5,-76.6062
4,2.5164,2,1.2582


# Funções customizadas com .apply()

> Dica do Allan: O método `apply` do pandas é uma ferramenta poderosa para aplicar funções personalizadas a colunas ou linhas de um DataFrame. Ele é especialmente útil quando você precisa realizar transformações ou cálculos que não estão disponíveis diretamente nos métodos nativos da biblioteca. Por exemplo, você pode usar `apply` para aplicar uma função lambda a cada elemento de uma coluna específica, como calcular a raiz quadrada de valores numéricos ou formatar strings. Para aplicá-lo em colunas, utilize o parâmetro `axis=0` (comportamento padrão), e para linhas, defina `axis=1`. Apesar de sua flexibilidade, é importante usá-lo com cautela em grandes conjuntos de dados, pois pode ser mais lento em comparação com métodos vetorizados do pandas, que são otimizados para desempenho.

In [None]:
df['Lucro']

Unnamed: 0,Lucro
0,41.9136
1,219.5820
2,6.8714
3,-383.0310
4,2.5164
...,...
9989,4.1028
9990,15.6332
9991,19.3932
9992,13.3200


In [None]:
# Criar uma função para categorizar o lucro
def categoriza_lucro(lucro):
    if lucro > 50:
        return 'Alta margem'
    elif lucro > 0:
        return 'Margem positiva'
    else:
        return 'Prejuízo'

# Aplicar a função
df['Categoria_Lucro'] = df['Lucro'].apply(categoriza_lucro)

# Exibir as primeiras linhas com a nova coluna
df[['Lucro', 'Categoria_Lucro']].head()


Unnamed: 0,Lucro,Categoria_Lucro
0,41.9136,Margem positiva
1,219.582,Alta margem
2,6.8714,Margem positiva
3,-383.031,Prejuízo
4,2.5164,Margem positiva


# Função lambda

In [None]:
#Calculando a margem de lucro como porcentagem.
df['Margem Lucro (%)'] = df.apply(lambda x: (x['Lucro'] / x['Vendas']) * 100, axis=1)
df['Margem Lucro (%)']


Unnamed: 0,Margem Lucro (%)
0,16.00
1,30.00
2,47.00
3,-40.00
4,11.25
...,...
9989,16.25
9990,17.00
9991,7.50
9992,45.00


In [None]:
df['Nivel Vendas'] = df['Vendas'].apply(lambda x: 'Alta' if x > 500 else 'Baixa')
df['Nivel Vendas']

Unnamed: 0,Nivel Vendas
0,Baixa
1,Alta
2,Baixa
3,Alta
4,Baixa
...,...
9989,Baixa
9990,Baixa
9991,Baixa
9992,Baixa


In [None]:
df['Desconto Elevado'] = df['Desconto'].apply(lambda x: True if x > 0.2 else False)
df['Desconto Elevado']

Unnamed: 0,Desconto Elevado
0,False
1,False
2,False
3,True
4,False
...,...
9989,False
9990,False
9991,False
9992,False
