In [None]:
def somar_x_y(x, y):
  soma = x + y
  return soma


.env = dotenv

# 📘 Instrução – Mini Projeto: Data-Driven Insights (Módulo 01)

## 🧑‍💻 Projeto
Você deverá criar um projeto prático de exploração e visualização de dados com Python no Google Colab, utilizando uma das bases indicadas abaixo ou outra de sua escolha, desde que esteja no formato .csv.

## 🎯 Objetivo
Explorar, transformar e visualizar dados com base em estruturas do Python e bibliotecas como pandas, numpy e matplotlib, gerando insights descritivos a partir da análise.

## ✅ Entregáveis

1. Notebook Colab com o nome: data_driven_insights.ipynb

2. O notebook deve conter:

  - Uso de listas, dicionários e tuplas com os dados

  - Estruturas condicionais (if/elif/else) e loops (for, while)

  - Manipulação de colunas com pandas

  - Operações com arrays NumPy

  - Filtragens, agrupamentos e resumos com pandas

  - Gráficos (linha, barras e dispersão) com matplotlib

  - Comentários e insights ao longo do notebook usando Markdown

  - Um relatório final em Markdown com os principais aprendizados e descobertas

3. Publicação no GitHub:

  - Criar um repositório com o nome: data-driven-insights

  - Subir o notebook final no repositório

## 📊 Bases de dados sugeridas

Você pode escolher uma das opções abaixo ou outra de sua preferência:

🎓 Dados de desempenho escolar:
https://archive.ics.uci.edu/dataset/320/student+performance

🛍️ Dados de vendas simuladas:
https://www.kaggle.com/datasets/kyanyoga/sample-sales-data

Dica: certifique-se de entender bem as colunas da base escolhida antes de começar a análise.

# 🦮 Conteúdo Guiado

Abaixo você tem o conteúdo guiado para ajudar no desenvolvimento do projeto.

Siga o passo-a-passo e suba seu projeto para o repositório do Github.

### **1. Importação de Bibliotecas**

- Importe **pandas**, **numpy** e **matplotlib.pyplot**.

``` python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
```
> ⚠️ Não esqueça de instalar a bibliotecas, se necessário.

```bash
%pip install pandas
%pip install matplotlib

```

In [37]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### **2. Leitura e Exploração Inicial da Base**

- Carregue o arquivo CSV escolhido usando pandas.
- Mostre as 5 primeiras linhas.
- Mostre o nome das colunas, a quantidade de linhas/colunas e tipos de dados detectados pelo pandas (**`.dtypes`**).
- **Explique em Markdown** os principais tipos de dados encontrados (str, int, float, ...).

``` python
df = pd.read_csv('arquivo.csv')   # Substitua pelo nome do seu arquivo
print(df.head())
print(df.shape)
print(df.columns)
print(df.dtypes)
```

> Exemplo de Insight:
Com df.head() observei que a base tem registros quase diários de vendas, e utilizando df.dtypes percebi que não havia colunas booleanas, confirmando que os campos são categorias, datas e números.

In [40]:
df = pd.read_csv('sales_data_sample.csv', encoding='latin1')   # Substitua pelo nome do seu arquivo


In [41]:
print(df.head())

   ORDERNUMBER  QUANTITYORDERED  PRICEEACH  ORDERLINENUMBER    SALES  \
0        10107               30      95.70                2  2871.00   
1        10121               34      81.35                5  2765.90   
2        10134               41      94.74                2  3884.34   
3        10145               45      83.26                6  3746.70   
4        10159               49     100.00               14  5205.27   

         ORDERDATE   STATUS  QTR_ID  MONTH_ID  YEAR_ID  ...  \
0   2/24/2003 0:00  Shipped       1         2     2003  ...   
1    5/7/2003 0:00  Shipped       2         5     2003  ...   
2    7/1/2003 0:00  Shipped       3         7     2003  ...   
3   8/25/2003 0:00  Shipped       3         8     2003  ...   
4  10/10/2003 0:00  Shipped       4        10     2003  ...   

                    ADDRESSLINE1  ADDRESSLINE2           CITY STATE  \
0        897 Long Airport Avenue           NaN            NYC    NY   
1             59 rue de l'Abbaye           NaN

In [42]:
print(df.shape)

(2823, 25)


In [45]:
# print(df.columns)

for col in df.columns:
  print(col)

ORDERNUMBER
QUANTITYORDERED
PRICEEACH
ORDERLINENUMBER
SALES
ORDERDATE
STATUS
QTR_ID
MONTH_ID
YEAR_ID
PRODUCTLINE
MSRP
PRODUCTCODE
CUSTOMERNAME
PHONE
ADDRESSLINE1
ADDRESSLINE2
CITY
STATE
POSTALCODE
COUNTRY
TERRITORY
CONTACTLASTNAME
CONTACTFIRSTNAME
DEALSIZE


In [46]:
print(df.dtypes)

ORDERNUMBER           int64
QUANTITYORDERED       int64
PRICEEACH           float64
ORDERLINENUMBER       int64
SALES               float64
ORDERDATE            object
STATUS               object
QTR_ID                int64
MONTH_ID              int64
YEAR_ID               int64
PRODUCTLINE          object
MSRP                  int64
PRODUCTCODE          object
CUSTOMERNAME         object
PHONE                object
ADDRESSLINE1         object
ADDRESSLINE2         object
CITY                 object
STATE                object
POSTALCODE           object
COUNTRY              object
TERRITORY            object
CONTACTLASTNAME      object
CONTACTFIRSTNAME     object
DEALSIZE             object
dtype: object


### **3. Listas, Dicionários e Tuplas**

- Extraia uma coluna de interesse em uma **lista** Python e faça um loop imprimindo informações sobre cada item.
- Monte um **dicionário** relacionando dois campos importantes da base (ex: produto:categoria, filme:gênero, aluno:disciplina) e exiba 3 pares.
- Crie uma **tupla** contendo três informações distintas de uma linha e imprima o resultado.

``` python
# Lista: Coluna de texto/categórica
nomes = list(df['Escolha_Coluna_STR'])
for nome in nomes[:5]:
    print(nome)

# Dicionário: chave e valor, exemplo (nome:categoria)
dicionario = dict(zip(df['Escolha_Coluna_STR'][:3], df['Escolha_Coluna_STR2'][:3]))
print(dicionario)
# Se não tiver outra coluna str, pode repetir 'Escolha_Coluna_STR'

# Tupla: informações de uma linha
linha0 = df.iloc[0]
minha_tupla = (linha0['Escolha_Coluna_STR'], linha0['Escolha_Coluna_STR2'], linha0['Escolha_Coluna_INT_Ou_FLOAT'])
print(minha_tupla)
```

> Exemplo de Insight:
Ao listar os 5 primeiros valores da coluna de nomes de produto, percebi repetição de alguns itens, sugerindo alta rotatividade. O dicionário produto-categoria mostrou que todos os itens mapeados pertencem à categoria “Padaria”, apontando para um padrão nas vendas iniciais do dia. Pela tupla da primeira linha, entendi que as informações de uma venda são “Pão francês, Padaria, 4 unidades”, típico de café da manhã.

In [34]:
# Lista: Coluna de texto/categórica
nomes = list(df['PRODUCTLINE'])
for nome in nomes[:5]:
    print(nome)

# Dicionário: chave e valor, exemplo (nome:categoria)
dicionario = dict(zip(df['PRODUCTLINE'][:3], df['CUSTOMERNAME'][:3]))
print(dicionario)
# Se não tiver outra coluna str, pode repetir 'Escolha_Coluna_STR'

# Tupla: informações de uma linha
linha0 = df.iloc[0]
minha_tupla = (linha0['PRODUCTLINE'], linha0['CUSTOMERNAME'], linha0['PRICEEACH'])
print(minha_tupla)

Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
{'Motorcycles': 'Lyon Souveniers'}
('Motorcycles', 'Land of Toys Inc.', np.float64(95.7))


### **4. Estruturas Condicionais e Laços**

- Escolha uma coluna **numérica** de interesse na base (exemplo: nota, preço, quantidade, etc) e utilize uma **estrutura condicional (if/elif/else)** para imprimir uma mensagem de acordo com o valor de um elemento (por exemplo, se é alto, médio ou baixo).
- Use um **laço for** para calcular a soma (ou outra operação, como média ou multiplicação) dos primeiros 5 valores dessa coluna e mostre o resultado.
- Empregue um **laço while** para encontrar (ou contar) o primeiro valor da mesma coluna que atenda a uma determinada condição (por exemplo: maior que um certo número, diferente de zero, etc) e exiba esse valor quando encontrado.

``` python
# Escolha uma coluna numérica adequada
coluna_numerica = 'Escolha_Coluna_INT_Ou_FLOAT'
primeiro_valor = df[coluna_numerica][0]

# Estrutura condicional personalizada:
# Substitua os valores (10, 5) conforme a distribuição da sua coluna.
if primeiro_valor > 10:
    print("Valor alto")
elif primeiro_valor > 5:
    print("Valor intermediário")
else:
    print("Valor baixo")

# For para operar sobre n primeiros elementos de uma coluna numérica escolhida
soma = 0
lista = list(df[coluna_numerica][:5])
for n in lista:
    soma += n
print("Soma dos 5 primeiros valores:", soma)

# While: Encontrar o primeiro valor maior que um certo limite, definido de acordo com os dados
limite = 10  # Ajuste conforme o contexto da coluna escolhida
i = 0
while i < len(lista) and lista[i] <= limite:
    i += 1
if i < len(lista):
    print("Primeiro valor >", limite, "encontrado:", lista[i])
else:
    print("Nenhum valor maior que", limite, "encontrado nos primeiros 5.")
```

> Exemplo de Insight:
Ao usar uma condição em cima do primeiro valor de quantidade, descobri que a venda analisada era considerada “pequena” segundo a minha regra (>5). Calculando a soma das 5 primeiras quantidades, vi que totalizam apenas 10 unidades — confirmando que as primeiras transações do arquivo são de baixo volume. O laço while mostrou que apenas na terceira transação encontrei quantidade superior a 5.

In [36]:
# Escolha uma coluna numérica adequada
coluna_numerica = 'PRICEEACH'
primeiro_valor = df[coluna_numerica][0]

# Estrutura condicional personalizada:
# Substitua os valores (10, 5) conforme a distribuição da sua coluna.
if primeiro_valor > 10:
    print("Valor alto")
elif primeiro_valor > 5:
    print("Valor intermediário")
else:
    print("Valor baixo")

# For para operar sobre n primeiros elementos de uma coluna numérica escolhida
soma = 0
lista = list(df[coluna_numerica][:5])
for n in lista:
    soma += n
print("Soma dos 5 primeiros valores:", soma)

# While: Encontrar o primeiro valor maior que um certo limite, definido de acordo com os dados
limite = 10  # Ajuste conforme o contexto da coluna escolhida
i = 0
while i < len(lista) and lista[i] <= limite:
    i += 1
if i < len(lista):
    print("Primeiro valor >", limite, "encontrado:", lista[i])
else:
    print("Nenhum valor maior que", limite, "encontrado nos primeiros 5.")

Valor alto
Soma dos 5 primeiros valores: 455.05
Primeiro valor > 10 encontrado: 95.7


### **5. Operadores Aritméticos e Manipulação de Dados**

- Realize operações matemáticas (soma, subtração, multiplicação ou divisão) entre colunas ou valores de interesse da base (ex: diferença de duas notas, preço com desconto, etc).
- Crie uma nova coluna no DataFrame aplicando um cálculo simples.

``` python
if 'Escolha_Coluna_INT_Ou_FLOAT' in df.columns and 'Outra_Coluna_INT_Ou_FLOAT' in df.columns:
    df['Diferenca'] = df['Escolha_Coluna_INT_Ou_FLOAT'] - df['Outra_Coluna_INT_Ou_FLOAT']
    print(df[['Escolha_Coluna_INT_Ou_FLOAT', 'Outra_Coluna_INT_Ou_FLOAT', 'Diferenca']].head())

# Exemplo: preço com desconto
if 'Escolha_Coluna_INT_Ou_FLOAT' in df.columns:
    df['Desconto'] = df['Escolha_Coluna_INT_Ou_FLOAT'] * 0.9
    print(df[['Escolha_Coluna_INT_Ou_FLOAT', 'Desconto']].head())
```

> Exemplo de Insight:
Ao criar uma coluna de diferença entre preço cheio e preço com desconto, identifiquei que nem todos os produtos têm desconto — e quando têm, é de 0,50 centavos em média. A nova coluna “Desconto” mostrou que poucas vendas aproveitam a condição promocional.

### **6. NumPy e Arrays Numéricos**

- **Crie um array NumPy** a partir de uma coluna numérica da base.
- Realize pelo menos duas operações vetorizadas com esse array (ex: somar, multiplicar, elevar ao quadrado elementos).
- Mostre como acessar, modificar e exibir partes do array (fatiamento/slicing ou indexação).
- Mostre como fazer uma operação agregada, como soma ou média, sobre o array.

``` python
array = np.array(df['Escolha_Coluna_INT_Ou_FLOAT'])

# Operações NumPy
array_somado = array + 10
array_quadrado = array ** 2

print(array[:5])
print(array_somado[:5])
print(array_quadrado[:5])

print("Soma dos elementos:", array.sum())
print("Média dos elementos:", array.mean())
```

> Exemplo de Insight:
O array NumPy da coluna “quantidade” revelou que a soma para os cinco primeiros registros é 10, e que o valor mais alto nesses é 5 — confirmando que há regularidade no tipo de venda (muitas pequenas).

### **7. Acesso e Manipulação de Dados com Pandas**

- Selecione linhas/colunas específicas usando **`.loc`**, **`.iloc`** ou filtrando por condição.
- Use algum método de pandas para contar ou agrupar informações simples (ex: **`.value_counts()`**, **`.groupby()`**), mostrando o resultado em Markdown.
- Crie uma pequena análise agregada interessante (ex: número de filmes por país, quantidade de alunos por escola, vendas por categoria).

``` python
array = np.array(df['Escolha_Coluna_INT_Ou_FLOAT'])

# Operações NumPy
array_somado = array + 10
array_quadrado = array ** 2

print(array[:5])
print(array_somado[:5])
print(array_quadrado[:5])

print("Soma dos elementos:", array.sum())
print("Média dos elementos:", array.mean())
```

> Exemplo de Insight:
Utilizando a filtragem para “quantidade > 10”, percebi que situações assim são raras e concentram-se nas vendas de datas especiais. O value_counts da coluna de categoria de produtos evidenciou que “Padaria” e “Bebidas” são maioria.

### **8. Visualização de Dados**

- **Obrigatório gerar pelo menos 1 gráfico de cada tipo básico:**
    - **Gráfico de Linha:** ilustrando tendências/séries temporais quando possível.
    - **Gráfico de Barras:** comparando categorias relevantes.
    - **Gráfico de Dispersão:** mostrando a relação entre duas variáveis numéricas.
- Se algum dos gráficos não for aplicável à sua base, crie (ou simule) dados para mostrar que compreendeu o recurso.
- Para cada gráfico, escreva em Markdown um comentário sobre o que ele mostra.

``` python
# Gráfico de Linha (ex: evolução temporal; use 'Data' se houver)
if 'Data' in df.columns and 'Escolha_Coluna_INT_Ou_FLOAT' in df.columns:
    df.groupby('Data')['Escolha_Coluna_INT_Ou_FLOAT'].sum().plot(kind='line')
    plt.title('Evolução no tempo')
    plt.xlabel('Data')
    plt.ylabel('Escolha_Coluna_INT_Ou_FLOAT')
    plt.show()

# Gráfico de Barras (categorias)
if 'Escolha_Coluna_STR' in df.columns and 'Escolha_Coluna_INT_Ou_FLOAT' in df.columns:
    df.groupby('Escolha_Coluna_STR')['Escolha_Coluna_INT_Ou_FLOAT'].sum().plot(kind='bar')
    plt.title('Total por categoria')
    plt.xlabel('Escolha_Coluna_STR')
    plt.ylabel('Escolha_Coluna_INT_Ou_FLOAT')
    plt.show()

# Gráfico de Dispersão (duas numéricas)
if 'Escolha_Coluna_INT_Ou_FLOAT' in df.columns and 'Outra_Coluna_INT_Ou_FLOAT' in df.columns:
    plt.scatter(df['Escolha_Coluna_INT_Ou_FLOAT'], df['Outra_Coluna_INT_Ou_FLOAT'])
    plt.title('Dispersão')
    plt.xlabel('Escolha_Coluna_INT_Ou_FLOAT')
    plt.ylabel('Outra_Coluna_INT_Ou_FLOAT')
    plt.show()
```
> Exemplo de Insight:
Com o gráfico de barras, ficou visualmente claro que “Padaria” domina em número de vendas, mesmo sem ver os números exatos. O gráfico de dispersão entre preço e quantidade mostrou dispersão baixa, indicando que vendas de grandes quantidades são normalmente para produtos baratos.

### **9. Relatório e Insights**

- Após os usos de listas, dicionários, tuplas, operações, agrupamentos e gráficos, escreva em Markdown sempre que descobrir algo interessante, curioso ou surpreendente.
- Inclua um **relatório final** em Markdown:
    
    > “Neste projeto, explorei a base X, com N linhas e Y colunas. Descobri que...
    ... (exponha padrões, diferenças, curiosidades simples, possíveis perguntas para investigar, etc.)”
    >