# 1️⃣ Introdução ao NumPy
O NumPy é uma biblioteca essencial para quem trabalha com dados numéricos em Python. Ele fornece suporte a arrays multidimensionais, que são mais rápidos e eficientes que as listas nativas do Python.

### Instalando o NumPy:

In [1]:
pip install numpy

Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


### Criando Arrays com NumPy:

In [None]:
import numpy as np

# Criando um array unidimensional
arr_1d = np.array([1, 2, 3, 4, 5])
print(arr_1d)

# Criando um array bidimensional (matriz)
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)

# Acessando elementos
print(arr_2d[1, 2])  # Acessando o elemento da linha 1, coluna 2 (Ambos com base 0)

[1 2 3 4 5]
[[1 2 3]
 [4 5 6]]
3


### Operações com arrays

In [5]:
# Somar um valor a todos os elementos do array
arr_1d += 2
print(arr_1d)

# Multiplicar arrays (operar elemento por elemento)
arr_2d = arr_2d * 2
print(arr_2d)

[3 4 5 6 7]
[[ 2  4  6]
 [ 8 10 12]]


# 2️⃣ Introdução ao Pandas
O Pandas é uma biblioteca que fornece estruturas de dados DataFrame e Series, que são extremamente úteis para manipulação de dados em tabelas.

### Instalando o Pandas:

In [6]:
pip install pandas

Defaulting to user installation because normal site-packages is not writeable
Collecting pandas
  Downloading pandas-2.2.3-cp312-cp312-manylinux2014_aarch64.manylinux_2_17_aarch64.whl.metadata (89 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2025.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.3-cp312-cp312-manylinux2014_aarch64.manylinux_2_17_aarch64.whl (15.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.2/15.2 MB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading pytz-2025.1-py2.py3-none-any.whl (507 kB)
Downloading tzdata-2025.1-py2.py3-none-any.whl (346 kB)
Installing collected packages: pytz, tzdata, pandas
Successfully installed pandas-2.2.3 pytz-2025.1 tzdata-2025.1

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[3

### Criando um dataframe com Pandas

In [7]:
import pandas as pd

# Criando um DataFrame a partir de um dicionário
dados = {
    'Nome': ['Ana', 'Beto', 'Carlos'],
    'Idade': [23, 34, 28],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(dados)
print(df)

     Nome  Idade          Cidade
0     Ana     23       São Paulo
1    Beto     34  Rio de Janeiro
2  Carlos     28  Belo Horizonte


### Trabalhando com Series

In [8]:
# Criando uma Series (uma coluna de dados)
series = pd.Series([10, 20, 30, 40])
print(series)

0    10
1    20
2    30
3    40
dtype: int64


# 3️⃣ Limpeza e Transformação de Dados
Uma parte essencial da ciência de dados é limpar e transformar os dados. O Pandas oferece muitas ferramentas para isso, como:

### Filtrando Dados:

In [12]:
# Selecionando colunas
print(df['Nome'])

# Filtrando com condições
print(df[df['Idade'] > 25])

0       Ana
1      Beto
2    Carlos
Name: Nome, dtype: object
     Nome  Idade          Cidade
1    Beto     34  Rio de Janeiro
2  Carlos     28  Belo Horizonte


### Tratamento de dados faltantes

In [13]:
# Criando dados faltantes
df['Salario'] = [3000, None, 2500]

# Substituindo valores faltantes por média
df['Salario'] = df['Salario'].fillna(df['Salario'].mean())
print(df)

     Nome  Idade          Cidade  Salario
0     Ana     23       São Paulo   3000.0
1    Beto     34  Rio de Janeiro   2750.0
2  Carlos     28  Belo Horizonte   2500.0


### Transformando dados

In [18]:
# Adicionando uma nova coluna com valores transformados
df['Idade_meses'] = df['Idade'] * 12
print(df)

     Nome  Idade          Cidade  Salario  Idade_meses
0     Ana     23       São Paulo   3000.0          276
1    Beto     34  Rio de Janeiro   2750.0          408
2  Carlos     28  Belo Horizonte   2500.0          336


# 📈 Desafio da Aula:
1️⃣ Crie um DataFrame a partir de um conjunto de dados real (como uma planilha de vendas ou dados de clientes).

In [40]:
# Ler a planilha
df = pd.read_csv("files/vendas_pandas.csv")

# Visualizar as primeiras linhas
print("head()")
print(df.head())

# Informações sobre o DataFrame
print("info()")
print(df.info())

# Estatísticas descritivas
print("describe()")
print(df.describe())

# Filtrar vendas por região
vendas_sudeste = df[df["Região"] == "Sudeste"]
print(vendas_sudeste)

# Calcular o total de vendas por cliente
total_vendas_cliente = df.groupby("Cliente")["Total_Venda"].sum()
print(total_vendas_cliente)

head()
   ID_Venda        Data          Cliente         Produto  Quantidade  \
0         1  2024-06-15       João Silva      Smartphone           2   
1         2  2024-07-20   Maria Oliveira        Notebook           1   
2         3  2024-08-05     Pedro Santos          Tablet           3   
3         4  2024-09-10        Ana Souza      Impressora           1   
4         5  2024-10-25  Ricardo Pereira  Fone de Ouvido           5   

   Preço_Unitário  Total_Venda        Região  
0            1200         2400       Sudeste  
1            2500         2500           Sul  
2             800         2400      Nordeste  
3             500          500  Centro-Oeste  
4             100          500       Sudeste  
info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   ID_Venda        20 non-null     int64 
 1   Data            20 non-null     

2️⃣ Realize operações de limpeza, como tratar valores faltantes e filtrar dados.

In [37]:
media_vendas = total_vendas_cliente.mean()
print(media_vendas)
desvio_aceitavel = 250

# Filtrar clientes cujas vendas estão dentro de um desvio padrão da média
clientes_filtrados = total_vendas_cliente[(total_vendas_cliente > media_vendas - desvio_aceitavel) & (total_vendas_cliente < media_vendas + desvio_aceitavel)]

# Criar um DataFrame com os clientes filtrados
df_clientes_filtrados = df[df['Cliente'].isin(clientes_filtrados.index)]
print(df_clientes_filtrados)

662.0
    ID_Venda        Data          Cliente         Produto  Quantidade  \
3          4  2023-10-03        Ana Souza      Impressora           1   
4          5  2023-10-04  Ricardo Pereira  Fone de Ouvido           5   
7          8  2023-10-07     Amanda Rocha         Monitor           1   
8          9  2023-10-08   Gabriel Mendes    Caixa de Som           3   
9         10  2023-10-09  Larissa Barbosa          Webcam           2   
12        13  2023-10-12      Bruno Gomes        Roteador           1   

    Preço_Unitário  Total_Venda        Região  
3              500          500  Centro-Oeste  
4              100          500       Sudeste  
7              900          900  Centro-Oeste  
8              150          450       Sudeste  
9              300          600           Sul  
12             600          600       Sudeste  


3️⃣ Experimente transformações e adicione novas colunas com base em cálculos.

In [42]:
from datetime import datetime

# Converter a coluna 'Data' para datetime
df['Data'] = pd.to_datetime(df['Data'])

# Calcular o tempo desde a última compra
df['Dias_desde_ultima_compra'] = (datetime.now() - df['Data']).dt.days

# Agrupar por cliente e calcular o valor total gasto e o tempo desde a última compra
df_agrupado = df.groupby('Cliente').agg({
    'Dias_desde_ultima_compra': 'min',
    'Total_Venda': 'sum'
}).reset_index()

# Renomear as colunas
df_agrupado.columns = ['Cliente', 'Dias_desde_ultima_compra', 'Total_gasto']
df_compradores_antigos = df_agrupado[df_agrupado['Dias_desde_ultima_compra'] > 90]
print(df_compradores_antigos)

              Cliente  Dias_desde_ultima_compra  Total_gasto
1           Ana Souza                       180          500
2         Bruno Gomes                       175          600
3        Camila Alves                       191          320
6       Isabela Nunes                       237          350
7          João Silva                       267         2400
8        Juliana Lima                        99          100
9     Larissa Barbosa                       272          600
11      Lucas Ribeiro                       227          400
12     Maria Oliveira                       232         2500
14  Patrícia Carvalho                       140           60
15       Pedro Santos                       216         2400
17    Ricardo Pereira                       135          500
18      Thiago Castro                       262          270
19      Vinícius Melo                       124          120
