# Aula 2 ‚Äì DataFrames: cria√ß√£o, estrutura e explora√ß√£o de dados
**üéØ Objetivo da Aula**

Aprender o que √© um DataFrame, como cri√°-lo a partir de diferentes fontes (listas, dicion√°rios, arrays) e como explorar suas informa√ß√µes com os m√©todos `.head()`, `.info()` e `.describe()`.

**üß† 1. Teoria simples**

Um DataFrame √© uma tabela bidimensional ‚Äî pense nele como uma planilha do Excel dentro do Python:

* Cada coluna √© uma `Series`.

* Cada linha tem um √≠ndice (gerado automaticamente ou definido por voc√™).

* Ele permite analisar, filtrar, agrupar e limpar dados de forma r√°pida.

Essa √© a estrutura mais usada no pandas e o formato principal de datasets reais (vendas, clientes, alunos, etc.).

**2. Demonstra√ß√£o pr√°tica**

Comece com:

In [1]:
import pandas as pd

In [2]:
dados = {
    "Produto": ["Arroz", "Feij√£o", "Macarr√£o", "Leite"],
    "Pre√ßo": [5.49, 7.89, 4.29, 6.75],
    "Quantidade": [50, 100, 80, 40]
}

df = pd.DataFrame(dados)
print(df)

    Produto  Pre√ßo  Quantidade
0     Arroz   5.49          50
1    Feij√£o   7.89         100
2  Macarr√£o   4.29          80
3     Leite   6.75          40


**üî∏ Criando DataFrame com √≠ndice personalizado**

In [3]:
df = pd.DataFrame(dados, index=["A1", "B1", "C1", "D1"])
print(df)

     Produto  Pre√ßo  Quantidade
A1     Arroz   5.49          50
B1    Feij√£o   7.89         100
C1  Macarr√£o   4.29          80
D1     Leite   6.75          40


Agora cada linha tem um r√≥tulo que pode ser usado em consultas.

**üî∏ Criando DataFrame a partir de uma lista de listas**

In [4]:
vendas = [
    ["2025-01-01", "Arroz", 5.49, 20],
    ["2025-01-02", "Feij√£o", 7.89, 35],
    ["2025-01-03", "Leite", 6.75, 15]
]

df2 = pd.DataFrame(vendas, columns=["Data", "Produto", "Pre√ßo", "Quantidade"])
print(df2)


         Data Produto  Pre√ßo  Quantidade
0  2025-01-01   Arroz   5.49          20
1  2025-01-02  Feij√£o   7.89          35
2  2025-01-03   Leite   6.75          15


**üî∏ Explorando o DataFrame**

In [5]:
print(df2.head())       # mostra as 5 primeiras linhas
print(df2.info())       # mostra colunas, tipos e dados ausentes
print(df2.describe())   # estat√≠sticas das colunas num√©ricas

         Data Produto  Pre√ßo  Quantidade
0  2025-01-01   Arroz   5.49          20
1  2025-01-02  Feij√£o   7.89          35
2  2025-01-03   Leite   6.75          15
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Data        3 non-null      object 
 1   Produto     3 non-null      object 
 2   Pre√ßo       3 non-null      float64
 3   Quantidade  3 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 228.0+ bytes
None
        Pre√ßo  Quantidade
count  3.0000    3.000000
mean   6.7100   23.333333
std    1.2005   10.408330
min    5.4900   15.000000
25%    6.1200   17.500000
50%    6.7500   20.000000
75%    7.3200   27.500000
max    7.8900   35.000000


üí° `.info()` √© especialmente √∫til para detectar valores nulos e tipos errados (por exemplo, n√∫meros importados como texto).

üí° `.describe()` calcula m√©dia, desvio padr√£o, m√≠nimo, m√°ximo e quartis.

**3. Exemplo do mundo real: controle de estoque**

Imagine que voc√™ √© analista de dados de um supermercado e quer monitorar o valor total de cada produto em estoque:

In [None]:
import pandas as pd

estoque = pd.DataFrame({
    "Produto": ["Arroz", "Feij√£o", "Macarr√£o", "Leite"],
    "Pre√ßo": [5.49, 7.89, 4.29, 6.75],
    "Quantidade": [50, 100, 80, 40]
})

estoque["Valor_Total"] = estoque["Pre√ßo"] * estoque["Quantidade"]
print(estoque)
print("\nValor total do estoque: R$", round(estoque["Valor_Total"].sum(), 2))

    Produto  Pre√ßo  Quantidade  Valor_Total
0     Arroz   5.49          50        274.5
1    Feij√£o   7.89         100        789.0
2  Macarr√£o   4.29          80        343.2
3     Leite   6.75          40        270.0

Valor total do estoque: R$ 1676.7


**Explica√ß√£o:**

* Criamos uma nova coluna (`Valor_Total`).

* Multiplicamos duas colunas.

* Somamos todos os valores para saber o total em reais.

# Exerc√≠cios

**F√°cil**

Crie um DataFrame chamado `alunos` com as colunas:
`Nome`, `Idade`, `Nota`, `Turma`.

Mostre:

As 3 primeiras linhas (.head(3))

O tipo de dados de cada coluna (.info())

A m√©dia das notas (.describe() ou .mean())


In [13]:
alunos = pd.DataFrame({
    "Nome" : ["Ana", "Bruno", "Carla", "Daniel", "Eduardo"],
    "Idade" : [15, 16, 14, 17, 15],
    "Nota" : [8.2, 6.5, 9.1, 7.8, 5.9],
    "Turma" : ["A", "B", "A", "C", "B"]
})

print(alunos)
print("\nHead 3:")
print(alunos.head(3))
print("\nInfo:")
print(alunos.info())

print("M√©dia das notas:", alunos["Nota"].mean())

      Nome  Idade  Nota Turma
0      Ana     15   8.2     A
1    Bruno     16   6.5     B
2    Carla     14   9.1     A
3   Daniel     17   7.8     C
4  Eduardo     15   5.9     B

Head 3:
    Nome  Idade  Nota Turma
0    Ana     15   8.2     A
1  Bruno     16   6.5     B
2  Carla     14   9.1     A

Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nome    5 non-null      object 
 1   Idade   5 non-null      int64  
 2   Nota    5 non-null      float64
 3   Turma   5 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes
None
M√©dia das notas: 7.5


**Intermedi√°rio**

Monte um DataFrame chamado `vendas_loja` com as colunas:
`Data`, `Produto`, `Pre√ßo`, `Quantidade`.

1. Adicione uma coluna `Receita` = `Pre√ßo * Quantidade`.

2. Calcule o total de receita.

3. Mostre somente os produtos com `Quantidade > 30`.

In [None]:
vendas_loja = pd.DataFrame({
    "Data" : ["15/03/2025", "16/03/2025", "17/04/2025", "18/04/2025", "19/05/2025"],
    "Produto" : ["Notebook", "Mouse", "Teclado", "Monitor", "Headset"],
    "Pre√ßo" : [2500.00, 45.90, 120.00, 899.99, 199.50],
    "Quantidade" : [20, 13, 35, 50, 45]
})

vendas_loja["Receita"] = vendas_loja["Pre√ßo"] * vendas_loja["Quantidade"]
filtro_30_vendas = vendas_loja["Quantidade"] > 30

print(vendas_loja)
print(f"Receita total: R${vendas_loja['Receita'].sum():.2f}")
print("\nProdutos acima de 30 vendas:")
print(vendas_loja[filtro_30_vendas])

         Data   Produto    Pre√ßo  Quantidade  Receita
0  15/03/2025  Notebook  2500.00          20  50000.0
1  16/03/2025     Mouse    45.90          13    596.7
2  17/04/2025   Teclado   120.00          35   4200.0
3  18/04/2025   Monitor   899.99          50  44999.5
4  19/05/2025   Headset   199.50          45   8977.5
Receita total: R$108773.70

Produtos acima de 30 vendas:
         Data  Produto   Pre√ßo  Quantidade  Receita
2  17/04/2025  Teclado  120.00          35   4200.0
3  18/04/2025  Monitor  899.99          50  44999.5
4  19/05/2025  Headset  199.50          45   8977.5


**Desafio (aplica√ß√£o real)**

Crie um DataFrame chamado financeiro com 5 colunas:
`M√™s`, `Receita`, `Despesas`, `Lucro`, `Margem (%)`.

1. Calcule o lucro (`Receita - Despesas`) se n√£o for dado.

2. Calcule a margem de lucro (`Lucro / Receita * 100`).

3. Mostre o m√™s de maior lucro e o de menor lucro usando `.idxmax()` e `.idxmin()`.

üí° Dica: Use round() para deixar os valores com duas casas decimais.

In [52]:
semestre = pd.DataFrame({
    "M√™s" : ["Jan", "Fev", "Mar", "Abr", "Mai", "Jun"],
    "Receita" : [85000, 78500, 92300, 88700, 95400, 82100],
    "Despesas" : [62000, 58200, 65800, 63900, 68500, 60700],
})

semestre["Lucro"] = semestre["Receita"] - semestre["Despesas"]
semestre["Margem (%)"] = (semestre["Lucro"] * 100) / semestre["Receita"] 
 
print(round(semestre, 2))

print("\nO m√™s de maior lucro foi o", semestre["Lucro"].idxmax())
print("O m√™s de menor lucro foi o", semestre["Lucro"].idxmin())

   M√™s  Receita  Despesas  Lucro  Margem (%)
0  Jan    85000     62000  23000       27.06
1  Fev    78500     58200  20300       25.86
2  Mar    92300     65800  26500       28.71
3  Abr    88700     63900  24800       27.96
4  Mai    95400     68500  26900       28.20
5  Jun    82100     60700  21400       26.07

O m√™s de maior lucro foi o 4
O m√™s de menor lucro foi o 1
