# 📘 Aula: Manipulação de Dados com Pandas

Nesta aula, vamos explorar operações fundamentais (e algumas intermediárias) de manipulação de dados usando a biblioteca `pandas` em Python. Vamos trabalhar com **DataFrames**, filtragens, ordenações, junções e agregações. Ao final, serão propostos **desafios práticos** com dados reais de filmes e diretores.


### 📊 1.Manipulação básica de DataFrames

In [68]:
import pandas as pd

df = {
    'Nome': ['Malvezzi', 'Malvader', 'Bomvezzi'],
    'nota1': [5.2, 4.8, 9.0],
    'nota2': [2.2, 1.8, 0.0],
    'nota3': [7.2, 6.8, 7.0]
}

df = pd.DataFrame(df)
df['media'] = (df['nota1'] + df['nota2'] + df['nota3']) / 3

 Criando um DataFrame com nomes e três notas, e calculamos a média diretamente criando uma nova coluna.

### 📥 2. Importação de Dados CSV

In [5]:
diret = pd.read_csv('directors.csv')
mov = pd.read_csv('movies.csv')
#RENOMEAR E REMOVER COLUNAS
diret = diret.drop(columns='Unnamed: 0')
diret2 = diret.rename(columns={'id': 'ID_NOVO'})
print(diret.head())
print("\n",diret2.head())

       director_name    id gender
0      James Cameron  4762   Male
1     Gore Verbinski  4763   Male
2         Sam Mendes  4764   Male
3  Christopher Nolan  4765   Male
4     Andrew Stanton  4766   Male

        director_name  ID_NOVO gender
0      James Cameron     4762   Male
1     Gore Verbinski     4763   Male
2         Sam Mendes     4764   Male
3  Christopher Nolan     4765   Male
4     Andrew Stanton     4766   Male


**📝 Comentário:** Carregando arquivos CSV com informações sobre diretores e filmes. Também mostramos como renomear e remover colunas.

### 📈 3. Análise Exploratória

In [7]:
diret.info()
diret.describe()
diret.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2349 entries, 0 to 2348
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   director_name  2349 non-null   object
 1   id             2349 non-null   int64 
 2   gender         1724 non-null   object
dtypes: int64(1), object(2)
memory usage: 55.2+ KB


Unnamed: 0,director_name,id,gender
0,James Cameron,4762,Male
1,Gore Verbinski,4763,Male
2,Sam Mendes,4764,Male
3,Christopher Nolan,4765,Male
4,Andrew Stanton,4766,Male


**📝 Comentário:** Análise inicial dos datasets usando `.info()`, `.describe()` e `.head()`.

### 🧮 4. Ordenação

In [26]:
df0 = pd.DataFrame({
    'ID': [1, 2, 5, 3],
    'Nome': ['Ana', 'Carlos', 'Carlos', 'Bruno']
})

df0 = df0.sort_values(by=['Nome', 'ID'], ascending=[True, False]) #ASCENDING True:Ordena do menor para o maior //False: Do maior para o menor
print(df0)

#mais um exemplo de filtro
df0['nota'] = df0['ID'] + 1
print(df0)#Adicionando coluna Nota sendo ela Id + 1
df0['Nota2'] = df0['ID'] == (df0['nota'] - 1)#Nota 2 adicionando uma coluna bool para saber se id = nota-1
print("\n",df0)

print(df0['ID'] == df0['nota'])#testando se nota é == a Id

   ID    Nome
0   1     Ana
3   3   Bruno
2   5  Carlos
1   2  Carlos
   ID    Nome  nota
0   1     Ana     2
3   3   Bruno     4
2   5  Carlos     6
1   2  Carlos     3

    ID    Nome  nota  Nota2
0   1     Ana     2   True
3   3   Bruno     4   True
2   5  Carlos     6   True
1   2  Carlos     3   True
0    False
3    False
2    False
1    False
dtype: bool


**📝 Comentário:** Ordenação por múltiplas colunas, criação de novas colunas e comparações booleanas.

### 🔍 5. Filtros e Seleções

In [58]:
df0 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Carlos', 'Carlos', 'Bruno']
})

filtro = df0['ID'] == 2
df0_filtrado = df0[filtro]
print(df0_filtrado)


df0_filtrado = df0[(df0['Nome'] == 'Carlos') | (df0['ID'] == 1)]
print("\n",df0_filtrado)

nome_id2 = df0.loc[df0['Nome'] == 'Carlos', 'ID']
posicao2 = df0.iloc[1, 1:2]

print("Nome == a carlos imprime o ID\n",nome_id2)
print(posicao2)

   ID    Nome
1   2  Carlos

    ID    Nome
0   1  Carlos
1   2  Carlos
Nome == a carlos imprime o ID
 0    1
1    2
Name: ID, dtype: int64
Nome    Carlos
Name: 1, dtype: object


**📝 Comentário:** Uso de filtros booleanos, operadores lógicos e seleção com `.loc` e `.iloc`.

### 🔗 6. Concatenação

In [60]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Nota': [None, '5', None]
})

df2 = pd.DataFrame({
    'ID': [4, 5, 6],
    'Nome': ['Daniela', 'Eduardo', 'Fernanda']
})

df_concat = pd.concat([df1, df2], ignore_index=False)
print("DF1:\n",df1)
print("DF2:\n",df2)
print("DF_CONCATENADO\n",df_concat)

DF1:
    ID    Nome  Nota
0   1     Ana  None
1   2   Bruno     5
2   3  Carlos  None
DF2:
    ID      Nome
0   4   Daniela
1   5   Eduardo
2   6  Fernanda
DF_CONCATENADO
    ID      Nome  Nota
0   1       Ana  None
1   2     Bruno     5
2   3    Carlos  None
0   4   Daniela   NaN
1   5   Eduardo   NaN
2   6  Fernanda   NaN


**📝 Comentário:** Concatenação de DataFrames com `ignore_index=False` para manter os índices.

### 🔄 7. Merge (Junção de Dados)

In [67]:
df_left = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Nome': ['Ana', 'Bruno', 'Carlos', '30']
})

df_right = pd.DataFrame({
    'ID': [1, 2, 4],
    'Nome': ['Ana', '25', '20']
})

df_merged = pd.merge(
    df_left,
    df_right,
    on=['ID', 'Nome'], #variavel de critério de Junção
    how='inner'#interação entre elementos iguais nas tabelas
)
print("\n\n",df_left)
print("\n\n",df_right)
print("\n\n",df_merged)



    ID    Nome
0   1     Ana
1   2   Bruno
2   3  Carlos
3   4      30


    ID Nome
0   1  Ana
1   2   25
2   3   30


    ID Nome
0   1  Ana


**📝 Comentário:** Junção `inner` entre dois DataFrames com base em múltiplas colunas.

### 📚 8. GroupBy e Agregações

In [74]:
df_sales = pd.DataFrame({
    'Vendedor': ['Ana', 'Bruno', 'Ana', 'Carlos', 'Bruno', 'Ana', 'Carlos'],
    'Produto': ['A', 'A', 'B', 'A', 'B', 'B', 'A'],
    'Valor_Venda': [200, 150, 350, 400, 120, 180, 400],
    'Quantidade': [1, 2, 2, 1, 3, 4, 2]
})

df_grouped = df_sales.groupby('Vendedor').agg({#.agg permite agrupar funções dentro do groupyby
    'Valor_Venda': ['sum', 'mean', 'count'],
    'Quantidade': ['sum', 'max']
})
print("\nDados Agrupados por vendedor:\n",df_grouped)
df_grouped_produto = df_sales.groupby(['Vendedor', 'Produto']).agg({
    'Valor_Venda': 'sum',
    'Quantidade': 'sum'
}).reset_index()
print("Dados Agrupados por Produto:\n",df_grouped_produto)

def margem_lucro(grupo):
    return (grupo['Valor_Venda'].sum() - grupo['Quantidade'].sum() * 50) / grupo['Valor_Venda'].sum()

df_margem = df_sales.groupby('Vendedor').apply(margem_lucro).reset_index(name='Margem_Lucro')

df_filtrado = df_sales.groupby('Vendedor').filter(lambda x: x['Valor_Venda'].sum() > 500)


Dados Agrupados por vendedor:
          Valor_Venda                   Quantidade    
                 sum        mean count        sum max
Vendedor                                             
Ana              730  243.333333     3          7   4
Bruno            270  135.000000     2          5   3
Carlos           800  400.000000     2          3   2
Dados Agrupados por Produto:
   Vendedor Produto  Valor_Venda  Quantidade
0      Ana       A          200           1
1      Ana       B          530           6
2    Bruno       A          150           2
3    Bruno       B          120           3
4   Carlos       A          800           3


  df_margem = df_sales.groupby('Vendedor').apply(margem_lucro).reset_index(name='Margem_Lucro')


**📝 Comentário:** Agrupamentos e agregações com `.agg()`, `.apply()` e `.filter()`.

### 🔁 9. Apply com Funções Customizadas

In [None]:
df = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 25, 30]
})

def categorizar_idade(idade):
    if idade < 25:
        return 'Jovem'
    elif idade < 30:
        return 'Adulto'
    else:
        return 'Maturidade'

df['Categoria_Idade'] = df['Idade'].apply(categorizar_idade)

**📝 Comentário:** Uso de `apply` com função customizada para categorizar.

### 🧱 10. Tabela Dinâmica (Pivot Table)

In [76]:
df_sales = pd.DataFrame({
    'Vendedor': ['Ana', 'Bruno', 'Ana', 'Carlos', 'Bruno', 'Ana'],
    'Produto': ['A', 'B', 'A', 'C', 'B', 'A'],
    'Valor_Venda': [200, 150, 350, 400, 120, 180]
})
print(df_sales)
df_pivot = pd.pivot_table(
    df_sales,
    values='Valor_Venda',
    index='Vendedor',
    columns='Produto',
    aggfunc='sum',
    fill_value=0
)
print("\n",df_pivot)

  Vendedor Produto  Valor_Venda
0      Ana       A          200
1    Bruno       B          150
2      Ana       A          350
3   Carlos       C          400
4    Bruno       B          120
5      Ana       A          180

 Produto     A    B    C
Vendedor               
Ana       730    0    0
Bruno       0  270    0
Carlos      0    0  400


**📝 Comentário:** Tabela dinâmica com `pivot_table`, sumarizando valores por categorias.

#%% Desafio 1:
# Objetivo: Trabalhar com manipulação básica de dados e filtragem usando Pandas.
#
# Tarefa: Filtrar os dados para mostrar todos os filmes lançados no ano de 2015,
# e ordenar esses filmes pela popularidade de forma decrescente.
# Exiba apenas o título do filme, o ano de lançamento, e a popularidade.

#%% Desafio 2:
# Objetivo: Realizar junção de dados (merge) entre os dataframes e agregação de valores.
#
# Tarefa: Combine os dados de diretores e filmes usando o campo de ID do diretor,
# e em seguida calcule a média da receita dos filmes para cada diretor.
# Exiba o nome do diretor, o número de filmes que ele dirigiu e a média de receita obtida.
#

#%% Desafio 3:
# Objetivo: Trabalhar com operações mais avançadas de agregação e criação de colunas.
#
# Tarefa: Crie uma nova coluna chamada lucro para cada filme,
# que será calculada como a diferença entre a receita e o orçamento.
# Depois, agrupe os dados por gênero do diretor e calcule o total de filmes dirigidos por diretores de cada gênero,
# além da soma total de lucro gerado pelos filmes dirigidos por cada grupo.