# Operações

Há muitas operações com pandas que serão realmente úteis para você, mas não se enquadram em nenhuma categoria distinta. Vamos mostrar aqui nesta aula:

In [1]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4],
'col2':[444,555,666,444],
'col3':['abc','def','ghi','xyz']})

df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Informação sobre valores exclusivos

In [2]:
df['col2'].unique()

array([444, 555, 666])

In [3]:
df['col2'].nunique()

3

In [4]:
df['col2'].value_counts()

col2
444    2
555    1
666    1
Name: count, dtype: int64

In [8]:
df_co2 = pd.read_csv('files/annual-co2-emissions-per-country.csv')
df_co2

Unnamed: 0,Entity,Code,Year,Annual CO₂ emissions
0,Afghanistan,AFG,1949,14656.0
1,Afghanistan,AFG,1950,84272.0
2,Afghanistan,AFG,1951,91600.0
3,Afghanistan,AFG,1952,91600.0
4,Afghanistan,AFG,1953,106256.0
...,...,...,...,...
30303,Zimbabwe,ZWE,2018,10714598.0
30304,Zimbabwe,ZWE,2019,9775428.0
30305,Zimbabwe,ZWE,2020,7849639.0
30306,Zimbabwe,ZWE,2021,8396158.0


In [12]:
df_co2['Entity'].unique()
df_co2['Entity'].nunique()
df_co2['Entity'].value_counts()

Entity
Upper-middle-income countries    273
Andorra                          273
High-income countries            273
European Union (28)              273
Sierra Leone                     273
                                ... 
Antarctica                        21
Kosovo                            19
Christmas Island                  14
Leeward Islands (GCP)              7
Kuwaiti Oil Fires (GCP)            1
Name: count, Length: 250, dtype: int64

### Selecionando dados

In [14]:
# Selecione do DataFrame usando critérios de várias colunas
newdf = df[(df['col1']>2) & (df['col2']==444)]
newdf

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### Aplicar funções

In [18]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [16]:
def times2(x):
    return x*2

In [19]:
df['col1'].apply(times2)

df['col1'].apply(lambda x: x*2)


0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [20]:
df['col1']

0    1
1    2
2    3
3    4
Name: col1, dtype: int64

In [21]:
df['col1'].sum()

10

In [22]:
df['col1'].count()

4

In [23]:
df['col1'].product()

24

In [24]:
df['col1'].mean()


2.5

In [25]:
df['col1'].max()

4

In [26]:
df['col1'].min()

1

In [27]:
df['col1'].idxmax()

3

In [28]:
df['col1'].idxmin()

0

In [29]:

df['col1'].add(1)

0    2
1    3
2    4
3    5
Name: col1, dtype: int64

In [30]:
df['col1'].sub(1)

0    0
1    1
2    2
3    3
Name: col1, dtype: int64

In [31]:
df['col1'].mul(2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [32]:
df['col1'].div(2)

0    0.5
1    1.0
2    1.5
3    2.0
Name: col1, dtype: float64

In [15]:
import pandas as pd

# Criando um DataFrame com informações sobre preços das ações
dados_financeiros = {
    'Ticker': ['AAPL', 'MSFT', 'GOOGL', 'AMZN', 'TSLA'],
    'Preco_Abertura': [150, 250, 2800, 3300, 700],
    'Preco_Fechamento': [155, 260, 2850, 3350, 710]
}

df_financeiros = pd.DataFrame(dados_financeiros)

print("DataFrame Original:")
print(df_financeiros)

# Função para calcular a variação percentual
def calcular_variacao_percentual(row):
    return ((row['Preco_Fechamento'] - row['Preco_Abertura']) / row['Preco_Abertura']) * 100

# Aplicando a função ao DataFrame
df_financeiros['Variacao_Percentual'] = df_financeiros.apply(calcular_variacao_percentual, axis=1)

# Função para classificar a performance
def classificar_performance(variacao):
    if variacao > 5:
        return 'Excelente'
    elif variacao > 0:
        return 'Boa'
    else:
        return 'Ruim'

# Aplicando a função ao DataFrame
df_financeiros['Performance'] = df_financeiros['Variacao_Percentual'].apply(classificar_performance)

print("\nDataFrame com Variação Percentual e Performance:")
print(df_financeiros)


DataFrame Original:
  Ticker  Preco_Abertura  Preco_Fechamento
0   AAPL             150               155
1   MSFT             250               260
2  GOOGL            2800              2850
3   AMZN            3300              3350
4   TSLA             700               710

DataFrame com Variação Percentual e Performance:
  Ticker  Preco_Abertura  Preco_Fechamento  Variacao_Percentual Performance
0   AAPL             150               155             3.333333         Boa
1   MSFT             250               260             4.000000         Boa
2  GOOGL            2800              2850             1.785714         Boa
3   AMZN            3300              3350             1.515152         Boa
4   TSLA             700               710             1.428571         Boa


** Removendo colunas permanentemente **

In [34]:
del df['col1']

In [35]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


In [36]:
df.columns

Index(['col2', 'col3'], dtype='object')

In [37]:
df.index

RangeIndex(start=0, stop=4, step=1)

** Ordenando um DataFrame **

In [38]:
df.sort_values(by='col2') #inplace=False por padrão

Unnamed: 0,col2,col3
0,444,abc
3,444,xyz
1,555,def
2,666,ghi


In [40]:
df_financeiros.sort_values(by = 'Variacao_Percentual',ascending=False)

Unnamed: 0,Ticker,Preco_Abertura,Preco_Fechamento,Variacao_Percentual,Performance
1,MSFT,250,260,4.0,Boa
0,AAPL,150,155,3.333333,Boa
2,GOOGL,2800,2850,1.785714,Boa
3,AMZN,3300,3350,1.515152,Boa
4,TSLA,700,710,1.428571,Boa


### Map

In [41]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [42]:
dicionario_map = {
    'foo': 0,
    'bar': 1,
}

df['A'].map(dicionario_map)

0    0
1    0
2    0
3    1
4    1
5    1
Name: A, dtype: int64

In [44]:
import pandas as pd

# Criando um DataFrame com notas de estudantes
dados_notas = {
    'Estudante': ['Ana', 'Bruno', 'Carlos', 'Enzo', 'Danton'],
    'Nota': [85, 58, 92, 45, 73]
}

df_notas = pd.DataFrame(dados_notas)

print("DataFrame Original:")
print(df_notas)

# Usando o método where para substituir notas abaixo de 60 por 0
df_notas['Nota'] = df_notas['Nota'].where(df_notas['Nota'] >= 60, 'R')

print("\nDataFrame Modificado (Notas < 60 substituídas por 0):")
print(df_notas)


DataFrame Original:
  Estudante  Nota
0       Ana    85
1     Bruno    58
2    Carlos    92
3      Enzo    45
4    Danton    73

DataFrame Modificado (Notas < 60 substituídas por 0):
  Estudante Nota
0       Ana   85
1     Bruno    R
2    Carlos   92
3      Enzo    R
4    Danton   73
