# <font color=lightblue>Pandas II - Aplicações na Vida Real </font>

# <font color=lightblue>Sumário</font>

- ### <font color=lightpink>1. Introdução </font>
        
        1.1 Apresentação das bases de dados
        1.2 Loc e iloc

- ### <font color=lightpink>2. Métodos Úteis </font>
        
        2.1 Agrupamento
        2.1.1 Groupby
        2.1.2 Pivot Table
        2.1.3 Melt
        
        2.2.1 Diff
        2.2.2 Pct_change

- ### <font color=lightpink>3. Aplicações Úteis </font>

        3.1 Cálculo de retorno
        3.2 Melhores retornos para cada fundos
        3.3 Juntando os Resultados

In [1]:
!pip install pandas



In [2]:
import pandas as pd
import numpy as np

## 1. Introdução

### 1.1 Apresentação da base de dados "Latest_Data_Science_Salaries.csv"


##### O método info() é usado para obter informações sobre o DataFrame, como o número de entradas, o tipo de dados de cada coluna, o uso de memória, entre outros detalhes. 

In [3]:
salaries_df = pd.read_csv("Latest_Data_Science_Salaries.csv")
salaries_df.info()

FileNotFoundError: [Errno 2] No such file or directory: 'Latest_Data_Science_Salaries.csv'

##### O método describe() é usado para gerar estatísticas descritivas sobre o DataFrame, como contagem, média, desvio padrão, mínimo, quartis e máximo. Ele fornece um resumo estatístico das colunas numéricas do DataFrame.


In [None]:
salaries_df.describe()

##### O método head() é usado para exibir as primeiras linhas do DataFrame. Por padrão, ele exibe as 5 primeiras linhas.

In [None]:
salaries_df.head()

### Loc e iloc

##### O '.loc' é útil quando você deseja realizar operações no DataFrame usando rótulos de linhas e colunas, em vez de índices numéricos. Ele oferece uma maneira mais intuitiva e explícita de acessar e modificar os dados.

In [None]:
#Acessar uma única linha com base no rótulo da linha:
salaries_df.loc[4]

In [None]:
#Acessar uma única coluna com base no rótulo da coluna:
salaries_df.loc[:, "Job Title"]

In [None]:
#Acessar mais de uma linha com base no rótulo das linhas:
salaries_df.loc[2:5]

In [None]:
#Acessar mais de uma coluna com base no rótulo das colunas:
salaries_df.loc[:,["Salary", "Experience Level"]]

In [None]:
#Acessar mais de uma linha e coluna com base no rótulo das linhas e das colunas:
salaries_df.loc[2:5, ["Salary", "Experience Level"]]

##### O .iloc é um atributo do DataFrame do Pandas que permite acessar e modificar os valores com base em índices numéricos de linhas e colunas. Ao contrário do .loc, que usa rótulos de linhas e colunas, o .iloc é usado para indexação baseada em índices numéricos.

In [None]:
#Acessar uma única linha com base no número da linha:
salaries_df.iloc[0]

In [None]:
#Acessar linhas e colunas com base no alcance:
salaries_df.iloc[range(2), range(1)]

In [None]:
#Acessar mais de uma linha com base no número das linhas:
salaries_df.iloc[[9, 5, 6]]

In [None]:
##Acessar mais de uma linha e mais de uma coluna com base no número das linhas e das colunas:
salaries_df.iloc[[5,6,7],[1,2,3]]

### Retorno a apresentação das bases

In [None]:
#Unique é usado para retornar os valores únicos presentes, ou seja, todas as respostas possíveis.
salaries_df['Experience Level'].unique()

In [None]:
print(len(salaries_df["Salary"].unique()), "vs", len(salaries.columns))
print(salaries_df["Salary"].unique()[0])

#### Set Theory
![set_theory](set_theory.png)
![set_theory_ativos](set_theory_ativos.png)

In [None]:
# sets https://www.w3schools.com/python/python_ref_set.asp
x = {'Petrobras', 'Itau', 'Suzano'}
y = {'Eletrobras', 'Bradesco', 'Suzano'}

z = x.difference(y)
z

In [None]:
y.difference(x)

In [None]:
x.symmetric_difference(y)

In [None]:
x.intersection(y)

In [None]:
# acessar colunas do dataframe de ativos
at.columns

In [None]:
set(at.columns.unique()).difference(ct["ativo"].unique())

In [None]:
set(ct["ativo"].unique()).difference(at.columns.unique())

In [None]:
ct.loc[ct["ativo"].isin(at.columns), ["ativo", "ativo_desc"]].drop_duplicates()

In [None]:
ct.loc[ct["ativo"].isin(at.columns), "ativo_desc"].unique()

In [None]:
pd.set_option('max_colwidth', None)
ct[["nome_gestor", "nome_fundo"]].drop_duplicates().reset_index(drop=True)

In [None]:
pd.reset_option('^display.', silent=True)

## 2. Métodos Úteis

### 2.1.1 Groupby

### 2.1.2 Pivot Table

### 2.1.3 Melt

### 2.2.1 Diff

##### A função diff serve para calcular a diferença entre os valores de uma linha ou coluna, de acordo com os parâmetros definidos previamente.

Para compreender como funciona a função diff, criaremos um DataFrame com dados da receita de três unidades de uma loja ao longo do mês de junho.

In [None]:
#CRIANDO O DATAFRAME

#Definir uma "seed" tem a função de garantir que os números sejam aleatórios, mas reproduzível, o que significa que executando o código várias vezes o gerador de números aleatórios não vai mudar. 42 é apenas uma escolha popular entre os usuários de python, mas qualquer outro número inteiro poderia ser escolhido
np.random.seed(42)

#Dados: Receita(v.a)~Normal(1000,100)
receita = np.random.normal(loc=1000, scale=100, size=(30, 3))
#Colunas:
unidade = ('Centro', 'Butantã', 'Paulista')
#Índices:
data = [pd.date_range(start=pd.Timestamp('2023-06-01'), end=pd.Timestamp('2023-06-30'), freq='D')]

df = pd.DataFrame(data=receita, columns=unidade, index=data)
df = df.round()
print(df)

In [None]:
df.diff()

In [None]:
df.diff().describe()

In [None]:
#diff calculará diferença entre receita atual e receita de dois dias atrás
df.diff(periods=2)

In [None]:
## diff calculará diferença por coluna, ou seja, por unidade
df.diff(periods=1,axis=1).dropna(axis=1)

### 2.2.2 Pct_change

##### A função pct_change serve para calcular a **diferença percentual** entre os valores de uma linha ou coluna, de acordo com os parâmetros definidos previamente.

A partir do mesmo DataFrame, vamos agora analisar como funciona a função *pct_change*:

In [None]:
df.pct_change().round(2)

In [None]:
df.pct_change().describe().round(2)

In [None]:
df.pct_change(periods=1, axis=1).dropna(axis=1).round(2)

## 3. Aplicações Úteis

### 3.1 Cálculo de Retorno

### 3.2 Cálculo Para Cada Fundo

### 3.3 Juntando os Resultados

![](joins.png)