In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


# PANDAS 1

É uma biblioteca em Python que fornece ferramentas de estrutura de dados e análise de dados com alto performance e fáceis de usar. Se tornou uma biblioteca tão completa que atualmente é indispensável para Análise de Dados.

In [2]:
# Importando Biblioteca

import pandas as pd

### No pandas existem dois tipos principais de estruturas de dados:

#### 1. Series

Funciona como um array unidimensional, ou seja, uma lista de valores (lembra bastante a estrutura de um numpy array). Que possui uma estrutura de valores e índice.

In [3]:
# Os retornos de uma ação durante a semana

retornos = pd.Series([0.03, 0.021, 0.001, -0.05, 0.031])

retornos

0    0.030
1    0.021
2    0.001
3   -0.050
4    0.031
dtype: float64

* Podemos alterar o índice de uma Series:

In [4]:
retornos = pd.Series([0.03, 0.021, 0.001, -0.05, 0.031], 
                    index = ["Seg", "Ter", "Qua", "Qui", "Sex"])

retornos

Seg    0.030
Ter    0.021
Qua    0.001
Qui   -0.050
Sex    0.031
dtype: float64

* Podemos acessar os valores do Series utilizando o índice:

In [5]:
retornos["Ter"]

0.021

* Podemos utilizar funções estatíosticas sobre os valores. Dentro da documentação oficial do objeto é possivel encontrar diversas funções. 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [6]:
print("Média (Esperança):", retornos.mean())
print("Desvio padrão (Volatilidade):", retornos.std())

Média (Esperança): 0.0066
Desvio padrão (Volatilidade): 0.033857052441108926


* Podemos utilizar um resumo que mostra algumas estatísticas dos dados.

In [7]:
retornos.describe()

count    5.000000
mean     0.006600
std      0.033857
min     -0.050000
25%      0.001000
50%      0.021000
75%      0.030000
max      0.031000
dtype: float64

#### 2. DataFrame

A estrutura mais famosa e utilizada dentro do Pandas. É uma estrutura bidimensional de dados, lembra uma planilha.

In [21]:
# Os retornos de duas ações durante a semana

df_retornos = pd.DataFrame({"Dia Semana" : ["Seg", "Ter", "Qua", "Qui", "Sex"],
                           "Ativo B" : [0.022, 0.010, 0.017, -0.07, -0.0051],
                           "Ativo C" : [-0.02, -0.006, 0.023, 0.009, 0.017]})

df_retornos

Unnamed: 0,Dia Semana,Ativo B,Ativo C
0,Seg,0.022,-0.02
1,Ter,0.01,-0.006
2,Qua,0.017,0.023
3,Qui,-0.07,0.009
4,Sex,-0.0051,0.017


* Podemos observar os tipos dos dados:

In [9]:
df_retornos.dtypes

Dia Semana     object
Ativo B       float64
Ativo C       float64
dtype: object

* É possivel acessar as colunas de um DataFrame de forma simples:

In [10]:
df_retornos.columns

Index(['Dia Semana', 'Ativo B', 'Ativo C'], dtype='object')

In [11]:
# Com um colchete pegamos a coluna em formato de Series

df_retornos['Ativo B']

0    0.0220
1    0.0100
2    0.0170
3   -0.0700
4   -0.0051
Name: Ativo B, dtype: float64

In [12]:
# Com dois colchete criamos outro DataFrame

df_retornos[['Ativo B']]

Unnamed: 0,Ativo B
0,0.022
1,0.01
2,0.017
3,-0.07
4,-0.0051


* Podemos definir um índice:

In [22]:
# Nesse caso iremos utilizar a primeira coluna como índice

df_retornos.index = df_retornos["Dia Semana"]

In [15]:
df_retornos

Unnamed: 0_level_0,Dia Semana,Ativo B,Ativo C
Dia Semana,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Seg,Seg,0.022,-0.02
Ter,Ter,0.01,-0.006
Qua,Qua,0.017,0.023
Qui,Qui,-0.07,0.009
Sex,Sex,-0.0051,0.017


In [27]:
# Podemos tirar uma coluna utilizando a função .drop()
# parâmetro axis = 1 idenifica que é uma coluna

df_retornos = df_retornos.drop(["Dia Semana"], axis = 1) 

df_retornos

Unnamed: 0_level_0,Ativo B,Ativo C
Dia Semana,Unnamed: 1_level_1,Unnamed: 2_level_1
Seg,0.022,-0.02
Ter,0.01,-0.006
Qua,0.017,0.023
Qui,-0.07,0.009
Sex,-0.0051,0.017


In [28]:
# É possível utilizar a .describe()

df_retornos.describe()

Unnamed: 0,Ativo B,Ativo C
count,5.0,5.0
mean,-0.00522,0.0046
std,0.037626,0.01753
min,-0.07,-0.02
25%,-0.0051,-0.006
50%,0.01,0.009
75%,0.017,0.017
max,0.022,0.023


In [29]:
# Podemos selecionar dados utilizando um Boleano
# Mostrar retornos em que o Ativo B é maior que 0
df_retornos[df_retornos["Ativo B"] > 0]

Unnamed: 0_level_0,Ativo B,Ativo C
Dia Semana,Unnamed: 1_level_1,Unnamed: 2_level_1
Seg,0.022,-0.02
Ter,0.01,-0.006
Qua,0.017,0.023


In [30]:
# Podemos utilizar condições mutiplas com simbolos 

df_retornos[(df_retornos["Ativo B"] > 0) & (df_retornos["Ativo C"] > 0)]

Unnamed: 0_level_0,Ativo B,Ativo C
Dia Semana,Unnamed: 1_level_1,Unnamed: 2_level_1
Qua,0.017,0.023


### Leitura de Dados

Como vimos é possivel manipular dados, o Pandas nos fornece uma série de funcionalidade de leitura de dados. Aqui iremos utiliza o pd.read_csv (Comma Separeted Values - Valores divididos por virgula, podendo ser ponto-virgula), pois nesse formato se encontra a maioria dos dados.

De uma olhada na documentação oficial do objeto que irá encontrar diversas formas de leitura de dados e diversas funcionalidades: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

In [44]:
df = pd.read_csv("dados_devers.csv", sep = ";")

In [45]:
# Podemos utilizar o .head() para mostrar as 5 primeiras linhas

df.head()

Unnamed: 0,Devers,Geração,Cursos 2022,Média FEA,Unnamed: 4,Unnamed: 5
0,Eddy,2.0,5,69,,
1,André,3.0,4,87,,
2,Kevyn,3.0,6,49,,
3,Thais,3.0,4,8,,
4,Bailinho,3.0,4,18,,


In [46]:
# Mostrar quantidade de linhas e colunas

df.shape

(56, 6)

In [47]:
# Na própria função de leitura de dados podemos definir um índice

df = pd.read_csv("dados_devers.csv", sep = ";", index_col=0)

In [48]:
# Na mesma lógica do .head() o .tail() mostra as 5 ultimas linhas

df.tail()

Unnamed: 0_level_0,Geração,Cursos 2022,Média FEA,Unnamed: 4,Unnamed: 5
Devers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Julio,3.0,3,86,,
Lucas L.,4.0,3,48,,
Maryana,4.0,5,75,,
Danilo,4.0,4,76,,
Bailinho,3.0,4,18,,


In [49]:
df.columns[-2:]

Index(['Unnamed: 4', 'Unnamed: 5'], dtype='object')

In [50]:
# Vamos remover as colunas finais, já que vieram sem dados

df = df.drop(df.columns[-2:], axis = 1)

In [51]:
df.head()

Unnamed: 0_level_0,Geração,Cursos 2022,Média FEA
Devers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Eddy,2.0,5,69
André,3.0,4,87
Kevyn,3.0,6,49
Thais,3.0,4,8
Bailinho,3.0,4,18


In [52]:
# Podemos observar se temos dados em branco (NaN):

# df.isna() # Mostrar que vira uma tabela de bools

# Utilizando a função .sum()
df.isna().sum()

Geração        3
Cursos 2022    0
Média FEA      0
dtype: int64

In [53]:
# Remover os dados
df = df.dropna()
# fillna() - adicionar dados
df.isna().sum()

Geração        0
Cursos 2022    0
Média FEA      0
dtype: int64

In [54]:
df.shape

(53, 3)

In [55]:
# Dados Duplicados

df.duplicated().sum()

4

In [56]:
# Remoiver dados duplicados

df = df.drop_duplicates()

df.shape

(49, 3)

In [57]:
# Podemos criar colunas - supondo que cada curso tem 4 horas de duração

df['Horas Estudadas'] = df["Cursos 2022"] * 4

In [58]:
df.head()

Unnamed: 0_level_0,Geração,Cursos 2022,Média FEA,Horas Estudadas
Devers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Eddy,2.0,5,69,20
André,3.0,4,87,16
Kevyn,3.0,6,49,24
Thais,3.0,4,8,16
Bailinho,3.0,4,18,16


In [59]:
df.describe()

Unnamed: 0,Geração,Cursos 2022,Horas Estudadas
count,49.0,49.0,49.0
mean,2.795918,4.571429,18.285714
std,0.999575,1.154701,4.618802
min,1.0,3.0,12.0
25%,2.0,4.0,16.0
50%,3.0,5.0,20.0
75%,4.0,6.0,24.0
max,4.0,6.0,24.0


In [60]:
df.dtypes

Geração            float64
Cursos 2022          int64
Média FEA           object
Horas Estudadas      int64
dtype: object

In [61]:
# Podemos criando uma coluna e substituir a , por .

df["Média USP"] = df["Média FEA"].str.replace(",",".")

In [62]:
df.head()

Unnamed: 0_level_0,Geração,Cursos 2022,Média FEA,Horas Estudadas,Média USP
Devers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eddy,2.0,5,69,20,6.9
André,3.0,4,87,16,8.7
Kevyn,3.0,6,49,24,4.9
Thais,3.0,4,8,16,8.0
Bailinho,3.0,4,18,16,1.8


In [63]:
df.describe()

Unnamed: 0,Geração,Cursos 2022,Horas Estudadas
count,49.0,49.0,49.0
mean,2.795918,4.571429,18.285714
std,0.999575,1.154701,4.618802
min,1.0,3.0,12.0
25%,2.0,4.0,16.0
50%,3.0,5.0,20.0
75%,4.0,6.0,24.0
max,4.0,6.0,24.0


In [64]:
df.dtypes

Geração            float64
Cursos 2022          int64
Média FEA           object
Horas Estudadas      int64
Média USP           object
dtype: object

In [65]:
df["Média USP"] = df['Média USP'].astype(float)

In [66]:
df.describe()

Unnamed: 0,Geração,Cursos 2022,Horas Estudadas,Média USP
count,49.0,49.0,49.0,49.0
mean,2.795918,4.571429,18.285714,5.879592
std,0.999575,1.154701,4.618802,2.955854
min,1.0,3.0,12.0,0.6
25%,2.0,4.0,16.0,3.0
50%,3.0,5.0,20.0,6.6
75%,4.0,6.0,24.0,8.6
max,4.0,6.0,24.0,9.9
