<a href="https://colab.research.google.com/github/valerio-unifei/ECOP06/blob/main/ECOP06_10_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

<img src="https://files.realpython.com/media/Reading-and-Writing-Data-With-Pandas_Watermarked.435ef1c38466.jpg">

- Um objeto DataFrame rápido e eficiente para manipulação de dados com indexação integrada;
- Ferramentas para leitura e gravação de dados entre estruturas de dados na memória e diferentes formatos: CSV e arquivos de texto, Microsoft Excel, bancos de dados SQL e o formato HDF5 rápido;
- Alinhamento inteligente de dados e tratamento integrado de dados ausentes : obtenha alinhamento automático baseado em rótulos em cálculos e manipule facilmente dados confusos em uma forma ordenada;
- Remodelação flexível e pivotagem de conjuntos de dados;
- Fatiamento inteligente baseado em rótulo , indexação sofisticada e subconjunto de grandes conjuntos de dados;
- As colunas podem ser inseridas e excluídas de estruturas de dados para mutabilidade de tamanho ;
- Agregar ou transformar dados com um poderoso grupo por mecanismo, permitindo operações divisão-executar-combinar em conjuntos de dados;
- Fusão e junção de alto desempenho de conjuntos de dados;
- A indexação de eixo hierárquico fornece uma maneira intuitiva de trabalhar com dados de alta dimensão em uma estrutura de dados de dimensão inferior;
- Série temporal funcionalidade: geração de intervalo de datas e conversão de frequência, estatísticas de janela móvel, mudança de data e atraso. Crie até mesmo deslocamentos de tempo específicos do domínio e junte séries temporais sem perder dados;
- Altamente otimizado para desempenho , com caminhos de código críticos escritos em Cython ou C.
- Python com pandas está em uso em uma ampla variedade de domínios acadêmicos e comerciais , incluindo Finanças, Neurociência, Economia, Estatística, Publicidade, Web Analytics e muito mais.

In [None]:
import pandas as pd
pd.__version__

'1.3.5'

# Conceitos Básicos

As estruturas do Pandas são implementadas em duas classes:

- DataFrame: Tabela formada por linhas e colunas;
- Series: representação básica da coluna do DataFrame.

In [None]:
# criando uma série
pd.Series(['Poços de Caldas','Pouso Alegre','Varginha','Passos','Lavras','Itajubá'])

0    Poços de Caldas
1       Pouso Alegre
2           Varginha
3             Passos
4             Lavras
5            Itajubá
dtype: object

In [None]:
# condensando séries em um DataFrame
cidades = pd.Series(['Poços de Caldas','Pouso Alegre','Varginha','Passos','Lavras','Itajubá'])
populacao = pd.Series([169838,154293,137608,115970,105756,97782])
censo = pd.DataFrame({ 'Cidade': cidades, 'População': populacao })
censo

Unnamed: 0,Cidade,População
0,Poços de Caldas,169838
1,Pouso Alegre,154293
2,Varginha,137608
3,Passos,115970
4,Lavras,105756
5,Itajubá,97782


In [None]:
# Primeiras 5 linhas da tabela (cabeça = head)
censo.head()

Unnamed: 0,Cidade,População
0,Poços de Caldas,169838
1,Pouso Alegre,154293
2,Varginha,137608
3,Passos,115970
4,Lavras,105756


In [None]:
censo.tail(2)

Unnamed: 0,Cidade,População
4,Lavras,105756
5,Itajubá,97782


In [None]:
censo.shape

(6, 2)

In [None]:
len(censo)

6

In [None]:
censo.columns

Index(['Cidade', 'População'], dtype='object')

## Acesso aos Dados

In [None]:
print('Tipo:',type(censo['Cidade']))
print('Série:')
censo['Cidade']

Tipo: <class 'pandas.core.series.Series'>
Série:


0    Poços de Caldas
1       Pouso Alegre
2           Varginha
3             Passos
4             Lavras
5            Itajubá
Name: Cidade, dtype: object

In [None]:
print('Tipo:',type(censo['Cidade'][1]))
print('Elemento:')
censo['Cidade'][1]

Tipo: <class 'str'>
Elemento:


'Pouso Alegre'

In [None]:
print('Tipo:',type(censo[:2]))
print('Linhas:')
censo[:2]

Tipo: <class 'pandas.core.frame.DataFrame'>
Linhas:


Unnamed: 0,Cidade,População
0,Poços de Caldas,169838
1,Pouso Alegre,154293


In [None]:
censo.values

array([['Poços de Caldas', 169838],
       ['Pouso Alegre', 154293],
       ['Varginha', 137608],
       ['Passos', 115970],
       ['Lavras', 105756],
       ['Itajubá', 97782]], dtype=object)

In [None]:
censo[censo.columns[1]].values

array([169838, 154293, 137608, 115970, 105756,  97782])

In [None]:
censo.index

RangeIndex(start=0, stop=6, step=1)

In [None]:
for indice, linha in censo.iterrows():
  print(indice, linha['Cidade'], linha['População'])

0 Poços de Caldas 169838
1 Pouso Alegre 154293
2 Varginha 137608
3 Passos 115970
4 Lavras 105756
5 Itajubá 97782


In [None]:
censo['População'][3]

115970

In [None]:
censo.at[3,'População']

115970

In [None]:
censo.iat[3,1]

115970

In [None]:
censo.at[1,'Cidade'] = 'P.A.'
censo

Unnamed: 0,Cidade,População
0,Poços de Caldas,169838
1,P.A.,154293
2,Varginha,137608
3,Passos,115970
4,Lavras,105756
5,Itajubá,97782


## Informações dos Dados

In [None]:
censo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Cidade     6 non-null      object
 1   População  6 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 224.0+ bytes


In [None]:
censo.describe().T[['mean','std']]

Unnamed: 0,mean,std
População,130207.833333,28486.665473


# Formato de Dados

In [None]:
houses = pd.read_csv('https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv')
print('Tamanho:',houses.shape)
houses

Tamanho: (17000, 9)


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


In [None]:
houses.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
longitude,17000.0,-119.562108,2.005166,-124.35,-121.79,-118.49,-118.0,-114.31
latitude,17000.0,35.625225,2.13734,32.54,33.93,34.25,37.72,41.95
housing_median_age,17000.0,28.589353,12.586937,1.0,18.0,29.0,37.0,52.0
total_rooms,17000.0,2643.664412,2179.947071,2.0,1462.0,2127.0,3151.25,37937.0
total_bedrooms,17000.0,539.410824,421.499452,1.0,297.0,434.0,648.25,6445.0
population,17000.0,1429.573941,1147.852959,3.0,790.0,1167.0,1721.0,35682.0
households,17000.0,501.221941,384.520841,1.0,282.0,409.0,605.25,6082.0
median_income,17000.0,3.883578,1.908157,0.4999,2.566375,3.5446,4.767,15.0001
median_house_value,17000.0,207300.912353,115983.764387,14999.0,119400.0,180400.0,265000.0,500001.0


In [None]:
anscombe = pd.read_json('/content/sample_data/anscombe.json')
anscombe.head()

Unnamed: 0,Series,X,Y
0,I,10,8.04
1,I,8,6.95
2,I,13,7.58
3,I,9,8.81
4,I,11,8.33


In [None]:
houses.to_excel('houses.xlsx',)

In [None]:
!wget https://github.com/valerio-unifei/ECAA07/raw/main/Bancos/chinook.db

--2022-10-04 13:18:29--  https://github.com/valerio-unifei/ECAA07/raw/main/Bancos/chinook.db
Resolving github.com (github.com)... 192.30.255.112
Connecting to github.com (github.com)|192.30.255.112|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/valerio-unifei/ECAA07/main/Bancos/chinook.db [following]
--2022-10-04 13:18:30--  https://raw.githubusercontent.com/valerio-unifei/ECAA07/main/Bancos/chinook.db
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 884736 (864K) [application/octet-stream]
Saving to: ‘chinook.db’


2022-10-04 13:18:30 (23.8 MB/s) - ‘chinook.db’ saved [884736/884736]



In [None]:
import sqlite3
cnx = sqlite3.connect('chinook.db')
customers = pd.read_sql_query("SELECT * FROM customers", cnx, index_col='CustomerId')
print('(linhas, colunas) =',customers.shape)
customers.head()

(linhas, colunas) = (59, 12)


Unnamed: 0_level_0,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
CustomerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,+55 (12) 3923-5566,luisg@embraer.com.br,3
2,Leonie,Köhler,,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,+49 0711 2842222,,leonekohler@surfeu.de,5
3,François,Tremblay,,1498 rue Bélanger,Montréal,QC,Canada,H2G 1A7,+1 (514) 721-4711,,ftremblay@gmail.com,3
4,Bjørn,Hansen,,Ullevålsveien 14,Oslo,,Norway,0171,+47 22 44 22 22,,bjorn.hansen@yahoo.no,4
5,František,Wichterlová,JetBrains s.r.o.,Klanova 9/506,Prague,,Czech Republic,14700,+420 2 4172 5555,+420 2 4172 5555,frantisekw@jetbrains.com,4


In [None]:
houses.describe().T

# Manipulação de Informações

## Tabela 1

In [None]:
fundos = pd.read_json('https://s3.sa-east-1.amazonaws.com/br.com.easynvest.cms.uploads/cvm/fundos')
print('(linhas, colunas) =',fundos.shape)
fundos.head()

(linhas, colunas) = (47105, 8)


Unnamed: 0,a,c,g,i,n,p,q,t
0,BB GESTAO DE RECURSOS DTVM S.A,1608573000165,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,160265200000.0,37,0
1,BB GESTAO DE RECURSOS DTVM S.A,27146328000177,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,132683500000.0,1,0
2,BB GESTAO DE RECURSOS DTVM S.A,7593972000186,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,116887700000.0,308,0
3,ITAU UNIBANCO S.A.,1597187000115,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,99367850000.0,52,1
4,BB GESTAO DE RECURSOS DTVM S.A,822055000187,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,95963280000.0,1,0


In [None]:
# mudando indice da tabeal
fundos = fundos.set_index('c')
fundos

Unnamed: 0_level_0,a,g,i,n,p,q,t
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1608573000165,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,1.602652e+11,37,0
27146328000177,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,1.326835e+11,1,0
7593972000186,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,1.168877e+11,308,0
1597187000115,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,9.936785e+10,52,1
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,9.596328e+10,1,0
...,...,...,...,...,...,...,...
9454944000103,,Fundo de Ações,0,GWI PIPES FUNDO DE INVESTIMENTO DE AÇÕES,-2.194761e+06,0,0
26419803000179,,Fundo de Ações,0,GWI REAL ESTATE FUNDO DE INVESTIMENTO EM AÇÕES...,-2.536335e+06,0,0
13593438000172,RJI CORRETORA DE TÍTULOS E VALORES MOBILIÁRIOS...,Fundo Multimercado,0,ECO HEDGE FIM CREDITO PRIVADO LONGO PRAZO,-3.166632e+06,5,1
23870556000134,,Fundo Multimercado,0,RSPAR II FUNDO DE INVESTIMENTO EM COTAS DE FUN...,-4.667045e+06,0,0


In [None]:
fundos[fundos.columns[1:-1]]

Unnamed: 0_level_0,g,i,n,p,q
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1608573000165,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,1.602652e+11,37
27146328000177,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,1.326835e+11,1
7593972000186,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,1.168877e+11,308
1597187000115,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,9.936785e+10,52
822055000187,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,9.596328e+10,1
...,...,...,...,...,...
9454944000103,Fundo de Ações,0,GWI PIPES FUNDO DE INVESTIMENTO DE AÇÕES,-2.194761e+06,0
26419803000179,Fundo de Ações,0,GWI REAL ESTATE FUNDO DE INVESTIMENTO EM AÇÕES...,-2.536335e+06,0
13593438000172,Fundo Multimercado,0,ECO HEDGE FIM CREDITO PRIVADO LONGO PRAZO,-3.166632e+06,5
23870556000134,Fundo Multimercado,0,RSPAR II FUNDO DE INVESTIMENTO EM COTAS DE FUN...,-4.667045e+06,0


In [None]:
fundos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
i,47105.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
p,47105.0,229407800.0,2016113000.0,-9788075.71,0.0,6701763.76,55601517.32,160265200000.0
q,47105.0,495.3574,10408.39,0.0,0.0,1.0,2.0,907669.0
t,47105.0,0.4564696,0.4981068,0.0,0.0,0.0,1.0,1.0


In [None]:
# fundos com patrimônio (p) maior que 90000000
pa = fundos[fundos['p'] > 90000000]
print('(linhas, colunas) =',pa.shape)
pa.head()

(linhas, colunas) = (9181, 7)


Unnamed: 0_level_0,a,g,i,n,p,q,t
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1608573000165,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,160265200000.0,37,0
27146328000177,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,132683500000.0,1,0
7593972000186,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,116887700000.0,308,0
1597187000115,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,99367850000.0,52,1
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,95963280000.0,1,0


In [None]:
# fundos com patrimônio (p) maior que 90000000 e quotas (q) maior ou igual 400
pa = fundos[ (fundos['p'] > 90000000) & (fundos['q'] >= 400) ]
print('(linhas, colunas) =',pa.shape)
pa.head()

(linhas, colunas) = (1429, 7)


Unnamed: 0_level_0,a,g,i,n,p,q,t
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
42592315000115,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA CURTO PRAZO AUTOMÁTICO FUNDO DE ...,94352950000.0,25975,0
26199519000134,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,ITAÚ PRIVILÈGE RENDA FIXA REFERENCIADO DI FUND...,41333000000.0,250966,0
7214377000192,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA CURTO PRAZO DIFERENCIADO FUNDO D...,37338310000.0,1276,0
834074000123,CAIXA ECONOMICA FEDERAL,Fundo de Renda Fixa,0,FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS DE IN...,35920450000.0,16498,0
4288966000127,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA CURTO PRAZO AUTOMÁTICO SETOR PUB...,35471050000.0,167508,0


In [None]:
# fundos com quotas (q) maior ou igual 400 e pertençam ao Banco do Brasil (BB)
pa = fundos[ (fundos['q'] >= 400) & (fundos['a'].str.contains('BB')) ]
print('(linhas, colunas) =',pa.shape)
pa.head()

(linhas, colunas) = (176, 7)


Unnamed: 0_level_0,a,g,i,n,p,q,t
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
42592315000115,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA CURTO PRAZO AUTOMÁTICO FUNDO DE ...,94352950000.0,25975,0
7214377000192,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA CURTO PRAZO DIFERENCIADO FUNDO D...,37338310000.0,1276,0
4288966000127,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA CURTO PRAZO AUTOMÁTICO SETOR PUB...,35471050000.0,167508,0
5102500000158,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA MAIS AUTOMÁTICO SIMPLES FUNDO DE...,24890280000.0,907669,0
5943661000174,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RENDA FIXA REFERENCIADO DI PLUS ÁGIL FUNDO ...,23629340000.0,425518,0


In [None]:
# Crie uma coluna com o valor individual das quotas em relação ao patrimônio
pa = fundos[(fundos['q'] > 0) & (fundos['p'] >= 0)]
pa['v'] = pa['p'] / pa['q']
print('(linhas, colunas) =',pa.shape)
pa.head()

(linhas, colunas) = (24322, 8)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0_level_0,a,g,i,n,p,q,t,v
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1608573000165,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,160265200000.0,37,0,4331492000.0
27146328000177,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,132683500000.0,1,0,132683500000.0
7593972000186,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,116887700000.0,308,0,379505700.0
1597187000115,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,99367850000.0,52,1,1910920000.0
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,95963280000.0,1,0,95963280000.0


In [None]:
# ordenar a coluna de valor de quotas crescente
pa.sort_values('v')

Unnamed: 0_level_0,a,g,i,n,p,q,t,v
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
97525452000129,,Fundo Multimercado,0,G5 SCB II FUNDO DE INVESTIMENTO EM AÇÕES,0.000000e+00,3,1,0.000000e+00
4887986000114,ITAU UNIBANCO S.A.,FMP-FGTS,0,UNIBANCO PB FMP-FGTS VALE DO RIO DOCE,0.000000e+00,354,0,0.000000e+00
4890401000115,BANCO J. SAFRA S.A.,FMP-FGTS,0,SAFRA FMP-FGTS VALE DO RIO DOCE,0.000000e+00,677,0,0.000000e+00
4894403000182,CA INDOSUEZ WEALTH (BRAZIL) S.A. DTVM,FMP-FGTS,0,CA INDOSUEZ FMP-FGTS VALE DO RIO DOCE,0.000000e+00,448,0,0.000000e+00
4894780000111,BANCO FATOR S/A,FMP-FGTS,0,FATOR FMP FGTS VALE DO RIO DOCE,0.000000e+00,70,0,0.000000e+00
...,...,...,...,...,...,...,...,...
8771962000156,INTRAG DTVM LTDA.,Fundo Multimercado,0,OITI FUNDO DE INVESTIMENTO MULTIMERCADO CRÉDIT...,4.017849e+10,1,1,4.017849e+10
2513875000112,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,FUNDO DE INVESTIMENTO TESOURO RENDA FIXA,5.488209e+10,1,0,5.488209e+10
42592302000146,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO AUTOMÁTICO FUNDO...,9.435955e+10,1,0,9.435955e+10
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,9.596328e+10,1,0,9.596328e+10


In [None]:
# ordenar a coluna de patrimônio descrescente
pa.sort_values('p',ascending=False)

Unnamed: 0_level_0,a,g,i,n,p,q,t,v
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1608573000165,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,1.602652e+11,37,0,4.331492e+09
27146328000177,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,1.326835e+11,1,0,1.326835e+11
7593972000186,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,1.168877e+11,308,0,3.795057e+08
1597187000115,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,9.936785e+10,52,1,1.910920e+09
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,9.596328e+10,1,0,9.596328e+10
...,...,...,...,...,...,...,...,...
4887986000114,ITAU UNIBANCO S.A.,FMP-FGTS,0,UNIBANCO PB FMP-FGTS VALE DO RIO DOCE,0.000000e+00,354,0,0.000000e+00
4887978000178,ITAU UNIBANCO S.A.,FMP-FGTS,0,UNIBANCO R FMP-FGTS VALE DO RIO DOCE,0.000000e+00,371,0,0.000000e+00
4887966000143,ITAU UNIBANCO S.A.,FMP-FGTS,0,UNIBANCO F FMP-FGTS VALE DO RIO DOCE,0.000000e+00,411,0,0.000000e+00
4887951000185,ITAU UNIBANCO S.A.,FMP-FGTS,0,UNIBANCO P FMP-FGTS VALE DO RIO DOCE,0.000000e+00,878,0,0.000000e+00


In [None]:
pa['z'] = [0.] * len(pa)
pa

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,a,g,i,n,p,q,t,v,z
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1608573000165,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,1.602652e+11,37,0,4.331492e+09,0.0
27146328000177,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,1.326835e+11,1,0,1.326835e+11,0.0
7593972000186,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,1.168877e+11,308,0,3.795057e+08,0.0
1597187000115,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,9.936785e+10,52,1,1.910920e+09,0.0
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,9.596328e+10,1,0,9.596328e+10,0.0
...,...,...,...,...,...,...,...,...,...
44669670000170,VORTX DISTRIBUIDORA DE TITULOS E VALORES MOBIL...,Fundo Multimercado,0,REVOLUTION FINTECH VENTURE CAPITAL FUNDO DE IN...,0.000000e+00,28,0,0.000000e+00,0.0
44870342000138,SAFRA SERVIÇOS DE ADMINISTRAÇÃO FIDUCIÁRIA LTDA.,Fundo Multimercado,0,2G FUNDO DE INVESTIMENTO EM COTAS DE FUNDO DE ...,0.000000e+00,1,0,0.000000e+00,0.0
45081595000195,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB UNIPRIME DO BRASIL FUNDO DE INVESTIMENTO RE...,0.000000e+00,1,0,0.000000e+00,0.0
45598691000105,BANCO GENIAL S.A.,Fundo Multimercado,0,FAZENDA BONITA FUNDO DE INVESTIMENTO MULTIMERCADO,0.000000e+00,2,0,0.000000e+00,0.0


In [None]:
pa['pp'] = pa['p'].shift(1)
pa

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,a,g,i,n,p,q,t,v,z,pp
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1608573000165,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA CURTO PRAZO FUNDO DE INVESTI...,1.602652e+11,37,0,4.331492e+09,0.0,
27146328000177,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO,1.326835e+11,1,0,1.326835e+11,0.0,1.602652e+11
7593972000186,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BRASILPREV TOP TPF FUNDO DE INVESTIMENTO RENDA...,1.168877e+11,308,0,3.795057e+08,0.0,1.326835e+11
1597187000115,ITAU UNIBANCO S.A.,Fundo de Renda Fixa,0,SPECIAL RENDA FIXA REFERENCIADO DI - FUNDO DE ...,9.936785e+10,52,1,1.910920e+09,0.0,1.168877e+11
822055000187,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB RF IV FUNDO DE INVESTIMENTO RENDA FIXA LONG...,9.596328e+10,1,0,9.596328e+10,0.0,9.936785e+10
...,...,...,...,...,...,...,...,...,...,...
44669670000170,VORTX DISTRIBUIDORA DE TITULOS E VALORES MOBIL...,Fundo Multimercado,0,REVOLUTION FINTECH VENTURE CAPITAL FUNDO DE IN...,0.000000e+00,28,0,0.000000e+00,0.0,0.000000e+00
44870342000138,SAFRA SERVIÇOS DE ADMINISTRAÇÃO FIDUCIÁRIA LTDA.,Fundo Multimercado,0,2G FUNDO DE INVESTIMENTO EM COTAS DE FUNDO DE ...,0.000000e+00,1,0,0.000000e+00,0.0,0.000000e+00
45081595000195,BB GESTAO DE RECURSOS DTVM S.A,Fundo de Renda Fixa,0,BB UNIPRIME DO BRASIL FUNDO DE INVESTIMENTO RE...,0.000000e+00,1,0,0.000000e+00,0.0,0.000000e+00
45598691000105,BANCO GENIAL S.A.,Fundo Multimercado,0,FAZENDA BONITA FUNDO DE INVESTIMENTO MULTIMERCADO,0.000000e+00,2,0,0.000000e+00,0.0,0.000000e+00


### Agrupando Dados

In [None]:
fundos['g'].unique()

array(['Fundo de Renda Fixa', 'Fundo Multimercado',
       'Fundo de Curto Prazo', 'Fundo Referenciado', 'Fundo de Ações',
       'Fundo Cambial', 'FMP-FGTS', 'Fundo da Dívida Externa', ''],
      dtype=object)

In [None]:
grupos = fundos.groupby('g')
for tipo, linhas in grupos:
  print('Tipo:',tipo,'Fundos:', len(linhas))

Tipo:  Fundos: 7
Tipo: FMP-FGTS Fundos: 90
Tipo: Fundo Cambial Fundos: 160
Tipo: Fundo Multimercado Fundos: 31065
Tipo: Fundo Referenciado Fundos: 638
Tipo: Fundo da Dívida Externa Fundos: 84
Tipo: Fundo de Ações Fundos: 7514
Tipo: Fundo de Curto Prazo Fundos: 147
Tipo: Fundo de Renda Fixa Fundos: 7400


In [None]:
for tipo, linhas in grupos:
  soma = linhas[['p','q']].sum()
  print( '{} ({}) = {}'.format(tipo, len(linhas), soma.values) )

 (7) = [0. 0.]
FMP-FGTS (90) = [5.5800924e+09 1.3629400e+05]
Fundo Cambial (160) = [1.3994924e+10 1.1356700e+05]
Fundo Multimercado (31065) = [3.44332805e+12 5.49392200e+06]
Fundo Referenciado (638) = [3.05937949e+10 0.00000000e+00]
Fundo da Dívida Externa (84) = [1.12847174e+09 0.00000000e+00]
Fundo de Ações (7514) = [8.41144648e+11 6.69646100e+06]
Fundo de Curto Prazo (147) = [2.32740669e+10 0.00000000e+00]
Fundo de Renda Fixa (7400) = [6.44720869e+12 1.08935680e+07]


# Atividades

## Atividade Bovespa

Colete os dados da Bovespa pela Restfull API do link abaixo:

https://s3.sa-east-1.amazonaws.com/br.com.easynvest.cms.uploads/cvm/ibovespa

Converta o campo de dia/hora para datetime64 do Pandas

In [None]:
ibov = pd.read_json('https://s3.sa-east-1.amazonaws.com/br.com.easynvest.cms.uploads/cvm/ibovespa')
ibov['dia'] = pd.to_datetime(ibov['d'],format='%Y%m%d')
ibov

Unnamed: 0,d,c,dia
0,20020102,13872,2002-01-02
1,20020103,14265,2002-01-03
2,20020104,14332,2002-01-04
3,20020107,14379,2002-01-07
4,20020108,14168,2002-01-08
...,...,...,...
5124,20220908,109916,2022-09-08
5125,20220909,112300,2022-09-09
5126,20220912,113407,2022-09-12
5127,20220913,110794,2022-09-13


In [None]:
ibov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5129 entries, 0 to 5128
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   d       5129 non-null   int64         
 1   c       5129 non-null   int64         
 2   dia     5129 non-null   datetime64[ns]
dtypes: datetime64[ns](1), int64(2)
memory usage: 120.3 KB


Selecione os dias do último mês:

In [None]:
ibov[(ibov['dia'].dt.year==2022) & (ibov['dia'].dt.month==9)]

Unnamed: 0,d,c,dia
5120,20220901,110405,2022-09-01
5121,20220902,110864,2022-09-02
5122,20220905,112203,2022-09-05
5123,20220906,109764,2022-09-06
5124,20220908,109916,2022-09-08
5125,20220909,112300,2022-09-09
5126,20220912,113407,2022-09-12
5127,20220913,110794,2022-09-13
5128,20220914,110547,2022-09-14


Faça a média mensal do último ano da Bovespa:

In [None]:
ib21 = ibov[ibov['dia'].dt.year==2021]
g21 = ib21.groupby(ib21['dia'].dt.month)
g21['c'].mean()

dia
1     120070.526316
2     117508.333333
3     113870.826087
4     119249.450000
5     122219.714286
6     128989.952381
7     126030.952381
8     120312.636364
9     113872.952381
10    110091.000000
11    104274.250000
12    105903.619048
Name: c, dtype: float64

## Atividade Chinook

Liste das as tabelas do banco chinook.db com o comando SQL:

'SELECT * FROM sqlite_master'

In [None]:
import sqlite3
cnx = sqlite3.connect('chinook.db')
df = pd.read_sql_query('SELECT * FROM sqlite_master WHERE type="table"',cnx)
df

Carregue as tabelas clientes e lojas em DataFrames separados e os associe pelo comando '.join' do Pandas.

In [None]:
clientes = pd.read_sql_query('SELECT * FROM customers',cnx)
clientes

Conte quantos clientes são por loja.

In [None]:
paises = clientes.groupby('Country')
paises['CustomerId'].count()

Country
Argentina          1
Australia          1
Austria            1
Belgium            1
Brazil             5
Canada             8
Chile              1
Czech Republic     2
Denmark            1
Finland            1
France             5
Germany            4
Hungary            1
India              2
Ireland            1
Italy              1
Netherlands        1
Norway             1
Poland             1
Portugal           2
Spain              1
Sweden             1
USA               13
United Kingdom     3
Name: CustomerId, dtype: int64