<a href="https://colab.research.google.com/github/valerio-unifei/ECOP06/blob/main/ECOP06_10_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

<img src="https://files.realpython.com/media/Reading-and-Writing-Data-With-Pandas_Watermarked.435ef1c38466.jpg">

- Um objeto DataFrame rápido e eficiente para manipulação de dados com indexação integrada;
- Ferramentas para leitura e gravação de dados entre estruturas de dados na memória e diferentes formatos: CSV e arquivos de texto, Microsoft Excel, bancos de dados SQL e o formato HDF5 rápido;
- Alinhamento inteligente de dados e tratamento integrado de dados ausentes : obtenha alinhamento automático baseado em rótulos em cálculos e manipule facilmente dados confusos em uma forma ordenada;
- Remodelação flexível e pivotagem de conjuntos de dados;
- Fatiamento inteligente baseado em rótulo , indexação sofisticada e subconjunto de grandes conjuntos de dados;
- As colunas podem ser inseridas e excluídas de estruturas de dados para mutabilidade de tamanho ;
- Agregar ou transformar dados com um poderoso grupo por mecanismo, permitindo operações divisão-executar-combinar em conjuntos de dados;
- Fusão e junção de alto desempenho de conjuntos de dados;
- A indexação de eixo hierárquico fornece uma maneira intuitiva de trabalhar com dados de alta dimensão em uma estrutura de dados de dimensão inferior;
- Série temporal funcionalidade: geração de intervalo de datas e conversão de frequência, estatísticas de janela móvel, mudança de data e atraso. Crie até mesmo deslocamentos de tempo específicos do domínio e junte séries temporais sem perder dados;
- Altamente otimizado para desempenho , com caminhos de código críticos escritos em Cython ou C.
- Python com pandas está em uso em uma ampla variedade de domínios acadêmicos e comerciais , incluindo Finanças, Neurociência, Economia, Estatística, Publicidade, Web Analytics e muito mais.

In [None]:
import pandas as pd
pd.__version__

# Conceitos Básicos

As estruturas do Pandas são implementadas em duas classes:

- DataFrame: Tabela formada por linhas e colunas;
- Series: representação básica da coluna do DataFrame.

In [None]:
# criando uma série
pd.Series(['Poços de Caldas','Pouso Alegre','Varginha','Passos','Lavras','Itajubá'])

In [None]:
# condensando séries em um DataFrame
cidades = pd.Series(['Poços de Caldas','Pouso Alegre','Varginha','Passos','Lavras','Itajubá'])
populacao = pd.Series([169838,154293,137608,115970,105756,97782])
censo = pd.DataFrame({ 'Cidade': cidades, 'População': populacao })
censo

In [None]:
# Primeiras 5 linhas da tabela (cabeça = head)
censo.head()

In [None]:
censo.tail(2)

In [None]:
censo.shape

In [None]:
len(censo)

In [None]:
censo.columns

## Acesso aos Dados

In [None]:
print('Tipo:',type(censo['Cidade']))
print('Série:')
censo['Cidade']

In [None]:
print('Tipo:',type(censo['Cidade'][1]))
print('Elemento:')
censo['Cidade'][1]

In [None]:
print('Tipo:',type(censo[:2]))
print('Linhas:')
censo[:2]

In [None]:
censo.values

In [None]:
censo[censo.columns[1]].values

In [None]:
censo.index

In [None]:
for indice, linha in censo.iterrows():
  print(indice, linha['Cidade'], linha['População'])

In [None]:
censo['População'][3]

In [None]:
censo.at[3,'População']

In [None]:
censo.iat[3,1]

In [None]:
censo.at[1,'Cidade'] = 'P.A.'
censo

## Informações dos Dados

In [None]:
censo.info()

In [None]:
censo.describe().T[['mean','std']]

# Formato de Dados

In [None]:
houses = pd.read_csv('https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv')
print('Tamanho:',houses.shape)
houses

In [None]:
houses.describe().T

In [None]:
anscombe = pd.read_json('/content/sample_data/anscombe.json')
anscombe.head()

In [None]:
houses.to_excel('houses.xlsx',)

In [None]:
!wget https://github.com/valerio-unifei/ECAA07/raw/main/Bancos/chinook.db

In [None]:
import sqlite3
cnx = sqlite3.connect('chinook.db')
customers = pd.read_sql_query("SELECT * FROM customers", cnx, index_col='CustomerId')
print('(linhas, colunas) =',customers.shape)
customers.head()

In [None]:
houses.describe().T

# Manipulação de Informações

## Tabela 1

In [None]:
fundos = pd.read_json('https://s3.sa-east-1.amazonaws.com/br.com.easynvest.cms.uploads/cvm/fundos')
print('(linhas, colunas) =',fundos.shape)
fundos.head()

In [None]:
# mudando indice da tabeal
fundos = fundos.set_index('c')
fundos

In [None]:
fundos[fundos.columns[1:-1]]

In [None]:
fundos.describe().T

In [None]:
# fundos com patrimônio (p) maior que 90000000
pa = fundos[fundos['p'] > 90000000]
print('(linhas, colunas) =',pa.shape)
pa.head()

In [None]:
# fundos com patrimônio (p) maior que 90000000 e quotas (q) maior ou igual 400
pa = fundos[ (fundos['p'] > 90000000) & (fundos['q'] >= 400) ]
print('(linhas, colunas) =',pa.shape)
pa.head()

In [None]:
# fundos com quotas (q) maior ou igual 400 e pertençam ao Banco do Brasil (BB)
pa = fundos[ (fundos['q'] >= 400) & (fundos['a'].str.contains('BB')) ]
print('(linhas, colunas) =',pa.shape)
pa.head()

In [None]:
# Crie uma coluna com o valor individual das quotas em relação ao patrimônio
pa = fundos[(fundos['q'] > 0) & (fundos['p'] >= 0)]
pa['v'] = pa['p'] / pa['q']
print('(linhas, colunas) =',pa.shape)
pa.head()

In [None]:
# ordenar a coluna de valor de quotas crescente
pa.sort_values('v')

In [None]:
# ordenar a coluna de patrimônio descrescente
pa.sort_values('p',ascending=False)

In [None]:
pa['z'] = [0.] * len(pa)
pa

In [None]:
pa['pp'] = pa['p'].shift(1)
pa

### Agrupando Dados

In [None]:
fundos['g'].unique()

In [None]:
grupos = fundos.groupby('g')
for tipo, linhas in grupos:
  print('Tipo:',tipo,'Fundos:', len(linhas))

In [None]:
for tipo, linhas in grupos:
  soma = linhas[['p','q']].sum()
  print( '{} ({}) = {}'.format(tipo, len(linhas), soma.values) )

# Atividades

## Atividade Bovespa

Colete os dados da Bovespa pela Restfull API do link abaixo:

https://s3.sa-east-1.amazonaws.com/br.com.easynvest.cms.uploads/cvm/ibovespa

Converta o campo de dia/hora para datetime64 do Pandas

In [None]:
ibov = pd.read_json('https://s3.sa-east-1.amazonaws.com/br.com.easynvest.cms.uploads/cvm/ibovespa')
ibov['dia'] = pd.to_datetime(ibov['d'],format='%Y%m%d')
ibov

In [None]:
ibov.info()

Selecione os dias do último mês:

In [None]:
ibov[(ibov['dia'].dt.year==2022) & (ibov['dia'].dt.month==9)]

Faça a média mensal do último ano da Bovespa:

In [None]:
ib21 = ibov[ibov['dia'].dt.year==2021]
g21 = ib21.groupby(ib21['dia'].dt.month)
g21['c'].mean()

## Atividade Chinook

Liste das as tabelas do banco chinook.db com o comando SQL:

'SELECT * FROM sqlite_master'

In [None]:
import sqlite3
cnx = sqlite3.connect('chinook.db')
df = pd.read_sql_query('SELECT * FROM sqlite_master WHERE type="table"',cnx)
df

Carregue as tabelas clientes e lojas em DataFrames separados e os associe pelo comando '.join' do Pandas.

In [None]:
clientes = pd.read_sql_query('SELECT * FROM customers',cnx)
clientes

Conte quantos clientes são por loja.

In [None]:
paises = clientes.groupby('Country')
paises['CustomerId'].count()