# Review

Vamos criar uma matriz com os dados do arquivo `alunos.csv`

# Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science. Fornece estruturas e funções de dados de alto nível projetadas para tornar o trabalho com dados estruturados ou tabulares rápido, fácil e expressivo. Desde seu surgimento em 2010, ele ajudou a permitir que o Python fosse um ambiente de análise de dados poderoso e produtivo. 

O Pandas combina as ideias de computação de matriz de alto desempenho do NumPy com os recursos flexíveis de manipulação de dados de planilhas e bancos de dados relacionais (como SQL). Ele fornece uma funcionalidade de indexação sofisticada para facilitar a reformulação, o slice and dice, a execução de agregações e a seleção de subconjuntos de dados.

[Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython - by Wes McKinney, creator of pandas.](https://www.oreilly.com/library/view/python-for-data/9781491957653/)


## Instalação

In [1]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.5.1-cp310-cp310-win_amd64.whl (10.4 MB)
     --------------------------------------- 10.4/10.4 MB 10.2 MB/s eta 0:00:00
Collecting pytz>=2020.1
  Downloading pytz-2022.6-py2.py3-none-any.whl (498 kB)
     ------------------------------------- 498.1/498.1 kB 10.4 MB/s eta 0:00:00
Collecting numpy>=1.21.0
  Downloading numpy-1.23.4-cp310-cp310-win_amd64.whl (14.6 MB)
     --------------------------------------- 14.6/14.6 MB 10.7 MB/s eta 0:00:00
Installing collected packages: pytz, numpy, pandas
Successfully installed numpy-1.23.4 pandas-1.5.1 pytz-2022.6


## Import

In [2]:
import pandas as pd

___

### DataFrame

O objeto do Pandas que mais utilizaremos será o **DataFrame**. 

O DataFrames é uma estrutura de dados tabular orientada a colunas com rótulos de linha e coluna.

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.


### Series

O objeto Series é um objeto de matriz rotulado unidimensional.


___

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

In [3]:
# # não recomendado - caminhos absolutos
# pd.read_csv("G:/Codes/VS/Ada/tecnicas-programacao-i-suzano/dados/alunos.csv")

df = pd.read_csv("dados/alunos.csv")

In [4]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [5]:
pd.read_csv("dados/alunos2.csv")

Unnamed: 0,RA;Nome;Frequencia;Prova_1;Prova_2;Prova_3;Prova_4
0,110201;Antonio Carlos;20;6.5;8.5;7.0;6
1,110212;Ana Beatriz;20;7.0;7.0;7.0;8
2,110218;Carlos Vernes;17;7.0;7.0;7.0;7
3,110307;Francisco Cunha;20;9.0;8.5;8.5;10
4,110275;Sandra Rosa;15;6.5;7.5;7.0;7
5,110281;Juliana Arruda;18;7.5;7.0;7.5;8
6,110301;Joao Galo;20;5.0;6.5;7.0;5
7,110263;José Valente;20;10.0;10.0;10.0;10
8,110271;Maria Ferreira;19;9.5;8.0;7.0;10
9,110236;Adriana Tavares;20;8.0;8.0;8.0;8


In [6]:
pd.read_csv("dados/alunos2.csv", sep=';')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


#### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html


![Pasta de Trabalho Base](dados/sample_xlsx.png)

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [7]:
pd.read_excel('dados/sample.xlsx')

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [8]:
!pip install openpyxl

Collecting openpyxl
  Using cached openpyxl-3.0.10-py2.py3-none-any.whl (242 kB)
Collecting et-xmlfile
  Using cached et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.0.10


In [9]:
pd.read_excel('dados/sample.xlsx')

Unnamed: 0,ds,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.90,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
...,...,...,...,...,...,...,...,...,...,...,...
129,0.72,94,137,20,130,850,49,6,31,68,15.1
130,0.78,137,190,20,130,860,50,5,17,51,8.1
131,0.73,0,15,30,150,820,47,37,27,80,27.9
132,0.95,0,20,80,110,810,48,3,19,89,22.3


##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

In [12]:
pd.read_excel('dados/sample.xlsx', 'p2')

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx` 

In [13]:
pd.read_excel('dados/sample.xlsx', 'p3')

Unnamed: 0,Cabeçalho inútil,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
1,0.9,24,60,110,70,820,54,1,1,49,13.7
2,0.91,60,135,110,60,830,57,1,0,30,9
3,0.89,135,165,100,120,780,57,1,0,18,7.3
4,0.83,165,192,110,80,810,59,1,0,13,6
5,1.53,15,40,840,10,150,46,1,2,18,3.5
6,1.44,40,65,820,20,160,46,1,2,12,2.5


In [None]:
##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

In [15]:
pd.read_excel(io='dados/sample.xlsx', 
              sheet_name='p3', 
              header=1)

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

In [18]:
df = pd.read_excel(
    io='dados/sample.xlsx', 
    sheet_name='p3',
    header=1,
    names=['densidade', 'hzdepup', 'hzdeplow', 'areia', 'silte', 'argila', 'phh2o', 'antimonio', 'alunimio', 'hidrogenio', 'corg']
    )
df

Unnamed: 0,densidade,hzdepup,hzdeplow,areia,silte,argila,phh2o,antimonio,alunimio,hidrogenio,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [19]:
df = pd.read_excel(
    io='https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx')
df

Unnamed: 0,Nº DO PEDIDO,DIVISÃO TÉCNICA DE ORIGEM,DATA DO DEPÓSITO,DESPACHO DE ENTRADA NA 2ª INSTÂNCIA,DATA DO DESPACHO,ATUALIZAÇÃO
0,PI0200936,DITEM,2002-03-07,17.1,2011-08-23,2022-07-20
1,PI9816506,DIMEC,1998-02-20,17.1,2016-03-15,NaT
2,MU8800678,DIMUT,2008-03-26,17.1,2017-11-21,NaT
3,PI0610654,DIALP,2006-05-26,17.1,2017-11-21,NaT
4,MU8900777,DIMUT,2009-05-28,17.1,2017-11-28,NaT
...,...,...,...,...,...,...
6843,BR102015011767,DITEX,2015-05-21,2022-02-12 00:00:00,2022-06-28,NaT
6844,BR112016009929,DITEX,2014-11-10,2022-02-12 00:00:00,2022-07-05,NaT
6845,BR112016012529,DITEX,2014-12-09,2022-02-12 00:00:00,2022-07-12,NaT
6846,BR112015026098,DITEX,2014-04-11,2022-02-12 00:00:00,2022-07-12,NaT


#### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

In [20]:
pd.read_json(
    path_or_buf='dados/selic.json')

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
411,01/09/2020,0.16
412,01/10/2020,0.16
413,01/11/2020,0.15
414,01/12/2020,0.16


Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [21]:
df = pd.read_json(
    path_or_buf='https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')
df

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
433,01/07/2022,1.03
434,01/08/2022,1.17
435,01/09/2022,1.07
436,01/10/2022,1.02


#### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [47]:
df = pd.read_fwf(
    filepath_or_buffer='https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT',
    widths=[1, 6, 8, 1, 8, 1, 8]
)
df

Unnamed: 0,0,ASPB00,04202211,0.1,32022110,1,1806
0,1,210100,20230301.0,0.0,1236.0,5.0,7470772.0
1,1,210100,20230901.0,0.0,1235.0,9.0,90718475.0
2,1,210100,20240301.0,0.0,1235.0,5.0,4942538.0
3,1,210100,20240901.0,0.0,1234.0,8.0,34773921.0
4,1,210100,20250301.0,0.0,1233.0,5.0,69054.0
...,...,...,...,...,...,...,...
172,1,950199,20270101.0,0.0,96.0,5.0,46951788.0
173,1,950199,20290101.0,0.0,93.0,9.0,77017228.0
174,1,950199,20310101.0,0.0,91.0,7.0,30164426.0
175,1,950199,20330101.0,0.0,89.0,9.0,4428175.0


_________
### Escrevendo dados de um arquivo

In [24]:
df = pd.read_json(
    path_or_buf='https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')
df

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
433,01/07/2022,1.03
434,01/08/2022,1.17
435,01/09/2022,1.07
436,01/10/2022,1.02


#### CSV

Separado por virgula

In [25]:
df.to_csv('selic.csv')

In [26]:
df.to_csv('selic2.csv', index=False)

Separado por ponto e virgula

In [27]:
df.to_csv('selic.csv', index=False, sep=';')

#### XLSX

In [44]:
df.to_excel('selic.xlsx',
            sheet_name='selic')

In [45]:
df.to_excel('selic.xlsx',
            sheet_name='selic2',
            index=False)

In [46]:
w = pd.ExcelWriter('selic.xlsx', mode='a')
df.to_excel(w,
            sheet_name='selic3',
            header=False,
            index=False)

w.close()

___________

Exercício 

Leia o arquivo `aluno3.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realise a médias das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e Média.


In [57]:
df = pd.read_csv('dados/alunos3.csv', 
                    sep=';', 
                    usecols=['RA', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'],
                    decimal=',')

df['Media'] = df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']].mean(axis=1)

df[['RA', 'Media']].to_excel('media_alunos.xlsx',
            index=False)