# Pandas - Aula 1

## Instalação, Documentação e estrutura

A biblioteca pandas é fundamental na área de Data Science com python. Construída a partir do numpy, o módulo pandas possibilita a estruturação e manipulação de dados de maneira simples e eficiente. Vamos trabalhar com tabelas/planilhas.

O nome **PANDAS** é devirado de *panel data* (dados em painel), um termo da econometria para conjuntos de dados estruturados. Ele tem desempenho com recursos flexíveis de manipulação de planilhas e de bancos de dados

O pandas permite trabalhar com diferentes tipos de dados como por exemplo, dados _tabulares_ (planilhas de excel) ou uma tabela de SQL

Vantagens:

- Facilidade de aprender e de ultilizar a biblioteca
- Comunidade crescente ativa
- Documentação rica
- Permite uma visualizaçaõ e dados
- Trabalha muito bem com series temporais
- Traz muitas informações estatísticas
- Uso de operações
- etc..

https://pandas.pydata.org/

https://pandas.pydata.org/docs/
    
https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
        
dica: procurar por "pandas cheat sheet" na internet

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

`conda install -c anaconda pandas`

ou

`pip install pandas` 

In [1]:
import pandas as pd

**Estrutura de dados**

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Séries

Uma série é uma lista simples (ou uma coluna) de dados do mesmo tipo associado a uma lista de labels, chamadas de index. As Series são basicamente as colunas das tabelas e armazenam suas informações com o numpy array. Neste caso, porém, esse array possuirá um índice associado, permitindo o acesso aos conteúdos dessa estrutura por ele.

In [5]:
# Criar uma série a partir de uma lista

lista =  [3.5, 5, 6.9, 10.1, -4]

serie1 = pd.Series(lista)

serie1

0     3.5
1     5.0
2     6.9
3    10.1
4    -4.0
dtype: float64

In [6]:
# criar uma série a partir de um array

array = np.array(lista)

serie2 = pd.Series(array)

serie2

0     3.5
1     5.0
2     6.9
3    10.1
4    -4.0
dtype: float64

In [8]:
# criar uma série com index

labels = ['a', 'b', 'c', 'd']
valores = [10, 20, 30, 40]

serie = pd.Series(data=valores, index=labels)
serie

a    10
b    20
c    30
d    40
dtype: int64

## Dataframe

Um DataFrame no *pandas* representa uma estrutura tabular, ou seja, uma tabela ou planilha.

DataFrames são organizados em colunas (sendo cada coluna uma Série) e podem ser indexados tanto por linhas quanto pelo nome de suas colunas.

É possível criar um DataFrame de diferentes formas:

- A partir de uma lista de listas;
- A partir de um dicionário;
- A partir da leitura de um arquivo .csv, um arquivo .xlsx ou qualquer outra fonte tabular.

In [9]:
# Dataframe a partir de um dicionário

dados_lets_code = {'Nomes Professores': ['Renata', 'Pedro', 'Alexandre'], 'Número de alunos':  [12, 18, 15], 'Número de aulas dadas': [4, 12, 6]}

df = pd.DataFrame(dados_lets_code)
df

Unnamed: 0,Nomes Professores,Número de alunos,Número de aulas dadas
0,Renata,12,4
1,Pedro,18,12
2,Alexandre,15,6


In [10]:
# Datframe a partir de listas de listas

listas_de_listas = [['Renata', '12', '4'], ['Pedro', '18', '12'], ['Alexandre', '15', '6']]

df = pd.DataFrame(listas_de_listas, columns=['Nome dos professores', 'Número de alunos', 'Número de aulas'])
df


Unnamed: 0,Nome dos professores,Número de alunos,Número de aulas
0,Renata,12,4
1,Pedro,18,12
2,Alexandre,15,6


Exemplo de criação de dataframes

![image.png](attachment:image.png)

## Salvando e Carregando um dataframe

Salvar nosso dataframe df

A comma-separated values (CSV) file is a delimited text file that uses a comma to separate values. Each line of the file is a data record. Each record consists of one or more fields, separated by commas.

In [22]:
df.to_csv('exemplo_salvar_csv.csv', index=False) # salva na pasta onde estou trabalhando com o notebook

In [14]:
# Posso identificar a pasta onde quero salvar:

# no windows tenho que inverter a barra ou adicionar uma a mais
df.to_csv('C:/Users/Renata/DSdegree/Modulo2/Aula04/exemplo_salvar_csv.csv')

df.to_csv('C:\\Users\\Renata\\DSdegree\\Modulo2\\Aula04\\eulerxemplo_salvar_csv.csv')

# no linux ou ios NÃO precisa inverter a barra

In [15]:
df.to_excel('exemplo_salvar_excel.xlsx')

ModuleNotFoundError: No module named 'openpyxl'

![image.png](attachment:image.png)

Instalar o openpyxl

`conda install -c anaconda openpyxl` 

ou

`pip install openpyxl`

In [16]:
df.to_excel('exemplo_salvar_excel.xlsx')

Existem vários formatos que posso salvar o dataframe, alguns deles:
    
    
    
    
pd.dataFrame.to_parquet, to_pickle, to_csv, to_hdf, sql, dict, excel, json, html, feateher, latex, stata, gbq, to_records,to_string, to_clipboard, to_markdown

In [23]:
# Abrir um csv a partir de um arquivo local, da nossa máquina

df_csv = pd.read_csv('exemplo_salvar_csv.csv')
df_csv

Unnamed: 0,Nome dos professores,Número de alunos,Número de aulas
0,Renata,12,4
1,Pedro,18,12
2,Alexandre,15,6


In [26]:
df_xls = pd.read_excel('exemplo_salvar_excel.xlsx', sheet_name='Sheet1')
df_xls

Unnamed: 0.1,Unnamed: 0,Nome dos professores,Número de alunos,Número de aulas
0,0,Renata,12,4
1,1,Pedro,18,12
2,2,Alexandre,15,6


In [25]:
# A maioria das vezes vamos abrir/carregar arquivo a partir de um caminho (da máquina) ou da internet

# df = pd.read_csv('BVSP.csv')

# ou 
# df = pd.read_csv('C:/Users/Renata/DSdegree/Modulo2/Aula04/BVSP.csv')
# ou 
# df = pd.read_csv('C:\\Users\\Renata\\DSdegree\\Modulo2\\Aula04\\BVSP.csv') # no windows inverter a barra ou colocar uma a mais
# ou 
df = pd.read_csv('https://github.com/renatapink/DSdegree/raw/master/Modulo2/Aula04/BVSP.csv')
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2021-01-04,119024.0,120354.0,118062.0,118558.0,118558.0,8741400.0
1,2021-01-05,118835.0,119790.0,116756.0,119223.0,119223.0,9257100.0
2,2021-01-06,119377.0,120924.0,118917.0,119851.0,119851.0,11638200.0
3,2021-01-07,119103.0,121983.0,119101.0,121956.0,121956.0,11774800.0
4,2021-01-08,122387.0,125324.0,122386.0,125077.0,125077.0,11085800.0
...,...,...,...,...,...,...,...
143,2021-08-02,121803.0,124536.0,121797.0,122516.0,122516.0,8565400.0
144,2021-08-03,122516.0,123765.0,120807.0,123577.0,123577.0,9391300.0
145,2021-08-04,123577.0,123587.0,121072.0,121801.0,121801.0,9164200.0
146,2021-08-05,121801.0,123541.0,121128.0,121633.0,121633.0,10913000.0


Existem outras formas de carregar o pandas a partir de arquivos

read_csv
read_fwf
read_json
read_html
read_xml
read_clipboard
read_excel
read_excel
read_hdf
read_feather
read_parquet
read_orc
read_stata
read_sas
read_spss
read_pickle
read_sql
read_gbq

## Inspecionar e explorar os dados no pandas

In [28]:
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2021-01-04,119024.0,120354.0,118062.0,118558.0,118558.0,8741400.0
1,2021-01-05,118835.0,119790.0,116756.0,119223.0,119223.0,9257100.0
2,2021-01-06,119377.0,120924.0,118917.0,119851.0,119851.0,11638200.0
3,2021-01-07,119103.0,121983.0,119101.0,121956.0,121956.0,11774800.0
4,2021-01-08,122387.0,125324.0,122386.0,125077.0,125077.0,11085800.0
...,...,...,...,...,...,...,...
143,2021-08-02,121803.0,124536.0,121797.0,122516.0,122516.0,8565400.0
144,2021-08-03,122516.0,123765.0,120807.0,123577.0,123577.0,9391300.0
145,2021-08-04,123577.0,123587.0,121072.0,121801.0,121801.0,9164200.0
146,2021-08-05,121801.0,123541.0,121128.0,121633.0,121633.0,10913000.0


In [29]:
df.shape # número de linhas e número de colunas

(148, 7)

In [30]:
df.head(10) # quero ver as 10 primeiras linhas

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2021-01-04,119024.0,120354.0,118062.0,118558.0,118558.0,8741400.0
1,2021-01-05,118835.0,119790.0,116756.0,119223.0,119223.0,9257100.0
2,2021-01-06,119377.0,120924.0,118917.0,119851.0,119851.0,11638200.0
3,2021-01-07,119103.0,121983.0,119101.0,121956.0,121956.0,11774800.0
4,2021-01-08,122387.0,125324.0,122386.0,125077.0,125077.0,11085800.0
5,2021-01-11,125075.0,125075.0,122506.0,122807.0,122807.0,9537600.0
6,2021-01-12,123255.0,124584.0,123227.0,123998.0,123998.0,8949000.0
7,2021-01-13,123996.0,124032.0,121016.0,122040.0,122040.0,10291500.0
8,2021-01-14,121947.0,123896.0,121947.0,123481.0,123481.0,8974400.0
9,2021-01-15,123472.0,123472.0,120374.0,120502.0,120502.0,9387600.0


In [31]:
df.tail(15) # quero ver as 15 últimas linhas

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
133,2021-07-19,125958.0,125958.0,123317.0,124395.0,124395.0,9210200.0
134,2021-07-20,124395.0,125631.0,123631.0,125401.0,125401.0,7627500.0
135,2021-07-21,125404.0,126112.0,125247.0,125929.0,125929.0,7148900.0
136,2021-07-22,125930.0,126428.0,125416.0,126147.0,126147.0,6480400.0
137,2021-07-23,126140.0,126204.0,124422.0,125053.0,125053.0,6051800.0
138,2021-07-26,125058.0,126214.0,125006.0,126004.0,126004.0,6325500.0
139,2021-07-27,126004.0,126026.0,123670.0,124612.0,124612.0,7313800.0
140,2021-07-28,124615.0,126712.0,124542.0,126286.0,126286.0,9038200.0
141,2021-07-29,126285.0,126476.0,124917.0,125675.0,125675.0,7488400.0
142,2021-07-30,125672.0,125673.0,121748.0,121801.0,121801.0,9399200.0


In [33]:
df.sample(8) # uma amostra dos dados com 8 linhas

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
34,2021-02-24,115229.0,116208.0,114668.0,115668.0,115668.0,11399300.0
80,2021-05-03,118951.0,119904.0,118528.0,119209.0,119209.0,8888300.0
85,2021-05-10,122038.0,122772.0,121795.0,121909.0,121909.0,8219100.0
39,2021-03-03,111529.0,112398.0,107466.0,111184.0,111184.0,15144300.0
43,2021-03-09,110611.0,112525.0,109343.0,111331.0,111331.0,12135300.0
112,2021-06-17,129259.0,129919.0,127576.0,128057.0,128057.0,9664700.0
66,2021-04-12,117661.0,118812.0,117661.0,118812.0,118812.0,7000500.0
6,2021-01-12,123255.0,124584.0,123227.0,123998.0,123998.0,8949000.0


In [34]:
df.sample(8, random_state=2021) #random_state - "semente", toda vez que rodar, pega a mesma amostra

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
8,2021-01-14,121947.0,123896.0,121947.0,123481.0,123481.0,8974400.0
95,2021-05-24,122592.0,124167.0,122526.0,124032.0,124032.0,8186300.0
22,2021-02-04,119728.0,120560.0,118918.0,119261.0,119261.0,8100700.0
13,2021-01-21,119628.0,120243.0,117785.0,118443.0,118443.0,8573900.0
77,2021-04-28,119392.0,121276.0,119392.0,121053.0,121053.0,9081500.0
143,2021-08-02,121803.0,124536.0,121797.0,122516.0,122516.0,8565400.0
34,2021-02-24,115229.0,116208.0,114668.0,115668.0,115668.0,11399300.0
2,2021-01-06,119377.0,120924.0,118917.0,119851.0,119851.0,11638200.0


In [36]:
df.sample(frac=0.10) # me mostra 10% do total de linhas

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
71,2021-04-19,121116.0,121974.0,120682.0,120934.0,120934.0,10028100.0
128,2021-07-12,125428.0,127782.0,125428.0,127594.0,127594.0,7421600.0
86,2021-05-11,121904.0,122964.0,120145.0,122964.0,122964.0,7988600.0
73,2021-04-22,120064.0,120995.0,119203.0,119371.0,119371.0,8598600.0
100,2021-05-31,125561.0,126216.0,125540.0,126216.0,126216.0,5946500.0
124,2021-07-05,127622.0,127633.0,126531.0,126920.0,126920.0,5255600.0
109,2021-06-14,129441.0,131084.0,129441.0,130208.0,130208.0,8155700.0
38,2021-03-02,110328.0,112428.0,107319.0,111540.0,111540.0,14823200.0
22,2021-02-04,119728.0,120560.0,118918.0,119261.0,119261.0,8100700.0
54,2021-03-24,113272.0,114823.0,112064.0,112064.0,112064.0,9834000.0


In [37]:
len(df) # comprimento (nº de de linhas do dataframe)

148

In [38]:
df.columns # retorna o nome das colunas e seu tipo

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

In [39]:
df.index

RangeIndex(start=0, stop=148, step=1)

In [40]:
df.info() # informações do dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 148 entries, 0 to 147
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       148 non-null    object 
 1   Open       147 non-null    float64
 2   High       147 non-null    float64
 3   Low        147 non-null    float64
 4   Close      147 non-null    float64
 5   Adj Close  147 non-null    float64
 6   Volume     147 non-null    float64
dtypes: float64(6), object(1)
memory usage: 8.2+ KB


In [41]:
df.count() #contar quantos valores não nulos em cada coluna

Date         148
Open         147
High         147
Low          147
Close        147
Adj Close    147
Volume       147
dtype: int64

Os métodos vistos são para dataframe mas existem métodos que são usados em séries também. Além de ter métodos exclusivos para séries e exclusivos para dataframes

## Selecionando linhas e colunas

In [45]:
# Selecionar uma coluna

df.Open # uma forma de selecionar uma coluna - tem limitações espaço, nome, caracter especial, não itera
# ou

df['Open'] # eu e prof Pedro preferimos essa forma

0      119024.0
1      118835.0
2      119377.0
3      119103.0
4      122387.0
         ...   
143    121803.0
144    122516.0
145    123577.0
146    121801.0
147    121633.0
Name: Open, Length: 148, dtype: float64

In [46]:
## Acessar 2 colunas
df[['Open','Close']]

Unnamed: 0,Open,Close
0,119024.0,118558.0
1,118835.0,119223.0
2,119377.0,119851.0
3,119103.0,121956.0
4,122387.0,125077.0
...,...,...
143,121803.0,122516.0
144,122516.0,123577.0
145,123577.0,121801.0
146,121801.0,121633.0


In [47]:
df.loc[20:28]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
20,2021-02-02,117520.0,119805.0,117519.0,118234.0,118234.0,11625900.0
21,2021-02-03,118235.0,120210.0,118234.0,119725.0,119725.0,8704300.0
22,2021-02-04,119728.0,120560.0,118918.0,119261.0,119261.0,8100700.0
23,2021-02-05,119261.0,121117.0,119261.0,119925.0,119925.0,8208400.0
24,2021-02-08,120239.0,120844.0,119140.0,119516.0,119516.0,8619100.0
25,2021-02-09,119696.0,119975.0,118246.0,119429.0,119429.0,7913500.0
26,2021-02-10,119472.0,119738.0,117970.0,118430.0,118430.0,8644600.0
27,2021-02-11,118440.0,120283.0,118440.0,119235.0,119235.0,7567400.0
28,2021-02-12,119300.0,119763.0,118163.0,119116.0,119116.0,7655900.0
