### Criando Dataframe

##### Criando a partir de lista

In [10]:
import pandas as pd

df = pd.DataFrame() # Planilha vazia

data = [1, 2, 3, 4]
df= pd.DataFrame(data)
df


Unnamed: 0,0
0,1
1,2
2,3
3,4


##### Criando a partir de lista de listas

In [11]:
import pandas as pd

df = pd.DataFrame() # Planilha vazia

data = [[1, 2],
        [3, 4],
        [5, 6]]
df= pd.DataFrame(data)
df

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


##### Criando a partir de dicionário de listas

In [12]:
import pandas as pd

df = pd.DataFrame() # Planilha vazia

data = {'Nome': ['Adriano', 'Rodrigo', 'Juliano'],
        'Sobrenome': ['Soares', 'Tadewald', 'Faccioni']}
df= pd.DataFrame(data)
df

Unnamed: 0,Nome,Sobrenome
0,Adriano,Soares
1,Rodrigo,Tadewald
2,Juliano,Faccioni


##### Criando com índice

In [13]:
import pandas as pd

df = pd.DataFrame() # Planilha vazia

data = {'Nome': ['Adriano', 'Rodrigo', 'Juliano'],
        'Sobrenome': ['Soares', 'Tadewald', 'Faccioni']}
df= pd.DataFrame(data, index= ['pessoa1', 'pessoa2', 'pessoa3'])
df

Unnamed: 0,Nome,Sobrenome
pessoa1,Adriano,Soares
pessoa2,Rodrigo,Tadewald
pessoa3,Juliano,Faccioni


##### Criando a partir de uma lista de dicionários

In [14]:
import pandas as pd

df = pd.DataFrame() # Planilha vazia

data = [{'Nome': 'Adriano', 'Sobrenome': 'Soares'},
        {'Nome': 'Rodrigo', 'Sobrenome': 'Tadewald'},
        {'Nome': 'Juliano', 'Sobrenome': 'Facconi'}]
df= pd.DataFrame(data, index= ['pessoa1', 'pessoa2', 'pessoa3'])
df

Unnamed: 0,Nome,Sobrenome
pessoa1,Adriano,Soares
pessoa2,Rodrigo,Tadewald
pessoa3,Juliano,Facconi


#### Principais atributos

Colums, Index, Shape

In [15]:
import pandas as pd

df = pd.DataFrame() # Planilha vazia

data = [{'Nome': 'Adriano', 'Sobrenome': 'Soares'},
        {'Nome': 'Rodrigo', 'Sobrenome': 'Tadewald'},
        {'Nome': 'Juliano', 'Sobrenome': 'Facconi'}]
df= pd.DataFrame(data, index= ['pessoa1', 'pessoa2', 'pessoa3'])
list(df.columns) # retorna uma lista com o nome das colunas
list(df.index) # retorna a lista de indices
df.shape # retorna uma tupla com a forma da tabela linhas / Colunas
df.shape[0] # retorna o número de linhas da tabela
df.shape[1] # retorna o número de colunas

2

#### Lendo planilhas de excel

In [16]:
import pandas as pd
from pathlib import Path

pasta_atual = Path.cwd()

tabela_vendas = pd.read_excel(pasta_atual / 'datasets' / 'vendas.xlsx',
                                sheet_name= 'Sheet1',
                                index_col=0,
                                decimal=',',
                                usecols= [0, 1, 2]) 
    # sheet_name define a aba de onde os dados virão, se esse campo estiver zerado, ele pegará a aba zero
    # index_col=0 pega a primeira coluna e transforma em índice
    # decimal=',' informa para o sistema que o separador está no padrão brasileiro e não americano padrão
    # usecols= define quais colunas serão utilizadas

tabela_vendas

Unnamed: 0_level_0,id_venda,filial
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-20 08:00:56.384,0,Canoas
2023-01-20 08:50:58.756,1,Florianópolis
2023-01-20 11:44:56.777,2,Canoas
2023-01-20 12:07:58.026,3,Caxias do Sul
2023-01-20 12:49:56.607,4,São Paulo
...,...,...
2023-09-26 08:39:58.719,1995,Porto Alegre
2023-09-26 09:45:56.917,1996,Lajeado
2023-09-26 12:22:56.383,1997,Canoas
2023-09-26 13:01:57.747,1998,Lajeado


##### Lendo planilhas CSV

In [17]:
import pandas as pd
from pathlib import Path

pasta_atual = Path.cwd()

tabela_vendas = pd.read_csv(pasta_atual / 'datasets' / 'vendas.csv',
                            sep= ';',
                            decimal=',')
tabela_vendas
    # sep= ';' informa para o sistema que o separador está no padrão brasileiro
    # use_cols= não funciona no mesmo arquivo de leitura, pois ele primeiro precisa ler os dados
    # sheet_name não funciona no CSV pois ele só possui 1 aba

Unnamed: 0,data,id_venda,filial,vendedor,produto,cliente_nome,cliente_genero,forma_pagamento
0,2023-01-20 08:00:56.384224,0,Canoas,Luis Fernando,Tenis Nike,Sabrina Rieke,feminino,credito
1,2023-01-20 08:50:58.755843,1,Florianópolis,Mario Sérgio,Tenis Adidas,Patsy Lovell,feminino,credito
2,2023-01-20 11:44:56.776745,2,Canoas,Carlos Henrique,Tenis Adidas,John Crandall,masculino,credito
3,2023-01-20 12:07:58.025749,3,Caxias do Sul,Rodrigo Vanzeloti,Tenis Adidas,Mildred Mcleod,feminino,credito
4,2023-01-20 12:49:56.606703,4,São Paulo,Cassia Moraes,Tenis NB,Robert Mccormick,masculino,credito
...,...,...,...,...,...,...,...,...
1995,2023-09-26 08:39:58.718787,1995,Porto Alegre,Luiza Cherobini,Tenis Nike,Glenn Johnson,masculino,credito
1996,2023-09-26 09:45:56.916568,1996,Lajeado,Juliano Faccioni,Tenis Adidas,Robert Roop,masculino,boleto
1997,2023-09-26 12:22:56.382995,1997,Canoas,Luis Fernando,Tenis Adidas,Mary Berg,feminino,credito
1998,2023-09-26 13:01:57.747415,1998,Lajeado,Adriano Soares,Tenis NB,Dianna Alcorn,feminino,credito


#### Visualização básica no Jupyter

In [18]:
import pandas as pd

data = {'Nome': ['Adriano', 'Rodrigo', 'Juliano', 'Mateus', 'Luiza', 'Rodrigo', 'Ayres', 'Aninha'],
		'Sobrenome': ['Soares', 'Tadewald', 'Faccioni', 'Kienzle', 'Cherobini', 'Vanzelotti', 'Júnior', 'Tadewald'],}
df = pd.DataFrame(data)
df.head() # mostra somente as primeiras linhas da tabela
            # por defaut são 5, mas pode-se passar outros valores entre os parênteses
df.tail() # mostra os ultimos valores da planilha



Unnamed: 0,Nome,Sobrenome
3,Mateus,Kienzle
4,Luiza,Cherobini
5,Rodrigo,Vanzelotti
6,Ayres,Júnior
7,Aninha,Tadewald


In [19]:
import pandas as pd
from pathlib import Path

pasta_atual = Path.cwd()

pd.set_option('display.max_rows', 10) # elimina as reticências no meio da tabela, porém é necessário usar o .head()

tabela_vendas = pd.read_csv(pasta_atual / 'datasets' / 'vendas.csv',
                            sep= ';',
                            decimal=',')

tabela_vendas.head(10)


Unnamed: 0,data,id_venda,filial,vendedor,produto,cliente_nome,cliente_genero,forma_pagamento
0,2023-01-20 08:00:56.384224,0,Canoas,Luis Fernando,Tenis Nike,Sabrina Rieke,feminino,credito
1,2023-01-20 08:50:58.755843,1,Florianópolis,Mario Sérgio,Tenis Adidas,Patsy Lovell,feminino,credito
2,2023-01-20 11:44:56.776745,2,Canoas,Carlos Henrique,Tenis Adidas,John Crandall,masculino,credito
3,2023-01-20 12:07:58.025749,3,Caxias do Sul,Rodrigo Vanzeloti,Tenis Adidas,Mildred Mcleod,feminino,credito
4,2023-01-20 12:49:56.606703,4,São Paulo,Cassia Moraes,Tenis NB,Robert Mccormick,masculino,credito
5,2023-01-20 14:01:58.316971,5,Caxias do Sul,Mateus Kienzle,Tenis NB,Richard Kaeo,masculino,pix
6,2023-01-20 14:37:56.577837,6,Lajeado,Juliano Faccioni,Tenis Fila,Carl Aurand,masculino,boleto
7,2023-01-20 15:16:57.086366,7,São Paulo,Claudio Bueno,Tenis NB,Rita Hess,feminino,credito
8,2023-01-21 08:38:58.394180,8,São Paulo,Claudio Bueno,Tenis Fila,Lenny Harpster,masculino,credito
9,2023-01-21 10:53:58.316645,9,Canoas,Luis Fernando,Tenis Fila,Herman Lee,masculino,credito


In [20]:
import pandas as pd
import numpy as np

df_tempo = pd.DataFrame(np.random.rand(10,2)*5,
                        index= pd.date_range(start='2023-01-01', periods= 10),
                        columns= ['Porto Alegre','São Paulo'])

df_tempo.style.format(decimal=',',   # formata os dados trocando pontos por vírgula no separador decimal.
                      precision= 3)  # mostra somente 3 casas após a vírgula

df_tempo.style.format_index(  # formata os índices do dataframe
    str.upper,  # transforma em letras maiúsculas
    axis=1, # define qual índice será formatado (0 = colunas, 1 = linhas)
    )
#___________________________________________________________________________________________________________________________
df_tempo.style.format_index(lambda v: v.strftime('%d/%m/%y'), # 'lambda' Avisa ao Python que você está criando uma função curta
                             axis=0         # 'v' É o argumento de entrada (representa cada valor individual do seu índice/data                         
                             )              # ':' Separa o argumento da expressão.
                                            # 'v.strftime(...)' É o "corpo" da função, transforma 'v' em uma string formatada

                            # OU

def formatar_data(v):
    return v.strftime('%d/%m/%y')

df_tempo.style.format_index(formatar_data, axis=0)
#___________________________________________________________________________________________________________________________

df_tempo.style.set_caption('Condições do Tempo')   # adiciona um título a tabela

Unnamed: 0,Porto Alegre,São Paulo
2023-01-01 00:00:00,0.812718,3.886922
2023-01-02 00:00:00,0.366296,1.349636
2023-01-03 00:00:00,3.561326,0.127541
2023-01-04 00:00:00,2.80365,0.719386
2023-01-05 00:00:00,2.655838,2.905074
2023-01-06 00:00:00,4.876879,3.826612
2023-01-07 00:00:00,4.984348,1.603852
2023-01-08 00:00:00,1.783144,0.150953
2023-01-09 00:00:00,3.268773,1.476789
2023-01-10 00:00:00,4.960051,2.093613


#### Adicionando formatação condicional

In [None]:
df_tempo.style.background_gradient(axis= None,    # cria um gradiente de cores de fundo
                                   vmin= 1,       # iniciando no valor 1 com tom mais claro
                                   vmax= 5,       # indo até o valor 5 com gradiente mais escuro
                                   cmap='YlGnBu'  # paleta de cores selecionada
                                   )

Unnamed: 0,Porto Alegre,São Paulo
2023-01-01 00:00:00,0.812718,3.886922
2023-01-02 00:00:00,0.366296,1.349636
2023-01-03 00:00:00,3.561326,0.127541
2023-01-04 00:00:00,2.80365,0.719386
2023-01-05 00:00:00,2.655838,2.905074
2023-01-06 00:00:00,4.876879,3.826612
2023-01-07 00:00:00,4.984348,1.603852
2023-01-08 00:00:00,1.783144,0.150953
2023-01-09 00:00:00,3.268773,1.476789
2023-01-10 00:00:00,4.960051,2.093613


#### Modificando Valores

In [24]:
def condicao_tempo(v):
    if v > 2.75:
        return 'Chuva Forte'
    elif v < 1.75:
        return 'Seco'
    else:
        return 'Normal'
    
df_tempo.style.format(condicao_tempo)

Unnamed: 0,Porto Alegre,São Paulo
2023-01-01 00:00:00,Seco,Chuva Forte
2023-01-02 00:00:00,Seco,Seco
2023-01-03 00:00:00,Chuva Forte,Seco
2023-01-04 00:00:00,Chuva Forte,Seco
2023-01-05 00:00:00,Normal,Chuva Forte
2023-01-06 00:00:00,Chuva Forte,Chuva Forte
2023-01-07 00:00:00,Chuva Forte,Seco
2023-01-08 00:00:00,Normal,Seco
2023-01-09 00:00:00,Chuva Forte,Seco
2023-01-10 00:00:00,Chuva Forte,Normal


#### Juntando tudo

In [27]:
def condicao_tempo(v):
    if v > 2.75:
        return 'Chuva Forte'
    elif v < 1.75:
        return 'Seco'
    else:
        return 'Normal'
    
def embelezar(Styler):
    Styler.set_caption('Condição do Tempo')  # coloca o título
    Styler.format(condicao_tempo)    # altera os valores
    Styler.format_index(lambda v: v.strftime('%d/%m/%y'))  # altera o formato da data
    Styler.background_gradient(axis= None, vmin= 1, vmax= 5, cmap='Blues')  # colore o fundo de acordo com a paleta
    return Styler

df_tempo.style.pipe(embelezar)

Unnamed: 0,Porto Alegre,São Paulo
01/01/23,Seco,Chuva Forte
02/01/23,Seco,Seco
03/01/23,Chuva Forte,Seco
04/01/23,Chuva Forte,Seco
05/01/23,Normal,Chuva Forte
06/01/23,Chuva Forte,Chuva Forte
07/01/23,Chuva Forte,Seco
08/01/23,Normal,Seco
09/01/23,Chuva Forte,Seco
10/01/23,Chuva Forte,Normal
