### Exemplo I - Importando o Pandas

In [1]:
import pandas as pd
print(pd.__version__)
pd.options.display.float_format = '{:.3f}'.format

1.2.4


### Exemplo II - Criando um dataset de exemplo (dados fictícios) usando Pandas

In [2]:
dados={'Estado':["SP","RJ","ES","MG","PR", "RS", "SC"],
      'Populacao':[46649132,17463349,4108508,21411923,11597484,11466630,7338473]}
basepop=pd.DataFrame(dados)
basepop

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508
3,MG,21411923
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [3]:
#Verificando o tipo do objeto criado
type(basepop)

pandas.core.frame.DataFrame

In [4]:
### Observando as primeiras n linhas da tabela
basepop.head(3)

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [5]:
### Observando as últimas n linhas da tabela
basepop.tail(3)

Unnamed: 0,Estado,Populacao
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [6]:
#Trazendo a quantidade de linhas e colunas do dataframe
basepop.shape

(7, 2)

### Exemplo III - Criando uma série de dados

In [7]:
#Gerando a série
serie=[1,2,4,8,16,32]
minha_serie=pd.Series(serie)
minha_serie

0     1
1     2
2     4
3     8
4    16
5    32
dtype: int64

In [8]:
#Colocando um rótulo nos valores dos índices da série
minha_serie=pd.Series(serie,index=["a","b","c","d","e","f"])
minha_serie

a     1
b     2
c     4
d     8
e    16
f    32
dtype: int64

In [9]:
#Criando uma série simples a partir de um dicionário
calorias = {"dia1": 450, "dia2": 398, "dia3": 367}
minhas_calorias = pd.Series(calorias)
print(minhas_calorias)

dia1    450
dia2    398
dia3    367
dtype: int64


### Exemplo IV - Filtrando dados em um dataframe

In [10]:
#Fitrando uma coluna específica
basepop["Estado"]

0    SP
1    RJ
2    ES
3    MG
4    PR
5    RS
6    SC
Name: Estado, dtype: object

In [11]:
#Filtrando uma linha específica
basepop.loc[[0]]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [12]:
#Filtrando mais de uma linha
basepop.loc[[1,4]]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
4,PR,11597484


In [13]:
#Filtrando mais de uma linha de forma sequencial
basepop.loc[1:3]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
2,ES,4108508
3,MG,21411923


In [14]:
#Filtrando mais de uma linha de forma sequencial e de uma coluna específica
basepop.loc[1:3, "Estado"]

1    RJ
2    ES
3    MG
Name: Estado, dtype: object

In [15]:
#Filtrando mais de uma linha de forma sequencial
basepop.iloc[0:3,0:2]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [16]:
#Filtrando todas as colunas de uma linha olu conjunto de linhas
basepop.iloc[0:3,:]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [17]:
#Filtrando todas as linhas de uma coluna ou grupo de colunas
basepop.iloc[:, 0:1]

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [18]:
#Filtrando linhas a partir de uma condição específica
basepop.loc[basepop["Populacao"]>10000000]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [19]:
#Filtrando linhas a partir de mais de uma condição específica, em que ambas sejam atendidas(AND)
basepop.loc[(basepop["Populacao"]>10000000) & (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [20]:
#Filtrando linhas a partir de mais de uma condição específica, em que pelo menos uma seja atendida(OR)
basepop.loc[(basepop["Populacao"]>10000000) | (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [21]:
#Usando o comando query para filtrar de uma maneira ainda mais simples
basepop.query("Populacao<10000000 & Estado=='ES'")

Unnamed: 0,Estado,Populacao
2,ES,4108508


In [22]:
#Usando o comando filter para selecão de linhas e colunas
basepop.filter(["Estado"])

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [23]:
#Extraindo a média de população dos estados
mediapop=basepop["Populacao"].mean()
mediapop

17147928.42857143

In [24]:
#Filtrando estados com população acima da média
basepop.query("Populacao > @ mediapop")

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923


In [None]:
#Filtrando um conjunto de estados específico
basepop[basepop["Estado"].isin(["SP", "RS", "PR"])]

### Exemplo V - Importando dados de tabelas externas

In [None]:
#Importando uma tabela Excel para análise (formato .xlsx)
indsocdem=pd.read_excel("Indicadores Socio-Demograficos.xlsx", sheet_name="BASE_DADOS")
indsocdem.head(10)

In [None]:
#Importando um arquivo texto no formato .csv (arquivos texto separados por vírgulas)
telco=pd.read_csv("Telco Customer Churn.csv", sep = ',')
telco.head()

In [None]:
#Importando um arquivo no formato .txt
people=pd.read_csv("PeopleAnalytics.txt", sep="\t", usecols=["Attrition", "Age", "StockOptionLevel"])
people.head()

### Exemplo VI - Descrição básica dos dados

In [None]:
#Análise descritiva básica do dataframe sobre Indicadores Sócio-Demográficos
indsocdem.describe().round(3)

### Exemplo VII - Alterando nome de colunas

In [None]:
#Gerando um dataframe fake
dataframe = pd.DataFrame({
    "Nome": ['Tonho', 'Nicão', 'Jão', 'Pedrão'],
    "Idade": [15, 26, 17, 28]
})

print(dataframe)

In [None]:
#Alterando nomes das colunas - Opção I
dataframe.columns = ['Nome_Colega', 'Idade_Anos']
print(dataframe)

In [None]:
#Alterando nomes das colunas - Opção II
dataframe=dataframe.rename(columns={"Nome_Colega":"Friends_Name", "Idade_Anos":"Age_Years"})
print(dataframe)

### Exemplo VIII - Excluindo colunas do dataframe


In [None]:
#Excluindo a coluna "Age" do dataframe People
print(people)
people.drop(["Age"],axis=1, inplace=True)
print(people)

### Exemplo IX - Criando novas colunas transformadas

In [None]:
#Criando um dataset fake
base = pd.DataFrame({'Data':['10/2/2021', '11/2/2021', '12/2/2021', '13/2/2021'],
                    'Evento':['Música', 'Poesia', 'Teatro', 'Comédia'],
                    'Custo':[10000, 5000, 15000, 2000]})
print(base)

In [None]:
#Calcula preço com desconto de 10% - Opção I
base['Custo_com_Desconto'] = base.apply(lambda row: row.Custo - 
                                  (row.Custo * 0.1), axis = 1)
print(base)

In [None]:
#Calcula preço com desconto de 10% - Opção II
base['Custo_com_Desconto_I'] = base['Custo'] - (0.1 * base['Custo'])
print(base)

In [None]:
#Categorizando a variável Custo
import numpy as np
condicoes=[(base["Custo"]<=2500),(base["Custo"]>2500) & (base["Custo"]<=5000),(base["Custo"]>5000)]
classe=["Baixo","Médio","Alto"]
base['Fx_Custo'] = np.select(condicoes, classe, default="Sem Info")
base           

### Exemplo X - Agrupando dados

In [None]:
df = pd.DataFrame({'coluna_I': ['A', 'B', 'C', 'A', 'C',
                               'C', 'B', 'D', 'D', 'A'],
                   'coluna_II': [5, 10, 15, 20, 25, 30, 
                             35, 40, 45, 50]})
df

In [None]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção I
df1=df.groupby('coluna_I')['coluna_II'].sum()
df1

In [None]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção II
df.groupby("coluna_I").agg({"coluna_II":"sum"})

In [None]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção III
df.groupby("coluna_I").agg({"coluna_II":["sum","mean"]})

### Exemplo XI - Cruzando dados de diferentes dataframes

In [None]:
#Criando um dataset fake
base_A=pd.DataFrame({"id":[1,2,3,4,5,6,7],"saldo":[100,200,100,300,400,500,690]})
print(base_A)
base_B=pd.DataFrame({"id":[1,2,5,6,7],"idade_empresa":[15,22,11,13,8]})
print(base_B)

In [None]:
#Cruzando dados da tabela A e da B - inner join
pd.merge(base_A,base_B,on="id",how="inner")

In [None]:
#Cruzando dados da tabela A e da B - left join
pd.merge(base_A,base_B,on="id",how="left")

In [None]:
#Cruzando dados da tabela A e da B - right join
pd.merge(base_A,base_B,on="id",how="right")

In [None]:
#Cruzando dados da tabela A e da B - full join
pd.merge(base_A,base_B,on="id",how="outer")

### Exemplo XII - Gerando uma amostra aleatória do dataframe

In [None]:
#Vendo o dataframe indsocdem
indsocdem

In [None]:
#Extraindo uma amostra de 10 municipios da base original
indsocdem.sample(5)

In [None]:
#Extraindo uma amostra de 0.01% dos municipios da base original
indsocdem.sample(frac=0.001)

In [None]:
#Extraindo uma amostra de 0.01% dos municipios da base original, mas fixando o resultado inicial
indsocdem.sample(frac=0.001,random_state=123)