### Exemplo I - Importando o Pandas

In [32]:
import pandas as pd
print(pd.__version__)
pd.options.display.float_format = '{:.3f}'.format

1.3.4


### Exemplo II - Criando um dataset de exemplo (dados fictícios) usando Pandas

In [33]:
dados={'Estado':["SP","RJ","ES","MG","PR", "RS", "SC"],
      'Populacao':[46649132,17463349,4108508,21411923,11597484,11466630,7338473]}
basepop=pd.DataFrame(dados)
basepop

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508
3,MG,21411923
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [34]:
#Verificando o tipo do objeto criado
type(basepop)

pandas.core.frame.DataFrame

In [35]:
### Observando as primeiras n linhas da tabela
basepop.head(3)

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [36]:
### Observando as últimas n linhas da tabela
basepop.tail(3)

Unnamed: 0,Estado,Populacao
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [37]:
#Trazendo a quantidade de linhas e colunas do dataframe
basepop.shape

(7, 2)

### Exemplo III - Criando uma série de dados

In [38]:
#Gerando a série
serie=[1,2,4,8,16,32]
minha_serie=pd.Series(serie)
minha_serie

0     1
1     2
2     4
3     8
4    16
5    32
dtype: int64

In [39]:
#Colocando um rótulo nos valores dos índices da série
minha_serie=pd.Series(serie,index=["a","b","c","d","e","f"])
minha_serie

a     1
b     2
c     4
d     8
e    16
f    32
dtype: int64

In [40]:
#Criando uma série simples a partir de um dicionário
calorias = {"dia1": 450, "dia2": 398, "dia3": 367}
minhas_calorias = pd.Series(calorias)
print(minhas_calorias)

dia1    450
dia2    398
dia3    367
dtype: int64


### Exemplo IV - Filtrando dados em um dataframe

In [41]:
#Fitrando uma coluna específica
basepop["Estado"]

0    SP
1    RJ
2    ES
3    MG
4    PR
5    RS
6    SC
Name: Estado, dtype: object

In [42]:
#Filtrando uma linha específica
basepop.loc[[0]]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [43]:
#Filtrando mais de uma linha
basepop.loc[[1,4]]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
4,PR,11597484


In [44]:
#Filtrando mais de uma linha de forma sequencial
basepop.loc[1:3]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
2,ES,4108508
3,MG,21411923


In [45]:
#Filtrando mais de uma linha de forma sequencial e de uma coluna específica
basepop.loc[1:3, "Estado"]

1    RJ
2    ES
3    MG
Name: Estado, dtype: object

In [46]:
#Filtrando mais de uma linha de forma sequencial
basepop.iloc[0:3,0:2]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [47]:
#Filtrando todas as colunas de uma linha olu conjunto de linhas
basepop.iloc[0:3,:]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [48]:
#Filtrando todas as linhas de uma coluna ou grupo de colunas
basepop.iloc[:, 0:1]

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [49]:
#Filtrando linhas a partir de uma condição específica
basepop.loc[basepop["Populacao"]>10000000]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [50]:
#Filtrando linhas a partir de mais de uma condição específica, em que ambas sejam atendidas(AND)
basepop.loc[(basepop["Populacao"]>10000000) & (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [51]:
#Filtrando linhas a partir de mais de uma condição específica, em que pelo menos uma seja atendida(OR)
basepop.loc[(basepop["Populacao"]>10000000) | (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [52]:
#Usando o comando query para filtrar de uma maneira ainda mais simples
basepop.query("Populacao<10000000 & Estado=='ES'")

Unnamed: 0,Estado,Populacao
2,ES,4108508


In [53]:
#Usando o comando filter para selecão de linhas e colunas
basepop.filter(["Estado"])

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [54]:
#Extraindo a média de população dos estados
mediapop=basepop["Populacao"].mean()
mediapop

17147928.42857143

In [55]:
#Filtrando estados com população acima da média
basepop.query("Populacao > @ mediapop")

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923


In [56]:
#Filtrando um conjunto de estados específico
basepop[basepop["Estado"].isin(["SP", "RS", "PR"])]

Unnamed: 0,Estado,Populacao
0,SP,46649132
4,PR,11597484
5,RS,11466630


### Exemplo V - Importando dados de tabelas externas

In [57]:
#Importando uma tabela Excel para análise (formato .xlsx)
indsocdem=pd.read_excel("Indicadores Socio-Demograficos.xlsx", sheet_name="BASE_DADOS")
indsocdem.head(10)

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
0,Abadia De Goiás,GO,6876.0,5300.0,69.0,318.0,438.0,517.0,3542.0,416.0,...,0.622,-49.441,-16.759,360.0,8583.0,166.41,20664.57,2158.0,1246.0,284.0
1,Abadia Dos Dourados,MG,6704.0,4154.0,38.0,207.0,260.0,351.0,2709.0,589.0,...,0.563,-47.397,-18.488,77.0,6972.0,180.09,25591.7,2227.0,1142.0,476.0
2,Abadiânia,GO,15757.0,10656.0,139.0,650.0,894.0,1087.0,6896.0,990.0,...,0.579,-48.719,-16.183,227.0,19614.0,287984.49,15628.4,2838.0,1426.0,288.0
3,Abaeté,MG,22690.0,18464.0,176.0,856.0,1233.0,1539.0,11979.0,2681.0,...,0.556,-45.446,-19.156,1230.0,23223.0,430235.36,18250.42,6928.0,2953.0,621.0
4,Abaetetuba,PA,141100.0,82956.0,1354.0,5567.0,7618.0,8905.0,53516.0,5996.0,...,0.537,-48.884,-1.723,3389.0,156292.0,1249255.29,8222.36,5277.0,25661.0,931.0
5,Abaiara,CE,10496.0,4538.0,98.0,323.0,421.0,483.0,2631.0,582.0,...,0.612,-39.048,-7.357,29.0,11663.0,73151.46,6370.41,553.0,1674.0,86.0
6,Abaíra,BA,8316.0,3725.0,37.0,156.0,263.0,277.0,2319.0,673.0,...,0.51,-41.662,-13.254,952.0,8767.0,64324.59,6982.7,896.0,696.0,191.0
7,Abaré,BA,17064.0,8994.0,167.0,733.0,978.0,927.0,5386.0,803.0,...,0.46,-39.117,-8.723,51.0,19814.0,124754.26,6256.8,613.0,1532.0,87.0
8,Abatiá,PR,7764.0,5685.0,69.0,302.0,370.0,483.0,3650.0,811.0,...,0.596,-50.313,-23.3,55.0,7507.0,165048.21,21173.6,2168.0,912.0,285.0
9,Abdon Batista,SC,2653.0,724.0,12.0,32.0,49.0,63.0,479.0,89.0,...,0.625,-51.025,-27.609,109.0,2577.0,64742.01,24739.02,976.0,345.0,69.0


In [58]:
#Importando um arquivo texto no formato .csv (arquivos texto separados por vírgulas)
telco=pd.read_csv("Telco Customer Churn.csv", sep = ',')
telco.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [59]:
#Importando um arquivo no formato .txt
people=pd.read_csv("PeopleAnalytics.txt", sep="\t", usecols=["Attrition", "Age", "StockOptionLevel"])
people.head()

Unnamed: 0,Attrition,Age,StockOptionLevel
0,Yes,41,0
1,No,49,1
2,Yes,37,0
3,No,33,0
4,No,27,1


### Exemplo VI - Descrição básica dos dados

In [60]:
#Análise descritiva básica do dataframe sobre Indicadores Sócio-Demográficos
indsocdem.describe().round(3)

Unnamed: 0,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,IDHM,IDHM_Renda,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
count,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,...,5565.0,5564.0,5564.0,5570.0,5570.0,5570.0,5570.0,5562.0,5562.0,5570.0
mean,34277.772,27594.658,383.276,1544.531,2069.321,2381.423,18211.869,3004.239,0.659,0.643,...,0.559,-46.226,-16.444,3094.209,37431.759,954583.631,21126.181,9859.429,4878.615,906.753
std,203112.622,185957.864,2326.809,9253.09,12313.518,14186.075,125205.947,23247.843,0.072,0.081,...,0.093,6.41,8.281,35794.788,219969.003,11219549.873,20332.651,91886.936,20943.915,8333.768
min,805.0,174.0,0.0,5.0,7.0,12.0,94.0,29.0,0.418,0.4,...,0.207,-72.917,-33.688,1.0,786.0,14.96,3190.57,2.0,4.0,6.0
25%,5235.0,2801.0,38.0,158.0,220.0,259.0,1734.0,341.0,0.599,0.572,...,0.49,-50.867,-22.838,88.0,5454.0,43709.462,9057.61,602.0,591.0,68.0
50%,10934.0,6170.0,92.0,376.0,516.0,588.0,3841.0,722.0,0.665,0.654,...,0.56,-46.516,-18.089,247.0,11590.5,125153.425,15869.625,1438.5,1285.0,162.0
75%,23424.0,15302.0,232.0,951.0,1300.0,1478.0,9628.0,1724.0,0.718,0.707,...,0.631,-41.405,-8.489,815.0,25295.5,329539.282,26154.722,4086.0,3294.5,448.0
max,11253503.0,10463636.0,129464.0,514794.0,684443.0,783702.0,7058221.0,1293012.0,0.862,0.891,...,0.825,-32.435,4.585,2047668.0,12176866.0,687035889.61,314637.69,5740995.0,1134570.0,530446.0


### Exemplo VII - Alterando nome de colunas

In [None]:
#Gerando um dataframe fake
dataframe = pd.DataFrame({
    "Nome": ['Tonho', 'Nicão', 'Jão', 'Pedrão'],
    "Idade": [15, 26, 17, 28]
})

print(dataframe)

In [None]:
#Alterando nomes das colunas - Opção I
dataframe.columns = ['Nome_Colega', 'Idade_Anos']
print(dataframe)

In [None]:
#Alterando nomes das colunas - Opção II
dataframe=dataframe.rename(columns={"Nome_Colega":"Friends_Name", "Idade_Anos":"Age_Years"})
print(dataframe)

### Exemplo VIII - Excluindo colunas do dataframe


In [None]:
#Excluindo a coluna "Age" do dataframe People
print(people)
people.drop(["Age"],axis=1, inplace=True)
print(people)

### Exemplo IX - Criando novas colunas transformadas

In [None]:
#Criando um dataset fake
base = pd.DataFrame({'Data':['10/2/2021', '11/2/2021', '12/2/2021', '13/2/2021'],
                    'Evento':['Música', 'Poesia', 'Teatro', 'Comédia'],
                    'Custo':[10000, 5000, 15000, 2000]})
print(base)

In [None]:
#Calcula preço com desconto de 10% - Opção I
base['Custo_com_Desconto'] = base.apply(lambda row: row.Custo - 
                                  (row.Custo * 0.1), axis = 1)
print(base)

In [None]:
#Calcula preço com desconto de 10% - Opção II
base['Custo_com_Desconto_I'] = base['Custo'] - (0.1 * base['Custo'])
print(base)

In [None]:
#Categorizando a variável Custo
import numpy as np
condicoes=[(base["Custo"]<=2500),(base["Custo"]>2500) & (base["Custo"]<=5000),(base["Custo"]>5000)]
classe=["Baixo","Médio","Alto"]
base['Fx_Custo'] = np.select(condicoes, classe, default="Sem Info")
base           

### Exemplo X - Agrupando dados

In [64]:
df = pd.DataFrame({'coluna_I': ['A', 'B', 'C', 'A', 'C',
                               'C', 'B', 'D', 'D', 'A'],
                   'coluna_II': [5, 10, 15, 20, 25, 30, 
                             35, 40, 45, 50]})
df

Unnamed: 0,coluna_I,coluna_II
0,A,5
1,B,10
2,C,15
3,A,20
4,C,25
5,C,30
6,B,35
7,D,40
8,D,45
9,A,50


In [65]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção I
df1=df.groupby('coluna_I')['coluna_II'].sum()
df1

coluna_I
A    75
B    45
C    70
D    85
Name: coluna_II, dtype: int64

In [None]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção II
df.groupby("coluna_I").agg({"coluna_II":"sum"})

In [None]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção III
df.groupby("coluna_I").agg({"coluna_II":["sum","mean"]})

### Exemplo XI - Cruzando dados de diferentes dataframes

In [None]:
#Criando um dataset fake
base_A=pd.DataFrame({"id":[1,2,3,4,5,6,7],"saldo":[100,200,100,300,400,500,690]})
print(base_A)
base_B=pd.DataFrame({"id":[1,2,5,6,7],"idade_empresa":[15,22,11,13,8]})
print(base_B)

In [None]:
#Cruzando dados da tabela A e da B - inner join
pd.merge(base_A,base_B,on="id",how="inner")

In [None]:
#Cruzando dados da tabela A e da B - left join
pd.merge(base_A,base_B,on="id",how="left")

In [None]:
#Cruzando dados da tabela A e da B - right join
pd.merge(base_A,base_B,on="id",how="right")

In [None]:
#Cruzando dados da tabela A e da B - full join
pd.merge(base_A,base_B,on="id",how="outer")

### Exemplo XII - Gerando uma amostra aleatória do dataframe

In [None]:
#Vendo o dataframe indsocdem
indsocdem

In [None]:
#Extraindo uma amostra de 10 municipios da base original
indsocdem.sample(5)

In [None]:
#Extraindo uma amostra de 0.01% dos municipios da base original
indsocdem.sample(frac=0.001)

In [None]:
#Extraindo uma amostra de 0.01% dos municipios da base original, mas fixando o resultado inicial
indsocdem.sample(frac=0.001,random_state=123)