### Exemplo I - Importando o Pandas

In [2]:
import pandas as pd
print(pd.__version__)
pd.options.display.float_format = '{:.3f}'.format

1.3.4


### Exemplo II - Criando um dataset de exemplo (dados fictícios) usando Pandas

In [2]:
dados={'Estado':["SP","RJ","ES","MG","PR", "RS", "SC"],
      'Populacao':[46649132,17463349,4108508,21411923,11597484,11466630,7338473]}
basepop=pd.DataFrame(dados)
basepop

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508
3,MG,21411923
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [4]:
#Verificando o tipo do objeto criado
type(basepop)

pandas.core.frame.DataFrame

In [5]:
### Observando as primeiras n linhas da tabela
basepop.head(3)

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [6]:
### Observando as últimas n linhas da tabela
basepop.tail(3)

Unnamed: 0,Estado,Populacao
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [9]:
#Trazendo a quantidade de linhas e colunas do dataframe
basepop.shape

(7, 2)

### Exemplo III - Criando uma série de dados

In [7]:
#Gerando a série
serie=[1,2,4,8,16,32]
minha_serie=pd.Series(serie)
minha_serie

0     1
1     2
2     4
3     8
4    16
5    32
dtype: int64

In [8]:
#Colocando um rótulo nos valores dos índices da série
minha_serie=pd.Series(serie,index=["a","b","c","d","e","f"])
minha_serie

a     1
b     2
c     4
d     8
e    16
f    32
dtype: int64

In [19]:
#Criando uma série simples a partir de um dicionário
calorias = {"dia1": 450, "dia2": 398, "dia3": 367}
minhas_calorias = pd.Series(calorias)
print(minhas_calorias)

dia1    450
dia2    398
dia3    367
dtype: int64


### Exemplo IV - Filtrando dados em um dataframe

In [16]:
#Fitrando uma coluna específica
basepop["Estado"]

0    SP
1    RJ
2    ES
3    MG
4    PR
5    RS
6    SC
Name: Estado, dtype: object

In [19]:
#Filtrando uma linha específica
basepop.loc[[0]]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [21]:
#Filtrando mais de uma linha
basepop.loc[[1,4]]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
4,PR,11597484


In [22]:
#Filtrando mais de uma linha de forma sequencial
basepop.loc[1:3]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
2,ES,4108508
3,MG,21411923


In [32]:
#Filtrando mais de uma linha de forma sequencial e de uma coluna específica
basepop.loc[1:3, "Estado"]

1    RJ
2    ES
3    MG
Name: Estado, dtype: object

In [39]:
#Filtrando mais de uma linha de forma sequencial
basepop.iloc[0:3,0:2]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [42]:
#Filtrando todas as colunas de uma linha olu conjunto de linhas
basepop.iloc[0:3,:]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [44]:
#Filtrando todas as linhas de uma coluna ou grupo de colunas
basepop.iloc[:, 0:1]

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [45]:
#Filtrando linhas a partir de uma condição específica
basepop.loc[basepop["Populacao"]>10000000]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [46]:
#Filtrando linhas a partir de mais de uma condição específica, em que ambas sejam atendidas(AND)
basepop.loc[(basepop["Populacao"]>10000000) & (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [47]:
#Filtrando linhas a partir de mais de uma condição específica, em que pelo menos uma seja atendida(OR)
basepop.loc[(basepop["Populacao"]>10000000) | (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [53]:
#Usando o comando query para filtrar de uma maneira ainda mais simples
basepop.query("Populacao<10000000 & Estado=='ES'")

Unnamed: 0,Estado,Populacao
2,ES,4108508


In [54]:
#Usando o comando filter para selecão de linhas e colunas
basepop.filter(["Estado"])

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [59]:
#Extraindo a média de população dos estados
mediapop=basepop["Populacao"].mean()
mediapop

17147928.42857143

In [60]:
#Filtrando estados com população acima da média
basepop.query("Populacao > @ mediapop")

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923


In [62]:
#Filtrando um conjunto de estados específico
basepop[basepop["Estado"].isin(["SP", "RS", "PR"])]

Unnamed: 0,Estado,Populacao
0,SP,46649132
4,PR,11597484
5,RS,11466630


### Exemplo V - Importando dados de tabelas externas

In [43]:
#Importando uma tabela Excel para análise (formato .xlsx)
indsocdem=pd.read_excel("Indicadores Socio-Demograficos.xlsx", sheet_name="BASE_DADOS")
indsocdem.head(10)

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
0,Abadia De Goiás,GO,6876.0,5300.0,69.0,318.0,438.0,517.0,3542.0,416.0,...,0.622,-49.441,-16.759,360.0,8583.0,166.41,20664.57,2158.0,1246.0,284.0
1,Abadia Dos Dourados,MG,6704.0,4154.0,38.0,207.0,260.0,351.0,2709.0,589.0,...,0.563,-47.397,-18.488,77.0,6972.0,180.09,25591.7,2227.0,1142.0,476.0
2,Abadiânia,GO,15757.0,10656.0,139.0,650.0,894.0,1087.0,6896.0,990.0,...,0.579,-48.719,-16.183,227.0,19614.0,287984.49,15628.4,2838.0,1426.0,288.0
3,Abaeté,MG,22690.0,18464.0,176.0,856.0,1233.0,1539.0,11979.0,2681.0,...,0.556,-45.446,-19.156,1230.0,23223.0,430235.36,18250.42,6928.0,2953.0,621.0
4,Abaetetuba,PA,141100.0,82956.0,1354.0,5567.0,7618.0,8905.0,53516.0,5996.0,...,0.537,-48.884,-1.723,3389.0,156292.0,1249255.29,8222.36,5277.0,25661.0,931.0
5,Abaiara,CE,10496.0,4538.0,98.0,323.0,421.0,483.0,2631.0,582.0,...,0.612,-39.048,-7.357,29.0,11663.0,73151.46,6370.41,553.0,1674.0,86.0
6,Abaíra,BA,8316.0,3725.0,37.0,156.0,263.0,277.0,2319.0,673.0,...,0.51,-41.662,-13.254,952.0,8767.0,64324.59,6982.7,896.0,696.0,191.0
7,Abaré,BA,17064.0,8994.0,167.0,733.0,978.0,927.0,5386.0,803.0,...,0.46,-39.117,-8.723,51.0,19814.0,124754.26,6256.8,613.0,1532.0,87.0
8,Abatiá,PR,7764.0,5685.0,69.0,302.0,370.0,483.0,3650.0,811.0,...,0.596,-50.313,-23.3,55.0,7507.0,165048.21,21173.6,2168.0,912.0,285.0
9,Abdon Batista,SC,2653.0,724.0,12.0,32.0,49.0,63.0,479.0,89.0,...,0.625,-51.025,-27.609,109.0,2577.0,64742.01,24739.02,976.0,345.0,69.0


In [16]:
#Importando um arquivo texto no formato .csv (arquivos texto separados por vírgulas)
telco=pd.read_csv("Telco Customer Churn.csv", sep = ',')
telco.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [5]:
#Importando um arquivo no formato .txt
people=pd.read_csv("PeopleAnalytics.txt", sep="\t", usecols=["Attrition", "Age", "StockOptionLevel"])
people.head()

Unnamed: 0,Attrition,Age,StockOptionLevel
0,Yes,41,0
1,No,49,1
2,Yes,37,0
3,No,33,0
4,No,27,1


### Exemplo VI - Descrição básica dos dados

In [50]:
#Análise descritiva básica do dataframe sobre Indicadores Sócio-Demográficos
indsocdem.describe().round(3)

Unnamed: 0,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,IDHM,IDHM_Renda,IDHM_Longevidade,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
count,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5565.0,5564.0,5564.0,5570.0,5570.0,5570.0,5570.0,5562.0,5562.0,5570.0
mean,27594.658,383.276,1544.531,2069.321,2381.423,18211.869,3004.239,0.659,0.643,0.802,0.559,-46.226,-16.444,3094.209,37431.759,954583.631,21126.181,9859.429,4878.615,906.753
std,185957.864,2326.809,9253.09,12313.518,14186.075,125205.947,23247.843,0.072,0.081,0.045,0.093,6.41,8.281,35794.788,219969.003,11219549.873,20332.651,91886.936,20943.915,8333.768
min,174.0,0.0,5.0,7.0,12.0,94.0,29.0,0.418,0.4,0.672,0.207,-72.917,-33.688,1.0,786.0,14.96,3190.57,2.0,4.0,6.0
25%,2801.0,38.0,158.0,220.0,259.0,1734.0,341.0,0.599,0.572,0.769,0.49,-50.867,-22.838,88.0,5454.0,43709.462,9057.61,602.0,591.0,68.0
50%,6170.0,92.0,376.0,516.0,588.0,3841.0,722.0,0.665,0.654,0.808,0.56,-46.516,-18.089,247.0,11590.5,125153.425,15869.625,1438.5,1285.0,162.0
75%,15302.0,232.0,951.0,1300.0,1478.0,9628.0,1724.0,0.718,0.707,0.836,0.631,-41.405,-8.489,815.0,25295.5,329539.282,26154.722,4086.0,3294.5,448.0
max,10463636.0,129464.0,514794.0,684443.0,783702.0,7058221.0,1293012.0,0.862,0.891,0.894,0.825,-32.435,4.585,2047668.0,12176866.0,687035889.61,314637.69,5740995.0,1134570.0,530446.0


In [None]:
indsocdem.describe().round(3)

### Exemplo VII - Alterando nome de colunas

In [2]:
#Gerando um dataframe fake
dataframe = pd.DataFrame({
    "Nome": ['Tonho', 'Nicão', 'Jão', 'Pedrão'],
    "Idade": [15, 26, 17, 28]
})

print(dataframe)

     Nome  Idade
0   Tonho     15
1   Nicão     26
2     Jão     17
3  Pedrão     28


In [3]:
#Alterando nomes das colunas - Opção I
dataframe.columns = ['Nome_Colega', 'Idade_Anos']
print(dataframe)

  Nome_Colega  Idade_Anos
0       Tonho          15
1       Nicão          26
2         Jão          17
3      Pedrão          28


In [4]:
#Alterando nomes das colunas - Opção II
dataframe=dataframe.rename(columns={"Nome_Colega":"Friends_Name", "Idade_Anos":"Age_Years"})
print(dataframe)

  Friends_Name  Age_Years
0        Tonho         15
1        Nicão         26
2          Jão         17
3       Pedrão         28


### Exemplo VIII - Excluindo colunas do dataframe


In [8]:
#Excluindo a coluna "Age" do dataframe People
print(people)
people.drop(["Age"],axis=1, inplace=True)
print(people)

     Attrition  Age  StockOptionLevel
0          Yes   41                 0
1           No   49                 1
2          Yes   37                 0
3           No   33                 0
4           No   27                 1
...        ...  ...               ...
1465        No   36                 1
1466        No   39                 1
1467        No   27                 1
1468        No   49                 0
1469        No   34                 0

[1470 rows x 3 columns]
     Attrition  StockOptionLevel
0          Yes                 0
1           No                 1
2          Yes                 0
3           No                 0
4           No                 1
...        ...               ...
1465        No                 1
1466        No                 1
1467        No                 1
1468        No                 0
1469        No                 0

[1470 rows x 2 columns]


### Exemplo IX - Criando novas colunas transformadas

In [12]:
#Criando um dataset fake
base = pd.DataFrame({'Data':['10/2/2021', '11/2/2021', '12/2/2021', '13/2/2021'],
                    'Evento':['Música', 'Poesia', 'Teatro', 'Comédia'],
                    'Custo':[10000, 5000, 15000, 2000]})
print(base)

        Data   Evento  Custo
0  10/2/2021   Música  10000
1  11/2/2021   Poesia   5000
2  12/2/2021   Teatro  15000
3  13/2/2021  Comédia   2000


In [11]:
#Calcula preço com desconto de 10% - Opção I
base['Custo_com_Desconto'] = base.apply(lambda row: row.Custo - 
                                  (row.Custo * 0.1), axis = 1)
print(base)

        Data   Evento  Custo  Custo_com_Desconto
0  10/2/2021   Música  10000            9000.000
1  11/2/2021   Poesia   5000            4500.000
2  12/2/2021   Teatro  15000           13500.000
3  13/2/2021  Comédia   2000            1800.000


In [12]:
#Calcula preço com desconto de 10% - Opção II
base['Custo_com_Desconto_I'] = base['Custo'] - (0.1 * base['Custo'])
print(base)

        Data   Evento  Custo  Custo_com_Desconto  Custo_com_Desconto_I
0  10/2/2021   Música  10000            9000.000              9000.000
1  11/2/2021   Poesia   5000            4500.000              4500.000
2  12/2/2021   Teatro  15000           13500.000             13500.000
3  13/2/2021  Comédia   2000            1800.000              1800.000


In [19]:
#Categorizando a variável Custo
import numpy as np
condicoes=[(base["Custo"]<=2500),(base["Custo"]>2500) & (base["Custo"]<=5000),(base["Custo"]>5000)]
classe=["Baixo","Médio","Alto"]
base['Fx_Custo'] = np.select(condicoes, classe, default="Sem Info")
base           

Unnamed: 0,Data,Evento,Custo,Fx_Custo
0,10/2/2021,Música,10000,Alto
1,11/2/2021,Poesia,5000,Médio
2,12/2/2021,Teatro,15000,Alto
3,13/2/2021,Comédia,2000,Baixo


### Exemplo X - Agrupando dados

In [14]:
df = pd.DataFrame({'coluna_I': ['A', 'B', 'C', 'A', 'C',
                               'C', 'B', 'D', 'D', 'A'],
                   'coluna_II': [5, 10, 15, 20, 25, 30, 
                             35, 40, 45, 50]})
df

Unnamed: 0,coluna_I,coluna_II
0,A,5
1,B,10
2,C,15
3,A,20
4,C,25
5,C,30
6,B,35
7,D,40
8,D,45
9,A,50


In [22]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção I
df1=df.groupby('coluna_I')['coluna_II'].sum()
df1

coluna_I
A    75
B    45
C    70
D    85
Name: coluna_II, dtype: int64

In [24]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção II
df.groupby("coluna_I").agg({"coluna_II":"sum"})

Unnamed: 0_level_0,coluna_II
coluna_I,Unnamed: 1_level_1
A,75
B,45
C,70
D,85


In [26]:
#Agrupando os dados da coluna_I e somando os valores da coluna_II para os valores únicos da coluna_I - Opção III
df.groupby("coluna_I").agg({"coluna_II":["sum","mean"]})

Unnamed: 0_level_0,coluna_II,coluna_II
Unnamed: 0_level_1,sum,mean
coluna_I,Unnamed: 1_level_2,Unnamed: 2_level_2
A,75,25.0
B,45,22.5
C,70,23.333
D,85,42.5


### Exemplo XI - Cruzando dados de diferentes dataframes

In [36]:
#Criando um dataset fake
base_A=pd.DataFrame({"id":[1,2,3,4,5,6,7],"saldo":[100,200,100,300,400,500,690]})
print(base_A)
base_B=pd.DataFrame({"id":[1,2,5,6,7],"idade_empresa":[15,22,11,13,8]})
print(base_B)

   id  saldo
0   1    100
1   2    200
2   3    100
3   4    300
4   5    400
5   6    500
6   7    690
   id  idade_empresa
0   1             15
1   2             22
2   5             11
3   6             13
4   7              8


In [37]:
#Cruzando dados da tabela A e da B - inner join
pd.merge(base_A,base_B,on="id",how="inner")

Unnamed: 0,id,saldo,idade_empresa
0,1,100,15
1,2,200,22
2,5,400,11
3,6,500,13
4,7,690,8


In [38]:
#Cruzando dados da tabela A e da B - left join
pd.merge(base_A,base_B,on="id",how="left")

Unnamed: 0,id,saldo,idade_empresa
0,1,100,15.0
1,2,200,22.0
2,3,100,
3,4,300,
4,5,400,11.0
5,6,500,13.0
6,7,690,8.0


In [40]:
#Cruzando dados da tabela A e da B - right join
pd.merge(base_A,base_B,on="id",how="right")

Unnamed: 0,id,saldo,idade_empresa
0,1,100,15
1,2,200,22
2,5,400,11
3,6,500,13
4,7,690,8


In [41]:
#Cruzando dados da tabela A e da B - full join
pd.merge(base_A,base_B,on="id",how="outer")

Unnamed: 0,id,saldo,idade_empresa
0,1,100,15.0
1,2,200,22.0
2,3,100,
3,4,300,
4,5,400,11.0
5,6,500,13.0
6,7,690,8.0


### Exemplo XII - Gerando uma amostra aleatória do dataframe

In [44]:
#Vendo o dataframe indsocdem
indsocdem

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
0,Abadia De Goiás,GO,6876.000,5300.000,69.000,318.000,438.000,517.000,3542.000,416.000,...,0.622,-49.441,-16.759,360.000,8583.000,166.410,20664.570,2158.000,1246.000,284.000
1,Abadia Dos Dourados,MG,6704.000,4154.000,38.000,207.000,260.000,351.000,2709.000,589.000,...,0.563,-47.397,-18.488,77.000,6972.000,180.090,25591.700,2227.000,1142.000,476.000
2,Abadiânia,GO,15757.000,10656.000,139.000,650.000,894.000,1087.000,6896.000,990.000,...,0.579,-48.719,-16.183,227.000,19614.000,287984.490,15628.400,2838.000,1426.000,288.000
3,Abaeté,MG,22690.000,18464.000,176.000,856.000,1233.000,1539.000,11979.000,2681.000,...,0.556,-45.446,-19.156,1230.000,23223.000,430235.360,18250.420,6928.000,2953.000,621.000
4,Abaetetuba,PA,141100.000,82956.000,1354.000,5567.000,7618.000,8905.000,53516.000,5996.000,...,0.537,-48.884,-1.723,3389.000,156292.000,1249255.290,8222.360,5277.000,25661.000,931.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5568,Xique-Xique,BA,45536.000,32497.000,518.000,2318.000,3095.000,3620.000,19371.000,3575.000,...,0.479,-42.726,-10.825,169.000,46440.000,342261.060,7089.970,2125.000,5064.000,420.000
5569,Zabelê,PB,2075.000,1469.000,20.000,110.000,140.000,121.000,874.000,204.000,...,0.587,-37.094,-8.077,2.000,2225.000,19582.060,8793.020,87.000,162.000,20.000
5570,Zacarias,SP,2335.000,1836.000,21.000,104.000,123.000,127.000,1165.000,296.000,...,0.674,-50.056,-21.050,155.000,2684.000,75934.890,29149.670,901.000,346.000,111.000
5571,Zé Doca,MA,50173.000,30803.000,541.000,2366.000,3087.000,3505.000,18136.000,3168.000,...,0.505,-45.658,-3.275,6493.000,51471.000,380509.300,7489.460,1725.000,11087.000,470.000


In [48]:
#Extraindo uma amostra de 10 municipios da base original
indsocdem.sample(5)

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
1682,Ererê,CE,6840.0,3453.0,48.0,194.0,263.0,314.0,2147.0,487.0,...,0.547,-38.347,-6.031,101.0,7211.0,51.31,7192.11,173.0,889.0,39.0
684,Bom Jesus Do Amparo,MG,5491.0,2512.0,29.0,119.0,178.0,184.0,1648.0,354.0,...,0.582,-43.474,-19.704,543.0,6031.0,72.31,12108.16,1430.0,519.0,143.0
5542,Vitória Do Mearim,MA,31217.0,14757.0,261.0,1062.0,1420.0,1580.0,8931.0,1503.0,...,0.534,-44.87,-3.482,1100.0,32664.0,282.1,8771.5,1135.0,3309.0,234.0
5072,Sítio Novo,MA,17002.0,5139.0,85.0,365.0,444.0,559.0,3156.0,530.0,...,0.456,-46.695,-5.871,463.0,18001.0,135366.67,7622.0,330.0,2760.0,87.0
196,Amélia Rodrigues,BA,25190.0,19897.0,317.0,1153.0,1648.0,1901.0,12788.0,2090.0,...,0.6,-38.756,-12.4,474.0,25224.0,280400.08,10611.57,2540.0,2331.0,250.0


In [49]:
#Extraindo uma amostra de 0.01% dos municipios da base original
indsocdem.sample(frac=0.001)

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
2311,Itaguara,MG,12372.0,9460.0,133.0,432.0,659.0,794.0,6370.0,1072.0,...,0.567,-44.487,-20.391,1654.0,13278.0,234667.8,17706.77,4220.0,2749.0,413.0
2854,Mãe Do Rio,PA,27904.0,22997.0,452.0,1808.0,2455.0,2499.0,13958.0,1825.0,...,0.458,-47.552,-2.048,1437.0,29917.0,283476.25,9737.44,1933.0,5674.0,321.0
4424,Santa Luzia D'Oeste,RO,8886.0,2984.0,49.0,159.0,222.0,270.0,2006.0,278.0,...,0.564,-61.773,-11.908,74.0,6781.0,149203.06,17842.99,965.0,2819.0,88.0
728,Borborema,SP,14529.0,13029.0,155.0,599.0,858.0,964.0,8574.0,1879.0,...,0.658,-49.073,-21.622,1565.0,15925.0,387635.31,24720.06,5726.0,1941.0,648.0
3836,Pirajuba,MG,4656.0,4097.0,72.0,252.0,313.0,324.0,2736.0,400.0,...,0.588,-48.697,-19.909,229.0,6044.0,245632.31,43359.63,1129.0,411.0,112.0
4669,São Geraldo Do Baixio,MG,3486.0,2438.0,31.0,123.0,209.0,259.0,1501.0,315.0,...,0.482,-41.364,-18.919,85.0,3963.0,39609.53,10213.91,330.0,357.0,44.0


In [55]:
#Extraindo uma amostra de 0.01% dos municipios da base original, mas fixando o resultado inicial
indsocdem.sample(frac=0.001,random_state=123)

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
3237,Não-Me-Toque,RS,15936.0,13904.0,169.0,643.0,828.0,982.0,9466.0,1816.0,...,0.673,-52.819,-28.46,666.0,17484.0,1019762.59,59656.17,7598.0,2365.0,1034.0
843,Cachoeira De Minas,MG,11034.0,7000.0,93.0,377.0,495.0,611.0,4484.0,940.0,...,0.637,-45.782,-22.354,574.0,11514.0,330805.98,28500.56,2638.0,1165.0,251.0
3521,Palestina De Goiás,GO,3371.0,2177.0,12.0,98.0,145.0,178.0,1460.0,284.0,...,0.66,-51.53,-16.741,28.0,3460.0,99701.83,28429.38,450.0,499.0,35.0
2123,Ibitiúra De Minas,MG,3382.0,2347.0,20.0,91.0,192.0,186.0,1504.0,354.0,...,0.579,-46.438,-22.057,135.0,3483.0,51606.97,14627.83,928.0,427.0,53.0
738,Botuverá,SC,4468.0,1308.0,18.0,44.0,75.0,82.0,932.0,157.0,...,0.604,-49.078,-27.202,322.0,5169.0,249518.83,49685.15,2094.0,1274.0,211.0
923,Camargo,RS,2592.0,1095.0,10.0,48.0,84.0,57.0,703.0,193.0,...,0.612,-52.204,-28.589,34.0,2724.0,174032.32,63841.64,1255.0,251.0,95.0
