In [1]:
# import math sqrt()
# Essa função sqrt() não está nativamente carregada no Python. Tanto que, quando vamos utilizá-la pela primeira vez,
# ele não entende sqrt() como um comando válido. É necessário importa-la.

sqrt(10)

NameError: name 'sqrt' is not defined

In [2]:
# Importando sqrt() através do pacote math

import math
math.sqrt(10)

3.1622776601683795

In [3]:
# Podemos importar apenas a função que nos interessa

from math import sqrt
sqrt(10)

3.1622776601683795

In [8]:
# Importando o pandas

import pandas as pd
serie = pd.Series([1, 3, 5, 5, 6, 8])
serie

0    1
1    3
2    5
3    5
4    6
5    8
dtype: int64

In [10]:
# Importando o numpy

import numpy as np
serie = pd.Series([1, 3, np.nan, 8, 9, 11])
serie

0     1.0
1     3.0
2     NaN
3     8.0
4     9.0
5    11.0
dtype: float64

In [12]:
# usando funções do pandas e do numpy para geração de um dataframe (tabela) com números aleatórios

dates = pd.date_range("20210101", periods = 6, freq = "M")
dates

df = pd.DataFrame(np.random.randn(6, 4), index = dates, columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
2021-01-31,0.539368,-1.802688,-0.067707,0.356491
2021-02-28,0.652689,-2.047461,-1.328048,-1.265269
2021-03-31,-0.306171,0.115577,1.061971,0.604815
2021-04-30,-1.446938,-0.682324,-0.780118,0.691475
2021-05-31,-1.800741,1.495547,1.787143,-0.293859
2021-06-30,1.858947,-0.98301,-0.621603,1.024547


In [15]:
# Verificando a versão do pandas

import pandas as pd
print(pd.__version__)

1.3.4


In [20]:
# Transformando um dicionário em um DataFrame pandas

dados = {'Estado': ["SP", "RJ", "ES", "MG", "PR", "RS", "SC"], 'Populacao': [46649132, 17463349, 4108508, 21411923, 
                                                                             11597484, 11466630, 7338473]}
basepop = pd.DataFrame(dados)
basepop

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508
3,MG,21411923
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [22]:
# Verificando o tipo de objeto criado

type(basepop)

pandas.core.frame.DataFrame

In [23]:
# Observando as primeiras n linhas da tabela

basepop.head(3)

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [24]:
# Observando as ultimas n linhas da tabela

basepop.tail(3)

Unnamed: 0,Estado,Populacao
4,PR,11597484
5,RS,11466630
6,SC,7338473


In [25]:
# trazendo a quantidade de linhas e colunas da tabela

basepop.shape

(7, 2)

In [26]:
# Gerando uma serie de dados
# O atributo “Series” permite que o Python
#  identifique que cada número da lista
#  representa uma sequência indexada,
#  começando pelo 0.

serie = [1, 2, 4, 8, 16, 32]
minha_serie = pd.Series(serie)
minha_serie

0     1
1     2
2     4
3     8
4    16
5    32
dtype: int64

In [28]:
# Colocando um rótulo nos valores nos indices da série

minha_serie = pd.Series(serie, index=["a", "b", "c", "d", "e", "f"])
minha_serie

a     1
b     2
c     4
d     8
e    16
f    32
dtype: int64

In [31]:
# Filtrando uma coluna especifica

basepop["Estado"]

0    SP
1    RJ
2    ES
3    MG
4    PR
5    RS
6    SC
Name: Estado, dtype: object

In [32]:
# Filtando mais de uma linha

basepop.loc[[1,4]]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
4,PR,11597484


In [33]:
# Filtrando uma linha especifica

basepop.loc[[0]]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [35]:
# Filtrando mais de uma linha de forma sequencial

basepop.loc[1:3]

Unnamed: 0,Estado,Populacao
1,RJ,17463349
2,ES,4108508
3,MG,21411923


In [39]:
# Filtrando mais de uma linha de forma sequencial e uma coluna especifica

basepop.loc[1:3, "Estado"]

1    RJ
2    ES
3    MG
Name: Estado, dtype: object

In [41]:
# Filtrando mais de uma linha de forma sequencial e definindo as colunas
# O “iloc” é uma boa alternativa ao “loc”, mas a limitação é que precisamos colocar os números das linhas e/ou colunas
# que desejamos filtrar, enquanto o “loc”, é possível selecionar usando os nomes das colunas.

basepop.iloc[0:3, 0:2]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [42]:
# Filtrando todas as colunas de uma linha ou de um conjunto de linhas

basepop.iloc[0:3, :]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
2,ES,4108508


In [43]:
# Filtrando todas as linhas de uma coluna ou conjunto de colunas

basepop.iloc[:, 0:1]

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [45]:
# Filtrando linhas a partir de uma condição especifica

basepop.loc[basepop["Populacao"]>10000000]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [46]:
# Filtrando linhas a partir de mais de uma condição especifica, em que ambas sejam atendidas(and)

basepop.loc[(basepop["Populacao"]>10000000) & (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132


In [48]:
# Filtrando linhas a partir de mais de uma condição especifica, em que pelo menos uma seja atendida(or)

basepop.loc[(basepop["Populacao"]>10000000) | (basepop["Estado"]=="SP")]

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923
4,PR,11597484
5,RS,11466630


In [49]:
# Usando o comando query para filtrar de uma maneira ainda mais simples

basepop.query("Populacao<10000000 & Estado=='ES'")

Unnamed: 0,Estado,Populacao
2,ES,4108508


In [50]:
# Usando o comando filter para seleção de linhas e colunas

basepop.filter(["Estado"])

Unnamed: 0,Estado
0,SP
1,RJ
2,ES
3,MG
4,PR
5,RS
6,SC


In [52]:
# Extraindo a média de população dos estados

mediapop = basepop["Populacao"].mean()
mediapop

17147928.42857143

In [53]:
# Filtrando estados com população acima da média

basepop.query("Populacao > @ mediapop")

Unnamed: 0,Estado,Populacao
0,SP,46649132
1,RJ,17463349
3,MG,21411923


In [54]:
# Filtrando um conjunto de estados especificos

basepop[basepop["Estado"].isin(["SP", "RS", "PR"])]

Unnamed: 0,Estado,Populacao
0,SP,46649132
4,PR,11597484
5,RS,11466630


In [60]:
# Importando uma tabela Excel para análise (formato .xlsx)

indsocdem=pd.read_excel("Indicadores Socio-Demograficos.xlsx", sheet_name="BASE_DADOS")
indsocdem.head(10)

Unnamed: 0,CIDADE,ESTADO,IBGE_RES_POP,IBGE_POP_URB,POP_ABAIXO_1,POP_1_4,POP_5_9,POP_10-14,POP_15-59,POP_60_MAIS,...,IDHM_Educacao,LONG,LAT,TV_CABO,POP_ESTIMADA,PIB,PIB_CAPITA,CARROS,MOTOS,TOT_EMPRESAS
0,Abadia De Goiás,GO,6876.0,5300.0,69.0,318.0,438.0,517.0,3542.0,416.0,...,0.622,-49.440548,-16.758812,360.0,8583.0,166.41,20664.57,2158.0,1246.0,284.0
1,Abadia Dos Dourados,MG,6704.0,4154.0,38.0,207.0,260.0,351.0,2709.0,589.0,...,0.563,-47.396832,-18.487565,77.0,6972.0,180.09,25591.7,2227.0,1142.0,476.0
2,Abadiânia,GO,15757.0,10656.0,139.0,650.0,894.0,1087.0,6896.0,990.0,...,0.579,-48.718812,-16.182672,227.0,19614.0,287984.49,15628.4,2838.0,1426.0,288.0
3,Abaeté,MG,22690.0,18464.0,176.0,856.0,1233.0,1539.0,11979.0,2681.0,...,0.556,-45.446191,-19.155848,1230.0,23223.0,430235.36,18250.42,6928.0,2953.0,621.0
4,Abaetetuba,PA,141100.0,82956.0,1354.0,5567.0,7618.0,8905.0,53516.0,5996.0,...,0.537,-48.884404,-1.72347,3389.0,156292.0,1249255.29,8222.36,5277.0,25661.0,931.0
5,Abaiara,CE,10496.0,4538.0,98.0,323.0,421.0,483.0,2631.0,582.0,...,0.612,-39.047547,-7.356977,29.0,11663.0,73151.46,6370.41,553.0,1674.0,86.0
6,Abaíra,BA,8316.0,3725.0,37.0,156.0,263.0,277.0,2319.0,673.0,...,0.51,-41.661608,-13.253532,952.0,8767.0,64324.59,6982.7,896.0,696.0,191.0
7,Abaré,BA,17064.0,8994.0,167.0,733.0,978.0,927.0,5386.0,803.0,...,0.46,-39.116588,-8.723418,51.0,19814.0,124754.26,6256.8,613.0,1532.0,87.0
8,Abatiá,PR,7764.0,5685.0,69.0,302.0,370.0,483.0,3650.0,811.0,...,0.596,-50.312527,-23.300494,55.0,7507.0,165048.21,21173.6,2168.0,912.0,285.0
9,Abdon Batista,SC,2653.0,724.0,12.0,32.0,49.0,63.0,479.0,89.0,...,0.625,-51.025272,-27.608987,109.0,2577.0,64742.01,24739.02,976.0,345.0,69.0


In [None]:
# Importando um arquivo de texto no formato .csv (arquivo texto separados por virgula)

telco = pd.read_csv("Telco Customer Churn.csv", sep = ",")
telco.head()

In [58]:
# Importando um arquivo no formato .txt

people = pd.read_csv("PeopleAnalytics.txt", sep = "\t", usecols=["Attrition", "Age", "StockOptionLevel"])
people.head()

Unnamed: 0,Attrition,Age,StockOptionLevel
0,Yes,41,0
1,No,49,1
2,Yes,37,0
3,No,33,0
4,No,27,1
