# Python Fundamentos Para Análise de Dados - Data Science Academy

### Victor Hugo Negrisoli

### Análise Exploratória de Dados com Pandas e Matplotlib

In [1]:
# Importando apenas o objeto Series do Pandas
from pandas import Series

# Importando a lib completa do Pandas
import pandas as pd

# Verificando a versão atual utilizada
pd.__version__

'0.25.1'

#### Explorando a biblioteca Series

In [2]:
obj = Series([1, 2, 3, 4, -4, -3, -2, -1])
obj

0    1
1    2
2    3
3    4
4   -4
5   -3
6   -2
7   -1
dtype: int64

In [3]:
# O objeto é do tipo Series
type(obj)

pandas.core.series.Series

In [4]:
# Exibindo os valores e índices de um objeto series'

print('Values : {}, Index : {}'.format(obj.values, obj.index))

Values : [ 1  2  3  4 -4 -3 -2 -1], Index : RangeIndex(start=0, stop=8, step=1)


In [10]:
# Criando um Series a partir de um dicionário

obj2 = Series({"HQ": "Superman: O Legado das Estrelas", "QtdPags": 350, "Preco":45.89})

In [11]:
obj3 = Series([15, 699, 12, 33], index = ['Item 1', 'Item 2', 'Item 3', 'Item 4'])

In [12]:
# Realizando um slicing no objeto Series criado

obj3[obj3 > 30]

Item 2    699
Item 4     33
dtype: int64

In [14]:
dados_dict = {"Batman": 1450, "Superman": 1500, "Mulher-Maravilha":1600, "Lanterna Verde": 1440, "The Flash": 1900}

dados_list = ["Batman", "Superman", "Lanterna Verde", "Mulher-Maravilha", "The Flash", "Caçador de Marte", "Ciborgue", "Aquaman"]

In [18]:
# Criando um Series a partir de um dicionário e uma lista, gerando valores NaN

jla = Series(dados_dict, dados_list)
jla

Batman              1450.0
Superman            1500.0
Lanterna Verde      1440.0
Mulher-Maravilha    1600.0
The Flash           1900.0
Caçador de Marte       NaN
Ciborgue               NaN
Aquaman                NaN
dtype: float64

In [20]:
# Verificação de nulos e não nulos

pd.isnull(jla)

Batman              False
Superman            False
Lanterna Verde      False
Mulher-Maravilha    False
The Flash           False
Caçador de Marte     True
Ciborgue             True
Aquaman              True
dtype: bool

In [21]:
pd.notnull(jla)

Batman               True
Superman             True
Lanterna Verde       True
Mulher-Maravilha     True
The Flash            True
Caçador de Marte    False
Ciborgue            False
Aquaman             False
dtype: bool

In [23]:
jla.isnull()

Batman              False
Superman            False
Lanterna Verde      False
Mulher-Maravilha    False
The Flash           False
Caçador de Marte     True
Ciborgue             True
Aquaman              True
dtype: bool

In [26]:
# Concatenação entre Series dos objetos obj e jla

obj2_jla = obj2 + jla
obj2_jla

Aquaman             NaN
Batman              NaN
Caçador de Marte    NaN
Ciborgue            NaN
HQ                  NaN
Lanterna Verde      NaN
Mulher-Maravilha    NaN
Preco               NaN
QtdPags             NaN
Superman            NaN
The Flash           NaN
dtype: object

In [32]:
jla.name = "Superman"
jla.index.name = "Superman"
jla

Superman
Batman              1450.0
Superman            1500.0
Lanterna Verde      1440.0
Mulher-Maravilha    1600.0
The Flash           1900.0
Caçador de Marte       NaN
Ciborgue               NaN
Aquaman                NaN
Name: Superman, dtype: float64

#### Manipulando DataFrames do Pandas

In [34]:
# Importando apenas o DataFrame

from pandas import DataFrame

In [40]:
# Criando um pequeno dicionário como dataset de estudo

data = {
    "UF": ["PR", "RJ", "SP", "MG", "AM"],
    "Ano": [2005, 2003, 2009, 2004, 2001],
    "População": [150505, 132121, 8198198, 22321, 112332]
}

# O DataFrame pode ser criado a partir de um dicionário

df = DataFrame(data)
df

Unnamed: 0,UF,Ano,População
0,PR,2005,150505
1,RJ,2003,132121
2,SP,2009,8198198
3,MG,2004,22321
4,AM,2001,112332


In [41]:
type(df)

pandas.core.frame.DataFrame

In [47]:
df2 = DataFrame(
    data, 
    columns = {'Ano', 'UF', 'População', 'Débito'}, 
    index = ['um', 'dois', 'três', 'quatro', 'cinco']
)
df2

Unnamed: 0,Débito,UF,População,Ano
um,,PR,150505,2005
dois,,RJ,132121,2003
três,,SP,8198198,2009
quatro,,MG,22321,2004
cinco,,AM,112332,2001


In [45]:
# Visualizando apenas uma coluna

df2["UF"]

um        PR
dois      RJ
três      SP
quatro    MG
cinco     AM
Name: UF, dtype: object

In [48]:
df2.dtypes

Débito       object
UF           object
População     int64
Ano           int64
dtype: object

In [49]:
df2.UF

um        PR
dois      RJ
três      SP
quatro    MG
cinco     AM
Name: UF, dtype: object

In [50]:
df2[:2]

Unnamed: 0,Débito,UF,População,Ano
um,,PR,150505,2005
dois,,RJ,132121,2003


#### Utilizando a biblioteca NumPy com Pandas

In [51]:
import numpy as np

In [55]:
# Utilizando NumPy para preencher os valores da coluna Débito, que era NaN, com valores de 0 a 4

df2["Débito"] =np.arange(5.)
df2

Unnamed: 0,Débito,UF,População,Ano
um,0.0,PR,150505,2005
dois,1.0,RJ,132121,2003
três,2.0,SP,8198198,2009
quatro,3.0,MG,22321,2004
cinco,4.0,AM,112332,2001


In [56]:
df2.describe()

Unnamed: 0,Débito,População,Ano
count,5.0,5.0,5.0
mean,2.0,1723095.0,2004.4
std,1.581139,3620027.0,2.966479
min,0.0,22321.0,2001.0
25%,1.0,112332.0,2003.0
50%,2.0,132121.0,2004.0
75%,3.0,150505.0,2005.0
max,4.0,8198198.0,2009.0


In [57]:
df2["dois":"quatro"]

Unnamed: 0,Débito,UF,População,Ano
dois,1.0,RJ,132121,2003
três,2.0,SP,8198198,2009
quatro,3.0,MG,22321,2004


In [71]:
# Busca dados a partir do índice desejado

df2.iloc[2]

Débito             2
UF                SP
População    8198198
Ano             2009
Name: três, dtype: object

In [72]:
df2[df2["Ano"] < 2002]

Unnamed: 0,Débito,UF,População,Ano
cinco,4.0,AM,112332,2001


In [73]:
# Localizar dados com base em uma consulta no índice

df2.loc["quatro"]

Débito           3
UF              MG
População    22321
Ano           2004
Name: quatro, dtype: object

In [74]:
# Inverter colunas e índices

df3 = pd.DataFrame({
    "Dias": [1, 2, 3, 4, 5, 6],
    "Visitantes": [156, 819, 232, 181, 114, 651],
    "Taxas": [123, 22, 556, 12, 132, 12]
})
df3

Unnamed: 0,Dias,Visitantes,Taxas
0,1,156,123
1,2,819,22
2,3,232,556
3,4,181,12
4,5,114,132
5,6,651,12


In [78]:
df3.set_index("Dias")

Unnamed: 0_level_0,Visitantes,Taxas
Dias,Unnamed: 1_level_1,Unnamed: 2_level_1
1,156,123
2,819,22
3,232,556
4,181,12
5,114,132
6,651,12


In [87]:
df3[["Dias", "Taxas"]]

Unnamed: 0,Dias,Taxas
0,1,123
1,2,22
2,3,556
3,4,12
4,5,132
5,6,12
