# Formação Cientista de Dados

Pandas

Prof. Fernando Amaral

In [None]:
# O código importa a biblioteca Pandas com um apelido "pd" para facilitar 
# o uso e manipulação de dados tabulares em Python.

import pandas as pd

In [None]:
# Carrega arquivo para dataframe Pandas.
# O código carrega o arquivo "Credit.csv" em um DataFrame do Pandas e verifica o número 
# de linhas e colunas no DataFrame resultante.

dados = pd.read_csv("..\dados\Credit.csv") 
dados.shape

In [None]:
# Resumo estatístico de colunas numéricas:
# count: Número de valores não nulos na coluna.
# mean: Média dos valores na coluna.
# std: Desvio padrão dos valores na coluna.
# min: Valor mínimo na coluna.
# 25%, 50%, 75%: Quartis (percentis) correspondentes a 25%, 50% (mediana) e 75% dos valores na coluna.

dados.describe()

In [30]:
# Primeiros registros.
# Esse código exibe as primeiras linhas dos dados no DataFrame.

dados.head()

Unnamed: 0,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,4,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [31]:
# Últimos registros, com parâmetros.
# Esse código mostra os dois últimos registros no conjunto de dados "dados".

dados.tail(2)

Unnamed: 0,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
998,45,'existing paid',radio/tv,1845,<100,1<=X<4,4,'male single',none,4,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad
999,45,'critical/other existing credit','used car',4576,100<=X<500,unemployed,3,'male single',none,4,car,27,none,own,1,skilled,1,none,yes,good


In [32]:
# Filtra por nome da coluna.
# O código filtra e seleciona a coluna "duration" dos dados.

dados[["duration"]] 

Unnamed: 0,duration
0,6
1,48
2,12
3,42
4,24
...,...
995,12
996,30
997,12
998,45


In [None]:
# Filtrar linhas por indice
# O código está filtrando e exibindo as linhas do DataFrame com índices de 1 a 3.

dados.loc[1:3]

In [None]:
# O código seleciona as linhas de índice 1 e 3 do DataFrame "dados".

dados.loc[[1,3]]

In [None]:
# Filtro
# Esse código seleciona as linhas em que a coluna 'purpose' tem o valor "radio/tv".

dados.loc[dados['purpose'] == "radio/tv"]

In [None]:
# Outra condição
# Esse código filtra linhas do DataFrame "dados" onde o valor na coluna "credit_amount" deve ser maior que 18000.

dados.loc[dados['credit_amount'] >  18000]

In [None]:
# Atribuimos resultado a variável, criando outro df.
# Nesse código, estamos criando um novo DataFrame chamado "credito2" que contém apenas as linhas do 
# DataFrame original "dados" onde o valor na coluna 'credit_amount' é maior que 18000, e em seguida, 
# imprimindo esse novo DataFrame.

credito2 = dados.loc[dados['credit_amount'] >  18000]
print(credito2)

In [None]:
# Definimos só algumas colunas.
# Este código seleciona apenas as colunas 'checking_status' e 'duration' dos dados onde o valor 
# de 'credit_amount' é maior que 18000 e, em seguida, imprime essas seleções.

credito3 = dados[['checking_status','duration']].loc[dados['credit_amount'] >  18000]
print(credito3)

In [None]:
# Séries, única coluna.
# Pode ser criada a partir de listas, array do numpy ou coluna de data frame.
# O código cria uma série (uma sequência de dados) usando números e, em seguida, imprime essa série.

s1 = pd.Series([2,5,3,34,54,23,1,16])
print(s1)

In [None]:
# Serie a partir de um array do numpy.
# O código cria uma série usando um array do NumPy e, em seguida, exibe essa série.

import numpy as np
array1 = np.array([2,5,3,34,54,23,1,16])
s2 = pd.Series(array1)
print(s2)

In [None]:
# Series a partir de um dataframe (s3).
# O código cria uma série chamada "s3" a partir da coluna "purpose" de um dataframe 
# chamado "dados" e, em seguida, imprime a série e o tipo dela.

s3 = dados['purpose']
print(s3)
type(s3)

In [None]:
# Note a diferença, temos um data frame (d4).
# Nesse código, está sendo criado um novo DataFrame chamado "d4" contendo apenas a coluna 
# "purpose" do DataFrame original "dados", e em seguida, é verificado o tipo de "d4".

d4= dados[['purpose']]
type(d4)

In [None]:
# Renomear
# O código renomeia as colunas "duration" para "duração" e "purpose" para "propósito" no DataFrame chamado "dados".

dados.rename(columns={"duration":"duração","purpose":"propósito"})

In [None]:
# Porém a alteração não é persistida.
# O código exibe a primeira linha dos dados, mas as alterações não são salvas.

dados.head(1)

In [None]:
# Para persistir.
# O código renomeia as colunas "duration" para "duração" e "purpose" para "propósito" no DataFrame chamado "dados".

dados.rename(columns={"duration":"duração","purpose":"propósito"},inplace=True)

In [None]:
# Exibe a primeira linha dos dados.

dados.head(1)

In [None]:
# Excluir coluna.
# Este código exclui a coluna 'checking_status' do DataFrame 'dados' e imprime o DataFrame resultante.

dados.drop('checking_status',axis=1,inplace=True)
print(dados)

In [None]:
# Exibe a primeira linha dos dados.

dados.head(1)

In [None]:
# Verificar dados nulos.
# O código verifica se há valores nulos nos dados (DataFrame).

dados.isnull()

In [None]:
# Verificar dados nulos.
# O código verifica quantos valores nulos existem em cada coluna do DataFrame "dados".

dados.isnull().sum()

In [None]:
# Retirar colunas com NaN.
# O código remove colunas com valores NaN do DataFrame.

dados.dropna()

In [None]:
# Preencher dados faltantes.
# O código preenche valores faltantes na coluna "duração" do DataFrame com o valor 0.

dados['duração'].fillna(0,inplace = True)

In [28]:
# O código seleciona uma parte específica (0 a 2 linhas e 0 a 4 colunas) dos dados usando 
# o método "iloc" de um DataFrame.

dados.iloc[0:3,0:5]

Unnamed: 0,duration,credit_history,purpose,credit_amount,savings_status
0,6,'critical/other existing credit',radio/tv,1169,'no known savings'
1,48,'existing paid',radio/tv,5951,<100
2,12,'critical/other existing credit',education,2096,<100


In [29]:
# O código seleciona linhas 0, 1, 2, 3 e 7 e colunas de 0 a 4 do DataFrame "dados".

dados.iloc[[0,1,2,3,7],0:5]

Unnamed: 0,duration,credit_history,purpose,credit_amount,savings_status
0,6,'critical/other existing credit',radio/tv,1169,'no known savings'
1,48,'existing paid',radio/tv,5951,<100
2,12,'critical/other existing credit',education,2096,<100
3,42,'existing paid',furniture/equipment,7882,<100
7,36,'existing paid','used car',6948,<100
