#### Instalando a biblioteca PANDAS

In [None]:
# Instala o pacote pandas
pip install pandas

#### Importação da biblioteca

In [28]:
# Carrega a bibliote 
import pandas as pd

#### Verificar a versão do pandas

In [29]:
# Checa a versão do pandas
print(pd.__version__)

2.1.1


#### Estruturas de dados 
Series = É um tipo de array (lista) unidimencional

DataFrame = É um tipo de tabela composta por linhas e colunas

#### O que são séries?

Uma série em Pandas é como uma coluna de uma tabela.
É uma matriz unidimensional que contém dados de qualquer tipo. Podemos usar
a função pd.Series() para criar uma série

In [30]:
idades = pd.Series([15,20,30,40,50,60])

print(idades)
print(type(idades))

0    15
1    20
2    30
3    40
4    50
5    60
dtype: int64
<class 'pandas.core.series.Series'>


#### Acessando os elementos através do índice

Se nada mais for especificado, os valores serão rotulados com seu número de
índice. O primeiro valor tem índice 0, o segundo valor tem índice 1 etc.
Este rótulo pode ser usado para acessar um valor especificado.

In [31]:
# Acessando o primeiro elemento
idades[0]

15

#### Criando seus próprios índices

Com o index argumento, você pode nomear seus próprios rótulos.

In [32]:
# Criando uma nova lista

a = [1,7,2]

# Criar uma Series em função da Lista com índices personalizados
mySeries = pd.Series(a, index=['A','B','C'])
print(mySeries)

A    1
B    7
C    2
dtype: int64


#### Exemplo

In [33]:
# Ciando um lista para ser utilizada no índice
indice = ['Ana','João','Maria','Jorge','Rose','Gabriela']

# Criar uma lista para ser utilizada nos valores da Series
notas = [ 10 , 9 , 8 , 5 , 10 , 9 ]

# Criar uma Series com lista notas e com o 
# índice de acordo com  a lista index
notasFinais = pd.Series(notas, index=indice)
print(notasFinais)

Ana         10
João         9
Maria        8
Jorge        5
Rose        10
Gabriela     9
dtype: int64


In [34]:
# Retornando apenas os índices
notasFinais.index

Index(['Ana', 'João', 'Maria', 'Jorge', 'Rose', 'Gabriela'], dtype='object')

In [35]:
# Retornando apenas os valores
notasFinais.values

array([10,  9,  8,  5, 10,  9], dtype=int64)

#### OBJETOS CHAVE(Dicionários)/VALOR COMO SERIES


In [36]:
# Criando um dicionário
calorias = {
    'day1': 420,
    'day2': 380,
    'day3': 390
}
# Criando uma Series em função de um dicionário
myList = pd.Series(calorias)

print(myList)

day1    420
day2    380
day3    390
dtype: int64


#### O QUE É UM DATAFRAME?

Um Pandas DataFrame é uma estrutura de dados bidimensional, como um array
bidimensional ou uma tabela com linhas e colunas.

Exemplo: Crie um DataFrame simples do Pandas:

In [37]:
# Importando biblioteca
import pandas as pd
# Criando um dicionário
data = {
    'calories': [420, 380, 390],
    'duration': [50, 40, 45]
}

# Para inserir um dicionário em um Dataframe
df = pd.DataFrame(data)
print(df)

   calories  duration
0       420        50
1       380        40
2       390        45


A biblioteca Pandas é capaz de ler diversos tipos de arquivos, com uma sintaxe
simples. Dentre os tipos de arquivos que podemos ler com o Pandas, temos:

• read_table
• read_csv
• read_excel
• read_hdf
• read_sql
• read_json
• read_html
• read_stata
• read_sas

In [38]:
# Importar as bibliotecas
import pandas as pd

# Mapear o diretório do documento

caminho = 'C:\\Users\\FIC\\Documents\\fundamentos-Big-data-SENAI-Python\\ArquivosAnálise\\'
arquivo = 'bank-full.xlsx'

# Carregar um arquivo para um dataframe

df = pd.read_excel(caminho + arquivo, sheet_name='Sheet 1 - bank-full')


#### Visualizando o cabeçalho do DataFrame

In [39]:
# Coamando para vizualizar o cabelhalho do DataFrame
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown


#### Comando para vizualizar o final do DataFrame

In [40]:
df.tail()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown
45210,37,entrepreneur,married,secondary,no,2971,no,no,cellular,17,nov,361,2,188,11,other


In [41]:
# Exibindo os dados do dataframe
df

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


#### Obtendo informações do DataFrame

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 16 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
dtypes: int64(7), object(9)
memory usage: 5.5+ MB


In [43]:
# Dados de variáveis numéricas
df.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0
mean,40.93621,1362.272058,15.806419,258.16308,2.763841,40.197828,0.580323
std,10.618762,3044.765829,8.322476,257.527812,3.098021,100.128746,2.303441
min,18.0,-8019.0,1.0,0.0,1.0,-1.0,0.0
25%,33.0,72.0,8.0,103.0,1.0,-1.0,0.0
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0
75%,48.0,1428.0,21.0,319.0,3.0,-1.0,0.0
max,95.0,102127.0,31.0,4918.0,63.0,871.0,275.0


In [44]:
# Descrevendo dados categóricos
# count = Contagem | unique = Qtde de elementos únicos
# top = A palavra que aparece com maior frequência
# freq =  É a quantidade de vezes que a palavra top aparece

df.describe(include=['O'])

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,poutcome
count,45211,45211,45211,45211,45211,45211,45211,45211,45211
unique,12,3,4,2,2,2,3,12,4
top,blue-collar,married,secondary,no,yes,no,cellular,may,unknown
freq,9732,27214,23202,44396,25130,37967,29285,13766,36959


In [45]:
# Retornar a descrição de todos os dados (Números & Categógicos)
df.describe(include='all')

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
count,45211.0,45211,45211,45211,45211,45211.0,45211,45211,45211,45211.0,45211,45211.0,45211.0,45211.0,45211.0,45211
unique,,12,3,4,2,,2,2,3,,12,,,,,4
top,,blue-collar,married,secondary,no,,yes,no,cellular,,may,,,,,unknown
freq,,9732,27214,23202,44396,,25130,37967,29285,,13766,,,,,36959
mean,40.93621,,,,,1362.272058,,,,15.806419,,258.16308,2.763841,40.197828,0.580323,
std,10.618762,,,,,3044.765829,,,,8.322476,,257.527812,3.098021,100.128746,2.303441,
min,18.0,,,,,-8019.0,,,,1.0,,0.0,1.0,-1.0,0.0,
25%,33.0,,,,,72.0,,,,8.0,,103.0,1.0,-1.0,0.0,
50%,39.0,,,,,448.0,,,,16.0,,180.0,2.0,-1.0,0.0,
75%,48.0,,,,,1428.0,,,,21.0,,319.0,3.0,-1.0,0.0,


#### Nomeando colunas 
Podemos usar o df.columns para modificar todos os nomes das colunas

In [46]:
# É obrigatório informar o nome de todas as colunas 
# mesmo que não haja alteração no nome;
# OBS: RESPEITE A ORDEM DAS COLUNAS!!!!
df.columns = ['idade','job','estado civil','educação','default',
              'balance','housing', 'empréstimo','contato','dia',
              'mes','duração','campanha','pdays','previous','poutcome'
              ]

df.head()

Unnamed: 0,idade,job,estado civil,educação,default,balance,housing,empréstimo,contato,dia,mes,duração,campanha,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown


#### Alterando o nome de uma coluna específica

Ou modificar o nome de colunas específicas usando a função df.rename()

In [48]:
df = df.rename(columns={'idade':'IDADE',
                   'job':'Profissão'})

df.head()

Unnamed: 0,IDADE,Profissão,estado civil,educação,default,balance,housing,empréstimo,contato,dia,mes,duração,campanha,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
