<a href="https://colab.research.google.com/github/DanRelief/DanRelief/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação do Pandas

In [None]:
!pip install pandas==1.5.3
!pip install numpy==1.23.5




In [None]:
import pandas as pd
import numpy as np
print(pd.__version__)
print(np.__version__)

1.5.3
1.23.5


# Séries

- docs: https://drive.google.com/drive/folders/1gK4-GabfHK-EgjEeytTcSAna7TfotW0y

In [None]:
serie_dados = pd.Series([10, 20, 30, 40, 50]) #cria uma série de dados
print(serie_dados) #o pandas mostra o índice e o dado armazenado naquela posição

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [None]:
#criando indices personalizados
array_inteiros= [10,20,30,70,80]
indices = ['A','B','C','D','E']
serie_dados= pd.Series(array_inteiros, index=indices) #serie_dados recebe o array e o index recebe o valor de indices
print(serie_dados)

A    10
B    20
C    30
D    70
E    80
dtype: int64


In [None]:
serie_dados.size #mostra o tamanho

5

In [None]:
serie_dados.ndim #mostra as dimensões

1

In [None]:
serie_dados.shape #mostra o formato (linha x coluna dos dados, no caso só há 5 linhas e 1 coluna)

(5,)

In [None]:
np_array_inteiros= ([1,2,3,4,5]) #criando um arranjo usando o numpy
print(np_array_inteiros)

[1, 2, 3, 4, 5]


In [None]:
serie_dados = pd.Series(array_inteiros) #transformando um dado numpy no formato pandas
print(serie_dados)

0    10
1    20
2    30
3    70
4    80
dtype: int64


In [None]:
serie_dados.index = ['Z','X','Y','F','G'] #mudando os valores do index
print(serie_dados)
serie_dados[:]= [100,120,150,160,170] #atualizando os dados da série
print(serie_dados)

Z    10
X    20
Y    30
F    70
G    80
dtype: int64
Z    100
X    120
Y    150
F    160
G    170
dtype: int64


### Criação de séries

In [None]:
import numpy as np
#bloco vai gerar valores aleatórios
valores = np.random.random(10)
indexes= np.arange(0,10)

print(valores)
print(indexes)

[0.78663435 0.43638953 0.97893378 0.64756925 0.19095238 0.95116621
 0.42863232 0.84009655 0.68119762 0.54206319]
[0 1 2 3 4 5 6 7 8 9]


In [None]:
import pandas as pd
#mostrando o código acima só que em pandas
serie_dados = pd.Series(valores, indexes)
print(serie_dados)

0    0.786634
1    0.436390
2    0.978934
3    0.647569
4    0.190952
5    0.951166
6    0.428632
7    0.840097
8    0.681198
9    0.542063
dtype: float64


In [None]:
dicionario= {'joão': 10, 'daniel': 20, 'eliza': 30}

dicionario

{'joão': 10, 'daniel': 20, 'eliza': 30}

In [None]:
#fazendo um serie com esse dicionario
dict_serie_dados = pd.Series(dicionario)
print(dict_serie_dados)

joão      10
daniel    20
eliza     30
dtype: int64


## Fatiamento (slicing)

In [None]:
serie_dados[:]

Unnamed: 0,0
0,0.786634
1,0.43639
2,0.978934
3,0.647569
4,0.190952
5,0.951166
6,0.428632
7,0.840097
8,0.681198
9,0.542063


In [None]:
serie_dados[0:3]
#repare que ele volta apenas do 0 ao 2

Unnamed: 0,0
0,0.786634
1,0.43639
2,0.978934


In [None]:
#mostra o último valor da lista
serie_dados[-1:]

Unnamed: 0,0
9,0.542063


In [None]:
#adicionando elementos a uma variável
S1= serie_dados[0:3]
S1

Unnamed: 0,0
0,0.786634
1,0.43639
2,0.978934


##Cópia, conversão e concatenação

In [None]:
#fazendo uma cópia de dados
import pandas as pd
serie_dados = pd.Series([10, 20, 30, 40, 50])

serie_dados2= serie_dados.copy()
serie_dados2

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [None]:
#convertendo valores de inteiro para float
serie_dados2.astype(float)

Unnamed: 0,0
0,10.0
1,20.0
2,30.0
3,40.0
4,50.0


In [None]:
#fazendo a concatenação
#criando o primeiro dicionario
dados_novos= {'Daniel': 10,'Rodrigo': 20}
serie_dados3= pd.Series(dados_novos)
serie_dados3

#criando o segundo dicionario
dict_dados= {'Rodolfo': 30, 'João': 50}
serie_dados4= pd.Series(dict_dados)
serie_dados4

#juntando os dois
serie_dados5= pd.concat([serie_dados3, serie_dados4])
serie_dados5

Unnamed: 0,0
Daniel,10
Rodrigo,20
Rodolfo,30
João,50


### Acessando dados com ILOC
- Acessar elementos pelo índice

In [6]:
import pandas as pd
#importando arquivos. Basta clicar na pasta ao lado e no ícone de upload
dataset= pd.read_csv('census.csv')
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [7]:
#filtrando conteúdo da tabela
serie_idade= dataset['age']
serie_idade

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28
...,...
32556,27
32557,40
32558,58
32559,22


In [8]:
#mostrando apenas os primeiros 10 elementos
serie_idade.head(10)

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28
5,37
6,49
7,52
8,31
9,42


In [9]:
#utilizando iloc para retornar elementos pelo índice
serie_idade.iloc[3]


np.int64(53)

In [10]:
#retornando o último elemento
serie_idade.iloc[-1]

np.int64(52)

In [11]:
#intervalo de índices
serie_idade.iloc[0:5]

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28


In [12]:
#índices específicos
serie_idade.iloc[[0,2,4]]

Unnamed: 0,age
0,39
2,38
4,28


In [4]:
lista_idade= []
for i in serie_idade.items():
  #print(i[0], i[1]) onde i[0] são índicies e i[1] são elementos

  #se o elemento (idade) for maior que 50
  if i[1] > 50:
    lista_idade.append(i[0])

print(lista_idade)

NameError: name 'serie_idade' is not defined