<a href="https://colab.research.google.com/github/DanRelief/DanRelief/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação do Pandas

In [2]:
!pip install pandas==1.5.3
!pip install numpy==1.23.5




In [3]:
import pandas as pd
import numpy as np
print(pd.__version__)
print(np.__version__)

1.5.3
1.23.5


# Séries

- docs: https://drive.google.com/drive/folders/1gK4-GabfHK-EgjEeytTcSAna7TfotW0y

In [4]:
serie_dados = pd.Series([10, 20, 30, 40, 50]) #cria uma série de dados
print(serie_dados) #o pandas mostra o índice e o dado armazenado naquela posição

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [5]:
#criando indices personalizados
array_inteiros= [10,20,30,70,80]
indices = ['A','B','C','D','E']
serie_dados= pd.Series(array_inteiros, index=indices) #serie_dados recebe o array e o index recebe o valor de indices
print(serie_dados)

A    10
B    20
C    30
D    70
E    80
dtype: int64


In [6]:
serie_dados.size #mostra o tamanho

5

In [7]:
serie_dados.ndim #mostra as dimensões

1

In [8]:
serie_dados.shape #mostra o formato (linha x coluna dos dados, no caso só há 5 linhas e 1 coluna)

(5,)

In [9]:
np_array_inteiros= ([1,2,3,4,5]) #criando um arranjo usando o numpy
print(np_array_inteiros)

[1, 2, 3, 4, 5]


In [10]:
serie_dados = pd.Series(array_inteiros) #transformando um dado numpy no formato pandas
print(serie_dados)

0    10
1    20
2    30
3    70
4    80
dtype: int64


In [11]:
serie_dados.index = ['Z','X','Y','F','G'] #mudando os valores do index
print(serie_dados)
serie_dados[:]= [100,120,150,160,170] #atualizando os dados da série
print(serie_dados)

Z    10
X    20
Y    30
F    70
G    80
dtype: int64
Z    100
X    120
Y    150
F    160
G    170
dtype: int64


### Criação de séries

In [12]:
import numpy as np
#bloco vai gerar valores aleatórios
valores = np.random.random(10)
indexes= np.arange(0,10)

print(valores)
print(indexes)

[0.57464228 0.58846828 0.18007395 0.81289237 0.25804121 0.81460883
 0.7205178  0.66374945 0.11379446 0.11432118]
[0 1 2 3 4 5 6 7 8 9]


In [13]:
import pandas as pd
#mostrando o código acima só que em pandas
serie_dados = pd.Series(valores, indexes)
print(serie_dados)

0    0.574642
1    0.588468
2    0.180074
3    0.812892
4    0.258041
5    0.814609
6    0.720518
7    0.663749
8    0.113794
9    0.114321
dtype: float64


In [14]:
dicionario= {'joão': 10, 'daniel': 20, 'eliza': 30}

dicionario

{'joão': 10, 'daniel': 20, 'eliza': 30}

In [15]:
#fazendo um serie com esse dicionario
dict_serie_dados = pd.Series(dicionario)
print(dict_serie_dados)

joão      10
daniel    20
eliza     30
dtype: int64


## Fatiamento (slicing)

In [16]:
serie_dados[:]

Unnamed: 0,0
0,0.574642
1,0.588468
2,0.180074
3,0.812892
4,0.258041
5,0.814609
6,0.720518
7,0.663749
8,0.113794
9,0.114321


In [17]:
serie_dados[0:3]
#repare que ele volta apenas do 0 ao 2

Unnamed: 0,0
0,0.574642
1,0.588468
2,0.180074


In [18]:
#mostra o último valor da lista
serie_dados[-1:]

Unnamed: 0,0
9,0.114321


In [19]:
#adicionando elementos a uma variável
S1= serie_dados[0:3]
S1

Unnamed: 0,0
0,0.574642
1,0.588468
2,0.180074


##Cópia, conversão e concatenação

In [20]:
#fazendo uma cópia de dados
import pandas as pd
serie_dados = pd.Series([10, 20, 30, 40, 50])

serie_dados2= serie_dados.copy()
serie_dados2

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [21]:
#convertendo valores de inteiro para float
serie_dados2.astype(float)

Unnamed: 0,0
0,10.0
1,20.0
2,30.0
3,40.0
4,50.0


In [22]:
#fazendo a concatenação
#criando o primeiro dicionario
dados_novos= {'Daniel': 10,'Rodrigo': 20}
serie_dados3= pd.Series(dados_novos)
serie_dados3

#criando o segundo dicionario
dict_dados= {'Rodolfo': 30, 'João': 50}
serie_dados4= pd.Series(dict_dados)
serie_dados4

#juntando os dois
serie_dados5= pd.concat([serie_dados3, serie_dados4])
serie_dados5

Unnamed: 0,0
Daniel,10
Rodrigo,20
Rodolfo,30
João,50


### Acessando dados com ILOC
- Acessar elementos pelo índice

In [23]:
import pandas as pd
import numpy as np
#importando arquivos. Basta clicar na pasta ao lado e no ícone de upload
dataset= pd.read_csv('census.csv')
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [24]:
#filtrando conteúdo da tabela
serie_idade= dataset['age']
serie_idade

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28
...,...
32556,27
32557,40
32558,58
32559,22


In [25]:
#mostrando apenas os primeiros 10 elementos
serie_idade.head(10)

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28
5,37
6,49
7,52
8,31
9,42


In [26]:
#utilizando iloc para retornar elementos pelo índice
serie_idade.iloc[3]


53

In [27]:
#retornando o último elemento
serie_idade.iloc[-1]

52

In [28]:
#intervalo de índices
serie_idade.iloc[0:5]

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28


In [29]:
#índices específicos
serie_idade.iloc[[0,2,4]]

Unnamed: 0,age
0,39
2,38
4,28


In [30]:
lista_idade= []
for i in serie_idade.items():
  #print(i[0], i[1]) onde i[0] são índicies e i[1] são elementos

  #se o elemento (idade) for maior que 50
  if i[1] > 50:
    lista_idade.append(i[0])

print(lista_idade)

[3, 7, 21, 24, 25, 27, 41, 45, 46, 67, 74, 77, 81, 83, 85, 90, 100, 112, 115, 116, 118, 140, 144, 148, 154, 157, 160, 169, 172, 187, 189, 202, 208, 213, 214, 221, 222, 223, 224, 226, 227, 228, 229, 235, 245, 246, 252, 254, 263, 267, 270, 283, 285, 295, 303, 316, 319, 324, 325, 328, 329, 333, 334, 346, 348, 354, 356, 361, 366, 368, 380, 399, 416, 428, 430, 447, 452, 461, 466, 470, 474, 484, 486, 487, 499, 501, 502, 503, 511, 515, 527, 534, 536, 546, 552, 555, 561, 564, 571, 578, 580, 581, 582, 588, 589, 591, 592, 602, 606, 610, 618, 622, 634, 639, 641, 647, 648, 656, 679, 686, 690, 708, 729, 731, 738, 741, 746, 752, 756, 761, 763, 764, 774, 779, 786, 788, 794, 796, 802, 808, 817, 818, 825, 826, 831, 833, 834, 835, 839, 842, 843, 844, 850, 857, 872, 873, 874, 885, 888, 900, 901, 909, 912, 917, 918, 924, 927, 932, 945, 952, 954, 967, 972, 978, 983, 985, 989, 995, 1005, 1006, 1008, 1010, 1017, 1025, 1034, 1036, 1040, 1046, 1050, 1051, 1053, 1061, 1062, 1082, 1096, 1100, 1113, 1115, 1118, 1

In [31]:
!pip install Faker #instala dados falsos

Collecting Faker
  Downloading faker-37.4.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.4.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m19.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Faker
Successfully installed Faker-37.4.0


In [32]:
from faker import Faker
fake = Faker()
fake.name()

'Cassandra Newton'

In [33]:
indices_nome = []
for _ in range(32561) :
  indices_nome.append(fake.name())

In [34]:
type(indices_nome), len(indices_nome) #gerando uma lista

(list, 32561)

In [35]:
indices_nome[0:10] #mostrando 10 nomes

['Christy Alvarez',
 'Nicholas Harvey',
 'Shaun Chang',
 'Andrew Smith',
 'Brandi Kelly',
 'Kristina Larsen',
 'Dennis Murillo',
 'Teresa Davis',
 'Amber Sanders',
 'Glenda Farmer']

In [36]:
serie_idade_nome= pd.Series(np.array(dataset['age']), index = indices_nome)
serie_idade_nome

Unnamed: 0,0
Christy Alvarez,39
Nicholas Harvey,50
Shaun Chang,38
Andrew Smith,53
Brandi Kelly,28
...,...
Brenda Smith,27
Peter Knox,40
Billy Morris,58
Justin Berger,22


In [37]:
serie_idade_nome["Richard Taylor"] #volta a respectiva idade


Unnamed: 0,0
Richard Taylor,23
Richard Taylor,46


In [38]:
serie_idade_nome2= serie_idade_nome.drop_duplicates() #apaga os nomes que são iguais
serie_idade_nome2.size
serie_idade_nome2

Unnamed: 0,0
Christy Alvarez,39
Nicholas Harvey,50
Shaun Chang,38
Andrew Smith,53
Brandi Kelly,28
...,...
Sydney Kim,83
Abigail Hardin,84
Denise Garcia,85
Gabriel Ortega,86


In [39]:
serie_idade_nome2["Richard Taylor":"Denise Horne"] #mostrando nomes em um intervalo

KeyError: 'Richard Taylor'

In [None]:
serie_idade_nome2.loc[["Lori Perry","Katie Fox"]] #agora só mostra essas duas pessoas

In [None]:
serie_idade_nome3= serie_idade_nome2.copy() #copiando valores para outra variável
serie_idade_nome3

In [None]:
serie_idade_nome3.reset_index(drop= True, inplace = True) #reseta os indices
serie_idade_nome3

In [None]:
serie_idade_nome2.index #retorna apenas os nomes das pessoas

### Ordenação

In [None]:
serie_idade_nome.sort_values() #serie será ordenada pelos valores

In [None]:
serie_idade_nome.sort_values(ascending= False) #serie será ordenada pelos valores em ordem decrescente

In [None]:
serie_idade_nome.sort_index(ascending = True) #será ordenado em ordem alfabética

In [None]:
sr= serie_idade_nome.sort_values(ascending = False).iloc[0:11] #gerando um novo dataframe filtrando as pessoas de maior idade
sr

### Contagem

In [None]:
serie_idade_nome.size

In [None]:
serie_idade_nome.value_counts() #conta quantas pessoas tem a mesma idade. idade disposta na esquerda e quantidade de pessoas com essa idade na direita

In [None]:
serie_idade_nome.value_counts(normalize= True)*100 #mostra as idades em porcentagem

In [None]:
serie_idade_nome.value_counts(bins = 10) #dividindo em faixa etária

#### Filtros

In [None]:
fake.country()

In [None]:
indices_pais = []
for _ in range(32561) :
  indices_pais.append(fake.country())

In [None]:
indices_pais[0:11] #indice dos países

In [None]:
serie_país = pd.Series(np.array(dataset['age']), index = indices_pais)
serie_país #listando países com idades

In [None]:
serie_país.loc[serie_país>50] #filtra os que estão acima de 50

In [None]:
serie_país.loc[(serie_país>50) & (serie_país.index=="India")] #filtra os maiores de 50 e da India

In [None]:
serie_país.index.isin(["India", "Brazil"]) #true quando é india ou brasil, false quando não é

### Operações Matemáticas

In [None]:
serie_país +2 #adiciona 2 em cada valor

In [None]:
serie_país.mul(2) #multiplica por 2

In [None]:
s1= pd.Series([20,30,40])
s2= pd.Series([10,20,30])
s1, s2

In [None]:
s1.add(s2) #soma os valores das séries

In [None]:
s1.mul(s2) #multiplica os valores das séries

In [None]:
s1.div(s2) #divide os valores das séries

#### Operações com strings

In [None]:
serie_pais_index= serie_país.index.to_series() #passa os países como índice
serie_pais_index.reset_index(drop= True, inplace = True) #apagando os nomes dos países para que se tornem números
serie_pais_index

In [None]:
serie_pais_index.str.contains("tse") #coloca como true quem tem essas letras no nome

In [None]:
serie_pais_index.str.upper() #deixa todos os nomes em capslock

In [None]:
serie_pais_index.str.lower() #deixa em minúsculo

In [None]:
serie_pais_index.str.strip("Libyan") #remove um nome desejado

In [None]:
serie_pais_index.str.split(' ', expand=True) #separando as palavras em colunas diferentes

In [None]:
serie_pais_index.str[0:5] #retorna os primeiros 5 caracteres de cada palavra

In [None]:
serie_país.sum() #realiza a somatória de todos os valores

In [None]:
serie_país.mean() #realiza a media

In [None]:
serie_país.median() #mediana

In [None]:
serie_país.count() #qte de registros

In [None]:
serie_país.std() #desvio padrão

In [None]:
serie_país.var() #variancia

In [None]:
serie_país.loc["Brazil"].mean() #extrai a média apenas do Brazil

In [None]:
serie_país.quantile([0.25, 0.5, 0.75]) #mostra a quantidade dos valores que aparecem em 25%, 50% e 75% do total de dados

#### Agrupamento categórico

In [None]:
serie_pais_index.value_counts() #retorna o valor por país

In [None]:
serie_pais_index.value_counts(normalize = True)*100 #retorna o valor por país em porcentagem

In [None]:
serie_pais_index.unique() #retorna o nome único dos países

In [None]:
serie_pais_index.unique() #retorna o numero de países registrados

### Valores faltantes

In [None]:
serie_faltante = pd.Series([1, 2, 3, np.nan, 5, np.nan]) #representa valor não existente

In [None]:
serie_faltante.isna() #retorna se há valor faltante nas linhas (true representa faltante)

In [None]:
serie_faltante.isna().sum() #soma a quantidade de valor faltante

In [None]:
serie_faltante.value_counts(dropna = False) #conta os valores faltantes e mostra os resto dos numeros

In [None]:
serie_faltante.fillna(0) #substitui os valores faltantes por 0

In [None]:
serie_faltante.dropna() #linha de valores faltantes são apagadas

In [None]:
serie_faltante.fillna(serie_faltante.mean()) #substitui os valores faltantes pela média

In [None]:
serie_faltante = pd.Series("Mação", "Banana", "Arroz", "Arroz", np.nan, "Batata")
serie_faltante

In [None]:
serie_faltante.isna().sum() #soma de valores faltantes

In [None]:
serie_faltante.fillna("Não informado") #todos os valores faltantes são substituídos por "não informado"

In [None]:
serie_faltante.mode().iloc[0] #retorna qual é a moda dos valores declarados, na posição 0

In [None]:
serie_faltante.fillna(serie_faltante.mode().iloc[0]) #substitui os valores faltantes pela moda

### Funções

In [None]:
serie_idade #retorna índices e idades

In [None]:
serie_idade.loc[serie_idade<18] #retorna pessoas menores de 18 anos

In [None]:
#transformando todas as idades menores de 18 em 18 anos, utilizando a função corrige_idade
def corrige_idade(idade):
  if idade < 18:
    idade = 18
    return idade

In [None]:
serie_idade = serie_idade.apply(corrige_idade) #aplica a função em todos os elementos da série, não necessitando passar manualmente
serie_idade

In [None]:
#outra maneira de utilizar uma função
serie_idade= serie_idade.apply(lambda idade: 17 if idade==18 else idade) #declarando uma função e já executando ela para todos os elementos. Nesse caso, transformando todos os elementos iguais a 18 em 17 anos

In [None]:
serie_idade[serie_idade<18] #retorna apenas os menores de 18

In [None]:
serie_idade2 = serie_idade.iloc[0:10] #recebe os primeiros 10 elementos
serie_idade2

In [None]:
serie_idade2.where(serie_idade2 < 40, 0) #para todos os valores menores que 40, recebe 0

# Dataframe

um dataframe é um conjunto de várias séries.

In [None]:
import pandas as pd
import numpy as np

In [None]:
data = [['Alice', 25, 'São Paulo'],
        ['João', 30, 'Rio de Janeiro'],
        ['Bruno', 35, 'Curitiba'],
        ['Carlos', 40, 'Manaus']]

In [None]:
type(data) #tipo de dados

In [None]:
colunas = ['Nome', 'idade', 'Cidade'] #separando por categorias

In [None]:
df = pd.DataFrame(data, columns=colunas) #criando um dataframe utilizando listas
df

In [None]:
#criando um dataframe a partir de um dicionário
data = {'Nome': ['Alice', 'João', 'Bruno', 'Carlos'],
         'Idade': [25, 30, 35, 40],
         'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Manaus']}
data

In [None]:
type(data)

In [None]:
df = pd.DataFrame(data)
df

In [None]:
#data frame criado a partir de um array
data = np.array ([['Alice', 25, 'São Paulo'],
        ['João', 30, 'Rio de Janeiro'],
        ['Bruno', 35, 'Curitiba'],
        ['Carlos', 40, 'Manaus']])
type(data)

In [None]:
df = pd.DataFrame(data, columns=colunas)
df

In [None]:
#dataframe com tuplas
data = [('Alice', 25, 'São Paulo'),
        ('João', 30, 'Rio de Janeiro'),
        ('Bruno', 35, 'Curitiba'),
        ('Carlos', 40, 'Manaus')]
type(data), type(data[0])

In [None]:
df = pd.DataFrame(data, columns=colunas)
df

In [None]:
#utilizando a estrutura de dicionários organizado em séries e transformando em dataframe
data= {'Nome': pd.Series (['Alice', 'João', 'Bruno', 'Carlos']),
         'Idade': pd.Series ([25, 30, 35, 40]),
         'Cidade': pd.Series (['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Manaus'])}
data

In [None]:
df = pd.DataFrame(data)
df

In [None]:
#utilizando dicionário organizando em array
data = {'Nome': np.array(['Alice', 'João', 'Bruno', 'Carlos']),
        'Idade': np.array([25, 30, 35, 40]),
        'Cidade': np.array(['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Manaus'])}
data

In [None]:
df = pd.DataFrame(data)
df

### Explorando dataframes

In [None]:
dataset= pd.read_csv('census.csv')
dataset

In [None]:
dataset.head() #analisar apenas os 5 primeiros registros

In [None]:
dataset.tail() #analisar as últimas 5 linhas do registro

In [None]:
dataset.shape #quantidade total de linhas e colunas

In [None]:
dataset.size #multiplicação linha x coluna (32561 * 15)

In [None]:
dataset.index #índices

In [None]:
dataset.columns #colunas

In [None]:
dataset.axes #análise eixos

In [None]:
dataset.dtypes #volta o datatype de cada linha do registro

In [None]:
dataset.info() #fornece a classe, os índices, o nome, o tipo, a quantiade de registros não nulos, etc.

In [None]:
dataset.describe() #estatísticas sobre cada um dos atribustos numéricos

### Acesso com loc e iloc

In [None]:
dataset["age"] #acessando uma parte específica do gráfico

In [None]:
type(dataset["age"]) #demonstrando que dataframes são conjuntos de séries

In [None]:
dataset.age.mean() #calculando a média da coluna age

In [None]:
dataset.age.iloc[0:4] #retornar apenas as primeiras idades

In [None]:
dataset[["age", "education"]] #acessando somente age e education

In [None]:
dataset.iloc[0:4 ,0:4] #linhas(do 0 ao 4), colunas(do 0 ao 4)

In [None]:
dataset.iloc[0:4, :] #acessando apenas as linhas do 0 ao 4.

In [None]:
dataset.iloc[0:4,[0, 3, 5]] #acessando as primeiras 4 linhas, acessando essa colunas específicas

In [None]:
dataset.iloc[:, 0:4] #acessando apenas as 4 primeiras colunas

In [None]:
dataset.loc[:, "age"] #acessando todas as linhas, mostrando apenas a coluna age

In [None]:
dataset.loc[:, ["age", "workclass", "education"]] #acessando todas as linhas, mostrando apenas as colunas explicitadas

In [None]:
dataset.loc[0:5, "age":"occupation"] #acessando as primeiras 5 linhas, e as colunas do intervalo do age ao occupation

### Apagar linhas e colunas

In [None]:
dataset.drop("education", axis = 1) #referenciando qual linha eu quero apagar
#quando axis = 0 (linhas), quando axis = 1 (colunas)

In [None]:
dataset.drop("final-weight", axis =1, inplace= True) #apagando a coluna de forma definitiva da base de dados

In [None]:
dataset.columns #repare que final-weight foi apagado, enquanto education só foi oculto visualmente

In [None]:
dataset.drop([0], axis = 0) #apagando a primeira linha (deixando oculto)

In [None]:
dataset.drop([0], axis= 0, inplace= True) #apagando a primeira linha de forma definitiva

In [None]:
dataset.reset_index(drop= True, inplace = True) #resetando os índices (atualizando após ter apagado a linha)

### Linhas duplicadas na base de dados

In [None]:
dataset.duplicated() #retorna se há linhas duplicadas

In [None]:
dataset.duplicated().sum() #retorna a quantidade de linhas duplicadas

In [None]:
dataset.iloc[[32557, 32558]]

In [None]:
dataset.drop_duplicates() #apaga as linhas duplicadas (oculta)

In [None]:
dataset.duplicated(subset= "age").sum() #somatórios dos valores de colunas duplicadas

In [None]:
dataset.drop_duplicates(subset= "age", keep = "last", ignore_index = True) #apaga as colunas (idades duplicadas), mantendo o útlimo registro duplicado e reorganizando os índices

### Valores faltantes

In [None]:
dataset.isna().sum() #os valores nulos está representados por '?'

In [None]:
dataset.loc[dataset["workclass"].str.contains("\?")] #mostra

In [None]:
colunas_categoricas = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country', 'income']

for coluna in colunas_categoricas:
  #print(coluna)
  tem_interrogacao= dataset[coluna].str.contains("\?").any() #percorrendo todas as colunas
  if tem_interrogacao:
    print(f"na coluna ' {coluna} 'tem interrogacao '?' ")

In [None]:
for coluna in colunas_categoricas:
  dataset[coluna] = dataset[coluna].replace(' ?', np.nan) #substituir toda interrogação por nan

In [None]:
dataset.isna().sum() #retorna a quantidade de valores faltantes

In [None]:
dataset.fillna("Não informado").iloc[0:30] #colocar 'não informado' no lugar de 0

In [None]:
dataset["workclass"].mode() #retorna o valor mais frequente

In [None]:
dataset["occupation"].mode() #retorna o valor mais frequente

In [None]:
dataset["native-country"].mode() #retorna o valor mais frequente

In [None]:
dataset["workclass"].fillna(dataset["workclass"].mode().iloc[0], inplace= True) #substutuindo valores

In [None]:
dataset["occupation"].fillna(dataset["occupation"].mode().iloc[0], inplace= True)

In [None]:
dataset["native-country"].fillna(dataset["native-country"].mode().iloc[0], inplace= True)

In [None]:
dataset.isna().sum()

### Contagem de valores

In [None]:
dataset.age.value_counts()

In [None]:
dataset.workclass.value_counts(normalize= True, sort= False)*100

In [None]:
for coluna in dataset.columns:
  #print(coluna, dataset[coluna].dtype)
  if dataset[coluna].dtype == object:
    print('--------', coluna, '--------')
    print(dataset[coluna].value_counts(normalize= True))
    print()

### Ordenação do dataframe

In [None]:
dataset.sort_index(ascending= True) #ordenando pelo índice

In [None]:
dataset.sort_values(["age", "workclass"], ascending= [False, True], inplace= True) #ordenando por colunas, com ascending declarando se vai ser crescente ou descrescente e o inplace definindo a alteração

In [None]:
dataset.reset_index(drop= True, inplace= True) #resetando índice

### filtragem do dataset.loc

In [None]:
dataset.loc[dataset.education == 'Bachelors', ["age", "workclass", "education-num"]] #colocando o filtro por linha

In [None]:
dataset.loc[(dataset["education-num"]==6) & (dataset["marital-status"]== " never merried")] #filtrando education.num para 6. E o estado civil

In [None]:
dataset.query(" `education-num` ==6 and `marital-status` == ' never-merried' ") #dois filtros

In [None]:
dataset.query("age > 35 and workclass == ' Private' ") #dois filtros

In [None]:
dataset.query("age > 35 and workclass == ' Private' ").loc[:, "capital-gain"].sum() #retornando as linhas com o filtro nas colunas e somando todo o ganho de pessoas acima de 35 anos com workclass = private

### Renomear e reordenar

In [None]:
dataset.columns = [coluna.upper() for coluna in dataset.columns] #transformando as colunas em letras maiusculas
dataset.columns

In [None]:
dataset.columns = [coluna.lower() for coluna in dataset.columns] #transformando as colunas em letras minúsculas
dataset.columns

In [None]:
dataset.rename(columns= {"idade": "age", "trabalho": "workclass"}, inplace = True) #mudando o nome das colunas

In [None]:
dataset.head()

In [None]:
dataset= dataset.reindex(labels= ['workclass', 'age', 'final-weight', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'race', 'sex',
       'capital-gain', 'capital-loos', 'hour-per-week', 'native-country',
       'income'], axis = 1) #trocando a ordem das colunas age pelo workclass, colocando axis = 1 para mudar apenas as colunas e não as linhas

dataset

### Criação de colunas

In [None]:
dataset["hour-per-month"]= dataset["hour-per-week"] * 4 #criando uma colunas que conta as horas trabalhadas por mês
dataset.head()

In [None]:
dataset["high-education-level"]= dataset["education-num"] > 11 #valida a educação. Se maior que 11, é verdadeiro, se menor é falso
dataset.head()

In [None]:
dicionario_map= {"<=50k": "low", ">50k": "high"} #dicionario que define caso a pessoa ganhe pouco (menos que 50k) e caso ela ganhe muito (mais que 50k)

In [None]:
dataset["category-income"]= dataset["income"].map(dicionario_map)
dataset

In [None]:
dataset["capital-gain-usd"]= dataset["capital-gain"].map(lambda x: f"USD {x}") #aplicando uma formatação. Agora aparece USD ao lados dos valores
dataset.head()

In [None]:
from datetime import datetime #importando data e hora

In [None]:
datetime.now().year

In [None]:
dataset= dataset.assign(birth= datetime.now().year - dataset["age"], hardwork= dataset["hour-per-week"] > 40) #descobrindo a idade que a pessoa nasceu com base no ano atual e classificando quem trabalha mais
dataset

In [None]:
dataset.loc[dataset["hardwork"] == True] #filtro de pessoas que trabalham mais de 40 horas por semana

### Colunas categóricas

In [None]:
dataset.info() #obtendo colunas categóricas

In [None]:
dataset["native-country"].unique() #retorna os países únicos nessa base de dados

In [None]:
dataset= dataset.astype({"native-country": "category"}) #alterando o tipo de variáveis, transformando os nomes em números para reduzir a memória.
dataset

### Agregação

In [None]:
dataset.loc[:, "hour-per-week"].sum()

In [None]:
dataset.loc[:, ["hour-per-week", "age"]].sum() #soma de horas trabalhadas e anos

In [None]:
dataset.loc[:, "hour-per-week"].mean().round(2) #media de horas trabalhadas voltando só 2 unidades decimais

In [None]:
dataset.loc[:, ["hour-per-week", "age"]].std().round(2) #desvio padrão

In [None]:
dataset.loc[:, ["hour-per-week", "age"]].min().round(2) #valores mínimos, a pessoa que menos trabalha e mais nova

In [None]:
dataset.loc[:, ["hour-per-week", "age"]].max().round(2) #valores máximos, a pessoa que mais trabalha e mais velha

In [None]:
dataset.mean(numeric_only= True) #extração da média de todas as colunas numéricas

### Agrupamento

In [None]:
dataset["workclass"].unique() #mostrando qte de valores únicos no atributo workclass

In [None]:
dataset.groupby("workclass")["hour-per-week"].mean().sort_values() #primeiro declaro o atributo categórico que quero agrupar, depois o atributo numérico que vai ser realizado os cálculos e no final a função agregada e no final ordenando em ordem crescente (quem trabalha menos para quem trabalha mais)

In [None]:
group= dataset.groupby("workclass")["hour-per-week"].mean().sort_values()
type(group) #atrelando isso a uma variável (note que é uma série do Pandas)

In [None]:
dataset.groupby("income")["education-num"].mean() #fazendo a média de quantos anos as pessoas estudam em relação a sua renda
#pessoas que ganham mais de 50k, estudam por mais tempo em relação as que ganham menos

In [None]:
group= dataset.groupby(["income","workclass"])["hour-per-week"].mean().sort_values().sort_index() #ordenando em forma de lista, com a coluna income, workclass e o atributo numérico hours-per-week, ordenando de forma crescente e por índice
group
# pessoas que trabalham 3 horas a mais ganham mais de 50k, em relação as que trabalham menos e ganham menos

In [None]:
group.index

In [None]:
group.loc[" <=50K"]

In [None]:
group.loc[(" <=50k", " Federal-gov"):(" <=50k", " Private")] #definindo intervalo de índices

In [None]:
group.loc[" <=50k"][" Federal-gov":"Never-worked"] #intervalo

In [None]:
group= dataset.groupby(["income", "workclass"], as_index= False) ["hour-per-week"].mean().sort_index() #agrupamento dos atributos income e workclass e não gerando um índice múltiplo
group
#isso gerou um dataframe, não mais uma série

In [None]:
group.query("workclass== ' Federal-gov'") #separando e visualizando melhor os dados

### Agrupamento com agregação

In [None]:
dataset.groupby(["income", "workclass"]).agg("mean", numeric_only= True) #agrupando e utilizando a função agg(agregar) passando as operações por strings. Passando o parametro numeric_only para que se analise apenas valores numéricos

In [None]:
dataset.groupby(["income", "workclass"]).agg({"age": ["mean", "std"],
                                              "hour-per-week": ["min", "max"]}) #definindo funções agregadas de acordo com a necessidade

In [None]:
dataset.groupby(["income", "workclass"]).agg(age_mean= ("age", "mean"),
                                             age_std= ("age", "std"),
                                             hour_min= ("hour-per-week","min"),
                                             hour_max= ("hour-per-week", "max")) #definindo funções agregadas de acordo com a necessidade. Mostrando de uma outra forma, mais organizada

### Agregação com transform

In [None]:
group = dataset.groupby(["workclass"], as_index= False)["hour-per-week"].mean().sort_index()
group #realizando um agrupamento

In [None]:
group.assign(avg_age= dataset.groupby(["workclass"])["age"].transform("mean"),
            avg_education= dataset.groupby(["workclass"])["education-num"].transform("mean")) #adicionando duas colunas a mais no agrupamento com a média de idade em relação a suas profissões e a média dos anos estudados

### Tabelas pivot
visualização de dados quando agrupados

In [None]:
dataset.pivot_table(index= "income",
                    columns= "workclass",
                    values= "age",
                    aggfunc="mean") #agrupamento entre renda e tipo de trabalho, valores númerico que vai ser analisado e qual função vai fazer a agregação (no caso a média)

In [None]:
dataset.pivot_table(index= "marital-status",
                    columns = "income",
                    values= "education-num",
                    aggfunc= "mean",
                    margins= True)

In [None]:
dataset.pivot_table(index= "marital-status",
                    columns = "income",
                    values= "education-num",
                    aggfunc= ("mean", "max")).style.background_gradient(cmap= "Blues") #organizando esses dados em tuplas, e um estilo de tabela

### Concatenação

In [None]:
data= {'idvenda': [123, 374, 654, 345],
       'data': ['2024-01-19', '2024-01-20', '2024-01-21', '2024-01-21'],
       'idvendedor': [1, np.nan, 2, 3],
       'valor_total': [45.76, 102.34, 56.34, 34.21]} #dicionário com informações
df1 = pd.DataFrame.from_dict(data) #variável que recebe o dicionário
df1

In [None]:
data= {'idvenda': [123, 374, 654, 345],
       'data': ['2024-01-19', '2024-01-20', '2024-01-21', '2024-01-21'],
       'idvendedor': [1, np.nan, 2, 3],
       'valor_total': [45.76, 102.34, 56.34, 34.21]} #dicionário com informações
df2 = pd.DataFrame.from_dict(data) #variável que recebe o dicionário
df2

In [None]:
data_complete= pd.concat([df1, df2], ignore_index= True) #concatenando os dois dataframes
data_complete #se eu quiser realizar um filtro com o nome dos vendedores, eu não vou conseguir, pois aqui eu só tenho o id deles

### Junção

In [46]:
data= {'idvendedor': [1,2,3,4],
       'nome': ['Julia', 'Paulo', 'Jessica', 'Marcos']}
df_vendedor= pd.DataFrame.from_dict(data)
df_vendedor #gerando um dicionário com os nomes dos vendedores

Unnamed: 0,idvendedor,nome
0,1,Julia
1,2,Paulo
2,3,Jessica
3,4,Marcos


In [45]:
data_complete.merge(df_vendedor,
                   how= "inner", #comando inner vai buscar info da coluna esquerda e da direita. é obrigatório que haja uma correspondência entre eles
                   left_on= ["idvendedor"],
                   right_on= ["idvendedor"] ) #foi adicionado a coluna com o nome dos vendedores a tabela, nem necessitando mais a coluna do id do vendedor

NameError: name 'data_complete' is not defined

In [44]:
data_complete= data_complete.merge(df_vendedor,
                   how= "left", #agora será feito com base na tabela da esquerda, independente se haja correspondência na tabela da direita.
                   left_on= ["idvendedor"],
                   right_on= ["idvendedor"] )
data_complete

NameError: name 'data_complete' is not defined

In [42]:
data_complete.query("nome== 'Jessica' ") #filtrando nomes

NameError: name 'data_complete' is not defined

### Conversão e formatação de data

In [41]:
df_vendas= data_complete.copy()

NameError: name 'data_complete' is not defined

In [None]:
df_vendas.info() #mostra infos de valores nulos, tipos de dados, etc.

In [None]:
df_vendas

In [None]:
#df_vendas= df_vendas.astype({"data": "datetime64"}) #mudando o formato de dados (string para data) pode ser que retorne erro caso string não esteja em formato de data

In [None]:
df_vendas= df_vendas.assign(data= pd.to_datetime(df_vendas["data"], #mudando o formato de dados (string para data)
                                                 infer_datetime_format=True, #tornando true o formato data
                                                 errors= "coerce")) #caso encontre erro, retorna a palavra 'NaT' (não é uma data)

In [40]:
df_vendas

NameError: name 'df_vendas' is not defined

In [None]:
df_vendas.info() #uso de memória é reduzido dependendo do tipo da variável utilizada

In [None]:
df_vendas.loc[0, ["data"]] = "N/A"
df_vendas #repare que agora irá gerar uma coluna com data inválida

### Formatação de data

- https://www.programiz.com/python-programming/datetime/strftime

In [48]:
df_vendas.assign(data2 = df_vendas["data"].dt.strftime("%Y-%b-%a"), #%Y indica o ano em formato numérico. %b nome do mês abreviado. %a nome abreviado do dia da semana.
                 data3 = df_vendas["data"].dt.strftime("%d-%m-%Y"))

NameError: name 'df_vendas' is not defined

In [None]:
df_vendas["data"].fillna("2024-01-19", inplace= True) #preenchendo valor nulo
df_vendas

In [None]:
df_vendas["data"].dt.month #dt.year para extração de ano, dt.month para mês, dt.day para dia, dt.hour, dt.minute, dt.second

### índices com data

In [None]:
df_vendas2 = df_vendas.copy()
df_vendas2

In [None]:
df_vendas.dtypes #a coluna data está em formato datetime

In [None]:
df_vendas2.set_index("data", inplace= True) #definindo data como índice, modificando a variável
df_vendas2 #a vantagem de estar como índice é que podemos aplicar filtros adicionais

In [None]:
#ex:
df_vendas2.loc["2024-01-19"] #vendas apenas desse período

In [None]:
df_vendas2.loc["2024-01":"2024-02"]

In [49]:
df_vendas2

NameError: name 'df_vendas2' is not defined

In [None]:
df_vendas2.resample('M')["valor total"].sum(numeric_only= True) #somando todas as colunas numéricas por mês

In [None]:
df_venda2.resample('D')["valor_total"].mean(numeric_only= True) #tirando a média de todas as colunas numéricas por dia

### Importação e exportação de dados

In [51]:
dataset = pd.read_csv('census.csv').head(5) #carregando apenas as 5 primeiras linhas
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [None]:
dataset = pd.read_csv('census.csv', header= None).head(5) #não mostra o título das colunas
dataset

In [None]:
#colocando nome nas colunas manualmente no arquivo
colunas = ['idade', 'trabalho', 'final-weight', 'escolaridade', 'escolaridade-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loos',	'hour-per-week', 'native-country', 'income']
dataset = pd.read_csv('census.csv', header= None, names= colunas).head(5)
dataset

In [None]:
dataset= pd.read_csv('census.csv', usecols= ["age", "workclass"]).head(5) #filtrando apenas as colunas desejadas
dataset

In [None]:
dataset= pd.read_csv('census.csv', na_values= [" ?"]) #substituindo caracteres faltantes, colocando o simbolo em formato de lista

In [None]:
dataset.isna().sum() #somando todos os valores faltantes

In [None]:
dataset.dtypes #mostrando os tipos das variáveis

In [52]:
dataset= pd.read_csv('census.csv', dtype= ({"final-weight": "float"})) #transformando a variável 'final-weight' em float
dataset.dtypes

Unnamed: 0,0
age,int64
workclass,object
final-weight,float64
education,object
education-num,int64
marital-status,object
occupation,object
relationship,object
race,object
sex,object


In [None]:
dataset = pd.read_csv('AirPassengers.csv', parse_dates= ["Month"] #transformando as datas em formatos de mês
                      infer_datetime_format =True, index_col= "Month") #transformado o tipo em data, e mudando o índice como sendo o próprio mês
dataset #carregando essa base de dados

In [None]:
moeda = lambda x: f"{x} USD"
dataset = pd.read_csv('census.csv', converters = {"capital-gain": moeda}) #aplicando uma função em uma coluna durante a leitura do arquivo
dataset

In [54]:
dataset = pd.read_csv('seeds_dataset.txt', sep= "\t", #colocando um separador de coluans, \t
                      header = None, names = ["a","b","c","d","e","f","g","h"]) #retirando o cabeçalho e colocando nomes nas colunas
dataset #por ser um txt, não há cabeçalho nem formatação

Unnamed: 0,a,b,c,d,e,f,g,h
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1
5,14.38,14.21,0.8951,5.386,3.312,2.462,4.956,1
6,16.63,15.46,0.8747,6.053,3.465,2.04,5.877,1
7,16.44,15.25,0.888,5.884,3.505,1.969,5.533,1
8,15.26,14.85,0.8696,5.714,3.242,4.543,5.314,1
9,14.03,14.16,0.8796,5.438,3.201,1.717,5.001,1


In [57]:
dataset= pd.read_excel('seeds.xlsx', sheet_name= "Planilha2") #lendo a guia específica do excel
dataset

Unnamed: 0,15.26,14.84,0.871,5763,3312,2221,5.22,1
0,13.74,14.05,0.8744,5482,3114,2932.0,4825,1
1,13.78,14.06,0.8759,5479,3156,3136.0,4872,1
2,13.89,14.02,0.888,5439,3199,3986.0,4738,1
3,14.03,14.16,0.8796,5438,3201,1717.0,5001,1
4,15.26,14.85,0.8696,5714,3242,4543.0,5314,1
5,14.38,14.21,0.8951,5386,3312,2462.0,4956,1
6,14.88,14.57,0.8811,5554,3333,1018.0,4956,1
7,14.29,14.09,0.905,5291,3337,2699.0,4825,1
8,13.84,13.94,0.8955,5324,3379,2259.0,4805,1
9,16.63,15.46,0.8747,6053,3465,2.04,5877,1


In [59]:
dataset.to_csv('teste.csv', index= False) #exportando para csv, salvando ele sem índice

In [60]:
dataset.to_excel('teste.xlsx', sheet_name= "testando", index= False) #exportando para excel