In [2]:
# Tutorial do Kaggle
# Fonte: https://www.kaggle.com/code/residentmario/indexing-selecting-assigning/tutorial
import pandas as pd


# Dataframe: É uma tabela.
pd.DataFrame({"Sim": [50, 21], 'Não': [132, 2]})

pd.DataFrame({
    'Carlos': ["Eu gostei.", "Foi terrível."],
    'Maria Olívia': ['Muito bom', "Ruim."]
})


pd.DataFrame({
    'Carlos': ["Eu gostei.", "Foi terrível."],
    'Maria Olívia': ['Muito bom', "Ruim."]
}, index=['Filme A', 'Filme B']) #Muda as labels das linhas. 

# Series: É uma lista.
# Na sua essência é uma coluna única de um DataFrame.

pd.Series([1, 2, 3, 4, 5, 6, 7, 8])

# Como ela é uma coluna únicda de um dataframe ela aceita index,
#  mas não um nome de coluna, só nome mesmo.
pd.Series([80, 100, 120, 140, 160, 180], 
          index=['Peso em 2017',
                 'Peso em 2018',
                 'Peso em 2019', 
                 'Peso em 2020', 
                 'Peso em 2021', 
                 'Peso em 2022'],
            name="Elefante"
)

# CSV 

reviews = pd.read_csv("./datasets/winemag-data-130k-v2.csv", index_col=0)
reviews.shape # linhas, colunas
reviews.head() # Primeiras 5 linhas.

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [3]:
# Indexing, Selecting & Assigning

reviews.country # Selecionei a coluna country
reviews['country']  # jeito diferente que faz a mesma coisa, 
                    # mas ajuda a selecionar comes com caracteres reservados.

reviews['country'][0] # selecionando a primeira linha da coluna country.

# Indexação no Pandas.

# Seleção baseada em Index
    # Seleciona dados baseados na sua posição numérica.
reviews.iloc[0]
# O loc e o iloc são: Linha, Coluna.
reviews.iloc[:, 0] # Para pegar uma coluna no iloc. 
# O operador :, sozinho, significa tudo.

# No entanto, quando ele é utilizado com outros números, ele
# indica um intervalo de valores:
reviews.iloc[:3, 0] # Seleciona a 1ª, 2ª e a 3ª linha da coluna country.
reviews.iloc[1:3, 0] # Seleciona a 2ª e a 3ª linha.
reviews.iloc[[0, 1, 2], 0] # dá pra passar uma lista.

reviews.iloc[-5:] # os últimos 5 elementos do dataset.

# Seleção baseada em rótulos.
 # Nesse aqui é o valor do índice de dados que importa, não sua posição.

reviews.loc[0, 'country'] # Primeira linha, coluna country.
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']] # : todas as linhas, dessas três colunas aí.

# Como escolher entre o loc e o iloc.

# Iloc:
# O primeiro elemento é incluído e o último é excluído.
# [0, 10] = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Loc: 
# O primeiro é elemento é incluído, assim como o último também é.
# [0, 10] = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Manipulando o Índice:
reviews.set_index("title")

# Seleção Condicional.
reviews.country == 'Italy' # Retorna uma Series de True ou False.
reviews.loc[reviews.country == 'Italy'] # pegou só os italianos.
# Descobrir os vinhos italianos que tem uma pontuação igual ou acima de 90 pontos.
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)] # um e outro.
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)] # um ou outro.

# Operador isin. 
# Ele permite selecionar dados nos quais os valores estão dentro(is in) de uma lista de valores.
reviews.loc[reviews.country.isin(['Italy', 'France'])]

# Operador isnull.
# Ajuda a encontrar valores vazios.
reviews.loc[reviews.price.isnull()]

# Operador notnull
# Ajuda a encontrar valores não nulos.
reviews.loc[reviews.price.notnull()]

# Atribuir dados a um dataframe. 

reviews['critic'] = 'Samuel Jackson'
reviews['critic']

reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
2         129969
3         129968
4         129967
           ...  
129966         5
129967         4
129968         3
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64

In [16]:
# Summary Functions and Maps
# Funções de Resumo
# São funções que estruturam os dados de modo
# significativo.
reviews.points.describe()

# Ela leva em consideração os tipos de dados.
reviews.taster_name.describe()

# mean: média.

reviews.points.mean() # media dos pontos

# unique: para ver uma lista de valores únicos.
reviews.taster_name.unique()

# value_counts: ver uma lista de valores unicos e quantas vezes eles 
# aparecem no dataset.
reviews.taster_name.value_counts() # Esse Roger Voss deve ser o melhor
# testador de vinho do mundo, ou o maior beberrão da história... Ou os dois.
# https://www.wineenthusiast.com/contributor/roger-voss/

# Maps
# É um termo que foi pego da matemática que descreve uma função
# que pega um conjunto de valores e os mapeia para outro conjunto
# de valores.

review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)
# Usado para substituir para valor em uma Series
# para um valor diferente. Retorna uma Series onde todos
# os valores foram transformados pela função que foi passada
# como parâmetro.

# Apply
# A mesma coisa que maps, a diferença é que ele funciona
# pra um DataFrame inteiro chamando um método personalizado
# em cada linha.

def remean_points(row):
    row.points = row.points - review_points_mean
    return row

# reviews.apply(remean_points, axis='columns')
# Caso axis='index', então ao invés de passar uma função
# para tarnsformar cada linha, teríamos que passar uma
# função para transformar cada coluna.
# Esses dois métodos retornam uma nova Series ou um novo Dataframe, respectivamente
# Eles não modificam o valor original. 
reviews.head(1)

# Jeito mais fácil de mexer com a coluna de points.
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

# Combinar duas colunas. 

reviews.country + " - " + reviews.region_1

0                     Italy - Etna
1                              NaN
2           US - Willamette Valley
3         US - Lake Michigan Shore
4           US - Willamette Valley
                    ...           
129966                         NaN
129967                 US - Oregon
129968             France - Alsace
129969             France - Alsace
129970             France - Alsace
Length: 129971, dtype: object