# DataFrames I

In [1]:
# Lembrar sempre do básico
import pandas as pd

## Methods and Attributes between Series and DataFrames
- A **DataFrame** is a 2-dimensional table consisting of rows and columns.
- Pandas uses a `NaN` designation for cells that have a missing value. It is short for "not a number". Most operations on `NaN` values will produce `NaN` values.
- Like with a **Series**, Pandas assigns an index position/label to each **DataFrame** row.
- The **DataFrame** and **Series** have common and exclusive methods/attributes.
- The `hasnans` attribute exists only a **Series**. The `columns` attribute exists only on a **DataFrame**.
- Some methods/attributes will return different types of data.
- The `info` method returns a summary of the pandas object.

In [2]:
# Podemos pensar nos dataframes, um pouco mais além da definição de tabelas já conhecida, como diversas séries interrralacionadas, podendo ser utilizadas unicamente e podendo aplicar todos os conceitos matemáticos e de extração ou visualização de maneira mais ampla e diversificada nesta, como estamos habituados no SQL, por exemplo, mas ainda sabemos que temos a unidade a parte e que relacionamos a outras e podemos utilizar os conceitos, ou seja, são várias partes compondo um todo
nba = pd.read_csv("nba.csv")


In [3]:
# Veremos que alguns métodos atuam diferente das séries nos dataframes, assim como existem métodos exclusivos para cada um, sendo assim, operam de maneiras diferentes mesmo com várias características iguais e de mesma função
serie = pd.Series([1, 2, 3, 4, 5])

In [4]:
#Método head
nba.head(n=1)
nba.head()

#Método tail
nba.tail()
nba.tail(5)

Unnamed: 0,Name,Team,Position,Height,Weight,College,Salary
587,Ryan Rollins,Washington Wizards,G,6-3,180.0,Toledo,1719864.0
588,Landry Shamet,Washington Wizards,G,6-4,190.0,Wichita State,10250000.0
589,Tristan Vukcevic,Washington Wizards,F,6-10,220.0,Real Madrid,
590,Delon Wright,Washington Wizards,G,6-5,185.0,Utah,8195122.0
591,,,,,,,


In [5]:
# atributo Index
nba.index

# atributo Values - Todos representados em um array de dados, a estrutura mais básica de armazenamento de múltiplos valores, sendo que cada item do array é uma nova lista com os atributos, ou seja, um conteiner de informações e nestes conteiners vai constar os valores de cada item do dataframe, assim como armazena de cada item de uma lista ou de um dicionário
serie.values
nba.values

array([['Saddiq Bey', 'Atlanta Hawks', 'F', ..., 215.0, 'Villanova',
        4556983.0],
       ['Bogdan Bogdanovic', 'Atlanta Hawks', 'G', ..., 225.0,
        'Fenerbahce', 18700000.0],
       ['Kobe Bufkin', 'Atlanta Hawks', 'G', ..., 195.0, 'Michigan',
        4094244.0],
       ...,
       ['Tristan Vukcevic', 'Washington Wizards', 'F', ..., 220.0,
        'Real Madrid', nan],
       ['Delon Wright', 'Washington Wizards', 'G', ..., 185.0, 'Utah',
        8195122.0],
       [nan, nan, nan, ..., nan, nan, nan]], dtype=object)

In [6]:
# Shape ou seja, número d eregistros e colunas, sendo que o index nunca é contabilizado e não representa coluna
nba.shape
serie.shape

# dtypes vai descrever os tipos de dados, sendo que apresenta a maneira acima na hierarquia, ou seja, se tiver int e object (string) na coluna, vai considerar o objeto
# Números inteiros com campos vazios na coluna serão convertidos em float por regra, para aceitar os dados nulos, então durante identificação do tipo, serão float
nba.dtypes

Name         object
Team         object
Position     object
Height       object
Weight      float64
College      object
Salary      float64
dtype: object

In [7]:
# hasnans (existem vazios) não funciona no dataframe, apenas nas séries, um exemplo de casos onde podemos extrair a série para utilizar o método
serie.hasnans
nba.hasnans

AttributeError: 'DataFrame' object has no attribute 'hasnans'

In [None]:
# columns (não funciona em séries) vai nos dar as colunas sempre em ordem crescente da esquerda para a direita (pois as colunas também possuem index)
nba.columns

In [None]:
# Demonstranmos então a estrutura de maneira completa, os eixos que suportam o dataframe, como tipo, index, range, todos juntos em um só de maneira generalista que podemos utilizar para pegar informações ou então utilizar separados para o código e para tarefas específicas
serie.axes
nba.axes

In [None]:
# Métodos para informações básicas e mais diversificadas, porém agrupadas como anteriormente, então desta vez serão mais específicas e representando outras características "detalhistas"
# Notamos que a quantidade de not null está como 591 e nosso index vai até 591, porém temos 592 itens por ele começar em 0. É um detalhe mas temos de nos atentar para não errar e ter consciência do index em zero para contar corretamente e nestes casos não errar ou se confundir, logo, são 591 preenchidos e 1 não preenchido, sendo o total 592 pois o index começa em 0
serie.info()
nba.info()

## Differences between Shared Methods
- The `sum` method adds a **Series's** values.
- On a **DataFrame**, the `sum` method defaults to adding the values by traversing the index (row values).
- The `axis` parameter customizes the direction that we add across. Pass `"columns"` or `1` to add "across" the columns.

In [None]:
#Podemos do mesmo modo manipular colunas, indexe valores a serem utilizados na importação e criação do dataframme, assim como utilizar uma série para isso ou outros valores externos (desde que coincidam e façam sentido) para isso, ou seja, temos as mesmas propriedades
s = pd.Series([1, 2, 3, 4, 5])
rev = pd.read_csv("revenue.csv", index_col="Date")
rev

In [None]:
# Apresentando a diferença de alguns métodos, partindo o sum entre séries e dataframes, que vão operar de maneiras diferentes e temos de considerar o que queremos fazer e como ele vai fazer para cada caso
s.sum() # Vai somar apenas a coluna e apresentar
rev.sum() # Soma cada coluna e apresenta uma lista com seus nomes, resultado da soma de cada coluna e tipo resultante da soma, obedecendo as ordens hierárquicas
rev.sum(axis="columns") # O axis representa o sentido da operação, quando presente nos métodos, ou seja, de qual eixo vamos partir, o padrão é do x, que é o index, então classificamos cada coluna e somamos, mas podemos trocar para o y, classificando cada linha e somando no outro sentido, ou seja, podemos definir orientação e eixo da operação, métodos, funções ou tabelas em que queiramos utilizar e seja necessário

In [None]:
# Sempre devemos prestar atenção no que estamos utilizando para então conseguir operar, ou seja, se estamos utilizando uma série, um dataframe ou outro objeto, já que cada um opera e é apresentado de um jeito, fazendo com que tenhamos ciência das diferenças, exclusividades, características e usabilidade de cada um

## Select One Column from a DataFrame
- We can use attribute syntax (`df.column_name`) to select a column from a **DataFrame**. The syntax will not work if the column name has spaces.
- We can also use square bracket syntax (`df["column name"]`) which will work for any column name.
- Pandas extracts a column from a **DataFrame** as a **Series**.
- The **Series** is a view, so changes to the **Series** *will* affect the **DataFrame**.
- Pandas will display a warning if you mutate the **Series**. Use the `copy` method to create a duplicate.

In [None]:
nba = pd.read_csv("nba.csv")
nba

In [None]:
# Podemos extrair colunas específicas, por isso, devemos tomar cuidado no momento de nomear colunas ou valores (por exemplo) para não coincidir ou conflitar com métodos, funções etc. (case sensitive)
nba.Team
nba.Name

# Não vai funcionar caso a coluna tenha espaços no nome, logo, preferimos soluções que em todos os casos vão funcionar, se tratando de boa prática pois em todos os cenários funcionam do mesmo jeito, sendo assim, utilizamos a chamada como uma string, estamos utilizando ainda do mesmo modo, mas realizando a camada de valor de modo que é considerada um texto e não exato, podendo ter espeços etc. já que no python não podem ahver espaços na fórmula, pois ele vai reconhecer como outra como nba.Team Counter, desse modo, ele identifica como nba.("Team Counter")
nba["Team"]

In [None]:
# Podemos então extrair as colunas

names = nba["Name"]
names.iloc[2]
names.iloc[2:10]

In [None]:
# Lembrando que em casos de substituição temos de trabalhar ou com uma view, que é o caso acima, estamos apenas atribuindo uma view a uma variável (lógico que se definirmos a igualdade logo após a variável, ela assume o valor, então temos de especificar como queremos alterar pois ela ganha atributos de séries ou dataframes, mas temos de especificar pois por exemplo names = "oi" não muda a série, mas sim atribui oi à variável, então temos de especificar e mudar em todos casos de definir variáveis, como abaixo), mas se inserirmos um novo valor, irá trocar no dataframe. Em cópias fazemos com que aquela extração se destaque e não tenha mais relação, ou seja, não altere a fonte
names.iloc[:] = "Mudoou"
names2 = nba["Team"].copy()
names2.iloc[:] = "Não mudou naaada (apenas na cópia)"
names2
names
nba

# ATENÇÃO PARA VIEWS E CÓPIAS A FIM DE NÃO GERAR EFEITOS COLATERAIS COM O CÓDIGO

## Select Multiple Columns from a DataFrame
- Use square brackets with a list of names to extract multiple **DataFrame** columns.
- Pandas stores the result in a new **DataFrame** (a copy).

In [None]:
nba = pd.read_csv("nba.csv")

In [None]:
# Existem vários tipos de extração, a que vamos ver retorna múltiplas colunas como uma cópia e outras como uma view, então temos de prestar atenção para não sobrescrever valores indevidos e utilizar cópias quando queremos separar os dados, de forma a estar atento para utilizar o método correto de acordo com o que necessitamos
nba[["Name", "Team"]]
nba[["Team", "Name"]] # Trocando a posição, lembrando que ainda temos a noção de listas, ou seja, um valor de extração não existe, nem intervalos, mas valores separados (múltiplos valores) exigem pois vão ser uma lista de valores, um conjunto a ser extraído

selecao_de_colunas = ["Salary", "Name", "Team"]
nba[selecao_de_colunas] # Um exemplo prático de onde podemos utilizar variáveis para conduzir seleções e fazer com que o usuário identifique e puxe o que ele quer ou então para utilizar em fórmulas e altoritmos que vão relacionar variáveis e puxar dados a partir delas (são opções, porém as possibilidades são infinitas)

## Add New Column to DataFrame
- Use square bracket extraction syntax with an equal sign to add a new **Series** to a **DataFrame**.
- The `insert` method allows us to insert an element at a specific column index.
- On the right-hand side, we can reference an existing **DataFrame** column and perform a broadcasting operation on it to create the new **Series**.

In [None]:
nba = pd.read_csv("nba.csv")

In [None]:
# Podemos adicionar novas colunas no dataframe, assim como manipulamos um banco de dados
nba["Sport"] = "Basketball"
nba
# Para adicionar uma coluna, muito mais simples do que em outras linguagens, basta declararmos o nome da inexistente e na igualdade podemos passar um valor (vai assumir em todos os campos) ou uma série, que neste caso seria útil para definirmos a igualdade e já incluirmos os valores

In [None]:
# Podemos também adicionar e posicionar a nova coluna com a sintaxe
# Temos então uma sintaxe mais exata, de forma que sirva para todos os casos e podemos também popular a coluna, como no caso anterior, com um valor definido ou então um conjunto, uma série ou outro da preferência
nba.insert(loc=3, column="Used_Item", value="Ball")


In [None]:
nba.head()

In [None]:
# Podemos também adicionar colunas a partir de cálculos ou operações processadas a martir delas, como uma multiplicação, porcentagem ou outro cálculo, cast, conversão, concatenação etc.
nba["Salary"] * 2 # SEMPRE LEMBRAR QUE NÁO USAMOS PONTO POR SER UM ATRIBUTO (OU PARTE) DO DATAFRAME, então não utilizamos nba. e sim nba[] para chamar
nba["Salary"].mul(2)
nba["Salary"].sub(5000000)

# Combinando
nba["Salary Doubled"] = nba["Salary"].mul(2)
nba["Salary minus 50000"] = nba["Salary"].sub(5000000)


In [None]:
nba.head()

## A Review of the value_counts Method
- The `value_counts` method counts the number of times that each unique value occurs in a **Series**.

In [None]:
nba = pd.read_csv("nba.csv")
nba.head()

In [None]:
# Aqui temos um exemplo concreto do count que estamos habituados no SQL, agora em um dataframe
# A partir da chamada, ele conta, assim como faríamos em SQL, a quantidade de vezes que cada valor apareceu na base
# Podemos (E DEVEMOS) explorar as opções e propriedades para verificar as possibilidades como descendente, normalize (valor em porcentagem) dentre outros
nba["Team"].value_counts()
nba["Team"].value_counts(normalize=True)
# Podemos também combinar as propriedades com novos métodos, broadcasts, operações e outros, o Python nos dá essa liberdade de combinar diferentes funções e métodos para compor o que queremos de forma mais simples, então podemos fazer isso para afunilar e para especificar ou trabalhar melhor com a seleção de dados que precisamos
nba["Team"].value_counts(normalize=True) * 100 # Aqui por exemplo, traxemos a porcentagem com normalize em decimal e tornamos ela em porcentagem como vemos, transformamos com uma simples fórmula a porcentagem e podemos transformar a visualização dela para o modelo %


## Drop Rows with Missing Values
- Pandas uses a `NaN` designation for cells that have a missing value.
- The `dropna` method deletes rows with missing values. Its default behavior is to remove a row if it has *any* missing values.
- Pass the `how` parameter an argument of "all" to delete rows where all the values are `NaN`.
- The `subset` parameters customizes/limits the columns that pandas will use to drop rows with missing values.

In [None]:
nba = pd.read_csv("nba.csv")
nba.head()

In [None]:
# Podemos fazer o drop de colunas específicas ou então colunas com valores NaN, que seria como um where null porém mais simples
nba.dropna() #Lembrando que a não ser que utilizemos o símbolo de igualdade, o python irá apenas trazer uma visualização sem os dados vazios, sendo necessário atribuir para tornar aquele dataframe no método
# Então sempre que utilizamos um método ou função, vamos criar uma visualização, um objeto a parte que faz relação com o primeiro caso alterado (com igualdade), contudo, caso queiramos atribuir ele ao dataframe, temos de utilizar a igualdade, pois será uma visualização até definirmos esta
# Explorando o método (any exclui com qualquer item nulo, all com todos os itens nulos, por exemplo)
nba.dropna(how="any")
nba.dropna(how="all") # Aqui não existe um valor padrão, como podemos e DEVEMOS ver nos atributos para sempre ter em mente e saber as possibilidades do código, então podemos identificar, porém, mesmo sem padrão, irá se comportar como any, tem um comportamento semelhante mas podemos declarar
nba.dropna(subset="College")
nba.dropna(subset=["College", "Salary"]) # Lembrando que em múltiplas colunas, sempre que colocamos várias opções para métodos e funções, assim como uma lista, ele assume relação de or, não and, então se tiver em um ou no outro, vai excluir e isso se replica para listas ou múltiplos valores de métodos etc
# Ou seja, o subset pode ser utilizado como uma limitação para exclusão de linhas nulas ou então em outros casos para trabalharmos com o método, função etc. apenas naquele conjunto, fazendo com que aquele subconjunto determine a operação e trabalhemos a partir dele

## Fill in Missing Values with the fillna Method
- The `fillna` method replaces missing `NaN` values with its argument.
- The `fillna` method is available on both **DataFrames** and **Series**.
- An extracted **Series** is a view on the original **DataFrame**, but the `fillna` method returns a copy.

In [None]:
# Podemos preencher valores vazios com outros definidos por meio da sintaxe
nba.fillna(0)

# Podemos selecionar colunas específicas para preenchimento, já que podemos combinar algoritmos e combinar comandos, uma vez que também dataframe["coluna"] seleciona a coluna
nba["Salary"].fillna(0)

# Lembrando que neste caso criamos uma cópia e para alterar temos de utilizar a igualdade, uma vez que temos de referenciar o objeto e trazer a igualdade, senao criamos apenas uma instancia dele, entao podemos relacionar esta instancia
nba["salary"] = nba["Salary"].fillna(0)
nba

In [None]:
# Podemos entao tratar dados vazios de maneira mais simples, por exemplo, fazendo com que fiquem visivelmente mais agrupados, colocando um valor comum para analisarmos e computarmos nos dados
nba["College"] = nba["College"].fillna("Unknown")

## The astype Method I
- The `astype` method converts a **Series's** values to a specified type.
- Pass in the specified type as either a string or the core Python data type.
- Pandas cannot convert `NaN` values to numeric types, so we need to eliminate/replace them before we perform the conversion.
- The `dtypes` attribute returns a **Series** with the **DataFrame's** columns and their types.

In [None]:
nba = pd.read_csv("nba.csv")
nba.head()

In [None]:
# assim como no SQL, podemos fazer a conversao de valores
# Caso a coluna possua valores vazios, ira converter automaticamente a coluna para floating, entao primeiro temos de eliminar os valores vazios
nba["Salary"] = nba["Salary"].fillna(0)
nba.dtypes # Para verificar os tipos e também para conversao utilizamos astype

In [None]:
# Convertendo com as type
nba["Salary"] = nba["Salary"].astype(int)
nba

In [None]:
# Realizando o mesmo procedimento, lembrando que temos de antes tratar todos os NaN, pois o python nao consegue tratar, logo, ou temos de criar um código para ignorar as vazias ou entao preencher ou eliminar antes de converter
nba["Weight"] = nba["Weight"].fillna(0)
nba["Weight"] = nba["Weight"].astype(int)
nba

# Lembrando que sem a igualdade, teríamos apenas uma cópia ou instancia

## The astype Method II
- The `category` type is ideal for columns with a limited number of unique values.
- The `nunique` method will return a **Series** with the number of unique values in each column.
- With categories, pandas does not create a separate value in memory for each "cell". Rather, the cells point to a single copy for each unique value.

In [None]:
nba = pd.read_csv("nba.csv")
nba.head()

In [None]:
#Utilizado para cenários onde temos vários valores se repetindo, funcionando como um index das celulas na memoria, fazendo com que seja consumida menos memoria, afinal, ele aponta para um unico lugar com os valores, nao para diferentes lugares na memoria para cada valor, fazemos isso para valores pouco diversificados e categóricos, de modo que se agrupem em um lugar da memoria e fique mais leve no consumo, pois nao diferenciam na memoria varias "caixas" e sim apenas uma, o que nao funcionaria para maiores valores por ficar inviavel ou inadequado por serem valores diversos e a consulta exigir quase o mesmo processamento ou memoria
#Podemos também utilizar o nunique para descrever valores distintos no dataframe, assim como fazemos com o distinct do SQL
nba.nunique() #Geral, é um método entao para metodos e funcoes utilizamos os parenteses, logo, temos de nos atentar e sempre utilizar para estes tipos a fim de funcionar
nba["Salary"].nunique() #Em nível de série

In [None]:
#Faremos com os times comparando entao o tamanho anterior para o atual (comparar com nba.info(), lembrando que é UM TIPO DE DADOS definido como "category" sendo assim, vai ser convertido para um tipo especifico no formato citado a fim de economizar memoria
nba["Team"] = nba["Team"].astype("category")
nba.info()

## Sort a DataFrame with the sort_values Method I
- The `sort_values` method sorts a **DataFrame** by the values in one or more columns. The default sort is an ascending one (alphabetical for strings).
- The first parameter (`by`) expects the column(s) to sort by.
- If sorting by a single column, pass a string with its name.
- The `ascending` parameter customizes the sort order.
- The `na_position` parameter customizes where pandas places `NaN` values.

In [None]:
nba = pd.read_csv("nba.csv")
nba.head()

In [None]:
# Podemos organizar as colunas de acordo com ordens, assim como no SQL e como visto anteriormente
# Claro que não podemos dar um sort geral, mas sim especificando colunas, já que é obrigatório e nao existe sem este parametro (logicamente)
nba.sort_values("Name")

#Analisando os atributos, que SEMPRE devemos ver e definindo, lembrando que aqui o descendente é definido inserindo False no ascending
nba.sort_values(by = "Name", ascending = False)
nba.sort_values(by = "Salary", ascending = True)

# Podemos inclusive, vendo os atributos, definir os NaN primeiro ou após a ordenacao
nba.sort_values(by = "Salary", ascending = False, na_position = "first") # Nas demonstracoes dos atributos, podemos verificar como aquele atributo é inserido, ou seja, booleano, string, inteiro. Ou seja, como tem de ser definido

## Sort a DataFrame with the sort_values Method II
- To sort by multiple columns, pass the `by` parameter a list of column names. Pandas will sort in the specified column order (first to last).
- Pass the `ascending` parameter a Boolean to sort all columns in a consistent order (all ascending or all descending).
- Pass `ascending` a list to customize the sort order *per* column. The `ascending` list length must match the `by` list.

In [None]:
nba = pd.read_csv("nba.csv")
nba.head()

In [None]:
# Para filtrarmos múltiplas colunas, assim como para outros métodos onde podemos passar diferentes valores que não sejam intervalos ou dados em específico, vamos passar uma lista
nba.sort_values(["Team", "Name"])  # A ordem importa pois vai definir qual a coluna filtrada primeiro, então dentro de team ordenado, pesquisamos name ordenado
nba.sort_values(["Team", "Name"], ascending=False) # Podemos também configurar o sentido da ordem, sendo que ele pertencerá a todas as colunas
nba.sort_values(["Team", "Name"], ascending=[True, False]) # Podemos então configurar diferentes parâmetros para cada item da lista dentro dos métodos, o que se aplica para outros que vimos anteriormente. Caso queiramos então definir atributos para cada item da lista, podemos passar uma outra lista com o mesmo número de valores para cada item
nba.sort_values(by=["Position", "Salary"], ascending=[True, False])

## Sort a DataFrame by its Index
- The `sort_index` method sorts the **DataFrame** by its index positions/labels.

In [8]:
nba = pd.read_csv("nba.csv")
nba.head()

Unnamed: 0,Name,Team,Position,Height,Weight,College,Salary
0,Saddiq Bey,Atlanta Hawks,F,6-7,215.0,Villanova,4556983.0
1,Bogdan Bogdanovic,Atlanta Hawks,G,6-5,225.0,Fenerbahce,18700000.0
2,Kobe Bufkin,Atlanta Hawks,G,6-5,195.0,Michigan,4094244.0
3,Clint Capela,Atlanta Hawks,C,6-10,256.0,Elan Chalon,20616000.0
4,Bruno Fernando,Atlanta Hawks,F-C,6-10,240.0,Maryland,2581522.0


In [13]:
# Supondo que queremos retornar uma ordem de index que antes existia em nossa variável, ou então queremos organizar os index
# Além disso, pode ser utilizado para momentos onde fizemos a organização por valores e queremos desfazer, já que a organização por valores ordena sem mudar o index, afinal, cada valor tem o seu index e quando ordena esses index ficam ordenados de acordo com os valores e com os dados apresentados
nba = nba.sort_values("Team") # Ordenados, então como o index é separado por valor, é ordenado também
nba = nba.sort_index(ascending=True) # Volta ao normal
nba

Unnamed: 0,Name,Team,Position,Height,Weight,College,Salary
0,Saddiq Bey,Atlanta Hawks,F,6-7,215.0,Villanova,4556983.0
1,Bogdan Bogdanovic,Atlanta Hawks,G,6-5,225.0,Fenerbahce,18700000.0
2,Kobe Bufkin,Atlanta Hawks,G,6-5,195.0,Michigan,4094244.0
3,Clint Capela,Atlanta Hawks,C,6-10,256.0,Elan Chalon,20616000.0
4,Bruno Fernando,Atlanta Hawks,F-C,6-10,240.0,Maryland,2581522.0
...,...,...,...,...,...,...,...
587,Ryan Rollins,Washington Wizards,G,6-3,180.0,Toledo,1719864.0
588,Landry Shamet,Washington Wizards,G,6-4,190.0,Wichita State,10250000.0
589,Tristan Vukcevic,Washington Wizards,F,6-10,220.0,Real Madrid,
590,Delon Wright,Washington Wizards,G,6-5,185.0,Utah,8195122.0


## Rank Values with the rank Method
- The `rank` method assigns a numeric ranking to each **Series** value.
- Pandas will assign the same rank to equal values and create a "gap" in the dataset for the ranks.

In [14]:
nba = pd.read_csv("nba.csv")
nba.head()

Unnamed: 0,Name,Team,Position,Height,Weight,College,Salary
0,Saddiq Bey,Atlanta Hawks,F,6-7,215.0,Villanova,4556983.0
1,Bogdan Bogdanovic,Atlanta Hawks,G,6-5,225.0,Fenerbahce,18700000.0
2,Kobe Bufkin,Atlanta Hawks,G,6-5,195.0,Michigan,4094244.0
3,Clint Capela,Atlanta Hawks,C,6-10,256.0,Elan Chalon,20616000.0
4,Bruno Fernando,Atlanta Hawks,F-C,6-10,240.0,Maryland,2581522.0


In [22]:
#Podemos limitar especificamente igual como fazemos em sql, porém, com um unico comando
# Para utilizar o conceito, é necessário que não existam valores nulos na coluna, além de que podemos otimizar (com números inteiros no exemplo)
# Podemos também encadear diferentes métodos para limpeza de dados, fazendo com que trabalhem juntos, sempre observando a ordem lógica e colocando de acordo com o sentido da operação, por exemplo, primeiro selecionamos, depois limpamos e depois convertemos
nba["Salary"] = nba["Salary"].fillna(0).astype(int) # Não faria sentido ao contrário pois poderíamos dar o fill com um número flutuante (um exemplo), então ele voltaria a ser flutuante, assim trabalhamos nos valores para depois trabalhar na formatação
nba["Salary"].rank(ascending=False).astype(int) # Vemos que é apresentado index e a posição daquele valor, é legal notar que o ascending vai colocar os valores maiores no topo do ranking (1), então se a posição 1 começa a contar do menor ou se a posição 1 começa a contar do maior, que é o que queremos como um descending

# Podemos então atribuir este código a uma nova coluna, uma vez que já está organizado e os index batem, afinal, ele apenas fala em qual posição está o index 1, 2 etc. estando batendo com o dataframe, pois não mudará posições, então podemos atribuir (neste caso, observar cada um e suas especificidades) direto à tabela
nba["Salary_Rank"] = nba["Salary"].rank(ascending=False).astype(int)
nba

# Caso queiramos, ainda podemos concatenar, lembrando que temos de fazer o broadcast pois não conseguimos concatenar em nível de tabela, ele pegaria todos os valores, então temos de tratar valor por valor assim como no sql (com o código) e para isso, que vai analisar o valor e concatenar, por exemplo, temos o aplly (oara funções que vão rodar toda a tabela), afinal, queremos que ele rode a tabela inteira e faça isso para cada um e todos os valores. *Verificar se há outro modo de apenas definir a string e juntar em todas as linhas ou apenas dar um comando na seleção da coluna e concatenar de modo direto para igual no SQL, senão, continuar conforme vídeo
# https://www.youtube.com/watch?v=ID2i-G-HtbA

Unnamed: 0,Name,Team,Position,Height,Weight,College,Salary,Salary_Rank
0,Saddiq Bey,Atlanta Hawks,F,6-7,215.0,Villanova,4556983,231
1,Bogdan Bogdanovic,Atlanta Hawks,G,6-5,225.0,Fenerbahce,18700000,80
2,Kobe Bufkin,Atlanta Hawks,G,6-5,195.0,Michigan,4094244,243
3,Clint Capela,Atlanta Hawks,C,6-10,256.0,Elan Chalon,20616000,69
4,Bruno Fernando,Atlanta Hawks,F-C,6-10,240.0,Maryland,2581522,308
...,...,...,...,...,...,...,...,...
587,Ryan Rollins,Washington Wizards,G,6-3,180.0,Toledo,1719864,394
588,Landry Shamet,Washington Wizards,G,6-4,190.0,Wichita State,10250000,140
589,Tristan Vukcevic,Washington Wizards,F,6-10,220.0,Real Madrid,0,540
590,Delon Wright,Washington Wizards,G,6-5,185.0,Utah,8195122,163


In [32]:
nba["Salary"].rank(ascending=False).astype(int)

AttributeError: 'Series' object has no attribute 'concat'

In [34]:
pd.concat("k")

TypeError: first argument must be an iterable of pandas objects, you passed an object of type "str"