In [1]:
import pandas as pd

# Operando com colunas do DataFrame
- Vamos aprender as selecionar as colunas de um dataframe. Para isso vamos carregar os dados da NBA novamente

In [2]:
nba = pd.read_csv("../data/nba.csv")
nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


- Pandas permite selecionar colunas de duas formas

1) Se nao existe caracter especial ou espaço, podemos selecionar da seguinte maneira:

In [3]:
nba.Team

0      Boston Celtics
1      Boston Celtics
2      Boston Celtics
3      Boston Celtics
4      Boston Celtics
            ...      
453         Utah Jazz
454         Utah Jazz
455         Utah Jazz
456         Utah Jazz
457               NaN
Name: Team, Length: 458, dtype: object

- Essa seleção retorna uma série. Podemos usar todos os métodos de série vistos até o momento

2) A segunda maneira e que vai funcinar sempre, é usar colchetes e o nome da coluna

Particularmente eu prefiro essa maneira porque vai funcionar sempre, nao importa qual seja o nome da coluna

In [4]:
nba["Name"]

0      Avery Bradley
1        Jae Crowder
2       John Holland
3        R.J. Hunter
4      Jonas Jerebko
           ...      
453     Shelvin Mack
454        Raul Neto
455     Tibor Pleiss
456      Jeff Withey
457              NaN
Name: Name, Length: 458, dtype: object

In [5]:
nba["Salary"].head()

0    7730337.0
1    6796117.0
2          NaN
3    1148640.0
4    5000000.0
Name: Salary, dtype: float64

- Podemos selecionar mais de uma coluna ao mesmo tempo
- Nesse caso, vamos receber outro dataFrame como resultado

In [6]:
nba[["Name", "Salary"]].head()

Unnamed: 0,Name,Salary
0,Avery Bradley,7730337.0
1,Jae Crowder,6796117.0
2,John Holland,
3,R.J. Hunter,1148640.0
4,Jonas Jerebko,5000000.0


- A ordem dos elementos na lista muda a ordem do dataframe:

In [7]:
nba[["Salary", "Name"]].head()

Unnamed: 0,Salary,Name
0,7730337.0,Avery Bradley
1,6796117.0,Jae Crowder
2,,John Holland
3,1148640.0,R.J. Hunter
4,5000000.0,Jonas Jerebko


In [8]:
cols = ["Name", "Team", "Salary"]
nba[cols].head()

Unnamed: 0,Name,Team,Salary
0,Avery Bradley,Boston Celtics,7730337.0
1,Jae Crowder,Boston Celtics,6796117.0
2,John Holland,Boston Celtics,
3,R.J. Hunter,Boston Celtics,1148640.0
4,Jonas Jerebko,Boston Celtics,5000000.0


## Adicionando colunas
- Podemos adicionar uma coluna a um DF da seguinte maneria:

In [15]:
nba["sport"] = "basketball"
nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,sport
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,basketball
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,basketball
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,basketball
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,basketball
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,basketball


- Perceba que foi criada uma nova coluna (ultima coluna) com nome `sport` e foi preenchida toda com `basketball`
- Uma outra maneira de inserir uma coluna é usando o método `insert()` (ver documentação)

In [19]:
nba.insert(3, column="dummy", value="dummy")
nba.head()

ValueError: cannot insert dummy, already exists

- Neste caso, a coluna `dummy`  foi criada como a terceira coluna, que foi o parametro que passamos

## Broadcasting em colunas
- Broadcasting é um conceito muito utilizado em libs em python como a Numpy
- Podemos fazer o mesmo com colunas de DFs

In [20]:
nba["Age"] + 1

0      26.0
1      26.0
2      28.0
3      23.0
4      30.0
       ... 
453    27.0
454    25.0
455    27.0
456    27.0
457     NaN
Name: Age, Length: 458, dtype: float64

- Perceba que foi somado 1 em todas as posições da coluna `Age`. Isso é broadcasting
- Alternativamente podemos usar os métodos `add()`, `sub()`, `mul()` e `div()`, pode exemplo:

In [21]:
nba["Age"].add(1)

0      26.0
1      26.0
2      28.0
3      23.0
4      30.0
       ... 
453    27.0
454    25.0
455    27.0
456    27.0
457     NaN
Name: Age, Length: 458, dtype: float64

- Se quisermos modificar o DF, basta atribuir a coluna, por exemplo:

In [22]:
nba['Weight in meters'] = nba["Weight"] / 100
nba.head()

Unnamed: 0,Name,Team,Number,dummy,Position,Age,Height,Weight,College,Salary,sport,Weight in meters
0,Avery Bradley,Boston Celtics,0.0,dummy,PG,25.0,6-2,180.0,Texas,7730337.0,basketball,1.8
1,Jae Crowder,Boston Celtics,99.0,dummy,SF,25.0,6-6,235.0,Marquette,6796117.0,basketball,2.35
2,John Holland,Boston Celtics,30.0,dummy,SG,27.0,6-5,205.0,Boston University,,basketball,2.05
3,R.J. Hunter,Boston Celtics,28.0,dummy,SG,22.0,6-5,185.0,Georgia State,1148640.0,basketball,1.85
4,Jonas Jerebko,Boston Celtics,8.0,dummy,PF,29.0,6-10,231.0,,5000000.0,basketball,2.31


- Agora temos a coluna `Weight in meters` com a conversão

## Usando o `value_counts()` nas colunas
- Como ja seria de se esperar, é possível usar o `value_counts()` nas colunas do DF de maneira fácil
- Esse método é disponível apenas para uma série (que um coluna é)

In [23]:
nba["Team"].value_counts()

Team
New Orleans Pelicans      19
Memphis Grizzlies         18
New York Knicks           16
Milwaukee Bucks           16
Brooklyn Nets             15
Boston Celtics            15
Los Angeles Clippers      15
Los Angeles Lakers        15
Phoenix Suns              15
Sacramento Kings          15
Chicago Bulls             15
Philadelphia 76ers        15
Toronto Raptors           15
Golden State Warriors     15
Indiana Pacers            15
Detroit Pistons           15
Cleveland Cavaliers       15
Dallas Mavericks          15
Houston Rockets           15
San Antonio Spurs         15
Atlanta Hawks             15
Charlotte Hornets         15
Miami Heat                15
Washington Wizards        15
Denver Nuggets            15
Oklahoma City Thunder     15
Utah Jazz                 15
Portland Trail Blazers    15
Orlando Magic             14
Minnesota Timberwolves    14
Name: count, dtype: int64

In [24]:
nba["Position"].value_counts()

Position
SG    102
PF    100
PG     92
SF     85
C      78
Name: count, dtype: int64