# <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

#### Importando o pacote Pandas

In [1]:
# Importando o módulo Pandas
import pandas as pd

## Manipulação no Nível de Coluna e Refatoração

In [3]:
# Carrega um arquivo do disco e armazena como um dataframe
df = pd.read_csv("datasets/dataset1.csv")

In [4]:
df.head()

Unnamed: 0,club,last_name,first_name,position,base_salary,guaranteed_compensation
0,ATL,Almiron,Miguel,M,1912500.0,2297000.0
1,ATL,Ambrose,Mikey,D,65625.0,65625.0
2,ATL,Asad,Yamil,M,150000.0,150000.0
3,ATL,Bloom,Mark,D,99225.0,106573.89
4,ATL,Carleton,Andrew,F,65000.0,77400.0


In [5]:
# Visualizando dados de 1 coluna
df['first_name']

0       Miguel
1        Mikey
2        Yamil
3         Mark
4       Andrew
        ...   
610    Russell
611      Paolo
612    Kendall
613        NaN
614    Sheanon
Name: first_name, Length: 615, dtype: object

In [6]:
# Visualizando dados de 2 colunas (maneira errada)
df['first_name', 'base_salary'] 

KeyError: ('first_name', 'base_salary')

In [7]:
# Visualizando dados de 2 colunas (maneira correta, atenção ao colchetes duplo)
df[['first_name', 'base_salary']]

Unnamed: 0,first_name,base_salary
0,Miguel,1912500.0
1,Mikey,65625.0
2,Yamil,150000.0
3,Mark,99225.0
4,Andrew,65000.0
...,...,...
610,Russell,126500.0
611,Paolo,80000.0
612,Kendall,350000.0
613,,


In [8]:
# Podemos usar métodos com o resultado do slicing
df[['first_name', 'base_salary']].head()

Unnamed: 0,first_name,base_salary
0,Miguel,1912500.0
1,Mikey,65625.0
2,Yamil,150000.0
3,Mark,99225.0
4,Andrew,65000.0


In [9]:
# Podemos usar métodos com o resultado do slicing
df[['base_salary', 'guaranteed_compensation']].describe()

Unnamed: 0,base_salary,guaranteed_compensation
count,614.0,614.0
mean,297173.0,326375.2
std,672583.9,749121.7
min,52999.92,52999.92
25%,65633.4,70030.35
50%,125000.0,135002.0
75%,255000.0,279875.0
max,6660000.0,7167500.0


In [10]:
# Extraindo dados de 3 colunas
df[['first_name', 'base_salary', 'club']]

Unnamed: 0,first_name,base_salary,club
0,Miguel,1912500.0,ATL
1,Mikey,65625.0,ATL
2,Yamil,150000.0,ATL
3,Mark,99225.0,ATL
4,Andrew,65000.0,ATL
...,...,...,...
610,Russell,126500.0,VAN
611,Paolo,80000.0,VAN
612,Kendall,350000.0,VAN
613,,,


### Refatoração

#### Refatoração é o processo de reorganizar o código para torná-lo mais legível ou mais performático.

In [12]:
# Criamos uma variável com a lista de nomes de colunas
salarios_atletas = ['first_name', 'base_salary', 'club']

type(salarios_atletas)

list

In [13]:
# Usamos a variável para filtrar o dataframe
df[salarios_atletas]

Unnamed: 0,first_name,base_salary,club
0,Miguel,1912500.0,ATL
1,Mikey,65625.0,ATL
2,Yamil,150000.0,ATL
3,Mark,99225.0,ATL
4,Andrew,65000.0,ATL
...,...,...,...
610,Russell,126500.0,VAN
611,Paolo,80000.0,VAN
612,Kendall,350000.0,VAN
613,,,


In [14]:
# E usamos métodos e atributos normalmente
df[salarios_atletas].shape

(615, 3)

In [15]:
# E usamos métodos e atributos normalmente
df[salarios_atletas].tail()

Unnamed: 0,first_name,base_salary,club
610,Russell,126500.0,VAN
611,Paolo,80000.0,VAN
612,Kendall,350000.0,VAN
613,,,
614,Sheanon,175000.0,VAN


# Fim