<a href="https://colab.research.google.com/github/idrissdeme/Exerc-cos_Python_UERJ_202/blob/main/Projeto_Samuel_IRD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

Este notebook vai introduzir você à biblioteca [`Pandas`](https://pandas.pydata.org/) e mostrar como examinar, ordenar, agrupar e agregar uma base de dados. Usaremos dados da [Liga de Baseboll dos Estados Unidos](https://databases.usatoday.com/mlb-salaries/).

Se você é iniciante no Python ou precisa reforçar conhecimentos básicos sobre a sintaxe, pode ser interessante [começar com esse notebook](Python.ipynb) 

O notebook irá cobrir as seguintes etapas:

*   Importar o Pandas
*   Carregar dados dentro de um dataframe
*   Examinar os dados
*   Ordenação
*   Filtragem de dados
*   Agrupar e agregar os dados
*   Exportar como CSV



# Importar o Pandas

Antes de usar as funcionalidades do `Pandas` ou outras bibliotecas de terceiros que não estão inclusas no Python, você precisa importa-las, usando o `import`. É comum colocarmos uma abreviação, um nome mais curto para facilitar sua utilização no restante de nosso código. No caso do `pandas` por convenção é usado  `pd`.

Então, vamos começar rodando esta célula:

In [None]:
import pandas as pd

Se você não tem o Pandas instalado na sua máquina, irá receber um erro. Para instalar a bibloteca, podemos usar o gerenciador de pacotes do Python (PIP), rodando o comando `!pip install pandas` antes de importá-la.

**Mude os formatos de exibição**

O passo seguinte é opcional, mas é muito comum em notebooks de análise de dados usando Pandas. 

A próxima célula altera o formato de exibição para números, que são escritos em notação científica por padrão. Se ler números nesse formato for confortável para você, você não precisa executá-la. 

In [None]:
pd.options.display.float_format = '{:20,.2f}'.format

Para saber mais sobre essa mudança de formato, [consulte a documentação](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html).

# Carregar dados em uma tabela (DataFrame)

Antes de começar a manipular os dados, é preciso carregá-los dentro de uma tabela (DataFrame) do Pandas. Um dataframe é como se fosse uma tabela, como a do Excel, com linhas e colunas.

Você pode carregar diferentes tipos de dados como de um DataFrame incluindo CSVs, arquivos do Excel (xlsx), JSON, [entre outros](https://www.cbtnuggets.com/blog/technology/programming/14-file-types-you-can-import-into-pandas). Confira esse outro notebook com [exemplos de importações de acordo com o tipo de arquivo](https://github.com/ireapps/cfj-2018/blob/master/reference/Importing%20data%20into%20pandas.ipynb).

O foco aqui será importar os dados sobre a Liga de Basebol usando o método `read_csv`. Há várias opções que você pode incluir quando estiver lendo uma base de dados, porém a maneira mais simples é indicar o caminho do arquivo entre aspas. Neste caso, vamos usar a própria URL do arquivo CSV presente no [repositório do Github](https://github.com/escola-de-dados/notebooks-python-pandas/) deste tutorial.

In [None]:
df = pd.read_csv('https://github.com/escola-de-dados/notebooks-python-pandas/raw/master/mlb.csv')
#print(df)
#display(df)
df

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
0,Clayton Kershaw,LAD,SP,33000000,2014,2020,7
1,Zack Greinke,ARI,SP,31876966,2016,2021,6
2,David Price,BOS,SP,30000000,2016,2022,7
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
4,Justin Verlander,DET,SP,28000000,2013,2019,7
...,...,...,...,...,...,...,...
863,Steve Selsky,BOS,RF,535000,2017,2017,1
864,Stuart Turner,CIN,C,535000,2017,2017,1
865,Vicente Campos,LAA,RP,535000,2017,2017,1
866,Wandy Peralta,CIN,RP,535000,2017,2017,1


Além de importar os dados, vamos salvar essas informações dentro de uma variável chamada `df` (nome curto para DataFrame - facilita a leitura e a busca por ajuda no Google, por ser algo padronizado).

Resumindo: Importamos a biblioteca `pandas` e chamamos ela de `pd`, usamos o método `read_csv` para importar os dados do aquivo `mlb.csv` dentro de um `dataframe`, depois salvamos esta tabela na variável `df`.

In [None]:
'''from google.colab import drive
drive.mount('/content/drive')'''

"from google.colab import drive\ndrive.mount('/content/drive')"

In [None]:
nossa_planilha=pd.read_csv('/content/sample_data/mnist_train_small.csv')
display(nossa_planilha)

Unnamed: 0,6,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,...,0.581,0.582,0.583,0.584,0.585,0.586,0.587,0.588,0.589,0.590
0,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,7,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19994,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19995,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19996,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19997,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Examinando os dados

Vamos dar uma olhada mais detalhada nos dados que temos usando alguns métodos e atributos de um DataFrame Pandas:


- `df.head()`: Mostra as cinco primeiras linhas do dataframe por padrão, mas você pode especificar a quantidade que preferir entre parênteses. Ex: `df.head(10)`

In [None]:
df.head()

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
0,Clayton Kershaw,LAD,SP,33000000,2014,2020,7
1,Zack Greinke,ARI,SP,31876966,2016,2021,6
2,David Price,BOS,SP,30000000,2016,2022,7
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
4,Justin Verlander,DET,SP,28000000,2013,2019,7


- `df.tail()`: Mostra as últimas cinco linhas do DataFrame, mas você pode especificar a quantidade que preferir entre parênteses. Ex. `df.tail(10)`



In [None]:
df.tail()

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
863,Steve Selsky,BOS,RF,535000,2017,2017,1
864,Stuart Turner,CIN,C,535000,2017,2017,1
865,Vicente Campos,LAA,RP,535000,2017,2017,1
866,Wandy Peralta,CIN,RP,535000,2017,2017,1
867,Yandy Diaz,CLE,3B,535000,2017,2017,1


- `df.describe()`: Apresenta um resumo estatístico apenas das colunas que contém conteudo numérico.

In [None]:
df.describe()

Unnamed: 0,SALARY,START_YEAR,END_YEAR,YEARS
count,868.0,868.0,868.0,868.0
mean,4468069.18,2016.49,2017.43,1.94
std,5948459.31,1.21,1.16,1.92
min,535000.0,2008.0,2015.0,1.0
25%,545500.0,2017.0,2017.0,1.0
50%,1562500.0,2017.0,2017.0,1.0
75%,6000000.0,2017.0,2017.0,2.0
max,33000000.0,2017.0,2027.0,13.0


- `df.sample()`: Mostra uma linha aleatória do DataFrame, mas você pode especificar quantas linhas aleatórias deseja visualizar. Ex: `df.sample(5)`

In [None]:
df.sample()

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
113,Madison Bumgarner,SF,SP,11666667,2013,2017,5


- `df.shape`: Informa quantas colunas e linhas o DataFrame tem.

In [None]:
df.shape

(868, 7)

- `df.dtypes`: Lista o nome das colunas e o tipo de dados que contém em cada uma.

In [None]:
df.dtypes

NAME          object
TEAM          object
POS           object
SALARY         int64
START_YEAR     int64
END_YEAR       int64
YEARS          int64
dtype: object

# Ordenando os dados

Para ordenar um DataFrame, use o método `sort_values()`. A maneira mais simples de uso é passando o nome de uma coluna entre parênteses.

In [None]:
df.sort_values('SALARY')

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
867,Yandy Diaz,CLE,3B,535000,2017,2017,1
839,Jacob May,CWS,CF,535000,2017,2017,1
838,Glenn Sparkman,TOR,RP,535000,2017,2017,1
837,Dylan Covey,CWS,RP,535000,2017,2017,1
836,Drew Robinson,TEX,OF,535000,2017,2017,1
...,...,...,...,...,...,...,...
4,Justin Verlander,DET,SP,28000000,2013,2019,7
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
2,David Price,BOS,SP,30000000,2016,2022,7
1,Zack Greinke,ARI,SP,31876966,2016,2021,6


Como padrão esse método ordena de forma crescente. Se desejar que seja decrescente, coloque `ascending=False`. 

Observe que o valor boleano não é uma string, por isso não está entre aspas e tem a letra inicial em maiúscula. Alguns métodos ou funções possuem diversos argumentos que podem ser passados entre parênteses, para saber quais são consulte a [documentação do Pandas](https://pandas.pydata.org/docs/). Se desejar passar mais de um argumento, basta separar eles com vírgulas.

In [None]:
df.sort_values('SALARY', ascending=False)

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
0,Clayton Kershaw,LAD,SP,33000000,2014,2020,7
1,Zack Greinke,ARI,SP,31876966,2016,2021,6
2,David Price,BOS,SP,30000000,2016,2022,7
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
4,Justin Verlander,DET,SP,28000000,2013,2019,7
...,...,...,...,...,...,...,...
836,Drew Robinson,TEX,OF,535000,2017,2017,1
837,Dylan Covey,CWS,RP,535000,2017,2017,1
838,Glenn Sparkman,TOR,RP,535000,2017,2017,1
839,Jacob May,CWS,CF,535000,2017,2017,1


Você pode encadear vários métodos em uma linha. Por exemplo, se quisessemos ordenar os dados de maneira descendente e mostrar apenas as cinco primeiras linhas, poderíamos fazer dessa forma:

In [None]:
df.sort_values('SALARY', ascending=False).head()

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
0,Clayton Kershaw,LAD,SP,33000000,2014,2020,7
1,Zack Greinke,ARI,SP,31876966,2016,2021,6
2,David Price,BOS,SP,30000000,2016,2022,7
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
4,Justin Verlander,DET,SP,28000000,2013,2019,7


Você pode ordenar várias colunas de uma vez, passando uma lista com nome de colunas ao invés de uma única coluna. Uma lista é um conjunto de itens separado por vírgulas, entre colchetes `[]`.<br>
Para ordenar primeiro `SALARY` e depois `TEAM`: 

In [None]:
df.sort_values(['SALARY','TEAM']).head()

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
826,Armando Rivero,ATL,RP,535000,2017,2017,1
851,Micah Johnson,ATL,2B,535000,2017,2017,1
824,Anthony Santander,BAL,OF,535000,2017,2017,1
830,Ben Taylor,BOS,RP,535000,2017,2017,1
863,Steve Selsky,BOS,RF,535000,2017,2017,1


Você pode especificar o ordenamento (ascendente ou descendente) para cada coluna listada, passando um outra lista para o `ascending` com `True` e `False`, na ordem das colunas a serem ordenadas. Por exemplo, para ordenar a coluna `SALARY` como descendente e `TEAM` como `ascendente`, seria:

In [None]:
df.sort_values(['SALARY', 'TEAM'], ascending=[False,True]).head()

O `False` foi para coluna `SALARY` e o `True` para coluna `TEAM` porque estes operadores.
ooleanos estão na mesma posição que as colunas foram passadas na lista.operadores.

**Observação:** Apesar de terem sido feitas essas ordenações, nenhuma alteração foi aplicada ao dataframe original.


In [None]:
df.head()

Isso acontece porque não salvamos os resultados do ordenamento em uma variável. Se você quiser manter o ordenamento que você fez (ou qualquer outro tipo de manipulação), recomenda-se guardar os resultados em uma variável.

In [None]:
ordenar_por_team = df.sort_values('TEAM')


In [None]:
ordenar_por_team.head()

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
303,Patrick Corbin,ARI,RP,3950000,2017,2017,1
494,Chris Herrmann,ARI,C,937500,2017,2017,1
371,Fernando Rodney,ARI,RP,2500000,2017,2017,1
541,Jake Lamb,ARI,3B,573300,2017,2017,1
546,Robbie Ray,ARI,SP,570400,2017,2017,1


✍️ **Sua vez!** <p> 
Nas próximas células, ordene o DataFrame `df`:



*   Pela coluna `NAME`




*   Pela coluna `POS` de modo descendente


*   Pela coluna `SALARY` de modo descendente, `POS` de modo ascendente, e salve os resultados em uma variável chamada `ordene_por_salary_e_pos`

# Filtrar os dados

Vamos ver dois tipos diferentes de filtro:


*   **Filtro de coluna:** Retorna uma ou mais colunas de dados especificadas, semelhante a passar nome de colunas no `SELECT` em uma consulta SQL.
  
*   **Filtro de linha:** Retorna um recorte dos seus dados que atenda aos critérios que foram especificados, semelhante a uma consulta SQL usando `WHERE`. Por exemplo: Mostre todos os dados no DataFrame onde os valores da coluna `TEAM` sejam igual a `ARI`. 



**Filtro de coluna**<p>
Para acessar os valores em uma única coluna de dados, você pode usar um ponto e o nome da coluna, desde que o nome da coluna não tenha espaços ou caracteres especiais.

In [None]:
df.TEAM

0      LAD
1      ARI
2      BOS
3      DET
4      DET
      ... 
863    BOS
864    CIN
865    LAA
866    CIN
867    CLE
Name: TEAM, Length: 868, dtype: object

Outro jeito é usando os colchetes com o nome da coluna entre aspas. Este modo é bastante útil quando o nome das colunas possuem espaços, por exemplo.

In [None]:
df['TEAM']

0      LAD
1      ARI
2      BOS
3      DET
4      DET
      ... 
863    BOS
864    CIN
865    LAA
866    CIN
867    CLE
Name: TEAM, Length: 868, dtype: object

Quando você acessa uma única coluna no seu DataFrame, você está pegando uma parte dele, que é chamada de `Series`.

Um dos métodos que podem ser chamados para série (Series) é o `unique()`, que mostra apenas valores únicos da coluna. Vamos fazer isso com a coluna `TEAM`:

In [None]:
df.TEAM.unique()

array(['LAD', 'ARI', 'BOS', 'DET', 'CHC', 'LAA', 'SEA', 'NYY', 'TEX',
       'SF', 'MIN', 'NYM', 'WSH', 'CIN', 'ATL', 'BAL', 'CWS', 'COL',
       'TOR', 'STL', 'MIL', 'PHI', 'HOU', 'KC', 'MIA', 'CLE', 'PIT', 'TB',
       'OAK', 'SD'], dtype=object)

Você pode contar o total de linhas para cada valor usando o método `values_counts()`:

In [None]:
df.TEAM.value_counts()

TEX    34
TB     32
COL    32
LAD    31
CIN    31
NYM    31
SD     31
SEA    31
BOS    31
OAK    30
LAA    30
ATL    30
STL    30
TOR    29
MIN    29
CLE    28
MIA    28
KC     28
BAL    28
CWS    28
ARI    28
SF     28
HOU    27
NYY    27
DET    26
MIL    26
PHI    26
CHC    26
PIT    26
WSH    26
Name: TEAM, dtype: int64

Para colunas numéricas, você pode chamar métodos básicos de estatística na coluna:


*   `min()` pega o menor valor
*   `max()` pega o maior valor
*   `median()` pega a mediana
*   `mean()` pega a média
*   `mode()` pega o valor mais comum

Vamos checar esses métodos, aplicando-os na coluna `SALARY`: 

In [None]:
df.SALARY.min()

535000

In [None]:
df.SALARY.max()

33000000

In [None]:
df.SALARY.median()

1562500.0

In [None]:
df.SALARY.mean()

4468069.176267281

In [None]:
df.SALARY.mode()

0    535000
dtype: int64

Para selecionar várias colunas do DataFrame, passamos uma lista com os nomes das colunas entre colchetes, ao invés de apenas uma. Uma maneira de ficar legível é executando esse procedimento em duas etapas.

> Bloco com recuo



In [None]:
# Salva em uma variável as colunas que desejamos filtrar
colunas_filtradas = ['TEAM','SALARY']

# Passa a variável entre colchetes, junto ao nome do DataFrame
df[colunas_filtradas]

Unnamed: 0,TEAM,SALARY
0,LAD,33000000
1,ARI,31876966
2,BOS,30000000
3,DET,28000000
4,DET,28000000
...,...,...
863,BOS,535000
864,CIN,535000
865,LAA,535000
866,CIN,535000


**Filtrando linhas**

O colchetes também é usado para filtrar linhas. Neste caso, ao invés do nome da coluna (ou uma lista de nomes), colocamos dentro do colchetes uma condição.

Vamos filtrar nossos dados para ver qual jogador tem salário maior que 1000000, ou seja, o filtro deve retornar as linhas onde o valor da coluna `SALARY` seja maior que $1.000.000.

In [None]:
df[df.SALARY > 1000000]

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
0,Clayton Kershaw,LAD,SP,33000000,2014,2020,7
1,Zack Greinke,ARI,SP,31876966,2016,2021,6
2,David Price,BOS,SP,30000000,2016,2022,7
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
4,Justin Verlander,DET,SP,28000000,2013,2019,7
...,...,...,...,...,...,...,...
480,Tommy Layne,NYY,RP,1075000,2017,2017,1
481,Dan Otero,CLE,RP,1055000,2017,2017,1
482,Cory Gearrin,SF,RP,1050000,2017,2017,1
483,Kris Bryant,CHC,3B,1050000,2017,2017,1


Esse filtro em SQL seria:

```sql
SELECT *
FROM mlb
WHERE SALARY > 1000000
```

É possível usar os operadores de comparação do Python:


*   `>`  maior que
*   `>=` maior ou igual a
*   `<`  menor que
*   `<=` menor ou igual a
*   `==` igual a
*   `!=` diferente de




**Filtro com muitas condições**

O que fazer quando se quer usar um filtro com mais de uma condição? Podemos salvar os resultados de cada filtro em uma variável e depois filtrar novamente a partir do DataFrame original.

Por exemplo, se você quiser saber quais jogadores do Colorado Rockies tem salários acima de $1 milhão, você pode fazer assim:

In [None]:
#Filtrando primeiro só quem joga no Colorado Rockies
rockies = df[df.TEAM == 'COL']

#Filtrando os salários maiores que $1 milhão, utilizando o filtro anterior para sinalizar em qual time o filtro deve acontecer 
rockies_maior_1m = rockies[rockies.SALARY > 1000000]

rockies_maior_1m

✍️ **Sua vez!**

Nas celulas seguintes, faça os seguintes filtros: 


*   **Filtro de coluna:** Selecione a coluna `NAME`




*   **Filtro de coluna:** Selecione as colunas `NAME` e `TEAM`
 

*   **Filtro de linha:** Filtre as linhas e traga como resultado apenas os Catchers (C, na coluna `POS`) que tem salários a partir de $750000


*   **BÔNUS:** Filtre as linhas e traga apenas os jogadores do Chicago Cubs (CHC), depois ordene de maneira descendente a coluna `SALARY`

# Agupar e agregar os dados

O método `groupby` é usado para agrupar e agregar os dados, semelhante ao que é feito em uma tabela dinâmica ou uma consulta SQL. O Pandas também tem um método para tabela dinâmica, caso te interesse [você pode conferir na documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html).


Digamos que queremos ver o top 10 dos times por folha de pagamento. Em outras palavras nós queremos:

*   Agrupar os dados pela coluna `TEAM`: `groupby()`
*   Somar os resultados de cada grupo: `sum()`
*   Ordenas os resultados pela coluna `SALARY` de forma descendente: `sort_values()`
*   Mostrar apenas o top 10: `head(10)`
  
Chamar o método `groupby()` sem dizer o que ele faz com os resultados agrupados não ajuda muito:

In [None]:
df.groupby('TEAM')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f45b80f8d30>

Basicamente o Pandas só nos diz que o agrupamento foi bem sucedido. O que fazemos agora? Usando métodos encadeados, descrevemos o que gostariamos de fazer com as colunas numéricas depois que elas estão agrupadas. <p>Vamos começar com `sum()`:

In [None]:
df.groupby('TEAM').sum()

Unnamed: 0_level_0,SALARY,START_YEAR,END_YEAR,YEARS
TEAM,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ARI,90730499,56469,56485,44
ATL,137339527,60491,60525,64
BAL,161684185,56460,56485,53
BOS,174287098,62510,62541,62
CHC,170088502,52429,52456,53
CIN,82375785,62516,62539,54
CLE,115991166,56455,56490,63
COL,101513571,64534,64553,51
CWS,109591167,56463,56487,52
DET,180250600,52420,52457,63


Perfeito! Exceto pelo fato que o Pandas somou todas as colunas numéricas e não apenas a coluna `SALARY`. Para ajustar isso, filtraremos as duas colunas que estamos interessados - agrupando pela coluna `TEAM` e então somaremos os valores. Como nesse filtro a única coluna numérica é `SALARY`, o Pandas vai entender que é apenas essa que deve ser somada.

**Lembre-se:** Para selecionar as colunas de um DataFrame, use colchetes e liste o nome das colunas, separando com vírgula.





In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').sum()

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
ARI,90730499
ATL,137339527
BAL,161684185
BOS,174287098
CHC,170088502
CIN,82375785
CLE,115991166
COL,101513571
CWS,109591167
DET,180250600


Ótimo! Agora encadeando os métodos vamos ordenar a coluna `SALARY` de maneira descendente, trazendo como resultado apenas o top 10:

In [None]:
df[['TEAM','SALARY']].groupby('TEAM').sum().sort_values('SALARY', ascending=False).head(10)

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
LAD,187989811
DET,180250600
TEX,178431396
SF,176531278
NYM,176284679
BOS,174287098
NYY,170389199
CHC,170088502
WSH,162742157
TOR,162353367


Você pode agregar outros métodos além do `sum()`, como `mean()` e `median()`, usando o método `agg()` para aplicar mais de uma operação.

In [None]:
df[['TEAM','SALARY']].groupby('TEAM').median()

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
ARI,1300000.0
ATL,1250000.0
BAL,3462500.0
BOS,1950000.0
CHC,2750000.0
CIN,567000.0
CLE,2950000.0
COL,545000.0
CWS,875000.0
DET,1650000.0


In [None]:
df[['TEAM','SALARY']].groupby('TEAM').mean()

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
ARI,3240374.96
ATL,4577984.23
BAL,5774435.18
BOS,5622164.45
CHC,6541865.46
CIN,2657283.39
CLE,4142541.64
COL,3172299.09
CWS,3913970.25
DET,6932715.38


In [None]:
df[['TEAM','SALARY']].groupby('TEAM').agg(['sum','mean','median'])

Unnamed: 0_level_0,SALARY,SALARY,SALARY
Unnamed: 0_level_1,sum,mean,median
TEAM,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
ARI,90730499,3240374.96,1300000.0
ATL,137339527,4577984.23,1250000.0
BAL,161684185,5774435.18,3462500.0
BOS,174287098,5622164.45,1950000.0
CHC,170088502,6541865.46,2750000.0
CIN,82375785,2657283.39,567000.0
CLE,115991166,4142541.64,2950000.0
COL,101513571,3172299.09,545000.0
CWS,109591167,3913970.25,875000.0
DET,180250600,6932715.38,1650000.0



✍️ **Sua vez!**<p>
Nas próximas células, faça os seguintes agrupamentos:


*   Qual a média salarial de cada posição? Agrupe os dados por `POS` e descubra a mediana (`median()`), depois agrupe a coluna `SALARY` de maneira descendente.




*   Qual a média salarial de cada time? Agrupe os dados pela coluna `TEAM` e some (`sum()`), depois ordene pela coluna `SALARY` de maneira descendente.



# Exportar como CSV

Para exportar o DataFrame como um arquivo CSV, use o método `to_csv`, indicando o caminho onde deseja que seu arquivo seja salvo. Se você não quiser incluir o índice do DataFrame, especifique usando `index=False`.

In [None]:
df.to_csv('meu_arquivo.csv', index=True)
