___________
# **Introdução a Programação Computacional em Python: Aplicações na Biomecânica**

## **Organização**: Minicuros baseado no oferecido pela Sociedade Brasileira de Biomecânica (SBB)
### **Professor**:
*   Bruno Furlanetto
______________________


# **Notebook 4 - Pandas e DataFrames**
_________________

Neste notebook, vamos aprender a usar a biblioteca Pandas para manipular e analisar dados no contexto esportivo. Pandas é uma biblioteca poderosa para análise de dados em Python, que fornece estruturas de dados rápidas, flexíveis e expressivas.

## Instalando o Pandas

Se você ainda não tem o Pandas instalado, use o comando abaixo para instalá-lo.

```python
# Instalar pandas
!pip install pandas
```

## Importando a Biblioteca Pandas

Primeiro, precisamos importar a biblioteca Pandas.

```python
import pandas as pd
```

In [2]:
!pip install pandas

Collecting pandas
  Downloading pandas-2.2.2-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.0.1-cp312-cp312-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.9 kB ? eta -:--:--
     ------ --------------------------------- 10.2/60.9 kB ? eta -:--:--
     -------------------------------------- 60.9/60.9 kB 817.1 kB/s eta 0:00:00
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.2-cp312-cp312-win_amd64.whl (11.5 MB)
   ---------------------------------------- 0.0/11.5 MB ? eta -:--:--
   ----- ---------------------------------- 1.5/11.5 MB 19.4 MB/s eta 0:00:01
   ------ --------------------------------- 1.9/11.5 MB 19.9 MB/s eta 0:00:01
   ------------ --------------------------- 3.5/11.5 MB 20.2 MB/s eta 0:00:01
   --


[notice] A new release of pip is available: 23.3.2 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


## Criando um DataFrame

Vamos criar um DataFrame com dados fictícios de jogadores de futebol, incluindo nome, posição, gols marcados e assistências.

In [6]:
# Execute o código abaixo:
import pandas as pd

In [7]:
# Criando um DataFrame
data = {
    "Nome": ["Pedro", "Lucas", "Ana", "Maria", "Carlos"],
    "Posição": ["Atacante", "Meio-Campo", "Defensor", "Goleiro", "Atacante"],
    "Gols": [10, 5, 0, 0, 8],
    "Assistências": [2, 7, 1, 0, 4]
}
df = pd.DataFrame(data)
print(df)

     Nome     Posição  Gols  Assistências
0   Pedro    Atacante    10             2
1   Lucas  Meio-Campo     5             7
2     Ana    Defensor     0             1
3   Maria     Goleiro     0             0
4  Carlos    Atacante     8             4


## Leitura de Dados de um Arquivo CSV

Vamos supor que temos um arquivo CSV chamado `jogadores.csv` com os mesmos dados. Podemos ler este arquivo e carregar os dados em um DataFrame.

```python
# Leitura de dados de um arquivo CSV
# df = pd.read_csv('jogadores.csv')
# print(df)

# Nota: Descomente as linhas acima e ajuste o caminho do arquivo se necessário.
```

## Visualizando Dados

Vamos visualizar as primeiras linhas do DataFrame para ter uma ideia dos dados que estamos manipulando.

```python
# Visualizando as primeiras linhas do DataFrame
print(df.head())
```

## Análise Descritiva

Vamos calcular algumas estatísticas descritivas básicas sobre os dados.

```python
# Estatísticas descritivas
print(df.describe())
```

## Filtrando Dados

Podemos filtrar o DataFrame para mostrar apenas os jogadores que marcaram mais de 5 gols.

```python
# Filtrando jogadores com mais de 5 gols
goleadores = df[df["Gols"] > 5]
print(goleadores)
```

Execute os códigos abaixo:

In [14]:
# Leitura de dados de um arquivo CSV
df = pd.read_csv('jogadores.csv')
print(df)

        Nome     Posição  Gols  Assistências
0      Aline     Goleiro     7             1
1    Gustavo    Atacante     7             5
2    Leandro     Goleiro     2             5
3   Fernanda  Meio-Campo     2             7
4     Camila    Atacante     8             1
5   Vinícius    Atacante     6             4
6    Gabriel  Meio-Campo     1             7
7    Rafaela    Atacante     4             4
8      Lucas    Defensor     1            10
9    Juliana    Defensor     8             2
10    Felipe     Goleiro    10             6
11    Rafael    Defensor     2             8
12     Fábio     Goleiro     5             0
13   Eduarda     Goleiro     3             3
14     Lucas  Meio-Campo     9            10
15   Isabela     Goleiro     2             2
16    Rafael    Defensor     7             2
17   Leandro  Meio-Campo     9             5
18   Rafaela    Atacante     8             6
19   Rafaela    Atacante     7             5
20     Fábio     Goleiro     5             6
21    Rafa

In [15]:
# Visualizando as primeiras linhas do DataFrame
print(df.head())

       Nome     Posição  Gols  Assistências
0     Aline     Goleiro     7             1
1   Gustavo    Atacante     7             5
2   Leandro     Goleiro     2             5
3  Fernanda  Meio-Campo     2             7
4    Camila    Atacante     8             1


In [16]:
# Estatísticas descritivas
print(df.describe())

            Gols  Assistências
count  50.000000     50.000000
mean    5.200000      4.740000
std     3.136357      2.870042
min     0.000000      0.000000
25%     2.000000      2.250000
50%     5.500000      5.000000
75%     8.000000      6.000000
max    10.000000     10.000000


In [18]:
# Filtrando jogadores com mais de 5 gols
goleadores = df[df["Gols"] > 5]
print(goleadores)

        Nome     Posição  Gols  Assistências
0      Aline     Goleiro     7             1
1    Gustavo    Atacante     7             5
4     Camila    Atacante     8             1
5   Vinícius    Atacante     6             4
9    Juliana    Defensor     8             2
10    Felipe     Goleiro    10             6
14     Lucas  Meio-Campo     9            10
16    Rafael    Defensor     7             2
17   Leandro  Meio-Campo     9             5
18   Rafaela    Atacante     8             6
19   Rafaela    Atacante     7             5
22   Ricardo    Defensor     9             8
28      Caio    Atacante     6             3
32      Caio     Goleiro     7             8
33   Gustavo    Defensor    10             1
34   Juliana    Defensor     7             3
35    Renata     Goleiro     9             6
36   Rafaela    Atacante     8             1
37     Maria  Meio-Campo     7             6
40    Sérgio    Atacante     9             8
41    Daniel     Goleiro     9             1
43  Patríc

## Adicionando uma Nova Coluna

Vamos adicionar uma nova coluna chamada "Pontos", onde cada gol vale 3 pontos e cada assistência vale 1 ponto.

```python
# Adicionando uma nova coluna "Pontos"
df["Pontos"] = df["Gols"] * 3 + df["Assistências"]
print(df)
```

## Ordenando Dados

Vamos ordenar o DataFrame pelo número de pontos em ordem decrescente.

```python
# Ordenando pelo número de pontos
df_ordenado = df.sort_values(by="Pontos", ascending=False)
print(df_ordenado)
```

## Salvando os Dados em um Arquivo CSV

Podemos salvar o DataFrame resultante em um novo arquivo CSV.

```python
# Salvando os dados em um arquivo CSV
# df_ordenado.to_csv('jogadores_ordenados.csv', index=False)

# Nota: Descomente a linha acima e ajuste o caminho do arquivo se necessário.
```

___________________
Execute os códigos abaixo:

In [21]:
# Adicionando uma nova coluna "Pontos"
df["Pontos"] = df["Gols"] * 3 + df["Assistências"]
print(df)

        Nome     Posição  Gols  Assistências  Pontos
0      Aline     Goleiro     7             1      22
1    Gustavo    Atacante     7             5      26
2    Leandro     Goleiro     2             5      11
3   Fernanda  Meio-Campo     2             7      13
4     Camila    Atacante     8             1      25
5   Vinícius    Atacante     6             4      22
6    Gabriel  Meio-Campo     1             7      10
7    Rafaela    Atacante     4             4      16
8      Lucas    Defensor     1            10      13
9    Juliana    Defensor     8             2      26
10    Felipe     Goleiro    10             6      36
11    Rafael    Defensor     2             8      14
12     Fábio     Goleiro     5             0      15
13   Eduarda     Goleiro     3             3      12
14     Lucas  Meio-Campo     9            10      37
15   Isabela     Goleiro     2             2       8
16    Rafael    Defensor     7             2      23
17   Leandro  Meio-Campo     9             5  

In [22]:
# Agrupando dados por posição
estatisticas_por_posicao = df.groupby("Posição")[["Gols", "Assistências"]].sum()
print(estatisticas_por_posicao)

            Gols  Assistências
Posição                       
Atacante      66            51
Defensor      73            68
Goleiro       77            53
Meio-Campo    44            65


In [23]:
# Ordenando pelo número de pontos
df_ordenado = df.sort_values(by="Pontos", ascending=False)
print(df_ordenado)

        Nome     Posição  Gols  Assistências  Pontos
46   Eduarda     Goleiro    10             9      39
14     Lucas  Meio-Campo     9            10      37
10    Felipe     Goleiro    10             6      36
22   Ricardo    Defensor     9             8      35
40    Sérgio    Atacante     9             8      35
44  Nathalia    Defensor     8            10      34
35    Renata     Goleiro     9             6      33
17   Leandro  Meio-Campo     9             5      32
33   Gustavo    Defensor    10             1      31
18   Rafaela    Atacante     8             6      30
43  Patrícia     Goleiro     8             6      30
47     Bruno    Defensor     8             5      29
32      Caio     Goleiro     7             8      29
41    Daniel     Goleiro     9             1      28
37     Maria  Meio-Campo     7             6      27
1    Gustavo    Atacante     7             5      26
9    Juliana    Defensor     8             2      26
19   Rafaela    Atacante     7             5  

In [25]:
df_ordenado.to_csv('jogadores_ordenados.csv', index=False)

## Conclusão

Neste notebook, aprendemos como usar a biblioteca Pandas para criar, manipular e analisar dados no contexto esportivo. Exploramos a criação de DataFrames, leitura de dados de arquivos CSV, filtragem, agregação, ordenação e salvamento de dados.