___________
# **Introdução a Programação Computacional em Python: Aplicações na Biomecânica**

## **Organização**: Sociedade Brasileira de Biomecânica
### **Professores**:
*   Prof. Dr. Bruno L. S. Bedo (USP-SP)
*   Prof. Dr. Conrado Torres Laett (INTO-RJ)
______________________




# **Notebook 5 - Introdução ao Pandas e DataFrames**
_________________

Neste notebook, vamos aprender a usar a biblioteca Pandas para manipular e analisar dados no contexto esportivo. Pandas é uma biblioteca poderosa para análise de dados em Python, que fornece estruturas de dados rápidas, flexíveis e expressivas.

## Instalando o Pandas

Se você ainda não tem o Pandas instalado, use o comando abaixo para instalá-lo.

```python
# Instalar pandas
!pip install pandas
```

## Importando a Biblioteca Pandas

Primeiro, precisamos importar a biblioteca Pandas.

```python
import pandas as pd
```

## Criando um DataFrame

Vamos criar um DataFrame com dados fictícios de jogadores de futebol, incluindo nome, posição, gols marcados e assistências.

In [4]:
!pip install spm1d

Collecting spm1d
  Downloading spm1d-0.4.32-py3-none-any.whl (8.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.5/8.5 MB[0m [31m45.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: spm1d
Successfully installed spm1d-0.4.32


In [1]:
# Execute o código abaixo:
import pandas as pd

In [7]:
# Criando um DataFrame
data = {
    "Nome": ["Pedro", "Lucas", "Ana", "Maria", "Carlos"],
    "Posição": ["Atacante", "Meio-Campo", "Defensor", "Goleiro", "Atacante"],
    "Gols": [10, 5, 0, 0, 8],
    "Assistências": [2, 7, 1, 0, 4]
}
df = pd.DataFrame(data)
print(df)

     Nome     Posição  Gols  Assistências
0   Pedro    Atacante    10             2
1   Lucas  Meio-Campo     5             7
2     Ana    Defensor     0             1
3   Maria     Goleiro     0             0
4  Carlos    Atacante     8             4


In [9]:
file = '/content/sample_data/california_housing_test.csv'
df_california = pd.read_csv(file)

In [15]:
df_california.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0
mean,-119.5892,35.63539,28.845333,2599.578667,529.950667,1402.798667,489.912,3.807272,205846.275
std,1.994936,2.12967,12.555396,2155.593332,415.654368,1030.543012,365.42271,1.854512,113119.68747
min,-124.18,32.56,1.0,6.0,2.0,5.0,2.0,0.4999,22500.0
25%,-121.81,33.93,18.0,1401.0,291.0,780.0,273.0,2.544,121200.0
50%,-118.485,34.27,29.0,2106.0,437.0,1155.0,409.5,3.48715,177650.0
75%,-118.02,37.69,37.0,3129.0,636.0,1742.75,597.25,4.656475,263975.0
max,-114.49,41.92,52.0,30450.0,5419.0,11935.0,4930.0,15.0001,500001.0


## Leitura de Dados de um Arquivo CSV

Vamos supor que temos um arquivo CSV chamado `jogadores.csv` com os mesmos dados. Podemos ler este arquivo e carregar os dados em um DataFrame.

```python
# Leitura de dados de um arquivo CSV
# df = pd.read_csv('jogadores.csv')
# print(df)

# Nota: Descomente as linhas acima e ajuste o caminho do arquivo se necessário.
```

## Visualizando Dados

Vamos visualizar as primeiras linhas do DataFrame para ter uma ideia dos dados que estamos manipulando.

```python
# Visualizando as primeiras linhas do DataFrame
print(df.head())
```

## Análise Descritiva

Vamos calcular algumas estatísticas descritivas básicas sobre os dados.

```python
# Estatísticas descritivas
print(df.describe())
```

## Filtrando Dados

Podemos filtrar o DataFrame para mostrar apenas os jogadores que marcaram mais de 5 gols.

```python
# Filtrando jogadores com mais de 5 gols
goleadores = df[df["Gols"] > 5]
print(goleadores)
```

Execute os códigos abaixo:

In [16]:
# Criando um DataFrame
data = {
    "Nome": ["Pedro", "Lucas", "Ana", "Maria", "Carlos"],
    "Posição": ["Atacante", "Meio-Campo", "Defensor", "Goleiro", "Atacante"],
    "Gols": [10, 5, 0, 0, 8],
    "Assistências": [2, 7, 1, 0, 4]
}
df = pd.DataFrame(data)
print(df)

     Nome     Posição  Gols  Assistências
0   Pedro    Atacante    10             2
1   Lucas  Meio-Campo     5             7
2     Ana    Defensor     0             1
3   Maria     Goleiro     0             0
4  Carlos    Atacante     8             4


In [17]:
# Visualizando as primeiras linhas do DataFrame
print(df.head())


     Nome     Posição  Gols  Assistências
0   Pedro    Atacante    10             2
1   Lucas  Meio-Campo     5             7
2     Ana    Defensor     0             1
3   Maria     Goleiro     0             0
4  Carlos    Atacante     8             4


In [18]:
# Estatísticas descritivas
print(df.describe())

            Gols  Assistências
count   5.000000      5.000000
mean    4.600000      2.800000
std     4.560702      2.774887
min     0.000000      0.000000
25%     0.000000      1.000000
50%     5.000000      2.000000
75%     8.000000      4.000000
max    10.000000      7.000000


In [19]:
# Filtrando jogadores com mais de 5 gols
goleadores = df[df["Gols"] > 5]
print(goleadores)

     Nome   Posição  Gols  Assistências
0   Pedro  Atacante    10             2
4  Carlos  Atacante     8             4


## Adicionando uma Nova Coluna

Vamos adicionar uma nova coluna chamada "Pontos", onde cada gol vale 3 pontos e cada assistência vale 1 ponto.

```python
# Adicionando uma nova coluna "Pontos"
df["Pontos"] = df["Gols"] * 3 + df["Assistências"]
print(df)
```

## Ordenando Dados

Vamos ordenar o DataFrame pelo número de pontos em ordem decrescente.

```python
# Ordenando pelo número de pontos
df_ordenado = df.sort_values(by="Pontos", ascending=False)
print(df_ordenado)
```

## Salvando os Dados em um Arquivo CSV

Podemos salvar o DataFrame resultante em um novo arquivo CSV.

```python
# Salvando os dados em um arquivo CSV
# df_ordenado.to_csv('jogadores_ordenados.csv', index=False)

# Nota: Descomente a linha acima e ajuste o caminho do arquivo se necessário.
```



___________________
Execute os códigos abaixo:

In [20]:
# Adicionando uma nova coluna "Pontos"
df["Pontos"] = df["Gols"] * 3 + df["Assistências"]
print(df)

     Nome     Posição  Gols  Assistências  Pontos
0   Pedro    Atacante    10             2      32
1   Lucas  Meio-Campo     5             7      22
2     Ana    Defensor     0             1       1
3   Maria     Goleiro     0             0       0
4  Carlos    Atacante     8             4      28


In [21]:
# Agrupando dados por posição
estatisticas_por_posicao = df.groupby("Posição")[["Gols", "Assistências"]].sum()
print(estatisticas_por_posicao)

            Gols  Assistências
Posição                       
Atacante      18             6
Defensor       0             1
Goleiro        0             0
Meio-Campo     5             7


In [22]:
# Ordenando pelo número de pontos
df_ordenado = df.sort_values(by="Pontos", ascending=False)
print(df_ordenado)

     Nome     Posição  Gols  Assistências  Pontos
0   Pedro    Atacante    10             2      32
4  Carlos    Atacante     8             4      28
1   Lucas  Meio-Campo     5             7      22
2     Ana    Defensor     0             1       1
3   Maria     Goleiro     0             0       0


In [23]:
print(df_ordenado)

     Nome     Posição  Gols  Assistências  Pontos
0   Pedro    Atacante    10             2      32
4  Carlos    Atacante     8             4      28
1   Lucas  Meio-Campo     5             7      22
2     Ana    Defensor     0             1       1
3   Maria     Goleiro     0             0       0


In [24]:
df_ordenado.to_csv('jogadores_ordenados.csv', index=False)

In [27]:
df_ordenado.to_excel('jogadores_ordenados.xlsx')


## Conclusão

Neste notebook, aprendemos como usar a biblioteca Pandas para criar, manipular e analisar dados no contexto esportivo. Exploramos a criação de DataFrames, leitura de dados de arquivos CSV, filtragem, agregação, ordenação e salvamento de dados.

In [29]:
df = pd.read_csv('/content/sample_data/california_housing_test.csv')
df.head()


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


In [30]:
df.max()

longitude               -114.4900
latitude                  41.9200
housing_median_age        52.0000
total_rooms            30450.0000
total_bedrooms          5419.0000
population             11935.0000
households              4930.0000
median_income             15.0001
median_house_value    500001.0000
dtype: float64

In [31]:
df.min()

longitude              -124.1800
latitude                 32.5600
housing_median_age        1.0000
total_rooms               6.0000
total_bedrooms            2.0000
population                5.0000
households                2.0000
median_income             0.4999
median_house_value    22500.0000
dtype: float64

In [32]:
df.mean()

longitude               -119.589200
latitude                  35.635390
housing_median_age        28.845333
total_rooms             2599.578667
total_bedrooms           529.950667
population              1402.798667
households               489.912000
median_income              3.807272
median_house_value    205846.275000
dtype: float64

___________________
Bons estudos!! 🙂