# 📊 Introdução ao Pandas

Este notebook explora o básico da biblioteca `pandas`, usada para análise e manipulação de dados em Python.

## 📝 Parte 1: Instalando e Importando Pandas

Para começar, certifique-se de ter a biblioteca instalada:
```python
pip install pandas
```

Agora, podemos importá-la e carregar um conjunto de dados para explorar seus recursos.

# Dicionário de dados — `tips` (Seaborn)

| Coluna       | Tipo      | Descrição                                                                 |
|--------------|-----------|---------------------------------------------------------------------------|
| `total_bill` | float     | Valor total da conta, em dólares.                                         |
| `tip`        | float     | Valor da gorjeta, em dólares.                                             |
| `sex`        | categoria | Sexo da pessoa que pagou a conta (`Male`, `Female`).                      |
| `smoker`     | categoria | Indica se havia fumantes na mesa (`Yes`, `No`).                           |
| `day`        | categoria | Dia da semana do registro (`Thur`, `Fri`, `Sat`, `Sun`).                  |
| `time`       | categoria | Período da refeição (`Lunch`, `Dinner`).                                  |
| `size`       | int       | Tamanho do grupo (número de pessoas na mesa).                             |


In [1]:
import pandas as pd

# Lendo um dataset de exemplo (carregado do próprio Pandas)
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

print(len(df))

# Exibindo as 5 primeiras linhas
df.head()

244


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## 📌 Parte 2: Informações Básicas do Dataset

### 📋 Verificando a Estrutura dos Dados

In [2]:
# Exibindo informações sobre o DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


In [3]:
# Verificando estatísticas descritivas
df.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


## 🔎 Parte 3: Seleção e Filtragem de Dados

Podemos selecionar colunas específicas e filtrar os dados com condições.

In [4]:
# Selecionando apenas a coluna 'total_bill'
df['total_bill'].head()

0    16.99
1    10.34
2    21.01
3    23.68
4    24.59
Name: total_bill, dtype: float64

In [11]:
# Selecionando apenas a coluna 'total_bill' - tail
df['total_bill'].tail()

239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, dtype: float64

In [5]:
# Filtrando os pedidos que deram gorjeta maior que 5
df[df['tip'] > 6]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
23,39.42,7.58,Male,No,Sat,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
141,34.3,6.7,Male,No,Thur,Lunch,6
170,50.81,10.0,Male,Yes,Sat,Dinner,3
183,23.17,6.5,Male,Yes,Sun,Dinner,4
212,48.33,9.0,Male,No,Sat,Dinner,4
214,28.17,6.5,Female,Yes,Sat,Dinner,3


## 📊 Parte 4: Agrupamentos e Estatísticas

Podemos agrupar os dados por categorias e calcular estatísticas úteis.

In [6]:
set(df['day'])

{'Fri', 'Sat', 'Sun', 'Thur'}

In [10]:
# Média do valor total da conta por dia
df.groupby('day')['total_bill'].mean()

day
Fri     17.151579
Sat     20.441379
Sun     21.410000
Thur    17.682742
Name: total_bill, dtype: float64

In [13]:
df['day'].value_counts()

day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64

In [6]:
df['smoker'].value_counts()

smoker
No     151
Yes     93
Name: count, dtype: int64

In [7]:
df['time'].value_counts()

time
Dinner    176
Lunch      68
Name: count, dtype: int64

In [11]:
df['size'].value_counts()

size
2    156
3     38
4     37
5      5
1      4
6      4
Name: count, dtype: int64

In [12]:
# Contagem de pedidos por tipo de fumante
df['smoker'].value_counts()

smoker
No     151
Yes     93
Name: count, dtype: int64

## 🛠 Parte 5: Modificando e Adicionando Colunas

Podemos criar novas colunas com base em cálculos sobre as colunas existentes.

In [16]:
# Criando uma nova coluna com a porcentagem da gorjeta
df['tip_percentage'] = (df['tip'] / df['total_bill']) * 100
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,5.944673
1,10.34,1.66,Male,No,Sun,Dinner,3,16.054159
2,21.01,3.5,Male,No,Sun,Dinner,3,16.658734
3,23.68,3.31,Male,No,Sun,Dinner,2,13.978041
4,24.59,3.61,Female,No,Sun,Dinner,4,14.680765


## 🚀 Exercícios para Praticar

Agora que exploramos os conceitos básicos do `pandas`, tente resolver os seguintes exercícios usando um novo dataset.

### 📌 Exercício 1: Carregar um novo dataset

Carregue o dataset de **pinguins** do Seaborn:

https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv

Explore a estrutura do dataset usando `df.info()` e `df.describe()`.

# Dicionário de dados — `penguins` (Seaborn)

| Coluna               | Tipo        | Descrição                                                                 |
|----------------------|-------------|---------------------------------------------------------------------------|
| `species`            | categoria   | Espécie do pinguim (`Adelie`, `Chinstrap`, `Gentoo`).                     |
| `island`             | categoria   | Ilha do arquipélago Palmer onde foi observado (`Torgersen`, `Biscoe`, `Dream`). |
| `bill_length_mm`     | float       | Comprimento do bico (culmen) em **milímetros**.                           |
| `bill_depth_mm`      | float       | Profundidade/altura do bico em **milímetros**.                            |
| `flipper_length_mm`  | float       | Comprimento da nadadeira em **milímetros**.                               |
| `body_mass_g`        | float       | Massa corporal em **gramas**.                                             |
| `sex`                | categoria   | Sexo do indivíduo (`Male`, `Female`).                                     |
| `year`               | int         | Ano de medição (2007–2009).                                               |

**Observações:**
- O dataset pode conter **valores ausentes (NaN)** em algumas colunas (ex.: medidas ou `sex`).
- Medidas morfométricas foram coletadas em pinguins adultos no arquipélago Palmer (Antártida).


In [43]:
# Carregar o dataset dos pinguins
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv"
df = pd.read_csv(url)

print(len(df))

# Explorar a estrutura do dataset
df.info() # Informações gerais

344
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [48]:
df['Nova coluna'] = df['species'] + ' ' + df['island']
df['Nova coluna numérica'] = df['bill_depth_mm'] / df['body_mass_g']
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,Nova coluna,Nova coluna numérica
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE,Adelie Torgersen,0.004987
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE,Adelie Torgersen,0.004579
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE,Adelie Torgersen,0.005538
3,Adelie,Torgersen,,,,,,Adelie Torgersen,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE,Adelie Torgersen,0.005594


In [51]:
# Remover linha NaN
# df.dropna()

In [44]:
df.describe()  # Estatísticas descritivas

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


### 📌 Exercício 2: Selecionar uma coluna específica

Exiba apenas os valores da coluna `species`.

In [13]:
# Selecionando apenas a coluna 'species'
species_column = df["species"]
print(species_column.head())  # Exibir os primeiros valores

0    Adelie
1    Adelie
2    Adelie
3    Adelie
4    Adelie
Name: species, dtype: object


### 📌 Exercício 3: Filtrar os pinguins de uma determinada espécie

Filtre e exiba apenas os pinguins da espécie 'Adelie'.

In [22]:
# Filtrando apenas os pinguins da espécie 'Adelie'
adelie_pinguins = df[df["species"] == "Adelie"]
adelie_pinguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE


In [25]:
# adelie_pinguins['species'].value_counts()

### 📌 Exercício 4: Calcular estatísticas

Calcule a média do tamanho do corpo (`body_mass_g`) para cada espécie.

In [27]:
# média total da coluna

df['body_mass_g'].mean()

4201.754385964912

In [18]:
# Calculando a média do tamanho do corpo por espécie
mean_body_mass = df.groupby("species")["body_mass_g"].mean()
print(mean_body_mass)

species
Adelie       3700.662252
Chinstrap    3733.088235
Gentoo       5076.016260
Name: body_mass_g, dtype: float64


### 📌 Exercício 5: Criar uma nova coluna

Crie uma nova coluna chamada `flipper_ratio`, que seja a razão entre `flipper_length_mm` e `body_mass_g`.

In [40]:
# Criando a nova coluna com a razão entre flipper_length_mm e body_mass_g
df["flipper_ratio"] = df["flipper_length_mm"] / df["body_mass_g"]
# Exibir as primeiras linhas para conferir a nova coluna
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,flipper_ratio
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE,0.048267
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE,0.048947
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE,0.06
3,Adelie,Torgersen,,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE,0.055942


In [41]:
del df['flipper_length_mm']

In [42]:
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,body_mass_g,sex,flipper_ratio
0,Adelie,Torgersen,39.1,18.7,3750.0,MALE,0.048267
1,Adelie,Torgersen,39.5,17.4,3800.0,FEMALE,0.048947
2,Adelie,Torgersen,40.3,18.0,3250.0,FEMALE,0.06
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,3450.0,FEMALE,0.055942


In [35]:
df = df[ df['body_mass_g'] > 3500 ] 

In [37]:
len(df)

264