# Introdução ao Pandas

A biblioteca Pandas é uma popular ferramenta de manipulação e análise de dados em Python. Ela fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para tornar o trabalho com dados "relacionais" ou "rotulados" tanto fáceis quanto intuitivos. É uma ferramenta fundamental para a análise de dados e modelagem estatística em Python.

## Instalação

In [1]:
# Como instalar o pandas no seu ambiente local
%pip install pandas

# No Colab utilizamos o ! para instalar um framework como o pandas
# No caso o Pandas já está previamente instalado
# !pip install pandas

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


## Biblioteca

In [4]:
import pandas as pd

## Criação de `DataFrames`

### Criando um `DataFrame` a partir de um dicionário

In [6]:
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Cidade': ['Nova York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)

# O último comando é impresso por padrâo nos cadernos Jupyter 
df.head() # Mostra as primeiras 5 linhas do DataFrame

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,Nova York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


#### PRATIQUE

**[EX01]** Crie um DataFrame a partir do seguinte dicionário e exiba as cinco primeiras linhas.

In [None]:
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 6, 7, 8, 9],
    'C': ['p', 'q', 'r', 's', 't']
}
# Escreva seu código aqui

**[EX002]** Crie um DataFrame a partir das seguintes listas e defina os nomes das colunas como "Nome", "Idade", e "País".

In [None]:
nomes = ['Alice', 'Bob', 'Charlie', 'David']
idades = [25, 30, 35, 40]
paises = ['Brasil', 'EUA', 'Canadá', 'Austrália']

# Escreva seu código aqui


**[EX003]** Salve o conteúdo a seguir em um arquivo chamado `dados.csv` no diretório atual. Então lei aesse arquivo com o Pandas e crie um `DataFrame`. Em seguida, exiba as informações básicas do `DataFrame`, como as primeiras linhas, últimas linhas e um resumo estatístico.

```csv
nome,matematica,ciencias,ingles,historia
Alice,90,85,78,88
Bob,75,80,85,76
Charlie,82,76,89,90
David,92,89,79,87
Eva,84,78,85,85
Frank,77,90,82,76
Grace,88,82,80,84
Helen,74,69,76,85
```

In [None]:
# Escreva seu código aqui

## Sumarização dos Dados

Considere o `dataset` a seguir.

In [8]:
data = {
    'Fruta': ['Maçã', 'Banana', 'Maçã', 'Pera', 'Banana', 'Pera', 'Maçã'],
    'Quantidade': [10, 15, 10, 5, 15, 5, 10],
    'Preço': [2.5, 0.75, 2.5, 3, 0.75, 3, 2.5]
}

df = pd.DataFrame(data)

#### `value_counts()`

O método `value_counts()` é usado para contar o número de ocorrências únicas em uma coluna (Series). É útil para analisar a distribuição de valores em uma coluna categórica.

In [9]:
# Conta o número de ocorrências de cada fruta na coluna 'Fruta'
df['Fruta'].value_counts()


Fruta
Maçã      3
Banana    2
Pera      2
Name: count, dtype: int64

#### `len(df)`

A função `len()` quando aplicada a um `DataFrame`, retorna o número de linhas.

In [None]:
# Retorna o número de linhas no DataFrame
print(len(df))  # Saída: 7

#### `shape`

O atributo `shape` retorna uma tupla representando as dimensões do `DataFrame` (número de linhas, número de colunas).

In [None]:
# Retorna o formato do DataFrame (linhas, colunas)
print(df.shape)  # Saída: (7, 3)

#### `nunique()`

O método `nunique()` retorna o número de elementos únicos em cada coluna. É útil para entender a diversidade dos dados em cada coluna.

In [10]:
# Retorna o número de valores únicos em cada coluna
print(df.nunique())

Fruta         3
Quantidade    3
Preço         3
dtype: int64


#### `describe()`

O método `describe()` fornece um resumo estatístico das colunas numéricas do `DataFrame`. Ele inclui medidas como média, mediana, mínimo, máximo e desvio padrão.

In [11]:
# Retorna o resumo estatístico das colunas numéricas
print(df.describe())

       Quantidade     Preço
count    7.000000  7.000000
mean    10.000000  2.142857
std      4.082483  0.977424
min      5.000000  0.750000
25%      7.500000  1.625000
50%     10.000000  2.500000
75%     12.500000  2.750000
max     15.000000  3.000000


#### PRATIQUE

**[EX001]** Dado o seguinte `DataFrame`, utilize o método `value_counts()` para contar o número de ocorrências de cada profissão na coluna 'Profissão'.

In [12]:
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Profissão': ['Engenheiro', 'Médico', 'Médico', 'Engenheiro']
}

df = pd.DataFrame(data)

**[EX002]**  Utilize o método `describe()` para obter estatísticas básicas da seguinte coluna de preços. O que a saída te diz sobre a distribuição dos preços?

In [14]:
preços = [100, 200, 150, 50, 300, 75, 250]
df = pd.DataFrame(preços, columns=['Preço'])

**[EX003]** Utilizando o DataFrame do **[EX001]**, determine o formato do `DataFrame` usando o atributo `shape` e o número de valores únicos em cada coluna usando o método `nunique()`.

In [15]:
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Idade': [25, 35, 30, 40],
    'Salário': [50000, 70000, 60000, 80000]
}

df = pd.DataFrame(data)


## Filtragem de Dados

### Filtragem com condição simples

In [16]:
import pandas as pd

data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Idade': [25, 35, 30, 40]
}

df = pd.DataFrame(data)

# Filtrando pessoas com idade maior que 30
result = df[df['Idade'] > 30]

print(result)

    Nome  Idade
1    Bob     35
3  David     40


### Filtragem com múltiplas condições

In [18]:
result = df[(df['Idade'] > 24) & (df['Nome'].str.startswith('A'))]

print(result)

    Nome  Idade
0  Alice     25


### Filtragem de valores em lista específica

In [19]:
# Filtragem de nomes que estão na lista
nomes_filtrados = ['Alice', 'David']
result = df[df['Nome'].isin(nomes_filtrados)]

print(result)

    Nome  Idade
0  Alice     25
3  David     40


### Filtragem usando `loc` e `iloc`

In [20]:
# Filtragem usando loc
result = df.loc[df['Idade'] > 30]

# Filtragem usando iloc (por exemplo, as duas primeiras linhas)
result = df.iloc[:2]

print(result)


    Nome  Idade
0  Alice     25
1    Bob     35


### PRATIQUE

**[EX001]** Dado o seguinte DataFrame, filtre as linhas onde a coluna 'Idade' é maior que 20.

In [None]:
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Idade': [18, 22, 19, 25]
}

df = pd.DataFrame(data)

**[EX002]** Filtre as linhas onde a 'Idade' é maior que 18 e o 'Nome' começa com a letra 'A'.

In [None]:
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Idade': [18, 22, 19, 25]
}

df = pd.DataFrame(data)

**[EX003]** Dado o seguinte DataFrame, filtre as linhas onde a coluna 'Fruta' está na lista `['Maçã', 'Banana']`.

In [None]:
data = {
    'Fruta': ['Maçã', 'Banana', 'Pera', 'Maçã'],
    'Quantidade': [10, 15, 5, 10]
}

df = pd.DataFrame(data)

**[EX004]** Selecione as duas primeiras linhas e todas as colunas usando o método `iloc.`

In [21]:
data = {
    'Fruta': ['Maçã', 'Banana', 'Pera', 'Maçã'],
    'Quantidade': [10, 15, 5, 10]
}

df = pd.DataFrame(data)

**[EX005]** Use o `loc` para filtrar as linhas onde 'Preço' é maior que 100 e selecione apenas a coluna 'Produto'.

In [None]:
data = {
    'Produto': ['A', 'B', 'C', 'D'],
    'Preço': [50, 150, 200, 100]
}

df = pd.DataFrame(data)

## Reestruturando Dados

#### `melt()`

Transforma colunas em linhas.

In [44]:
df = pd.DataFrame({'A': ['a1', 'a2'], 'B': [1, 2], 'C': [3, 4]})
print(df)
df_melted = df.melt(id_vars=['A'], value_vars=['B', 'C'])
print(df_melted)

    A  B  C
0  a1  1  3
1  a2  2  4
    A variable  value
0  a1        B      1
1  a2        B      2
2  a1        C      3
3  a2        C      4


#### `pivot()`

Transforma linhas em colunas.

In [43]:
# Forma geral
# df_pivot = df_melted.pivot(index='nome_da_coluna_index', columns='nome_da_coluna_columns', values='nome_da_coluna_values')

df_pivot = df_melted.pivot(index='A', columns='variable', values='value')
print(df_pivot)

variable  B  C
A             
a1        1  3
a2        2  4


#### `concat()`

Concatena (i.e., adiciona ao final) as linhas dos `DataFrames`

In [25]:
df1 = pd.DataFrame({'A': ['a1', 'a2'], 'B': [1, 2], 'C': [3, 4]})
df2 = pd.DataFrame({'A': ['a3', 'a4'], 'B': [3, 4], 'C': [5, 6]})
df_concat = pd.concat([df1, df2])
df_concat

Unnamed: 0,A,B,C
0,a1,1,3
1,a2,2,4
0,a3,3,5
1,a4,4,6


#### `concat(axis=1)`

Concatena ao longo das colunas.

In [26]:
df1 = pd.DataFrame({'A': ['a1', 'a2'], 'B': [1, 2], 'C': [3, 4]})
df2 = pd.DataFrame({'A': ['a3', 'a4'], 'B': [3, 4], 'C': [5, 6]})
df_concat_axis1 = pd.concat([df1, df2], axis=1)
df_concat_axis1

Unnamed: 0,A,B,C,A.1,B.1,C.1
0,a1,1,3,a3,3,5
1,a2,2,4,a4,4,6


#### `sort_values()`

In [31]:
df = pd.DataFrame({'A': ['a1', 'a2'], 'B': [40, 20], 'C': [3, 4]})
df_sorted = df.sort_values(by='B', ascending=True)
print(df_sorted)

    A   B  C
1  a2  20  4
0  a1  40  3


#### `reset_index()`

In [32]:
df_reset = df_sorted.reset_index(drop=True)
print(df_reset)

    A   B  C
0  a2  20  4
1  a1  40  3


#### `drop()`

O método `drop()` é usado para remover colunas ou linhas.

In [33]:
df = pd.DataFrame({'A': ['a1', 'a2'], 'B': [1, 2], 'C': [3, 4]})

df_dropped = df.drop(columns=['C'])
print(df_dropped)

    A  B
0  a1  1
1  a2  2


#### PRATIQUE

**[EX001]** Transforme o DataFrame `df` em um DataFrame longo, usando o método `melt()`, onde a coluna 'Dia' é o identificador.

In [37]:
df = pd.DataFrame({
    'Dia': ['Seg', 'Ter', 'Qua'],
    'Temp_Max': [30, 32, 28],
    'Temp_Min': [20, 18, 22]
})
df

Unnamed: 0,Dia,Temp_Max,Temp_Min
0,Seg,30,20
1,Ter,32,18
2,Qua,28,22


**[EX002]** Utilize o DataFrame resultante do **[EX001]** e reverta-o para o formato original utilizando o método `pivot()`.

In [None]:
# Excreva seu código aqui

**[EX003]** Crie dois `DataFrames` com as mesmas colunas e concatene-os utilizando o método `concat()`.

In [None]:
# Excreva seu código aqui

**[EX004]** Ordene o DataFrame com base no preço e na quantidade vendida. Primeiro, ordene por preço em ordem decrescente e, em seguida, por quantidade vendida em ordem crescente.

In [45]:
df = pd.DataFrame({
    'Product': ['Apple', 'Banana', 'Cherry'],
    'Price': [1.2, 0.8, 2.0],
    'Quantity_Sold': [100, 150, 50]
})


**[EX005]** Considere o DataFrame sales do Exercício 5, que já foi ordenado por preço e quantidade vendida.

1. Filtre os produtos que têm um preço maior que 1.

2. Reset o índice sem adicionar o índice anterior como uma nova coluna.

3. Exiba o resultado.


In [46]:
# Excreva seu código aqui

**[EX006]** Considerando os dois DataFrames que representam as notas de alunos em diferentes matérias:

1. Concatene os dois DataFrames em um único DataFrame usando `pd.concat()`.

2. Remova a coluna 'Science_Grade' usando o método `drop()`.

3. Exiba o resultado.

In [None]:
df_math = pd.DataFrame({
    'Student': ['Alice', 'Bob', 'Charlie'],
    'Math_Grade': [90, 80, 85]
})

df_science = pd.DataFrame({
    'Student': ['Alice', 'Bob', 'Charlie'],
    'Science_Grade': [85, 75, 80]
})


**[EX007]** Dado um `DataFrame`, remova uma ou mais de suas colunas utilizando o método `drop()`

In [50]:
import pandas as pd

df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [29, 35, 40, 23],
    'Position': ['Manager', 'Engineer', 'Technician', 'Intern'],
    'Salary': [70000, 60000, 45000, 20000],
    'Department': ['HR', 'Engineering', 'Maintenance', 'HR']
})

## Tratando Valores Ausentes

#### `dropna()`

Este método remove os valores faltantes.

In [51]:
# Um exemplo de dataset com valores faltantes
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8],
    'C': [9, 10, 11, None]
})
print("DataFrame original:")
print(df)

# Usar dropna() para remover quaisquer linhas com valores NaN
df_dropped = df.dropna()

print("\nDataFrame depois de usar dropna():")
print(df_dropped)

DataFrame original:
     A    B     C
0  1.0  5.0   9.0
1  2.0  NaN  10.0
2  NaN  7.0  11.0
3  4.0  8.0   NaN

DataFrame depois de usar dropna():
     A    B    C
0  1.0  5.0  9.0


#### `fillna()`

In [52]:
# Um exemplo de dataset com valores faltantes
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8],
    'C': [9, 10, 11, None]
})
print("DataFrame original:")
print(df)

# Usar fillna() com um método, como 'ffill', para preencher valores NaN com o valor anterior na coluna
df_filled = df.fillna(method='ffill')

print("\nDataFrame depois de usar dropna():")
print(df_filled)

DataFrame original:
     A    B     C
0  1.0  5.0   9.0
1  2.0  NaN  10.0
2  NaN  7.0  11.0
3  4.0  8.0   NaN

DataFrame depois de usar dropna():
     A    B     C
0  1.0  5.0   9.0
1  2.0  5.0  10.0
2  2.0  7.0  11.0
3  4.0  8.0  11.0


#### PRATIQUE

**[EX001]** Imagine que você tem um DataFrame que contém avaliações de produtos de uma loja online. O DataFrame tem as seguintes colunas: 'Product_ID', 'Product_Name', 'Review_Score', e 'Review_Comment'.

In [53]:
df = pd.DataFrame({
    'Product_ID': [101, 102, 103, 104],
    'Product_Name': ['Laptop', 'Phone', 'Headphones', 'Camera'],
    'Review_Score': [4.5, 4.2, None, 3.8],
    'Review_Comment': ['Great!', 'Excellent!', None, 'Good']
})
df

Unnamed: 0,Product_ID,Product_Name,Review_Score,Review_Comment
0,101,Laptop,4.5,Great!
1,102,Phone,4.2,Excellent!
2,103,Headphones,,
3,104,Camera,3.8,Good


*Tarefa*

1. Para a coluna 'Review_Score', você precisa lidar com o valor ausente. A pontuação de revisão é crítica para análises futuras, e uma avaliação sem pontuação não faz sentido. Determine a abordagem mais adequada: usar `dropna()` para descartar a linha inteira ou `fillna()` para preencher o valor ausente. Justifique sua escolha.

2. Para a coluna 'Review_Comment', decida se deve usar `dropna()` para descartar a linha ou `fillna()` para preencher o valor ausente com algo como "Sem comentário". Justifique sua escolha.

## Agrupando Dados

#### `groupby()`

In [54]:
df = pd.DataFrame({
    'Animal': ['Gato', 'Cão', 'Cão', 'Gato', 'Gato'],
    'Idade': [2.5, 3, 0.5, 2, 4],
    'Peso': [5, 30, 10, 6, 5]
})

# Agrupa o DataFrame pela coluna 'Animal'
grouped = df.groupby('Animal')

# Calcula a média para cada grupo
mean_result = grouped.mean()

print(mean_result)

           Idade       Peso
Animal                     
Cão     1.750000  20.000000
Gato    2.833333   5.333333


#### PRATIQUE

**[EX001]** Imagine que você é um analista de dados em uma loja de varejo e recebeu um conjunto de dados contendo informações sobre as vendas de diferentes produtos em várias lojas da cadeia. Os dados incluem informações como o nome da loja, o tipo de produto, a quantidade vendida e o valor total da venda. Como você poderia determinar a quantidade total vendida de cada tipo de produto em todas as lojas?

In [57]:
dados = {
    'Loja': ['Loja A', 'Loja B', 'Loja A', 'Loja C', 'Loja B', 'Loja A'],
    'Tipo de Produto': ['Eletrônicos', 'Roupas', 'Alimentos', 'Eletrônicos', 'Alimentos', 'Roupas'],
    'Quantidade Vendida': [5, 10, 15, 7, 12, 8],
    'Valor Total': [1000, 200, 75, 700, 60, 160]
}

df = pd.DataFrame(dados)