# O que é o pandas?

O pandas é uma biblioteca de código aberto que fornece estruturas de dados de alto desempenho voltada para a manipulação e análise de dados em Python.

# Por que usar o pandas?

O pandas é uma das bibliotecas mais populares para análise de dados em Python. O pandas é amplamente utilizado em ciência de dados, aprendizado de máquina, finanças e muitas outras áreas.

## Primeiros passos com o pandas

Para começar a usar o pandas, você precisa instalar a biblioteca. Você pode instalar o pandas usando o pip, que é o gerenciador de pacotes padrão para Python.

```bash
pip install pandas
```

Depois de instalar o pandas, você pode importá-lo em seu código Python.

```python
import pandas as pd
```

# Estruturas de dados do pandas

O pandas fornece duas estruturas de dados principais: Series e os DataFrames.

## Series

Uma Series é uma matriz unidimensional que contém uma sequência de valores e um índice. Você pode criar uma Series passando uma lista de valores para o construtor Series.

In [1]:
import pandas as pd

In [2]:
data = [1, 2, 3, 4, 5]

s = pd.Series(data)

print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


## DataFrames

Um DataFrame é uma estrutura de dados bidimensional que contém uma coleção de colunas. Cada coluna em um DataFrame é uma Series. Você pode criar um DataFrame passando um dicionário de listas para o construtor DataFrame.

In [4]:
# Criando um DataFrame

dataframe = {
    'Nome': ['João', 'Maria', 'José', 'Pedro'],
    'Idade': [22, 35, 30, 40],
    'Altura': [1.75, 1.65, 1.80, 1.70]
}

# Criando um DataFrame a partir de um dicionário
df = pd.DataFrame(dataframe)

print(df)

    Nome  Idade  Altura
0   João     22    1.75
1  Maria     35    1.65
2   José     30    1.80
3  Pedro     40    1.70


# Operações comuns com o Series

In [13]:
# Operações com series

# Criando uma série
s1 = pd.Series([1, 2, 3, 4, 5, 6])

# Adicionando 2 a cada elemento da série (inplace)
s2 = s1.add(2)
print("Adicionando 2 a cada elemento da série")
print(s2)

# Subtraindo 1 a cada elemento da série (inplace)
print("Subtraindo 1 a cada elemento da série")
s3 = s1.sub(1)
print(s3)

# Multiplicando por 2 cada elemento da série (inplace)
print("Multiplicando por 2 cada elemento da série")
s4 = s1.mul(2)
print(s4)

# Pegando um elemento da série
print("Pegando um elemento da série")
print(s1[1])

# Pegando os 3 primeiros elementos da série
print("Pegando os 3 primeiros elementos da série")
print(s1[:3])

# Pegando os 3 elementos do meio da série
print("Pegando os 3 elementos do meio da série")
print(s1[1:4])

# Pegando os 3 últimos elementos da série
print("Pegando os 3 últimos elementos da série")
print(s1[-3:])

# Pegando os elementos da série que são maiores que 10
print("Pegando os elementos da série que são maiores que 4")
print(s1[s1 > 4])

# Procurando um elemento na série com o método isin (SE EXISTE OU NÃO)
print("Procurando o número 3 na série")
print(s1.isin([3]))

# Retirando os elementos da série que são maiores que 4
print("Retirando os elementos da série que são maiores que 4")
s1.drop(s1[s1 > 4].index, inplace=True)
print(s1)

# Usando o método loc para pegar um elemento da série
print("Pegando o número 3 da série")
print(s1.loc[2])

# Adicionando um elemento na série
print("Adicionando o número 7 na série")
s1.loc[6] = 7
print(s1)


Adicionando 2 a cada elemento da série
0    3
1    4
2    5
3    6
4    7
5    8
dtype: int64
Subtraindo 1 a cada elemento da série
0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64
Multiplicando por 2 cada elemento da série
0     2
1     4
2     6
3     8
4    10
5    12
dtype: int64
Pegando um elemento da série
2
Pegando os 3 primeiros elementos da série
0    1
1    2
2    3
dtype: int64
Pegando os 3 elementos do meio da série
1    2
2    3
3    4
dtype: int64
Pegando os 3 últimos elementos da série
3    4
4    5
5    6
dtype: int64
Pegando os elementos da série que são maiores que 4
4    5
5    6
dtype: int64
Procurando o número 3 na série
0    False
1    False
2     True
3    False
4    False
5    False
dtype: bool
Retirando os elementos da série que são maiores que 4
0    1
1    2
2    3
3    4
dtype: int64
Pegando o número 3 da série
3
Adicionando o número 7 na série
0    1
1    2
2    3
3    4
6    7
dtype: int64


In [24]:
# Operações com DataFrames

# Criando um DataFrame (Nome, Idade, Altura, Sexo)

dataframe = {
    'Nome': ['João', 'Maria', 'José', 'Pedro'],
    'Idade': [22, 35, 30, 40],
    'Altura': [1.75, 1.65, 1.80, 1.70],
    'Sexo': ['M', 'F', 'M', 'M']
}

df = pd.DataFrame(dataframe)

# Mostrando o DataFrame
print(df)

# Mostrando uma coluna do DataFrame
print("Mostrando a coluna Nome do DataFrame")
print(df['Nome'])

# Mudando o nome da coluna Nome para Primeiro Nome
df.rename(columns={'Nome': 'Primeiro Nome'}, inplace=True)
print("Mudando o nome da coluna Nome para Primeiro Nome")
print(df)

# Mostrando as 2 primeiras linhas do DataFrame
print("Mostrando as 2 primeiras linhas do DataFrame")
print(df[:2])

# Mostrando as 2 últimas linhas do DataFrame
print("Mostrando as 2 últimas linhas do DataFrame")
print(df[-2:])

# Mostrando as linhas do DataFrame que tem a idade maior que 30
print("Mostrando as linhas do DataFrame que tem a idade maior que 30")
print([df['Idade'] > 30]) # Retorna um booleano de cada linha
print(df[df['Idade'] > 30]) # Retorna as linhas que tem valor True

# Mostrando as linhas do DataFrame que tem a idade maior que 30 e o sexo é M
print("Mostrando as linhas do DataFrame que tem a idade maior que 30 e o sexo é F")
print(df[(df['Idade'] > 30) & (df['Sexo'] == 'F')]) # Primeiro parenteses é para a idade e o segundo para o sexo

# Retirando linhas onde idade é maior que 30
print("Retirando linhas onde idade é maior que 30")
df.drop(df[df['Idade'] > 30].index, inplace=True)
print(df)

# Modificando um elemento do DataFrame
print("Modificando o nome do elemento 1 para Ana")
df.loc[2, 'Primeiro Nome'] = 'Ana'
print(df)

# Localizando o "João" no DataFrame e mudando sua idade para 25
print("Localizando o João no DataFrame e mudando sua idade para 25")
df.loc[df['Primeiro Nome'] == 'João', 'Idade'] = 25
print(df)

# Multiplicando a idade por 2
print("Multiplicando a idade por 2")
df['Idade'].mul(2) # Não altera o DataFrame pois não foi passado o mul() não usa o inplace
df['Idade'] *= 2 # Altera o DataFrame pois foi passado o *= que é o mesmo que df['Idade'] = df['Idade'] * 2
print(df)

    Nome  Idade  Altura Sexo
0   João     22    1.75    M
1  Maria     35    1.65    F
2   José     30    1.80    M
3  Pedro     40    1.70    M
Mostrando a coluna Nome do DataFrame
0     João
1    Maria
2     José
3    Pedro
Name: Nome, dtype: object
Mudando o nome da coluna Nome para Primeiro Nome
  Primeiro Nome  Idade  Altura Sexo
0          João     22    1.75    M
1         Maria     35    1.65    F
2          José     30    1.80    M
3         Pedro     40    1.70    M
Mostrando as 2 primeiras linhas do DataFrame
  Primeiro Nome  Idade  Altura Sexo
0          João     22    1.75    M
1         Maria     35    1.65    F
Mostrando as 2 últimas linhas do DataFrame
  Primeiro Nome  Idade  Altura Sexo
2          José     30     1.8    M
3         Pedro     40     1.7    M
Mostrando as linhas do DataFrame que tem a idade maior que 30
[0    False
1     True
2    False
3     True
Name: Idade, dtype: bool]
  Primeiro Nome  Idade  Altura Sexo
1         Maria     35    1.65    F
3         

## Operações extras

Além das operações comuns, o pandas fornece muitas operações extras que você pode usar para manipular dados, vejam mais abaixo.

In [27]:
# Criando um excel com o DataFrame
df.to_excel('dataframe.xlsx', index=False)

# Criando um csv com o DataFrame
df.to_csv('dataframe.csv', index=False)

# Lendo um arquivo excel
excel_df = pd.read_excel('dataframe.xlsx')
print(excel_df)

# Lendo um arquivo csv
csv_df = pd.read_csv('dataframe.csv')
print(csv_df)

# Retirado todos valores null do DataFrame
print("Retirado todos valores null do DataFrame")
df.dropna(inplace=True)

# Substituindo todos valores null por 0
print("Substituindo todos valores null por 0")
df.fillna(0, inplace=True)

# Descritivo do DataFrame
print("Descritivo do DataFrame")
print(df.describe())
# O describe() traz informações como média, desvio padrão, mínimo, máximo, quartis, etc

  Primeiro Nome  Idade  Altura Sexo
0          João     50    1.75    M
1           Ana     60    1.80    M
  Primeiro Nome  Idade  Altura Sexo
0          João     50    1.75    M
1           Ana     60    1.80    M
Retirado todos valores null do DataFrame
Substituindo todos valores null por 0
Descritivo do DataFrame
           Idade    Altura
count   2.000000  2.000000
mean   55.000000  1.775000
std     7.071068  0.035355
min    50.000000  1.750000
25%    52.500000  1.762500
50%    55.000000  1.775000
75%    57.500000  1.787500
max    60.000000  1.800000
