## Pandas 

O Pandas é uma poderosa biblioteca de código aberto para análise e manipulação de dados em Python. Ele oferece estruturas de dados flexíveis e ferramentas para trabalhar com dados estruturados de forma rápida e fácil. 
O Pandas é chamado de "Excel do Python" devido à sua semelhança com as funcionalidades oferecidas pelo Excel. 

Documentação: https://pandas.pydata.org/docs/

Guia de usuario: https://pandas.pydata.org/docs/user_guide/index.html

In [157]:
# !pip install -q pandas

In [158]:
import pandas as pd
pd.__version__

'1.4.4'

## Manipulação de dados e data frames

In [159]:
from pandas import DataFrame

In [181]:
# Criando um dicionario
dados =   { 
    'Pais': ['Brasil', 'Estados Unidos', 'China', 'Índia', 'Rússia', 'Brasil', 'China'],
    'Ano': [2019, 2020, 2019, 2020, 2019, 2018, 2018],
    'Taxa': [2.3, 1.5, 6.1, 5.0, 1.3, 1.5, 1.5]
}

# Tranformando os dados em um data frame
df_paises = DataFrame(dados)

print(type(df_paises))

df_paises

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Pais,Ano,Taxa
0,Brasil,2019,2.3
1,Estados Unidos,2020,1.5
2,China,2019,6.1
3,Índia,2020,5.0
4,Rússia,2019,1.3
5,Brasil,2018,1.5
6,China,2018,1.5


In [193]:
# Visualiza as ultimas linhas
df_paises.tail(2)

Unnamed: 0,Pais,Ano,Taxa
5,Brasil,2018,1.5
6,China,2018,1.5


In [196]:
# Retorna uma amostra aleatoria da tabela
df_paises.sample(2)

Unnamed: 0,Pais,Ano,Taxa
1,Estados Unidos,2020,1.5
5,Brasil,2018,1.5


In [75]:
# Reorganizando a ordem das colunas e criando uma nova coluna
df2 = DataFrame(dados, columns = ['Ano', 'Pais', 'Taxa', 'Taxa2'],
                index = ['p1','p2','p3','p4','p5']) # Especificar o nome da coluna, ou index

df2

Unnamed: 0,Ano,Pais,Taxa,Taxa2
p1,2019,Brasil,2.3,
p2,2020,Estados Unidos,1.5,
p3,2019,China,6.1,
p4,2020,Índia,5.0,
p5,2019,Rússia,1.3,


In [76]:
# Vizualizar colunas
df2.columns

Index(['Ano', 'Pais', 'Taxa', 'Taxa2'], dtype='object')

In [77]:
df2.values

array([[2019, 'Brasil', 2.3, nan],
       [2020, 'Estados Unidos', 1.5, nan],
       [2019, 'China', 6.1, nan],
       [2020, 'Índia', 5.0, nan],
       [2019, 'Rússia', 1.3, nan]], dtype=object)

In [78]:
df2.dtypes

Ano        int64
Pais      object
Taxa     float64
Taxa2     object
dtype: object

In [82]:
# filtrando pelo indice
df2.filter(items = ['p2'],  axis =0)

Unnamed: 0,Ano,Pais,Taxa,Taxa2
p2,2020,Estados Unidos,1.5,


## NumPy e Pandas para manipulação de dados

In [46]:
# Resumo estatístico do data frame
df2.describe().round()

Unnamed: 0,Ano,Taxa
count,5.0,5.0
mean,2019.0,3.0
std,1.0,2.0
min,2019.0,1.0
25%,2019.0,2.0
50%,2019.0,2.0
75%,2020.0,5.0
max,2020.0,6.0


In [47]:
import numpy as np

In [51]:
# Verifica onde tem valor ausente
df2.isna()

Unnamed: 0,Ano,Pais,Taxa,Taxa2
1,False,False,False,True
2,False,False,False,True
3,False,False,False,True
4,False,False,False,True
5,False,False,False,True


In [49]:
df2['Taxa'].isna()

1    False
2    False
3    False
4    False
5    False
Name: Taxa, dtype: bool

In [90]:
# Preencher coluna com valores ausentes
df2['Taxa2'] = np.arange(5)

df2

Unnamed: 0,Ano,Pais,Taxa,Taxa2
p1,2019,Brasil,2.3,0
p2,2020,Estados Unidos,1.5,1
p3,2019,China,6.1,2
p4,2020,Índia,5.0,3
p5,2019,Rússia,1.3,4


In [91]:
df2.dtypes

Ano        int64
Pais      object
Taxa     float64
Taxa2      int32
dtype: object

In [67]:
# A coluna taxa2 não possui mais valores NA
df2.isna()

Unnamed: 0,Ano,Pais,Taxa,Taxa2
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False


## Slicing de DataFrames com pandas

In [None]:
# Acessar apenas uma coluna
df2['Pais']

In [94]:
# Acessar apenas duas colunas, passar uma lista como filtro
df2[['Pais', 'Ano']]

Unnamed: 0,Pais,Ano
p1,Brasil,2019
p2,Estados Unidos,2020
p3,China,2019
p4,Índia,2020
p5,Rússia,2019


In [87]:
# Podemos fatiar o dataframe pelo nome do indice, neste caso, não há comportamento exclusivo no ultimo indice
df2['p1':'p2']

Unnamed: 0,Ano,Pais,Taxa,Taxa2
p1,2019,Brasil,2.3,
p2,2020,Estados Unidos,1.5,


In [88]:
# Ao especificar valores, o data frame é fatiado pelo indice, tendo o comportamento exclusivo no ultimo indice
df2[0:1]

Unnamed: 0,Ano,Pais,Taxa,Taxa2
p1,2019,Brasil,2.3,


In [93]:
# filtrar onde a taxa é menor que 2
df2[df2['Taxa'] < 2]

Unnamed: 0,Ano,Pais,Taxa,Taxa2
p2,2020,Estados Unidos,1.5,1
p5,2019,Rússia,1.3,4


In [185]:
# Filtrar os anos 2019 e 2020 com isin()
df_paises[df_paises['Ano'].isin([2019, 2020])]

Unnamed: 0,Pais,Ano,Taxa
0,Brasil,2019,2.3
1,Estados Unidos,2020,1.5
2,China,2019,6.1
3,Índia,2020,5.0
4,Rússia,2019,1.3


In [201]:
# slicing com operadores logicos
df_paises[(df_paises.Pais == 'Brasil') & (df_paises.Ano == 2018)]

Unnamed: 0,Pais,Ano,Taxa
5,Brasil,2018,1.5


## Valores ausentes 

### Preenchendo valores ausentes

A função `fillna()` é um método da biblioteca Pandas que permite preencher valores ausentes (NaN) em um DataFrame ou em uma Series com um valor específico, uma função agregada (por exemplo, média), valor anterior ou seguinte.

Sintaxe:

```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
```

- `value`: O valor a ser usado para preencher os dados ausentes.
- `method`: Método opcional de preenchimento, como 'ffill' (preenchimento para frente) ou 'bfill' (preenchimento para trás).
- `axis`: Especifica o eixo ao longo do qual preencher os valores ausentes (0 para índices e 1 para colunas).
- `inplace`: Se True, modifica o DataFrame original; se False, retorna uma cópia com os valores preenchidos.
- `limit`: Limita o número de preenchimentos consecutivos quando `method` é usado.
- `downcast`: Converte os dados preenchidos em um tipo de dados mais eficiente, se possível.



In [155]:
# Criando um DataFrame de exemplo
dados = {
    'A': [1, 2, 3, 4, 5, 6],
    'B': ['a', 'b', 'c', 'b', 'b', 'b'],
    'C': ['x', 'y', None, 'z', 'x', 'x']
}

df_fill = pd.DataFrame(dados)

print(df_fill)

   A  B     C
0  1  a     x
1  2  b     y
2  3  c  None
3  4  b     z
4  5  b     x
5  6  b     x


Podemos verificar os valores ausentes na tabela usando `isnull().sum()`

In [151]:
df_fill.isnull().sum()

A    0
B    0
C    1
dtype: int64

Preenchendo valor com moda, ou seja, valor que mais aparece.

In [152]:
moda = df_fill["C"].value_counts().index[0]
moda

'x'

In [154]:

# Preenchendo os valores faltantes com a moda
df_fill["C"].fillna(moda, inplace = True)

print(df_fill)

   A  B  C
0  1  a  x
1  2  b  y
2  3  c  x
3  4  b  z
4  5  b  x
5  6  b  x


## Query

O método `query()` em Pandas é uma forma conveniente de selecionar dados de um DataFrame usando uma expressão booleana como filtro. Ele permite que você especifique uma condição usando uma sintaxe semelhante à linguagem SQL para filtrar linhas com base em valores de colunas.

Sintaxe básica:

```python
df.query('condição')
```

Exemplo, usando a tabela de paises, criado anteriormente:

In [164]:
df_paises

Unnamed: 0,Pais,Ano,Taxa
0,Brasil,2019,2.3
1,Estados Unidos,2020,1.5
2,China,2019,6.1
3,Índia,2020,5.0
4,Rússia,2019,1.3


In [168]:
# filtrar apenas ano de 2019
df_paises.query("Ano == 2019")

Unnamed: 0,Pais,Ano,Taxa
0,Brasil,2019,2.3
2,China,2019,6.1
4,Rússia,2019,1.3



O método `query()` também permite usar variáveis no lugar de valores fixos na expressão de consulta. Você pode passar variáveis para a consulta usando a sintaxe `@variável`. 

Por exemplo, vamos filtrar apenas paises com taxa abaixo da média:

In [177]:
media_taxa = df_paises['Taxa'].mean()
media_taxa

In [179]:
df_paises.query('Taxa < @media_taxa')

Unnamed: 0,Pais,Ano,Taxa
0,Brasil,2019,2.3
1,Estados Unidos,2020,1.5
4,Rússia,2019,1.3


In [189]:
df_paises.tail()

Unnamed: 0,Pais,Ano,Taxa
2,China,2019,6.1
3,Índia,2020,5.0
4,Rússia,2019,1.3
5,Brasil,2018,1.5
6,China,2018,1.5


## Agrupamento de dados

O método `groupby()` em Pandas é usado para dividir os dados em grupos com base em valores de uma ou mais colunas. Depois de agrupar os dados, você pode aplicar uma função de agregação, como soma, média, contagem, máximo ou mínimo, a cada grupo. Isso é útil para realizar análises agregadas em conjuntos de dados.



In [221]:
# Calcular média por Pais
df_paises[['Pais', 'Taxa']].groupby(['Pais']).mean()

Unnamed: 0_level_0,Taxa
Pais,Unnamed: 1_level_1
Brasil,1.9
China,3.8
Estados Unidos,1.5
Rússia,1.3
Índia,5.0


In [246]:
# Mostra o agrupamento por pais e ano
print(
    df_paises.groupby(['Pais', 'Ano']).mean()
    )

                     Taxa
Pais           Ano       
Brasil         2018   1.5
               2019   2.3
China          2018   1.5
               2019   6.1
Estados Unidos 2020   1.5
Rússia         2019   1.3
Índia          2020   5.0


In [253]:
# Calculo média e desvio padrao da taxa por mais
df_paises[['Pais', 'Taxa']].groupby(['Pais']).agg(['mean', 'std', 'count'])

Unnamed: 0_level_0,Taxa,Taxa,Taxa
Unnamed: 0_level_1,mean,std,count
Pais,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Brasil,1.9,0.565685,2
China,3.8,3.252691,2
Estados Unidos,1.5,,1
Rússia,1.3,,1
Índia,5.0,,1


In [224]:
iris_df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

# Exibindo as primeiras linhas do DataFrame
print(iris_df.head())

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [227]:
# Usando groupby para agrupar os dados pela coluna 'species'
grupos = iris_df.groupby('species')

# Calculando a média de cada grupo para as colunas numéricas
medias = grupos.mean()

# Exibindo as médias de cada grupo
print(medias)

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa             5.006        3.428         1.462        0.246
versicolor         5.936        2.770         4.260        1.326
virginica          6.588        2.974         5.552        2.026


In [245]:
# Aplicando diferentes funções de agregação a diferentes colunas
grupos.agg({
    'sepal_length': 'mean',
    'sepal_width': 'std',
    'petal_length': 'min',
    'petal_width': ['max', 'sum']
}).round(1)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,petal_width
Unnamed: 0_level_1,mean,std,min,max,sum
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
setosa,5.0,0.4,1.0,0.6,12.3
versicolor,5.9,0.3,3.0,1.8,66.3
virginica,6.6,0.3,4.5,2.5,101.3


### Manipulando data frame com strings

`startswith()` e `endswith()` são métodos em Python usados para verificar se uma string começa ou termina com um determinado conjunto de caracteres, respectivamente.

In [265]:
#filtrar especies que começam com v
iris_df[iris_df.species.str.startswith('v')].head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor


In [266]:
iris_df['species'][iris_df.species.str.startswith('v')].value_counts()

versicolor    50
virginica     50
Name: species, dtype: int64

 #### Split
 
 Podemos dividir uma coluna de um DataFrame em várias colunas usando o método str.split() em uma Série (coluna) específica que contém strings.

In [335]:
# Exemplo de DataFrame
nomes = {'Nome Completo': ['João Silva', 'Maria Santos', 'Pedro Oliveira']}
df = pd.DataFrame(nomes)

# Dividindo a coluna 'Nome Completo' em duas colunas: 'Nome' e 'Sobrenome'
df['Nome Completo'].str.split(' ')


0        [João, Silva]
1      [Maria, Santos]
2    [Pedro, Oliveira]
Name: Nome Completo, dtype: object

In [336]:
df[['Nome', 'Sobrenome']] = df['Nome Completo'].str.split(' ', expand=True)

print(df)

    Nome Completo   Nome Sobrenome
0      João Silva   João     Silva
1    Maria Santos  Maria    Santos
2  Pedro Oliveira  Pedro  Oliveira


### Cat

O método `str.cat()` no Pandas é usado para concatenar (juntar) strings em uma série de objetos

In [341]:
df['Nome_Sobrenome'] = df['Nome'].str.cat(df['Sobrenome'], sep = "_")

print(df)

    Nome Completo   Nome Sobrenome  Nome_Sobrenome
0      João Silva   João     Silva      João_Silva
1    Maria Santos  Maria    Santos    Maria_Santos
2  Pedro Oliveira  Pedro  Oliveira  Pedro_Oliveira


#### Strip

O método `str.strip()` em uma série do Pandas é usado para remover os espaços em branco no início e no final de cada string na série. Ele é útil para limpar dados de strings que podem ter espaços adicionais desnecessários.

In [300]:
df = pd.DataFrame({'Comidas': ['   Pão', 'Macarrão   ', '  Churrasco   ']})

In [286]:
# Removendo espaços em branco no início
df['Comidas'].str.lstrip().values

array(['Pão', 'Macarrão   ', 'Churrasco   '], dtype=object)

In [287]:
# Removendo espaços em branco no final
df['Comidas'].str.rstrip().values

array(['   Pão', 'Macarrão', '  Churrasco'], dtype=object)

In [305]:
# Removendo espaços em branco no início e no final 
df['Comidas'] = df['Comidas'].str.strip()

print(df.values)

[['Pão']
 ['Macarrão']
 ['Churrasco']]


In [299]:
# Especificando o(s) caracter(es) para ser removido
df['Comidas'].str.strip("co").values

array(['Pã', 'Macarrã', 'Churras'], dtype=object)

### Replace


O método `replace()` é usado para substituir valores em uma série por outros valores especificados.

In [310]:
# Carregando o conjunto de dados do Titanic
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
titanic_df = pd.read_csv(url, usecols = ['Name', 'Age', 'Sex'])

print(titanic_df.head(3))

                                                Name     Sex   Age
0                            Braund, Mr. Owen Harris    male  22.0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0
2                             Heikkinen, Miss. Laina  female  26.0


In [324]:
# Substituindo valores na coluna 'Sex'
titanic_df['Sex'] = titanic_df['Sex'].replace({'male': 'homem', 'female': 'mulher'})

# Exibindo as primeiras linhas do DataFrame após a substituição
print(titanic_df.head(3))

                                                Name     Sex   Age
0                         Braund, Senhor Owen Harris   homem  22.0
1  Cumings, Senhor. John Bradley (Florence Briggs...  mulher  38.0
2                             Heikkinen, Miss. Laina  mulher  26.0


O método `str.replace()` em uma série do Pandas é usado para substituir partes de strings por outros valores. 

In [322]:
# Substituindo 'Mr.' por 'Senhor' na coluna 'Name'
titanic_df['Name'] = titanic_df['Name'].str.replace('Mr.', 'Senhor')

print(titanic_df['Name'].head())

0                           Braund, Senhor Owen Harris
1    Cumings, Senhor. John Bradley (Florence Briggs...
2                               Heikkinen, Miss. Laina
3      Futrelle, Senhor. Jacques Heath (Lily May Peel)
4                          Allen, Senhor William Henry
Name: Name, dtype: object


  titanic_df['Name'] = titanic_df['Name'].str.replace('Mr.', 'Senhor')


## Gráficos Simples

O pandas permite a criação de diversos gráficos de forma rápida e simples.

Exemplos: 

In [387]:
print(iris_df.head(3))

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa


In [384]:
#iris_df.plot.scatter(x = 'sepal_length', y = 'sepal_width')

In [383]:
#iris_df.plot.area()

Outros gráficos:

https://pandas.pydata.org/docs/user_guide/visualization.html