## Pandas

Para atualizar o Pandas, abra o prompt de comando ou terminal e digite: pip install pandas -U

Para importar o pandas, utilize: 
import pandas as pd

Você também pode utilizar: 
from pandas import Series, DataFrame  

Antes de poder usar o Pandas, você precisará importá-la usando a seguinte linha de código. Usaremos a abreviação pd para simplificar nossas chamadas de função no futuro.

In [2]:
import pandas as pd
import numpy as np

## Pandas: Series e Dataframes

### Series

In [2]:
idades = [13,15,19]
serie1 = pd.Series(idades)
print(serie1)

0    13
1    15
2    19
dtype: int64


Ao imprimir uma Série, o tipo de dados de seus elementos também é impresso. Para personalizar os índices de um objeto Series, use o argumento index no construtor da Series.

In [3]:
# Criando uma série usando o array NumPy de idades,
# mas alterando os índices para serem os nomes que correspondem a cada idade
idades = np.array([13,25,19])
serie1 = pd.Series(idades,index=['Jõao', 'Pedro', 'Maria'])
serie1

Jõao     13
Pedro    25
Maria    19
dtype: int64

### Dataframes

Um DataFrame pode conter muitos tipos diferentes de tipos de dados, mas dentro de uma coluna, tudo precisa ser do mesmo tipo de dados. Uma coluna de um DataFrame é essencialmente uma série.

Cada coluna tem um nome, que é uma string. Cada linha tem um índice, que é um número inteiro.

Existem diferentes maneiras de preencher um DataFrame, como um arquivo CSV, uma consulta SQL, uma lista Python ou um dicionário.

In [4]:
#Criando um dataframe a partir de um dicionário 
df1 = pd.DataFrame({
    'name': ['John Smith', 'Jane Doe', 'Joe Schmo'],
    'address': ['123 Main St.', '456 Maple Ave.', '789 Broadway'],
    'age': [34, 28, 51]
})

df1

Unnamed: 0,name,address,age
0,John Smith,123 Main St.,34
1,Jane Doe,456 Maple Ave.,28
2,Joe Schmo,789 Broadway,51


In [5]:
#Criando um dataframe a partir de uma lista
df2 = pd.DataFrame([
    ['João','Rua Porto Alegre, 123',34],
    ['Joana', 'Rua Pernambuco, 456 ',28],
    ['José', 'Rua XV, 789',51]
    ],
    columns=['nome','endereço','idade'])

df2

Unnamed: 0,nome,endereço,idade
0,João,"Rua Porto Alegre, 123",34
1,Joana,"Rua Pernambuco, 456",28
2,José,"Rua XV, 789",51


No entanto, na maioria das vezes, trabalharemos com conjuntos de dados que já existem. Um dos formatos mais comuns para grandes conjuntos de dados é o CSV .

A primeira linha de um CSV contém cabeçalhos de coluna. Todas as linhas subsequentes contêm valores. Cada cabeçalho de coluna e cada variável são separados por uma vírgula.

In [3]:
#Carregando um CSV em um DataFrame no Pandas usando .read_csv()
df3 = pd.read_csv('../files/iris.csv')
df3

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [7]:
#Também podemos salvar dados de um dataframe em um CSV, usando .to_csv()
df3.to_csv('../files/iris2.csv')

## Inspecionar um DataFrame

Quando carregamos um novo DataFrame de um CSV, queremos saber como ele se parece.Se for um DataFrame pequeno, você pode exibi-lo digitando print(df).Se for um DataFrame maior, é útil poder inspecionar alguns itens sem precisar examinar o DataFrame inteiro.

O método .head()fornece as primeiras 5 linhas de um DataFrame. 

Os métodos .info() e .describe() fornecem algumas estatísticas para cada coluna.

In [8]:
df3.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [9]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [10]:
df3.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## Selecionar colunas

In [11]:
df = pd.DataFrame({'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'], 
        'Ano': [2002, 2003, 2004, 2005, 2006], 
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]})
df

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [12]:
estados = df['Estado']
estados

0    Santa Catarina
1            Paraná
2             Goiás
3             Bahia
4      Minas Gerais
Name: Estado, dtype: object

Quando você tem um DataFrame maior, talvez queira selecionar apenas algumas colunas.

In [13]:
#Para selecionar duas ou mais colunas de um DataFrame, usamos uma lista dos nomes das colunas.
novoDF = df[['Estado','População']]
novoDF

Unnamed: 0,Estado,População
0,Santa Catarina,1.5
1,Paraná,1.7
2,Goiás,3.6
3,Bahia,2.4
4,Minas Gerais,2.9


## Selecionar linhas

Os DataFrames são indexados a zero, o que significa que começamos com a linha 0 e contamos a partir daí.

In [14]:
#Selecionado uma linha
df.iloc[0]

Estado       Santa Catarina
Ano                    2002
População               1.5
Name: 0, dtype: object

In [None]:
# Selecionado várias linhas

In [15]:
df.iloc[2:4]

Unnamed: 0,Estado,Ano,População
2,Goiás,2004,3.6
3,Bahia,2005,2.4


In [16]:
df.iloc[:3]

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6


In [17]:
df.iloc[-2:]

Unnamed: 0,Estado,Ano,População
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [None]:
# Selecionado linhas utilizando instruções lógicas

In [18]:
df[df.População > 2]

Unnamed: 0,Estado,Ano,População
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [19]:
df[df.População < 2]

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7


In [20]:
df2 = df[df.Estado != 'Goiás']
df2

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [21]:
# Quando selecionamos um subconjunto de um DataFrame usando lógica, acabamos com índices não consecutivos.
# Podemos corrigir isso usando o método .reset_index().
df3 = df2.reset_index()
df3

Unnamed: 0,index,Estado,Ano,População
0,0,Santa Catarina,2002,1.5
1,1,Paraná,2003,1.7
2,3,Bahia,2005,2.4
3,4,Minas Gerais,2006,2.9


In [22]:
df2.reset_index(inplace = True, drop = True)
df2

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Bahia,2005,2.4
3,Minas Gerais,2006,2.9


In [23]:
df = pd.read_csv('../files/olimpíadas.csv')

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 269718 entries, 0 to 269717
Data columns (total 15 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   ano          269718 non-null  int64  
 1   edicao       269718 non-null  object 
 2   cidade_sede  269718 non-null  object 
 3   pais         269348 non-null  object 
 4   delegacao    269718 non-null  object 
 5   equipe       269718 non-null  object 
 6   id_atleta    269718 non-null  int64  
 7   nome_atleta  269718 non-null  object 
 8   sexo         269718 non-null  object 
 9   idade        260410 non-null  float64
 10  altura       210917 non-null  float64
 11  peso         208204 non-null  float64
 12  esporte      269718 non-null  object 
 13  evento       269718 non-null  object 
 14  medalha      39772 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 30.9+ MB


In [25]:
#combinando várias instruções lógicas, desde que cada instrução esteja entre parênteses.
df[(df.pais == 'Brazil') & (df.medalha == 'Gold') & (df.ano >= 2004)]

Unnamed: 0,ano,edicao,cidade_sede,pais,delegacao,equipe,id_atleta,nome_atleta,sexo,idade,altura,peso,esporte,evento,medalha
203838,2004,Summer,Athina,Brazil,BRA,Brazil,3790,Anderson de Oliveira Rodrigues,M,30.0,190.0,95.0,Volleyball,Volleyball Men's Volleyball,Gold
203894,2004,Summer,Athina,Brazil,BRA,Brazil,25307,Dante Guimares Santos do Amaral,M,23.0,201.0,86.0,Volleyball,Volleyball Men's Volleyball,Gold
203934,2004,Summer,Athina,Brazil,BRA,Brazil-1,32468,Emanuel Fernando Scheffler Rego,M,31.0,190.0,80.0,Beach Volleyball,Beach Volleyball Men's Beach Volleyball,Gold
203936,2004,Summer,Athina,Brazil,BRA,Brazil,33095,"Srgio ""Escadinha"" Dutra dos Santos",M,28.0,184.0,78.0,Volleyball,Volleyball Men's Volleyball,Gold
203941,2004,Summer,Athina,Brazil,BRA,Brazil,34995,Marcelo Bastos Ferreira,M,38.0,181.0,104.0,Sailing,Sailing Men's Two Person Keelboat,Gold
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
258097,2016,Summer,Rio de Janeiro,Brazil,BRA,Brazil,128021,Walace Souza Silva,M,21.0,188.0,75.0,Football,Football Men's Football,Gold
258098,2016,Summer,Rio de Janeiro,Brazil,BRA,Brazil,128152,Wallace Leandro de Souza,M,29.0,198.0,87.0,Volleyball,Volleyball Men's Volleyball,Gold
258099,2016,Summer,Rio de Janeiro,Brazil,BRA,Brazil,129899,Wverton Pereira da Silva,M,28.0,189.0,86.0,Football,Football Men's Football,Gold
258100,2016,Summer,Rio de Janeiro,Brazil,BRA,Brazil,130541,William de Asevedo Furtado,M,21.0,176.0,65.0,Football,Football Men's Football,Gold


### Pandas: comandos básicos
https://pandas.pydata.org/docs/user_guide/10min.html

## Modificando DataFrames

### Adicionando uma Coluna

In [27]:
df = pd.DataFrame([
  [1, 'Parafuso de 3 polegadas', 0.5, 0.75],
  [2, 'Prego de duas polegadas', 0.10, 0.25],
  [3, 'Martelo', 3.00, 5.50],
  [4, 'Chave de fenda', 2.50, 3.00]
],
  columns=['ID do produto', 'Descrição', 'Custo de fabricação', 'preço']
)

In [28]:
df

Unnamed: 0,ID do produto,Descrição,Custo de fabricação,preço
0,1,Parafuso de 3 polegadas,0.5,0.75
1,2,Prego de duas polegadas,0.1,0.25
2,3,Martelo,3.0,5.5
3,4,Chave de fenda,2.5,3.0


In [29]:
# Adicionando uma coluna com novas informações
df['Quantidade'] = [100,150,50,35]
df

Unnamed: 0,ID do produto,Descrição,Custo de fabricação,preço,Quantidade
0,1,Parafuso de 3 polegadas,0.5,0.75,100
1,2,Prego de duas polegadas,0.1,0.25,150
2,3,Martelo,3.0,5.5,50
3,4,Chave de fenda,2.5,3.0,35


In [30]:
# Adicionando uma coluna com a mesma informação para todas as linhas.
df['Em estoque'] = 'Ok'
df

Unnamed: 0,ID do produto,Descrição,Custo de fabricação,preço,Quantidade,Em estoque
0,1,Parafuso de 3 polegadas,0.5,0.75,100,Ok
1,2,Prego de duas polegadas,0.1,0.25,150,Ok
2,3,Martelo,3.0,5.5,50,Ok
3,4,Chave de fenda,2.5,3.0,35,Ok


In [31]:
#Adicionando uma coluna executando uma operação 
#com dados das colunas existentes
df['Imposto sobre vendas'] = df.preço * 0.075
df

Unnamed: 0,ID do produto,Descrição,Custo de fabricação,preço,Quantidade,Em estoque,Imposto sobre vendas
0,1,Parafuso de 3 polegadas,0.5,0.75,100,Ok,0.05625
1,2,Prego de duas polegadas,0.1,0.25,150,Ok,0.01875
2,3,Martelo,3.0,5.5,50,Ok,0.4125
3,4,Chave de fenda,2.5,3.0,35,Ok,0.225


## Executando operações nas colunas existentes

In [32]:
df2 = pd.DataFrame([
  ['DANIEL GOMES SOARES', 'daniel.soares@ifc.edu.br'],
  ['Juliano Tonizetti Brignoli', 'juliano.brignoli@ifc.edu.br'],
  ['André Stein', 'andre.stein@ifc.edu.br'],
  ['Cristhian Heck', 'cristhian.heck@ifc.edu.br']
],
columns=['Nome', 'Email'])
df2

Unnamed: 0,Nome,Email
0,DANIEL GOMES SOARES,daniel.soares@ifc.edu.br
1,Juliano Tonizetti Brignoli,juliano.brignoli@ifc.edu.br
2,André Stein,andre.stein@ifc.edu.br
3,Cristhian Heck,cristhian.heck@ifc.edu.br


In [33]:
# Tornando todas os nomes maiúsculos
df2['Nome'] = df2.Nome.apply(str.upper)
df2

Unnamed: 0,Nome,Email
0,DANIEL GOMES SOARES,daniel.soares@ifc.edu.br
1,JULIANO TONIZETTI BRIGNOLI,juliano.brignoli@ifc.edu.br
2,ANDRÉ STEIN,andre.stein@ifc.edu.br
3,CRISTHIAN HECK,cristhian.heck@ifc.edu.br


Aplicando uma função Lambda a uma coluna

Em Pandas, geralmente usamos funções lambda para realizar operações complexas em colunas. 

In [34]:
df2['Provedor de email'] = df2.Email.apply(
    lambda x: x.split('@')[-1]
    )
df2

Unnamed: 0,Nome,Email,Provedor de email
0,DANIEL GOMES SOARES,daniel.soares@ifc.edu.br,ifc.edu.br
1,JULIANO TONIZETTI BRIGNOLI,juliano.brignoli@ifc.edu.br,ifc.edu.br
2,ANDRÉ STEIN,andre.stein@ifc.edu.br,ifc.edu.br
3,CRISTHIAN HECK,cristhian.heck@ifc.edu.br,ifc.edu.br


#### Renomenando colunas

Quando obtemos nossos dados de outras fontes, geralmente queremos alterar os nomes das colunas.

In [35]:
df = pd.DataFrame({
    'nome': ['João', 'Maria', 'Sofia', 'Fred'],
    'idade': [23, 29, 21, 18]
})

df.columns = ['Primeiro_Nome', 'Idade']

df

Unnamed: 0,Primeiro_Nome,Idade
0,João,23
1,Maria,29
2,Sofia,21
3,Fred,18


In [36]:
# Renomeando uma coluna específica
df = pd.read_csv('../files/Filmes.csv')
df.head()


Unnamed: 0,id,nome,genero,ano,nota_imdb
0,1,Avatar,action,2009.0,7.9
1,2,Jurassic World,action,2015.0,7.3
2,3,The Avengers,action,2012.0,8.1
3,4,The Dark Knight,action,2008.0,9.0
4,5,Star Wars: Episode I - The Phantom Menace,action,1999.0,6.6


In [37]:
df.rename(columns = {'nome': 'título_filme'}, inplace = True)

In [38]:
df.head()

Unnamed: 0,id,título_filme,genero,ano,nota_imdb
0,1,Avatar,action,2009.0,7.9
1,2,Jurassic World,action,2015.0,7.3
2,3,The Avengers,action,2012.0,8.1
3,4,The Dark Knight,action,2008.0,9.0
4,5,Star Wars: Episode I - The Phantom Menace,action,1999.0,6.6


## AGREGADOS EM PANDAS

Uma estatística agregada é uma maneira de criar um único número que descreve um grupo de números. 

As estatísticas agregadas comuns incluem média, mediana e desvio padrão.

In [39]:
df = pd.read_csv('../files/olimpíadas.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 269718 entries, 0 to 269717
Data columns (total 15 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   ano          269718 non-null  int64  
 1   edicao       269718 non-null  object 
 2   cidade_sede  269718 non-null  object 
 3   pais         269348 non-null  object 
 4   delegacao    269718 non-null  object 
 5   equipe       269718 non-null  object 
 6   id_atleta    269718 non-null  int64  
 7   nome_atleta  269718 non-null  object 
 8   sexo         269718 non-null  object 
 9   idade        260410 non-null  float64
 10  altura       210917 non-null  float64
 11  peso         208204 non-null  float64
 12  esporte      269718 non-null  object 
 13  evento       269718 non-null  object 
 14  medalha      39772 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 30.9+ MB


In [40]:
df.head(5)

Unnamed: 0,ano,edicao,cidade_sede,pais,delegacao,equipe,id_atleta,nome_atleta,sexo,idade,altura,peso,esporte,evento,medalha
0,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Athletics,"Athletics Men's 1,500 metres",Gold
1,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Athletics,Athletics Men's 800 metres,Gold
2,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Athletics,Athletics Men's Marathon,
3,1896,Summer,Athina,Australia,AUS,Australia/Great Britain,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Tennis,Tennis Men's Doubles,Bronze
4,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Tennis,Tennis Men's Singles,


### Calculando Estatísticas de Coluna

In [41]:
# mediana da coluna idade
df.idade.median()

24.0

In [42]:
# Número de valores únicos na coluna
df.cidade_sede.nunique()

42

In [43]:
# Lista de valores exclusivos na coluna
df.medalha.unique()

array(['Gold', nan, 'Bronze', 'Silver'], dtype=object)

In [44]:
# retirando valores nulos
df.medalha.dropna().unique()

array(['Gold', 'Bronze', 'Silver'], dtype=object)

#### Alguns comandos mais comuns

![image.png](attachment:image.png)

### Calculando Funções Agregadas

Quando temos muitos dados, geralmente queremos calcular estatísticas agregadas (média, desvio padrão, mediana, percentis etc.) 
sobre determinados subconjuntos de dados.

In [45]:
medalhas_por_pais = df.groupby('pais').medalha.count()
medalhas_por_pais[:20]

pais
Afghanistan          2
Albania              0
Algeria             17
American Samoa       0
Andorra              0
Angola               0
Antigua              0
Argentina          274
Armenia             16
Aruba                0
Australia         1349
Austria            450
Azerbaijan          44
Bahamas             40
Bahrain              3
Bangladesh           0
Barbados             1
Belarus            139
Belgium            468
Belize               0
Name: medalha, dtype: int64

In [None]:
# Em geral, usamos a seguinte sintaxe para calcular agregados:
# df.groupby('coluna1').coluna2.medição()

**coluna 1** é a coluna pela qual queremos agrupar ('pais' no no exemplo)

**coluna 2** é a coluna na qual queremos realizar uma medição (medalha no exemplo)

**medição** é a função de medição que queremos aplicar (count no exemplo)

In [46]:
medalhas_por_pais2 = df[(df.ano >= 2008)].groupby('pais').medalha.count()
medalhas_por_pais2[:20]

pais
Afghanistan         2
Albania             0
Algeria             5
American Samoa      0
Andorra             0
Angola              0
Antigua             0
Argentina          92
Armenia            13
Aruba               0
Australia         351
Austria            58
Azerbaijan         35
Bahamas            17
Bahrain             3
Bangladesh          0
Barbados            0
Belarus            73
Belgium            29
Belize              0
Name: medalha, dtype: int64

In [47]:
# agrupar por mais de uma coluna.
df2 = df.groupby(['pais','sexo']).medalha.count().reset_index()

In [48]:
df2.iloc[:20]

Unnamed: 0,pais,sexo,medalha
0,Afghanistan,F,0
1,Afghanistan,M,2
2,Albania,F,0
3,Albania,M,0
4,Algeria,F,3
5,Algeria,M,14
6,American Samoa,F,0
7,American Samoa,M,0
8,Andorra,F,0
9,Andorra,M,0


In [49]:
#Melhorando a apresentação dos dados = tabela dinâmica
df2.pivot(
    columns='sexo',
    index='pais',
    values='medalha')

sexo,F,M
pais,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,0,2
Albania,0,0
Algeria,3,14
American Samoa,0,0
Andorra,0,0
...,...,...
"Virgin Islands, British",0,0
"Virgin Islands, US",0,1
Yemen,0,0
Zambia,0,2


In [None]:
# df.pivot(columns='Coluna para pivotar',
#         index='Coluna que será linha ',
#         values='Coluna que será os valores')
        

Documentação pandas.DataFrame.groupby
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html#pandas.DataFrame.groupby

# Fim