# Introdução ao Pandas

# Importando a Biblioteca Pandas

In [1]:
import pandas as pd

# Criando Series

In [2]:
# Criando uma Série formada por nomes de bandas e cantores famosos
artistas_1 = pd.Series(["Beatles", "Michael Jackson", "Rihanna", "Skank"])
artistas_1

0            Beatles
1    Michael Jackson
2            Rihanna
3              Skank
dtype: object

In [3]:
# Acessando um valor com índice de posição
artistas_1[0]

'Beatles'

In [4]:
# Criando uma Série formada por nomes de bandas e cantores famosos
# Especificando os índices para cada tipo: banda ou artista
artistas = pd.Series(["Beatles", "Michael Jackson", "Rihanna", "Skank"],
                     index=["banda", "artista", "artista", "banda"])
artistas

banda              Beatles
artista    Michael Jackson
artista            Rihanna
banda                Skank
dtype: object

In [5]:
# Como utilizamos índices não exclusivos, 
# para acessar os valores de todas as 'bandas' contida na série, 
# basta usar:
artistas['banda']

banda    Beatles
banda      Skank
dtype: object

# Criando Dataframes

In [6]:
# Construindo um dataframe a partir de uma lista de elementos
df = pd.DataFrame([["Bronze", 200], ["Prata", 350], ["Ouro", 550]])
df

Unnamed: 0,0,1
0,Bronze,200
1,Prata,350
2,Ouro,550


In [7]:
# Construindo um dataframe a partir de um dicionário
data = {'Medalha': ["Bronze", "Prata", "Ouro"], 'Pontos': [200, 350, 550]}
df = pd.DataFrame(data)
df

Unnamed: 0,Medalha,Pontos
0,Bronze,200
1,Prata,350
2,Ouro,550


# Manipulando Series e Dataframes

### Manipulando estruturas

In [8]:
# Removendo linhas de uma Serie
# Para remover, basta especificar o índice que deseja remover
# Seja o índice numérico ou textual
artistas_1.drop([3])

0            Beatles
1    Michael Jackson
2            Rihanna
dtype: object

In [9]:
# Adicionando nova coluna no dataframe
df['Numero de Atletas'] = {10, 20, 30}
df

Unnamed: 0,Medalha,Pontos,Numero de Atletas
0,Bronze,200,10
1,Prata,350,20
2,Ouro,550,30


In [10]:
# Renomeando n colunas do dataframe
df.columns = ['Medalhas', 'Pontuação', 'Nº Atletas']
df

Unnamed: 0,Medalhas,Pontuação,Nº Atletas
0,Bronze,200,10
1,Prata,350,20
2,Ouro,550,30


In [11]:
# Concatenando séries
s1 = pd.Series(["Justin Timberlake", "Madona", "The Corrs"],
               index=["artista", "artista", "banda"])

artistas = artistas.append(s1)
artistas

banda                Beatles
artista      Michael Jackson
artista              Rihanna
banda                  Skank
artista    Justin Timberlake
artista               Madona
banda              The Corrs
dtype: object

In [12]:
# Concatenando dataframes
# Neste caso, o dataframe 'df1'será adicionado ao final do 'df'
# Logo, as colunas com dados ausentes ficam com o 'NaN'
df_copy = df

df1 = pd.DataFrame(
    {
        'Média de Idade': [22, 25, 28],
        'Média de Peso': [56, 58, 61]
    },
    index=[0, 1, 2])

# O parâmetro ignore_index=True faz a concatenação dando sequencia do índice do
# dataframe que sofre a concatenação (no caso, 3, 4 e 5)
df = df.append(df1, ignore_index=True)
df

Unnamed: 0,Medalhas,Pontuação,Nº Atletas,Média de Idade,Média de Peso
0,Bronze,200.0,10.0,,
1,Prata,350.0,20.0,,
2,Ouro,550.0,30.0,,
3,,,,22.0,56.0
4,,,,25.0,58.0
5,,,,28.0,61.0


In [13]:
# Uma opção para juntar varias colunas é utilizando o Merge
# Neste caso, utilizamos os índices de ambos dataframes
# para realizar tal junção
df_merge_col = pd.merge(df_copy, df1, left_index=True, right_index=True)

df_merge_col

Unnamed: 0,Medalhas,Pontuação,Nº Atletas,Média de Idade,Média de Peso
0,Bronze,200,10,22,56
1,Prata,350,20,25,58
2,Ouro,550,30,28,61


### Informações sobre os objetos (series e dataframes)

In [14]:
# Numero de linhas da série 'artistas'
artistas.shape

(7,)

In [15]:
# Número de linhas e colunas do dataframe 'df'
df.shape

(6, 5)

In [16]:
# Índices da série 'artistas'
artistas.index

Index(['banda', 'artista', 'artista', 'banda', 'artista', 'artista', 'banda'], dtype='object')

In [17]:
# Índices do dataframe 'df'
df.index

RangeIndex(start=0, stop=6, step=1)

In [18]:
# Series não tem colunas, logo este comando nao funciona 

#artistas.columns

In [19]:
# Nomes das colunas do dataframe 'df'
df.columns

Index(['Medalhas', 'Pontuação', 'Nº Atletas', 'Média de Idade',
       'Média de Peso'],
      dtype='object')

In [20]:
# Tipo dos dados na série 'artistas'
artistas.dtypes

dtype('O')

In [21]:
# Tipos dos dados no dataframe 'df'
df.dtypes

Medalhas           object
Pontuação         float64
Nº Atletas        float64
Média de Idade    float64
Média de Peso     float64
dtype: object

### Resumo dos dados

In [22]:
# Exibindo os n (=2) primeiros elementos da série 'artistas'
artistas.head(2)

banda              Beatles
artista    Michael Jackson
dtype: object

In [23]:
# Exibindo os n (=2) primeiros elementos do dataframe 'df'
df.head(2)

Unnamed: 0,Medalhas,Pontuação,Nº Atletas,Média de Idade,Média de Peso
0,Bronze,200.0,10.0,,
1,Prata,350.0,20.0,,


In [24]:
# Exibindo os n (=2) últimos elementos da série 'artistas'
artistas.tail(2)

artista       Madona
banda      The Corrs
dtype: object

In [25]:
# Exibindo os n (=2) últimos elementos do dataframe 'df'
df.tail(2)

Unnamed: 0,Medalhas,Pontuação,Nº Atletas,Média de Idade,Média de Peso
4,,,,25.0,58.0
5,,,,28.0,61.0


In [26]:
# SOMA dos valores do índice 'banda' da série artistas
# Como nesta série não possuimos valores, a soma se dá pela
# concatenação de strings
artistas['banda'].sum()

'BeatlesSkankThe Corrs'

In [27]:
# SOMA dos valores da coluna 'Pontuação' do dataframe 'df'
df['Pontuação'].sum()

1100.0

In [28]:
# Valor MÍNIMO da série 'artistas'
# Como é uma série de strings, o valor mínimo é o primeiro elemento
artistas.min()

'Beatles'

In [29]:
# Valores MÍNIMOS do dataframe 'df'
# Como não foi especificado nenhuma coluna, todas as colunas numéricas
# foram retornadas com seus respectivos valores mínimos
df.min()

Pontuação         200.0
Nº Atletas         10.0
Média de Idade     22.0
Média de Peso      56.0
dtype: float64

In [30]:
# Valores MÁXIMOS da serie 'artistas'
# Como é uma série de strings, o valor máximo é o último elemento
artistas.max()

'The Corrs'

In [31]:
# Valores MÁXIMOS da coluna 'Pontuação' do dataframe 'df'
# se não especificarmos uma coluna, todas as colunas numéricas
# serão retornadas
df['Pontuação'].max()

550.0

In [32]:
# MÉDIA de valores da série 'artistas'
# como não possui valores numéricos, esta função não se aplica a esta série

#artistas.mean()

In [33]:
# MÉDIA de valores do dataframe 'df'
# Se quiser a média de uma única coluna, basta especificá-la
df.mean()

Pontuação         366.666667
Nº Atletas         20.000000
Média de Idade     25.000000
Média de Peso      58.333333
dtype: float64

In [34]:
# MEDIANA dos valores da série 'artistas'
#como não possui valores numéricos, esta função não se aplica a esta série

#artistas.median()

In [35]:
# MEDIANA dos valores do dataframe 'df'
# Se quiser a mediana de uma única coluna, basta especificá-la
df.median()

Pontuação         350.0
Nº Atletas         20.0
Média de Idade     25.0
Média de Peso      58.0
dtype: float64

In [36]:
# CONTAGEM de elementos da série 'artistas'
artistas.count()

7

In [37]:
# CONTAGEM de elementos de cada coluna do dataframe 'df'
# Se quiser a contagem de uma única coluna, basta especificá-la
df.count()

Medalhas          3
Pontuação         3
Nº Atletas        3
Média de Idade    3
Média de Peso     3
dtype: int64

In [38]:
# Resumo dos dados da série 'artistas'
# Note que as informações retornadas variam de acordo com
# os dados disponíveis
artistas.describe()

count         7
unique        7
top       Skank
freq          1
dtype: object

In [39]:
# Resumo dos dados d0 dataframe 'df'
# Note que as informações retornadas variam de acordo com
# os dados disponíveis
df.describe()

Unnamed: 0,Pontuação,Nº Atletas,Média de Idade,Média de Peso
count,3.0,3.0,3.0,3.0
mean,366.666667,20.0,25.0,58.333333
std,175.594229,10.0,3.0,2.516611
min,200.0,10.0,22.0,56.0
25%,275.0,15.0,23.5,57.0
50%,350.0,20.0,25.0,58.0
75%,450.0,25.0,26.5,59.5
max,550.0,30.0,28.0,61.0


## Conclusão

Este notebook introduziu a biblioteca pandas, apresentando como criar objetos do tipo series, como criar objetos do tipo dataframes e como manipular series e dataframes.

O próximo notebook ([2.4.Importacao.Dados.ipynb](2.4.Importacao.Dados.ipynb)) apresenta como importar dados externos para o pandas.
