<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/preditiva_assinatura.jpg">

# Introdução ao Pandas

O Pandas, assim como o Numpy, é central na aplicação de Data Science com o Python. Essa biblioteca extende as capacidades das matrizes do Numpy para uma estrutura mais familiar da análise de dados, o <i>dataframe</i> (conjunto de dados com linhas e colunas nominais). Veremos nessa seção como ler os dados de seu estudo, como manipular esses dados usando as principais funcionalidades do Pandas e, por fim, como exportar o resultado para compartilhamento futuro.

<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcRXCDD7q7wCVdRNtROzgtARnDThPmab6k2x7Q&usqp=CAU">

## Os principais tipos de estrutura do Pandas: Series e Dataframe.

### O objeto Series

Uma "série" do Pandas nada mais é do que uma matriz de N linhas e 1 (uma) coluna. Veja:

In [None]:
import pandas as pd # Essa é a convenção para importar o Pandas

In [2]:
serie = pd.Series([10,20,30,40,50])
serie

0    10
1    20
2    30
3    40
4    50
dtype: int64

Como vemos acima, uma série do Pandas é um conjunto de dados (a matriz) e seu índice (valores de 0 a 4 no exemplo).

In [3]:
serie.values

array([10, 20, 30, 40, 50], dtype=int64)

In [4]:
serie.index

RangeIndex(start=0, stop=5, step=1)

Podemos inclusive mudar os índices da série por strings. Veja:

In [5]:
serie = pd.Series([10,20,30,40,50],index=['a','b','c','d','e'])
serie

a    10
b    20
c    30
d    40
e    50
dtype: int64

Assim com as matrizes do Numpy, podemos acessar elementos da série usando seus índices. Veja:

In [6]:
serie['c']

30

In [7]:
serie[['c','a']]

c    30
a    10
dtype: int64

In [8]:
serie[1:3]

b    20
c    30
dtype: int64

Podemos construir séries do Pandas usando matrizes do Numpy. Veja:

In [2]:
import numpy as np
linha = np.random.random(10)
linha

array([0.64361488, 0.9182701 , 0.16789172, 0.53818577, 0.04786965,
       0.74947136, 0.76145996, 0.20972764, 0.87190432, 0.43851949])

In [10]:
serie2 = pd.Series(linha)
serie2

0    0.068559
1    0.977392
2    0.539866
3    0.356167
4    0.610669
5    0.272263
6    0.197094
7    0.028527
8    0.030243
9    0.386630
dtype: float64

### O objeto DataFrame

Um "DataFrame" do Pandas nada mais é do que uma matriz de N linhas e M colunas. Além disso, podemos pensar no DataFrame como um conjunto de séries do Pandas em conjunto. Veja:

In [11]:
serie1 = pd.Series(np.random.random(10))
serie2 = pd.Series(np.random.randint(1,10,10))

In [12]:
df = pd.DataFrame( {'coluna1': serie1,'coluna2': serie2} ) # Passamos um dicionário de séries para o DataFrame
df # df é um nome comum em Data Science para DataFrame

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7
3,0.364929,5
4,0.779416,4
5,0.203825,8
6,0.054268,3
7,0.754392,4
8,0.050565,9
9,0.130154,3


In [13]:
df.values

array([[0.66279909, 3.        ],
       [0.68345537, 9.        ],
       [0.93506262, 7.        ],
       [0.36492932, 5.        ],
       [0.7794159 , 4.        ],
       [0.20382468, 8.        ],
       [0.05426841, 3.        ],
       [0.75439172, 4.        ],
       [0.05056487, 9.        ],
       [0.13015424, 3.        ]])

In [14]:
df.index

RangeIndex(start=0, stop=10, step=1)

# Acessando elementos do DataFrame

Assim como as matrizes do Numpy, as séries e dataframes do Pandas possibilitam que acessemos os elementos com operações dos índices e filtros usando operadore de comparação. Veja alguns exemplos:

In [15]:
df

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7
3,0.364929,5
4,0.779416,4
5,0.203825,8
6,0.054268,3
7,0.754392,4
8,0.050565,9
9,0.130154,3


In [16]:
# Acessando as primeiras 3 linhas
df[0:3]

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7


<b>Dica:</b> Um método do Pandas muito comum para ver as primeiras linhas de um DataFrame é o método .head(). Veja:

In [17]:
df.head()

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7
3,0.364929,5
4,0.779416,4


In [18]:
df.head(10)

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7
3,0.364929,5
4,0.779416,4
5,0.203825,8
6,0.054268,3
7,0.754392,4
8,0.050565,9
9,0.130154,3


Dá mesma forma que temos o .head() para ver as primeiras linhas, temos o .tail() para ver as últimas. Veja:

In [19]:
df.tail(3)

Unnamed: 0,coluna1,coluna2
7,0.754392,4
8,0.050565,9
9,0.130154,3


In [20]:
# Acessando a segunda coluna
df[['coluna2']]

Unnamed: 0,coluna2
0,3
1,9
2,7
3,5
4,4
5,8
6,3
7,4
8,9
9,3


In [21]:
# Acessando a segunda coluna e as 3 primeiras linhas
df[['coluna2']][:3]

Unnamed: 0,coluna2
0,3
1,9
2,7


In [32]:
# Acessando apenas as linhas em que a "coluna1" for maior que 0.5

In [23]:
df['coluna1'] > 0.5

0     True
1     True
2     True
3    False
4     True
5    False
6    False
7     True
8    False
9    False
Name: coluna1, dtype: bool

In [24]:
df[ df['coluna1'] > 0.5 ]

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7
4,0.779416,4
7,0.754392,4


In [35]:
# Acessando apenas as linhas em que a "coluna1" for maior que 0.5 E a "coluna2" for maior que 8

In [25]:
df[ (df['coluna1'] > 0.5) & (df['coluna2'] > 8) ]

Unnamed: 0,coluna1,coluna2
1,0.683455,9


## Acessando índices específicos com os métodos .loc e .iloc

In [26]:
df

Unnamed: 0,coluna1,coluna2
0,0.662799,3
1,0.683455,9
2,0.935063,7
3,0.364929,5
4,0.779416,4
5,0.203825,8
6,0.054268,3
7,0.754392,4
8,0.050565,9
9,0.130154,3


In [27]:
df.index

RangeIndex(start=0, stop=10, step=1)

In [28]:
df = df.T # O método T aplica a transformação transposta a uma matriz

In [29]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
coluna1,0.662799,0.683455,0.935063,0.364929,0.779416,0.203825,0.054268,0.754392,0.050565,0.130154
coluna2,3.0,9.0,7.0,5.0,4.0,8.0,3.0,4.0,9.0,3.0


In [30]:
df.index

Index(['coluna1', 'coluna2'], dtype='object')

In [31]:
df.loc['coluna2'] # O método .loc busca o índices de string. Ex: "coluna1"

0    3.0
1    9.0
2    7.0
3    5.0
4    4.0
5    8.0
6    3.0
7    4.0
8    9.0
9    3.0
Name: coluna2, dtype: float64

In [32]:
df.iloc[1] # O método .iloc busca o índices numéricos (o i vem de integer). Ex: 0.

0    3.0
1    9.0
2    7.0
3    5.0
4    4.0
5    8.0
6    3.0
7    4.0
8    9.0
9    3.0
Name: coluna2, dtype: float64

In [33]:
df.loc['coluna2'] 

0    3.0
1    9.0
2    7.0
3    5.0
4    4.0
5    8.0
6    3.0
7    4.0
8    9.0
9    3.0
Name: coluna2, dtype: float64

In [34]:
df.iloc[1]

0    3.0
1    9.0
2    7.0
3    5.0
4    4.0
5    8.0
6    3.0
7    4.0
8    9.0
9    3.0
Name: coluna2, dtype: float64

In [35]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
coluna1,0.662799,0.683455,0.935063,0.364929,0.779416,0.203825,0.054268,0.754392,0.050565,0.130154
coluna2,3.0,9.0,7.0,5.0,4.0,8.0,3.0,4.0,9.0,3.0


In [37]:
df.iloc[1:,-2:] # Acessa o DataFrame a partir da linha de índice 1 e as últimas 2 colunas (-2)

Unnamed: 0,8,9
coluna2,9.0,3.0


# Juntando dados de diferentes DataFrames

Uma operação muito comum em manipulação de dados é a junção de diferentes DataFrames. Nesta seção vamos falar sobre essas operações, começando com a Concatenação e finalizando com os Merges e Joins de tabelas.

## Leitura e Escrita de bases externas

In [3]:
df = pd.read_csv("base.csv")

In [4]:
df # Perceba que as colunas não foram importadas corretamente

Unnamed: 0,A;B;C
0,A0;B0;C0
1,A1;B1;C1
2,A2;B2;C2
3,A3;B3;C3
4,A4;B4;C4


In [5]:
df = pd.read_csv("base.csv", sep=";")

In [6]:
df

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4


In [7]:
# Para escrever em disco um arquivo CSV, basta usar o método .to_csv()
df.to_csv("base_final.csv",sep=";")

## Concatenação

In [8]:
df

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4


In [9]:
df1 = df.iloc[:2]
df1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1


In [10]:
df2 = df.iloc[2:]
df2

Unnamed: 0,A,B,C
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4


In [56]:
# concatena os dois dataframes com o método .concat()

In [11]:
df3 = pd.concat((df1,df2))
df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4


## Merges e Joins

Pra quem já usou bancos de dados relacionais como o SQL já deve conhecer o JOIN de tabelas. Usuários de Microsoft Excel devem entender os JOIN's como o resultados de funções de procura como o PROCV. No Pandas, conseguimos performar essas mesmas operações usando o método .merge().

Em SQL, temos representações dos JOIN's conforme abaixo:
<br>
<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/sql_join.jpg">

<br>
Vamos entender como fazer essas operações no Pandas:

In [12]:
df1 = pd.DataFrame({'aluno': ['Joao','Maria','Helena','Joel','Gabriel'],
                    'idade': [30,25,18,29,45]})
df1

Unnamed: 0,aluno,idade
0,Joao,30
1,Maria,25
2,Helena,18
3,Joel,29
4,Gabriel,45


In [13]:
df2 = pd.DataFrame({'nome': ['Joao','Maria','Helena','Joel','Gabriel'],
                    'altura': [1.60,1.70,1.80,1.90,2.00]})
df2

Unnamed: 0,nome,altura
0,Joao,1.6
1,Maria,1.7
2,Helena,1.8
3,Joel,1.9
4,Gabriel,2.0


In [14]:
# Se quisermos juntar as informações de nome, idade e altura, precisamos usar o .merge() do Pandas da seguinte forma:
df3 = pd.merge(df1,df2,how='left',left_on='aluno',right_on='nome')
df3

Unnamed: 0,aluno,idade,nome,altura
0,Joao,30,Joao,1.6
1,Maria,25,Maria,1.7
2,Helena,18,Helena,1.8
3,Joel,29,Joel,1.9
4,Gabriel,45,Gabriel,2.0


In [15]:
# podemos remover um dos campos de nome com o comando .drop(). Veja:
df3 = pd.merge(df1,df2,how='left',left_on='aluno',right_on='nome').drop('nome',axis=1) # o axis = 1 representa uma coluna
df3

Unnamed: 0,aluno,idade,altura
0,Joao,30,1.6
1,Maria,25,1.7
2,Helena,18,1.8
3,Joel,29,1.9
4,Gabriel,45,2.0


O parâmetro "how" define o tipo de Join (no estilo SQL como vimos na figura acima) que queremos fazer. Veja um resumo abaixo:
<br><br>
<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/pandas_merge.png">

In [16]:
# Vejamos um exemplo de Inner (quando queremos apenas unir as tabelas cujos elementos sejam iguais)
df1

Unnamed: 0,aluno,idade
0,Joao,30
1,Maria,25
2,Helena,18
3,Joel,29
4,Gabriel,45


In [17]:
df4 = pd.DataFrame({'nome': ['Joel','Gabriel'],
                    'altura': [1.60,1.70]})
df4

Unnamed: 0,nome,altura
0,Joel,1.6
1,Gabriel,1.7


In [18]:
df5 = pd.merge(df1,df4,how='inner',left_on='aluno',right_on='nome').drop('nome',axis=1) # o axis = 1 representa uma coluna
df5

Unnamed: 0,aluno,idade,altura
0,Joel,29,1.6
1,Gabriel,45,1.7


Veja que apenas os alunos Joel e Gabriel existem nas duas tabelas. O <b>inner join</b> traz apenas esses elementos.

In [20]:
# Veja se fizéssemos um left join em um caso como esse:
df6 = pd.merge(df1,df4,how='left',left_on='aluno',right_on='nome').drop('nome',axis=1) # o axis = 1 representa uma coluna
df6

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


Como a tabela "right" (no caso, o df4) só tem informações para Joel e Gabriel, os outros alunos ficam sem informação e o Pandas atribui um tipo de dado chamado <b>NaN</b> (um tipo de dado faltante, isto é, um dado <i>missing</i>). Veremos como tratar dados missing nas próximas seções.

# Agregando dados no Pandas

Assim como fizemos no Numpy, o Pandas tem uma série de funções de agregação como `sum(), mean(), median(), min(), max()` e etc. Essa funções ajudam muito quando precisamos resumir variáveis em um dataframe. Vejamos como essas agregações funcionam:

In [22]:
# Vamos usar o pacote Seaborn para carregar um dataframe
import seaborn as sns
df = sns.load_dataset('flights')

In [23]:
df.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [24]:
df.shape

(144, 3)

In [25]:
df.tail()

Unnamed: 0,year,month,passengers
139,1960,Aug,606
140,1960,Sep,508
141,1960,Oct,461
142,1960,Nov,390
143,1960,Dec,432


In [26]:
df.dtypes

year             int64
month         category
passengers       int64
dtype: object

In [27]:
# O primeiro método de agregação muito simples é o .describe() . Veja o resultado:
df.describe()

Unnamed: 0,year,passengers
count,144.0,144.0
mean,1954.5,280.298611
std,3.464102,119.966317
min,1949.0,104.0
25%,1951.75,180.0
50%,1954.5,265.5
75%,1957.25,360.5
max,1960.0,622.0


Além disso, poderíamos extrair esses dados de forma individual usando as funções de agregação diretamente.

In [34]:
df[["year", "passengers"]].mean()

year          1954.500000
passengers     280.298611
dtype: float64

In [35]:
df[["year", "passengers"]].median()

year          1954.5
passengers     265.5
dtype: float64

In [41]:
df[ df['year'] == 1958 ]

Unnamed: 0,year,month,passengers
108,1958,Jan,340
109,1958,Feb,318
110,1958,Mar,362
111,1958,Apr,348
112,1958,May,363
113,1958,Jun,435
114,1958,Jul,491
115,1958,Aug,505
116,1958,Sep,404
117,1958,Oct,359


In [43]:
# Se quiséssemos extrair a média de passageiros de um determinado ano ? Ex: 1958 ?
df[ df['year'] == 1958 ][["year", "passengers"]].mean()

year          1958.0
passengers     381.0
dtype: float64

Deve ter um jeito mais fácil de aplicar a média em cada ano diretamente sem realizar filtros como fizemos acima. <b>Apresentamos o método GroupBy !!!</b>

## O método GroupBy

O método GroupBy realiza o comportamento análogo ao comando GROUP BY do SQL. Esse método possibilita aplicarmos funções de agregação a um conjunto de valores de uma variável individualmente. Veja o exemplo abaixo:

In [44]:
# Média de passageiros por ano
df.groupby('year').agg({'passengers': 'mean'})

Unnamed: 0_level_0,passengers
year,Unnamed: 1_level_1
1949,126.666667
1950,139.666667
1951,170.166667
1952,197.0
1953,225.0
1954,238.916667
1955,284.0
1956,328.25
1957,368.416667
1958,381.0


In [45]:
pd.set_option('display.max_rows', 500)

# Média de passageiros por mês
df.groupby(['year','month']).agg({'passengers': 'mean'})

  df.groupby(['year','month']).agg({'passengers': 'mean'})


Unnamed: 0_level_0,Unnamed: 1_level_0,passengers
year,month,Unnamed: 2_level_1
1949,Jan,112.0
1949,Feb,118.0
1949,Mar,132.0
1949,Apr,129.0
1949,May,121.0
1949,Jun,135.0
1949,Jul,148.0
1949,Aug,148.0
1949,Sep,136.0
1949,Oct,119.0


In [46]:
# Média e máximo de passageiros por mês
df.groupby('month').agg({'passengers': ['mean','max','std'] })

  df.groupby('month').agg({'passengers': ['mean','max','std'] })


Unnamed: 0_level_0,passengers,passengers,passengers
Unnamed: 0_level_1,mean,max,std
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Jan,241.75,417,101.03296
Feb,235.0,391,89.619397
Mar,270.166667,419,100.559194
Apr,267.083333,461,107.374839
May,271.833333,472,114.73989
Jun,311.666667,535,134.219856
Jul,351.333333,622,156.827255
Aug,351.083333,606,155.783333
Sep,302.416667,508,123.95414
Oct,266.583333,461,110.744964


In [47]:
# Podemos ter todas as principais medidas com o describe()
df.groupby('month')['passengers'].describe()

  df.groupby('month')['passengers'].describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Jan,12.0,241.75,101.03296,112.0,164.5,223.0,321.25,417.0
Feb,12.0,235.0,89.619397,118.0,172.5,214.5,305.25,391.0
Mar,12.0,270.166667,100.559194,132.0,189.25,251.5,357.5,419.0
Apr,12.0,267.083333,107.374839,129.0,176.5,252.0,348.0,461.0
May,12.0,271.833333,114.73989,121.0,180.25,252.0,357.0,472.0
Jun,12.0,311.666667,134.219856,135.0,208.0,289.5,425.25,535.0
Jul,12.0,351.333333,156.827255,148.0,222.25,333.0,471.5,622.0
Aug,12.0,351.083333,155.783333,148.0,231.25,320.0,476.5,606.0
Sep,12.0,302.416667,123.95414,136.0,202.75,285.5,404.0,508.0
Oct,12.0,266.583333,110.744964,119.0,183.75,251.5,350.0,461.0


## O método PivotTable

Outro método interessante para fazer agregações é o PivotTables. Pense nesse método como uma Tabela Dinâmica (Pivot Tables) do Microsoft Excel. Com ela, podemos fazer agregações como fizemos com o GroupBy, porém para mais de uma variável simultaneamente. Veja exemplos abaixo:

In [48]:
# Média de passageiros por ano e mês
df.pivot_table(index='year',columns='month',aggfunc={'passengers': 'mean'}) 

  df.pivot_table(index='year',columns='month',aggfunc={'passengers': 'mean'})


Unnamed: 0_level_0,passengers,passengers,passengers,passengers,passengers,passengers,passengers,passengers,passengers,passengers,passengers,passengers
month,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
1949,112.0,118.0,132.0,129.0,121.0,135.0,148.0,148.0,136.0,119.0,104.0,118.0
1950,115.0,126.0,141.0,135.0,125.0,149.0,170.0,170.0,158.0,133.0,114.0,140.0
1951,145.0,150.0,178.0,163.0,172.0,178.0,199.0,199.0,184.0,162.0,146.0,166.0
1952,171.0,180.0,193.0,181.0,183.0,218.0,230.0,242.0,209.0,191.0,172.0,194.0
1953,196.0,196.0,236.0,235.0,229.0,243.0,264.0,272.0,237.0,211.0,180.0,201.0
1954,204.0,188.0,235.0,227.0,234.0,264.0,302.0,293.0,259.0,229.0,203.0,229.0
1955,242.0,233.0,267.0,269.0,270.0,315.0,364.0,347.0,312.0,274.0,237.0,278.0
1956,284.0,277.0,317.0,313.0,318.0,374.0,413.0,405.0,355.0,306.0,271.0,306.0
1957,315.0,301.0,356.0,348.0,355.0,422.0,465.0,467.0,404.0,347.0,305.0,336.0
1958,340.0,318.0,362.0,348.0,363.0,435.0,491.0,505.0,404.0,359.0,310.0,337.0


# Outras manipulações importantes

## Dados missing

Algo comum em manipulação de dados é lidar com dados missing. O Pandas fornece uma série de métodos para lidar com esses problemas em dataframes. Veja a seguir:

In [49]:
df1

Unnamed: 0,aluno,idade
0,Joao,30
1,Maria,25
2,Helena,18
3,Joel,29
4,Gabriel,45


In [50]:
df4

Unnamed: 0,nome,altura
0,Joel,1.6
1,Gabriel,1.7


In [51]:
# Como vimos em seções anteriores, o merge abaixo produziu dados missing (NaN) pois a tabela "right" não tinha a altura para os 3 primeiros alunos.
df = pd.merge(df1,df4,how='left',left_on='aluno',right_on='nome').drop('nome',axis=1) # o axis = 1 representa uma coluna
df

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


Sempre que lidamos com um dataframe novo é muito importante detectar se temos dados missing. Podemos fazer isso da seguinte forma:

In [52]:
df.isna()

Unnamed: 0,aluno,idade,altura
0,False,False,True
1,False,False,True
2,False,False,True
3,False,False,False
4,False,False,False


In [53]:
df.isna().sum() # a variável altura tem 3 linhas com missing

aluno     0
idade     0
altura    3
dtype: int64

Agora que detectamos, precisamos decidir o que fazer com os dados missing. Em determinadas situações, os missings não servem para nada e podemos <b>excluí-los</b>. Veja:

In [54]:
df.dropna()

Unnamed: 0,aluno,idade,altura
3,Joel,29,1.6
4,Gabriel,45,1.7


Mas a operação acima foi muito drástica, pois perdemos a informação da linha inteira dos 3 primeiros alunos. Neste caso vale mais a pena excluir apenas a coluna com mais missings (ou seja, a coluna altura).

In [57]:
df.dropna(axis='columns')

Unnamed: 0,aluno,idade
0,Joao,30
1,Maria,25
2,Helena,18
3,Joel,29
4,Gabriel,45


Mas é possível argumentar que também perdemos a informação dos ultimos alunos. E se excluirmos apenas as colunas que tiverem um determinado número de missings?

In [58]:
df.dropna(axis='columns',thresh=2) # esse parametro só exclui colunas com um minimo de 2 valores não missing

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


In [59]:
df.dropna(axis='columns',thresh=3) # esse parametro só exclui colunas com um minimo de 3 valores não missing (agora a coluna foi excluida)

Unnamed: 0,aluno,idade
0,Joao,30
1,Maria,25
2,Helena,18
3,Joel,29
4,Gabriel,45


Por fim, você poderia chegar a conclusão que o melhor seria imputar dados nos valores missing em vez de excluí-los. Veja como fazer isso:

In [60]:
df

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


In [61]:
df.fillna(2) # preenche 2 em todos os valores missing

Unnamed: 0,aluno,idade,altura
0,Joao,30,2.0
1,Maria,25,2.0
2,Helena,18,2.0
3,Joel,29,1.6
4,Gabriel,45,1.7


In [62]:
df.fillna(df['altura'].mean()) # preenche com a média de Altura em todos os valores missing da variável

Unnamed: 0,aluno,idade,altura
0,Joao,30,1.65
1,Maria,25,1.65
2,Helena,18,1.65
3,Joel,29,1.6
4,Gabriel,45,1.7


## Dados duplicados

Outra operação comum em manipulação de dados é lidar com dados duplicados. Veja a seguir um caso desse tipo.

In [63]:
df

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


In [69]:
df2 = pd.concat((df,df))
df2

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


In [70]:
df3 = df2.sort_values(by="aluno",ascending=True) # Ordena o dataframe por ordem alfabética crescente pela variável "aluno"
df3

Unnamed: 0,aluno,idade,altura
4,Gabriel,45,1.7
4,Gabriel,45,1.7
2,Helena,18,
2,Helena,18,
0,Joao,30,
0,Joao,30,
3,Joel,29,1.6
3,Joel,29,1.6
1,Maria,25,
1,Maria,25,


In [71]:
df3.duplicated() # Com o método duplicated() podemos saber quais linhas tem valores duplicados

4    False
4     True
2    False
2     True
0    False
0     True
3    False
3     True
1    False
1     True
dtype: bool

In [72]:
df3.duplicated().sum() # Contando quantas linhas tem valores duplicados

5

In [73]:
df3.drop_duplicates()

Unnamed: 0,aluno,idade,altura
4,Gabriel,45,1.7
2,Helena,18,
0,Joao,30,
3,Joel,29,1.6
1,Maria,25,


<b>Dica:</b> Verifique a documentação do método .drop_duplicates() para mais operações, como por exemplo remover somente a ultima linha duplicada.

## Criação de Variáveis e Alteração de Variáveis

Vamos falar agora sobre como criar novas variáveis em um DataFrame existente ou mesmo como alterar as variáveis.

In [74]:
df

Unnamed: 0,aluno,idade,altura
0,Joao,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.7


In [75]:
# Vamos criar uma variável chamada "Faculdade"
df['Faculdade'] = 'USP'

In [76]:
df

Unnamed: 0,aluno,idade,altura,Faculdade
0,Joao,30,,USP
1,Maria,25,,USP
2,Helena,18,,USP
3,Joel,29,1.6,USP
4,Gabriel,45,1.7,USP


In [None]:
# Vamos criar uma variável condicional de acordo com a idade do aluno.

In [77]:
df['Tipo_Curso'] = np.where(df['idade'] < 30 , 'Graduacao', 'Pos_Graduacao') # usamos o método Where do Numpy para isso

In [78]:
df

Unnamed: 0,aluno,idade,altura,Faculdade,Tipo_Curso
0,Joao,30,,USP,Pos_Graduacao
1,Maria,25,,USP,Graduacao
2,Helena,18,,USP,Graduacao
3,Joel,29,1.6,USP,Graduacao
4,Gabriel,45,1.7,USP,Pos_Graduacao


In [None]:
# Vamos criar uma variável condicional do valor do curso (que vamos supor que dependa da idade da seguinte forma: Valor = 200*Idade)

In [79]:
df['Valor'] = 200*df['idade']
df

Unnamed: 0,aluno,idade,altura,Faculdade,Tipo_Curso,Valor
0,Joao,30,,USP,Pos_Graduacao,6000
1,Maria,25,,USP,Graduacao,5000
2,Helena,18,,USP,Graduacao,3600
3,Joel,29,1.6,USP,Graduacao,5800
4,Gabriel,45,1.7,USP,Pos_Graduacao,9000


## Manipulação de Datas

Por fim, vamos entender como trabalhar com datas no Pandas. Esse tipo de manipulação é vital para trabalhar com DataFrames em situações reais do mercado, pois sempre estaremos interessados em desenvolver modelos que possam endereçar problemas que aconteceram (ou acontecerão) em determinado momento no tempo. Veja:

In [80]:
# Começamos com uma data qualquer
data = pd.to_datetime('2019-11-01')
data

Timestamp('2019-11-01 00:00:00')

In [81]:
data.strftime('%d') # Retorna o dia de data

'01'

In [82]:
data.strftime('%m') # Retorna o mês de data

'11'

In [83]:
data.strftime('%Y') # Retorna o ano de data

'2019'

In [84]:
# podemos incrementar a data em alguns dias, por exemplo, 4 dias.
data + pd.to_timedelta(np.arange(5),'D')

DatetimeIndex(['2019-11-01', '2019-11-02', '2019-11-03', '2019-11-04',
               '2019-11-05'],
              dtype='datetime64[ns]', freq=None)

In [85]:
# Criando um dataframe com as datas
df_t = pd.DataFrame( ( data + pd.to_timedelta(np.arange(5),'D') ),columns=['Data_Matricula'])

In [86]:
df_t

Unnamed: 0,Data_Matricula
0,2019-11-01
1,2019-11-02
2,2019-11-03
3,2019-11-04
4,2019-11-05


In [87]:
# Vamos unir esse novo dataframe para nossa tabela de alunos
df2 = pd.concat((df,df_t),axis = 1)
df2

Unnamed: 0,aluno,idade,altura,Faculdade,Tipo_Curso,Valor,Data_Matricula
0,Joao,30,,USP,Pos_Graduacao,6000,2019-11-01
1,Maria,25,,USP,Graduacao,5000,2019-11-02
2,Helena,18,,USP,Graduacao,3600,2019-11-03
3,Joel,29,1.6,USP,Graduacao,5800,2019-11-04
4,Gabriel,45,1.7,USP,Pos_Graduacao,9000,2019-11-05


In [88]:
df2.dtypes

aluno                     object
idade                      int64
altura                   float64
Faculdade                 object
Tipo_Curso                object
Valor                      int64
Data_Matricula    datetime64[ns]
dtype: object

O Pandas tem vários outros métodos para lidar com datas. Seguem alguns exemplos:

In [89]:
# Cria datas entre um intervalo
pd.date_range('2019-10-05','2019-10-15',freq='B')

DatetimeIndex(['2019-10-07', '2019-10-08', '2019-10-09', '2019-10-10',
               '2019-10-11', '2019-10-14', '2019-10-15'],
              dtype='datetime64[ns]', freq='B')

Chegamos ao fim de mais uma seção. O Pandas tem uma série de outras funções que não foram cobertas aqui. Eventualmente, ao longo do curso vamos nos deparar com novas funções deste pacote. Quando for necessário, acesse a documentação original em https://pandas.pydata.org/docs/reference/index.html ou busque sua dúvida no StackOverflow (uma das maiores fontes de conhecimento em programação da internet).

Na próxima aula, vamos falar sobre o <b>Matplotlib</b> e as demais formas de visualização de dados no Python! Até lá !!!