# Aula 01: Introdução aos Pandas

### Q1) O que é Pandas?
Pandas é uma biblioteca de código fonte aberto escrita sobre o Numpy. Permite rápida visualização e limpeza de diferentes tipos de dados. Além de possuir diferentes métodos de visualização de dados, semelhante ao Excel.


### Q2) Que tipo de dados Pandas trabalha?
O pandas trabalha com uma estrutura bidiomencional chamada DataFrame que pode armazenar diferentes tipos de dados como strings, inteiros, pontos flutuantes dados categoricos entre outros. Cada coluna de um DataFrame é uma Series.


<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>

In [1]:
# Como importar bibliotecas no Python??
import numpy as np
import pandas as pd

In [2]:
print(f'Versão do Pandas: {pd.__version__}')
print(f'Versão do Numpy: {np.__version__}')

Versão do Pandas: 1.5.3
Versão do Numpy: 1.22.4


## 1.0 Series

O primeiro tipo de dado que aprenderemos é a Serie. Vamos importar Pandas e explorar tal objeto.

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

Vamos explorar este conceito através de alguns exemplos:


- Sumário
    - 1. Criando series
    - 2. Operações em Series
    - 3. Ordenando e Reindexando Series

### 1.1 Criando uma Serie

Você pode converter uma lista, numpy array ou dicionário para uma serie:

In [3]:
minha_lista = [10,20,30]

In [4]:
pd.Series(data=minha_lista)

0    10
1    20
2    30
dtype: int64

#### 1.1.1 Definindo uma Series a partir de uma lista

In [5]:
# definindo array
labels = ['a','b','c']
pd.Series(data=minha_lista,index=labels)

a    10
b    20
c    30
dtype: int64

#### 1.1.2 Definindo uma Series através de um NumPy Arrays

In [6]:
arr = np.array([1,2,3])

In [7]:
pd.Series(arr)

0    1
1    2
2    3
dtype: int64

In [8]:
pd.Series(arr,labels)

a    1
b    2
c    3
dtype: int64

#### 1.1.3 Definindo uma Series a partir de Dicionários

In [9]:
# definindo um dicionário
d = {'a':10,'b':20,'c':30}
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### 1.2 Criando uma série usando labels e objetos

Uma série de pandas pode conter uma variedade de tipos de objeto:

In [10]:
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [11]:
# Series também recebe funções (embora seja improvável que você usar isso)
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

### 1.3 Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como uma tabela de hash ou dicionário).

Vamos ver alguns exemplos de como pegar informações de uma Serie. Vamos criar duas Series, ser1 e ser2:

In [12]:
ser1 = pd.Series([1,2,3,4], index = ['EUA', 'Alemanha','USSR', 'Japão'])                                   

In [13]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [14]:
ser2 = pd.Series([1,2,5,4],index = ['EUA', 'Alemanha','Italia', 'Japão'])                                   

In [15]:
ser2

EUA         1
Alemanha    2
Italia      5
Japão       4
dtype: int64

In [16]:
ser1['EUA']

1

### 1.4 Operações em Series

In [17]:
ser1 + ser2

Alemanha    4.0
EUA         2.0
Italia      NaN
Japão       8.0
USSR        NaN
dtype: float64

In [18]:
ser1.min()

1

In [19]:
ser1.max()

4

In [20]:
ser1.describe()

count    4.000000
mean     2.500000
std      1.290994
min      1.000000
25%      1.750000
50%      2.500000
75%      3.250000
max      4.000000
dtype: float64

### 1.5 Ordenando Series

In [21]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [22]:
ser1.sort_values(ascending=True)

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

## 2.0 Criando um DataFrame 

#### 2.1 Usando uma matriz randômica

In [23]:
from numpy.random import randn
np.random.seed(101)

In [24]:
'W X Y Z'.split()

['W', 'X', 'Y', 'Z']

In [25]:
matriz = randn(20,4)
matriz

array([[ 2.70684984e+00,  6.28132709e-01,  9.07969446e-01,
         5.03825754e-01],
       [ 6.51117948e-01, -3.19318045e-01, -8.48076983e-01,
         6.05965349e-01],
       [-2.01816824e+00,  7.40122057e-01,  5.28813494e-01,
        -5.89000533e-01],
       [ 1.88695309e-01, -7.58872056e-01, -9.33237216e-01,
         9.55056509e-01],
       [ 1.90794322e-01,  1.97875732e+00,  2.60596728e+00,
         6.83508886e-01],
       [ 3.02665449e-01,  1.69372293e+00, -1.70608593e+00,
        -1.15911942e+00],
       [-1.34840721e-01,  3.90527843e-01,  1.66904636e-01,
         1.84501859e-01],
       [ 8.07705914e-01,  7.29596753e-02,  6.38787013e-01,
         3.29646299e-01],
       [-4.97104023e-01, -7.54069701e-01, -9.43406403e-01,
         4.84751647e-01],
       [-1.16773316e-01,  1.90175480e+00,  2.38126959e-01,
         1.99665229e+00],
       [-9.93263500e-01,  1.96799505e-01, -1.13664459e+00,
         3.66479606e-04],
       [ 1.02598415e+00, -1.56597904e-01, -3.15791439e-02,
      

In [26]:
df = pd.DataFrame(matriz,columns='W X Y Z'.split())

#### 2.2 Métodos principais para entendimento de dados

In [27]:
df.head()

Unnamed: 0,W,X,Y,Z
0,2.70685,0.628133,0.907969,0.503826
1,0.651118,-0.319318,-0.848077,0.605965
2,-2.018168,0.740122,0.528813,-0.589001
3,0.188695,-0.758872,-0.933237,0.955057
4,0.190794,1.978757,2.605967,0.683509


In [28]:
df.tail()

Unnamed: 0,W,X,Y,Z
15,0.38603,2.084019,-0.376519,0.230336
16,0.681209,1.035125,-0.03116,1.939932
17,-1.005187,-0.74179,0.187125,-0.732845
18,-1.38292,1.482495,0.961458,-2.141212
19,0.992573,1.192241,-1.04678,1.292765


In [29]:
df.sample(10)

Unnamed: 0,W,X,Y,Z
12,2.154846,-0.610259,-0.755325,-0.346419
0,2.70685,0.628133,0.907969,0.503826
17,-1.005187,-0.74179,0.187125,-0.732845
10,-0.993263,0.1968,-1.136645,0.000366
2,-2.018168,0.740122,0.528813,-0.589001
5,0.302665,1.693723,-1.706086,-1.159119
7,0.807706,0.07296,0.638787,0.329646
15,0.38603,2.084019,-0.376519,0.230336
19,0.992573,1.192241,-1.04678,1.292765
16,0.681209,1.035125,-0.03116,1.939932


In [30]:
df.sample(frac=0.1)

Unnamed: 0,W,X,Y,Z
19,0.992573,1.192241,-1.04678,1.292765
3,0.188695,-0.758872,-0.933237,0.955057


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   W       20 non-null     float64
 1   X       20 non-null     float64
 2   Y       20 non-null     float64
 3   Z       20 non-null     float64
dtypes: float64(4)
memory usage: 768.0 bytes


In [32]:
df.shape

(20, 4)

#### 2.2 Leitura e saída de Dados CSV do disco

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [35]:
# Se usar o colab, você precisa fazer a montagem do diretório principal
# from google.colab import drive
# drive.mount('/content/drive')

Mounted at /content/drive


##### 2.2.1 Saída de Dados

In [37]:
#CSV
df.to_csv('data/exemplo.csv', index=False)

In [38]:
#Excel
df.to_excel('data/exemplo.xlsx', index=False)

In [39]:
#JSON
df.to_json('data/exemplo.json', orient='table')

##### 2.2.2 Leitura de Dados 

In [None]:
#CSV
df_csv = pd.read_csv('data/exemplo.csv')
df_csv.head()

In [None]:
#Excel
df_excel = pd.read_excel('data/exemplo.xlsx')
df_excel.head()

In [None]:
#JSON
df_json = pd.read_json('data/exemplo.json', orient='table')
df_json.head()

#### 2.3 Leitura de dados da internet

##### HTML
- Para usar o pd.read_html pode ser necessário instalar as seguintes dependências
    - conda install lxml -y
    - conda install html5lib
    - conda install BeautifulSoup4

In [None]:
url = 'https://en.wikipedia.org/wiki/Minnesota'
tables = pd.read_html(url)
df_html = tables[0]

In [None]:
df_html

## 3.0 Operações em Dataframes

In [None]:
df.head()

In [34]:
### 3.1 Manipulando index

In [None]:
df.index

In [None]:
list(df.index)

#### 3.1 Selecionando um novo index

In [None]:
df.set_index('W')

In [None]:
##### Resetando o índice atual
df.reset_index(inplace=True)

In [None]:
df.set_index('W', inplace=True)
df

In [None]:
df.reset_index(inplace=True)

In [None]:
df.set_index('Z', inplace=True)
df

In [None]:
df.reset_index(inplace=True)

## 4.0 Seleção de Dados usando Pandas

<img src='https://pandas.pydata.org/docs/_images/03_subset_rows.svg'>

Existem quatro abordagens principais de seleção de dados usando um dataframe
- 1. Selecionando colunas
- 2. Seleção de dados usando `loc` e `iloc`
- 3. Seleção condicional
- 4. Seleção de dados por tipo de dados


#### 4.1 Selecionar por coluna

In [None]:
df['W']

In [None]:
# Sintaxe SQL (Não recomendado!)
df.W

In [None]:
#Selecionar mais de uma coluna
df[['W','Z']]

In [None]:
#Selecionar mais de uma coluna
df[['X','Z']]

#### 4.2 Selecão por index (loc) ou posição(iloc)

O método ``loc`` faz seleção usando o index do data frame, tanto para linha como para coluna. 

``df.loc[rows, cols]``

In [None]:
df.head()

In [None]:
df.loc[5:10]

In [None]:
df.loc[10:12, ['X','Z']]

O método ``iloc`` faz seleção usando a posição dos dados no data frame, tanto para linha como para coluna. 

In [None]:
df.iloc[2]

In [None]:
df.iloc[5:10]

In [None]:
df.iloc[5:10, 2]

##### Diferenciando LOC x ILOC

In [None]:
import random

In [None]:
n_rows = df.shape[0]
meses = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'out', 'nov', 'dez'] * 2
df['mes'] = random.sample(meses, n_rows)

In [None]:
%%time
df.set_index('mes', inplace=True)
df.head()

In [None]:
df.loc['fev', ['X','W']]

In [None]:
df.reset_index(inplace=True)

#### 4.3 Seleção condicional

In [None]:
df.head()

In [None]:
filter_W_positivo = df['W'] > 0
filter_W_negativo = df['W'] < 0

In [None]:
df[filter_W_positivo]

In [None]:
#o filtro pode ser passado diretamente
df[df['W'] > 0]

Para duas condições, você pode usar ``|`` e ``&`` com parênteses:

In [None]:
filter_W_Y_positivo = (df['W']>0) & (df['Y'] > 0)
df[filter_W_Y_positivo]

Você pode selecionar dados fazendo verificações de dados de texto baseado em regex

In [None]:
df[df['mes'].str.contains('a')]

In [None]:
#Mêses que começa com a ``letra a``
df[df['mes'].str.contains('^a')]

In [None]:
df[df['mes'].str.contains('^[a-z]')]

In [None]:
#seleção por conjunto de dados
lista_mes = ['jun', 'fev', 'jul']
df[df['mes'].isin(lista_mes)]

#### 4.4 Seleção por tipo de dados

In [None]:
df['J'] = df['W'].astype(int)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.select_dtypes(exclude=['object','int'])

In [None]:
df.select_dtypes(include='int')

In [None]:
df.select_dtypes(include='float')

## 5.0 Operações Básicas
<img src='https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg'>

In [None]:
df_sales = pd.read_csv('data/sales_clear.csv')

In [None]:
df_sales.head()

### 5.1 Operações Matemática

In [None]:
df_sales['2016'] + df_sales['2017']

In [None]:
df_sales['2016'] - df_sales['2017']

In [None]:
df_sales['2016'] / df_sales['2017']

In [None]:
df_sales['2016'] * df_sales['2017']

### 5.2 Criando uma coluna

In [None]:
df_sales.head()

In [None]:
df_sales['soma_2016_2017'] = df_sales['2016'] + df_sales['2017']

In [None]:
df_sales.head()

### 5.3 Removendo colunas

In [None]:
df_sales.drop('soma_2016_2017', axis=1)

In [None]:
df_sales.drop('soma_2016_2017', axis=1, inplace=True)

### 5.4 Removendo linhas

In [None]:
df_sales.head()

In [None]:
#drop rows
df_sales.drop([1,2], axis=0)

### 5.5 Alterando valores

In [None]:
df_sales.loc[1:5, 'Jan Units']

In [None]:
df_sales.loc[1:10, 'Jan Units'] = 0

### 5.6 Rename columns

In [None]:
df_sales

In [None]:
df_sales.rename(columns={'Start_Date':'date', 'Customer Name':'nome'})

### 5.7 Ordenação de Dados

#### 5.7.1 Ordenação composta

In [None]:
df_sales.sort_values('Start_Date')

In [None]:
df_sales.sort_values(by='Start_Date', ascending=False)

#### 5.7.2 Ordenação composta

In [None]:
df_sales.sort_values(by=['Customer Name','2017'], ascending=False)