<a href="https://colab.research.google.com/github/dbahiense/python/blob/main/09.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python: módulos e introdução a Pandas</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material do Prof. Moacir Antonelli Ponti)*

---
__Conteúdos:__
- Módulos e pacotes: math e random
- Pandas: introdução com DataFrames


# Módulos Python

A linguagem Python vem com funções nativas em sua biblioteca padrão (*standard library*)

Porém é possível carregar outros módulos e usar suas funções.

Há centenas de módulos que incluem:
* Funções matemáticas
* Desenvolvimento de interfaces gráficas (GUI)
* Geração de números pseudo-aleatórios
* Geração de gráficos
* Programação de bases de dados e tabelas

---
## `import`, `from` e `as` 
Usamos `import` e `from` para carregar funcionalidades de módulos

A forma mais simples é usar apenas:

`import <modulo>`
* Na sequência podemos usar o nome do módulo como *prefixo* para acessar suas funções e constantes

Como alternativa ainda podemos usar

`import <modulo> as <apelido>`

* Torna o nome do módulo mais fácil de digitar

E ainda usar `from` para importar apenas parte do módulo

`from <modulo> import <parte>`


* Essa é uma boa opção pois assim poupamos memória

---

## `math`

https://docs.python.org/3/library/math.html

In [6]:
import math

# logaritmo natural
print(math.log(31))

# especificando a base
print(math.log(32, 2))

3.4339872044851463
5.0


In [7]:
# soma de floats que evita erros de precisão
num_floats = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
# usando função padrão
print(sum(num_floats))
print(math.fsum(num_floats))

0.9999999999999999
1.0


In [8]:
# constantes
print(math.pi)
print(math.e)
print(math.inf)
print(math.nan)

3.141592653589793
2.718281828459045
inf
nan


#### Exemplo de uso de `from <modulo> import <parte>`

In [9]:
from math import pi
print(pi)

3.141592653589793


In [10]:
from math import log, sqrt
print(log(1001, 3))
print(sqrt(100))

6.288619607278353
10.0


---

## `random`

Gera números pseudo-aleatórios para simulações. Há muitas funções, alguns exemplos:

* `random()`: número aleatório entre 0 e 1
* `uniform(a,b)`: número aleatório float entre a e b, sendo que os valores são equiprováveis
* `randint(a,b)`: número aleatório inteiro entre a e b, sendo que os valores são equiprováveis
* `shuffle(list)`: embaralha uma lista
* `sample(list, k)`: sorteia k elementos de uma lista e retorna essa amostra aleatória
* `seed(s)`: define a semente da sequência aleatória, permitindo reproduzir uma mesma simulação

#### Exemplo de uso de `import as`

In [11]:
# podemos usar `rd` ao invés de `random` para acessar o módulo
import random as rd

In [12]:
# sorteia um número aleatório
print(rd.random())

# exemplo: criando uma lista de números aleatórios
num_aleat = []
for i in range(5):
    num_aleat.append(rd.random())
    
print(num_aleat)

0.8531255945355736
[0.33941372712873574, 0.04149413621936604, 0.6142398237783275, 0.4424293964259336, 0.5559362379732526]


In [13]:
# sorteia um numero aleatorio inteiro uniforme entre "a" e "b"
print(rd.randint(1,10))

# exemplo: criando uma lista de números aleatórios
numint_1_10 = []
for i in range(30):
    numint_1_10.append(rd.randint(1,10))
    
print(numint_1_10)

5
[2, 8, 10, 3, 1, 5, 4, 5, 2, 5, 7, 8, 10, 1, 8, 7, 4, 1, 10, 8, 7, 1, 1, 8, 1, 7, 2, 8, 6, 7]


#### Funções com listas

In [14]:
numeros = [111, 222, 333, 444, 555, 666, 777, 888, 999]

print(rd.sample(numeros,4))

rd.shuffle(numeros)
print(numeros)

[444, 555, 222, 888]
[888, 999, 444, 555, 111, 777, 333, 222, 666]


#### Controlando a geração pseudo-aleatória com `seed()`

Os números gerados não são realmente aleatórios, mas pseudo-aleatórios

Assim, é possível obter a sequência gerada se definirmos a "semente"

In [15]:
rd.seed('a')

# criando uma lista de números aleatórios
numint_1_10 = []
for i in range(10):
    numint_1_10.append(rd.randint(1,10))
    
print(numint_1_10)

[5, 9, 2, 10, 10, 9, 3, 10, 2, 9]


---

# `pandas`

<font color='blue'>Pandas</font> é um pacote python construído com base no <font color='blue'>numpy</font> e <font color='blue'>matplotlib</font> (a serem vistos posteriormente) que busca organizar dados no formato de tabela

O pacote <font color='blue'>pandas</font> fornece ainda um conjunto de funcionalidades para processar e tratar dados

O <font colo='blue'>pandas</font> organiza os dados em três tipos de estruturas:
- Series
- DataFrame
- Panel (*não* serão abordados neste curso)

## Carregando arquivos
Pandas permite carregar (e escrever) arquivos de diversos formatos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

A célula abaixo irá criar um arquivo tipo '.csv' onde os elementos das colunas são separados por vírgula (padrão para arquivos '.csv')

In [16]:
%%writefile data_access.csv  
day,month,num access,category
31,5,9241,student
31,5,830,teacher
31,5,45,coordinator
3,6,9102,student
3,6,1022,teacher
3,6,30,coordinator
4,6,10301,student
4,6,781,teacher
4,6,81,coordinator

Writing data_access.csv


In [17]:
# Carregar um CSV simples
import pandas as pd # importamos a biblioteca

df = pd.read_csv('data_access.csv')  # o método read_csv carrega um arquivo no formato '.csv'
                                # a primeira linha do arquivo se torna os rótulos das colunas
                                # como os indices não foram especificados, são criados automaticamente

df

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator
3,3,6,9102,student
4,3,6,1022,teacher
5,3,6,30,coordinator
6,4,6,10301,student
7,4,6,781,teacher
8,4,6,81,coordinator


In [18]:
type(df)

pandas.core.frame.DataFrame

## DataFrames
<font color='blue'>DataFrames</font> é uma estrutura de dados do <font color='blue'>pandas</font> semelhante a uma planilha de cálculo (como uma planilha excel). 

Ao invés de interagir com o mouse e teclado, iremos utilizar a linguagem Python.

Linhas e colunas são indexadas por rótulos. 

Métodos para analisar um DataFrame:
* `info()`: informação geral 
* `head()`: primeiras linhas
* `sample(n)`: amostra de n linhas

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   day         9 non-null      int64 
 1   month       9 non-null      int64 
 2   num access  9 non-null      int64 
 3   category    9 non-null      object
dtypes: int64(3), object(1)
memory usage: 416.0+ bytes


In [20]:
df.head()

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator
3,3,6,9102,student
4,3,6,1022,teacher


In [21]:
df.sample(4)

Unnamed: 0,day,month,num access,category
8,4,6,81,coordinator
3,3,6,9102,student
2,31,5,45,coordinator
6,4,6,10301,student


Atributos úteis de um dataframe
- `shape`: contém o tamanho do dataframe em uma tupla contendo o número de linhas e de colunas
- `dtypes`: contém as colunas e seus tipos
- `columns`: contem uma lista com o nome das colunas

In [22]:
df.dtypes

day            int64
month          int64
num access     int64
category      object
dtype: object

In [58]:
df.shape

(9, 4)

In [59]:
# imprime número de linhas e de colunas separadamente
l, c = df.shape
print(l)
print(c)

9
4


In [24]:
df.columns

Index(['day', 'month', 'num access', 'category'], dtype='object')

### Acessando Colunas

- por rótulo dentro de colchetes []
- por rótulo como atributo (não recomendado, pois existem restrições)
- lista de rótulos dentro de colchetes [] (acessa várias colunas)

In [25]:
print(df['day'])

0    31
1    31
2    31
3     3
4     3
5     3
6     4
7     4
8     4
Name: day, dtype: int64


In [26]:
print(df.day)

0    31
1    31
2    31
3     3
4     3
5     3
6     4
7     4
8     4
Name: day, dtype: int64


In [27]:
# nao funciona para nome de variável / rótulo com espaços e outras restrições
print(df.num access)

SyntaxError: ignored

In [28]:
print(df[ ['day', 'num access'] ])

   day  num access
0   31        9241
1   31         830
2   31          45
3    3        9102
4    3        1022
5    3          30
6    4       10301
7    4         781
8    4          81


#### Convertendo para valores

Use o atributo `values`, e posteriormente converta para o tipo desejado, por exemplo: lista:

In [69]:
lista_dias = list(df['day'].values)
print(lista_dias)
print(type(lista_dias))

[31, 31, 31, 3, 3, 3, 4, 4, 4]
<class 'list'>


In [70]:
acessos = list(df['num access'].values)
print(acessos)
print(type(acessos))

[9241, 830, 45, 9102, 1022, 30, 10301, 781, 81]
<class 'list'>


In [71]:
acessos_total = sum(acessos)
print(acessos_total)
print(type(acessos_total))

31433
<class 'numpy.int64'>


#### Busca (query)

Permite definir expressões para busca dentro de uma coluna

In [30]:
df.query('month == 6')

Unnamed: 0,day,month,num access,category
3,3,6,9102,student
4,3,6,1022,teacher
5,3,6,30,coordinator
6,4,6,10301,student
7,4,6,781,teacher
8,4,6,81,coordinator


In [31]:
df.query('month == 6 & category == "teacher"')

Unnamed: 0,day,month,num access,category
4,3,6,1022,teacher
7,4,6,781,teacher


In [72]:
df.query('month == 5 & category == "teacher"')['num access']

id
20    830
Name: num access, dtype: int64

### Criando e removendo colunas

Criar colunas é possível atribuindo valores e nomeando a nova coluna

In [33]:
# usando um único valor
df['year'] = 2022
df

Unnamed: 0,day,month,num access,category,year
0,31,5,9241,student,2022
1,31,5,830,teacher,2022
2,31,5,45,coordinator,2022
3,3,6,9102,student,2022
4,3,6,1022,teacher,2022
5,3,6,30,coordinator,2022
6,4,6,10301,student,2022
7,4,6,781,teacher,2022
8,4,6,81,coordinator,2022


In [34]:
# usando uma lista
lista = list(range(1,df.shape[0]+1))
df['id'] = lista
df

Unnamed: 0,day,month,num access,category,year,id
0,31,5,9241,student,2022,1
1,31,5,830,teacher,2022,2
2,31,5,45,coordinator,2022,3
3,3,6,9102,student,2022,4
4,3,6,1022,teacher,2022,5
5,3,6,30,coordinator,2022,6
6,4,6,10301,student,2022,7
7,4,6,781,teacher,2022,8
8,4,6,81,coordinator,2022,9


A remoção pode ser feita com:
* `del`
* `drop(<coluna>, axis=1)`: especificamos o eixo para definir se a remoção será de coluna (axis=1) ou de linha (axis=0)

In [35]:
# removendo com drop
df = df.drop('id', axis=1)
print(df)

del df['year']
print(df)

   day  month  num access     category  year
0   31      5        9241      student  2022
1   31      5         830      teacher  2022
2   31      5          45  coordinator  2022
3    3      6        9102      student  2022
4    3      6        1022      teacher  2022
5    3      6          30  coordinator  2022
6    4      6       10301      student  2022
7    4      6         781      teacher  2022
8    4      6          81  coordinator  2022
   day  month  num access     category
0   31      5        9241      student
1   31      5         830      teacher
2   31      5          45  coordinator
3    3      6        9102      student
4    3      6        1022      teacher
5    3      6          30  coordinator
6    4      6       10301      student
7    4      6         781      teacher
8    4      6          81  coordinator


### Acessando Linhas

Para acessar linhas de um DataFrame:
- <font color='blue'>iloc</font> - manipula o DataFrame como uma matriz com índices inteiros
- <font color='blue'>loc</font> - seleciona linhas pelos seus rótulos (índices) ou por máscara booleana

A princípio esses parecem redudantes, mas o que muda é a seleção pelo rótulo das linhas.

Para melhor explicar vamos refazer o índice do dataframe

O método `set_index()` permite definir um índice com base numa coluna. É preciso especificar o parâmetro `inplace=True` para que o dataframe seja modificado, do contrário, apenas uma cópia é retornada

In [73]:
#criando novamente a coluna ID
#primeiro valor do range = 10
#segundo valor do range = valor da última linha n vezes 10
#terceiro valor do range = pula de 10 em 10
lista = list(range(10,(df.shape[0]+1)*10,10))
df['id'] = lista
df

Unnamed: 0_level_0,day,month,num access,category,id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
10,31,5,9241,student,10
20,31,5,830,teacher,20
30,31,5,45,coordinator,30
40,3,6,9102,student,40
50,3,6,1022,teacher,50
60,3,6,30,coordinator,60
70,4,6,10301,student,70
80,4,6,781,teacher,80
90,4,6,81,coordinator,90


In [39]:
# sem passar o inplace
df.set_index('id')
df

KeyError: ignored

In [37]:
df.set_index('id', inplace=True)
df

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,31,5,9241,student
20,31,5,830,teacher
30,31,5,45,coordinator
40,3,6,9102,student
50,3,6,1022,teacher
60,3,6,30,coordinator
70,4,6,10301,student
80,4,6,781,teacher
90,4,6,81,coordinator


O parâmetro `inplace` é também usado em outros métodos com o mesmo fim.

#### Usando `loc()`

A seleção é feita pelo índice do dataframe


In [40]:
df.loc[20]

day                31
month               5
num access        830
category      teacher
Name: 20, dtype: object

In [41]:
# podemos passar uma lista, que será retornada na ordem informada
df.loc[[90,10,30]]

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
90,4,6,81,coordinator
10,31,5,9241,student
30,31,5,45,coordinator


Quando fatiamos, *excepcionalmente com o loc* o intervalo é fechado para os dois extremos

Ou seja, será retornado o valor de índice final

In [42]:
df.loc[10:40]

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,31,5,9241,student
20,31,5,830,teacher
30,31,5,45,coordinator
40,3,6,9102,student


Podemos também especificar as colunas

In [46]:
df.loc[10:30, ['category']]

Unnamed: 0_level_0,category
id,Unnamed: 1_level_1
10,student
20,teacher
30,coordinator


In [45]:
df.loc[10:10, 'category']

id
10    student
Name: category, dtype: object

**`loc()` com condicionais (booleanas)**

In [44]:
df['category'] == 'student'

id
10     True
20    False
30    False
40     True
50    False
60    False
70     True
80    False
90    False
Name: category, dtype: bool

In [43]:
df.loc[df['num access'] > 1000]

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,31,5,9241,student
40,3,6,9102,student
50,3,6,1022,teacher
70,4,6,10301,student


#### Usando `iloc()`

A seleção é feita pela posição de linha e coluna relativa ao início, começando por zero, como se fosse uma matriz


In [51]:
df

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,31,5,9241,student
20,31,5,830,teacher
30,31,5,45,coordinator
40,3,6,9102,student
50,3,6,1022,teacher
60,3,6,30,coordinator
70,4,6,10301,student
80,4,6,781,teacher
90,4,6,81,coordinator


In [50]:
df.iloc[1]

day                31
month               5
num access        830
category      teacher
Name: 20, dtype: object

In [49]:
cat_pos1 = df.iloc[1,3]
print(cat_pos1)

teacher


In [48]:
df.iloc[:,3]

id
10        student
20        teacher
30    coordinator
40        student
50        teacher
60    coordinator
70        student
80        teacher
90    coordinator
Name: category, dtype: object

Aqui também podemos usar o atributo `values`

In [47]:
lista_cats = list(df.iloc[:,3].values)
print(lista_cats)

['student', 'teacher', 'coordinator', 'student', 'teacher', 'coordinator', 'student', 'teacher', 'coordinator']


É possível fatiar ambas linhas e colunas, 
* padrão Python, em que o elemento final representa um intervalo ABERTO, ou seja não é retornado

In [56]:
df.iloc[3:5]

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
40,3,6,9102,student
50,3,6,1022,teacher


In [55]:
df.iloc[3:5,2:4]

Unnamed: 0_level_0,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1
40,9102,student
50,1022,teacher


`iloc()` e `loc()` retornam uma cópia do dataframe

In [54]:
subdf1 = df.iloc[3:6, 2:]
subdf1.iloc[2, 0] = -1
print(subdf1)

    num access     category
id                         
40        9102      student
50        1022      teacher
60          -1  coordinator


In [53]:
df

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,31,5,9241,student
20,31,5,830,teacher
30,31,5,45,coordinator
40,3,6,9102,student
50,3,6,1022,teacher
60,3,6,30,coordinator
70,4,6,10301,student
80,4,6,781,teacher
90,4,6,81,coordinator


In [52]:
subdf2 = df.loc[40:60,['num access', 'category']]
subdf2.loc[60, ['num access']] = -1
print(subdf2)

    num access     category
id                         
40        9102      student
50        1022      teacher
60          -1  coordinator


In [57]:
df

Unnamed: 0_level_0,day,month,num access,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,31,5,9241,student
20,31,5,830,teacher
30,31,5,45,coordinator
40,3,6,9102,student
50,3,6,1022,teacher
60,3,6,30,coordinator
70,4,6,10301,student
80,4,6,781,teacher
90,4,6,81,coordinator
