# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python: módulos e introdução a Pandas</span>

*Moacir Antonelli Ponti*<br>
*ICMC/USP São Carlos*

---
__Conteúdos:__
- Módulos e pacotes: math e random
- Pandas: introdução com DataFrames


# Módulos Python

A linguagem Python vem com funções nativas em sua biblioteca padrão (*standard library*)

Porém é possível carregar outros módulos e usar suas funções.

Há centenas de módulos que incluem:
* Funções matemáticas
* Desenvolvimento de interfaces gráficas (GUI)
* Geração de números pseudo-aleatórios
* Geração de gráficos
* Programação de bases de dados e tabelas

---
## `import`, `from` e `as` 
Usamos `import` e `from` para carregar funcionalidades de módulos

A forma mais simples é usar apenas:

`import <modulo>`
* Na sequência podemos usar o nome do módulo como *prefixo* para acessar suas funções e constantes

Como alternativa ainda podemos usar

`import <modulo> as <apelido>`

* Torna o nome do módulo mais fácil de digitar

E ainda usar `from` para importar apenas parte do módulo

`from <modulo> import <parte>`


* Essa é uma boa opção pois assim poupamos memória

---

## `math`

https://docs.python.org/3/library/math.html

In [1]:
import math

# logaritmo natural
print(math.log(31))

# especificando a base
print(math.log(31, 2))

3.4339872044851463
4.954196310386876


In [2]:
# soma de floats que evita erros de precisão
num_floats = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
# usando função padrão
print(sum(num_floats))
print(math.fsum(num_floats))

0.9999999999999999
1.0


In [3]:
# constantes
print(math.pi)
print(math.e)
print(math.inf)
print(math.nan)

3.141592653589793
2.718281828459045
inf
nan


#### Exemplo de uso de `from <modulo> import <parte>`

In [4]:
from math import pi
print(pi)

3.141592653589793


In [5]:
from math import log, sqrt
print(log(1001, 3))
print(sqrt(322))

6.288619607278353
17.944358444926362


---

## `random`

Gera números pseudo-aleatórios para simulações. Há muitas funções, alguns exemplos:

* `random()`: número aleatório entre 0 e 1
* `uniform(a,b)`: número aleatório float entre a e b, sendo que os valores são equiprováveis
* `randint(a,b)`: número aleatório inteiro entre a e b, sendo que os valores são equiprováveis
* `shuffle(list)`: embaralha uma lista
* `sample(list, k)`: sorteia k elementos de uma lista e retorna essa amostra aleatória
* `seed(s)`: define a semente da sequência aleatória, permitindo reproduzir uma mesma simulação

#### Exemplo de uso de `import as`

In [6]:
# podemos usar `rd` ao invés de `random` para acessar o módulo
import random as rd

In [7]:
# sorteia um número aleatório
print(rd.random())

# exemplo: criando uma lista de números aleatórios
num_aleat = []
for i in range(5):
    num_aleat.append(rd.random())
    
print(num_aleat)

0.3341060181651533
[0.4225520915969372, 0.2340996042539446, 0.3317146583435743, 0.83860763095296, 0.6326950229541847]


In [8]:
# sorteia um numero aleatorio inteiro uniforme entre "a" e "b"
print(rd.randint(1,10))

# exemplo: criando uma lista de números aleatórios
numint_1_10 = []
for i in range(10):
    numint_1_10.append(rd.randint(1,10))
    
print(numint_1_10)

9
[2, 8, 8, 8, 5, 8, 1, 9, 8, 1]


#### Funções com listas

In [9]:
numeros = [111, 222, 333, 444, 555, 666, 777, 888, 999]

print(rd.sample(numeros,4))

rd.shuffle(numeros)
print(numeros)

[222, 333, 999, 444]
[888, 999, 111, 333, 777, 666, 555, 444, 222]


#### Controlando a geração pseudo-aleatória com `seed()`

Os números gerados não são realmente aleatórios, mas pseudo-aleatórios

Assim, é possível obter a sequência gerada se definirmos a "semente"

In [10]:
rd.seed(1)

# criando uma lista de números aleatórios
numint_1_10 = []
for i in range(10):
    numint_1_10.append(rd.randint(1,10))
    
print(numint_1_10)

[3, 10, 2, 5, 2, 8, 8, 8, 7, 4]


---

# `pandas`

<font color='blue'>Pandas</font> é um pacote python construído com base no <font color='blue'>numpy</font> e <font color='blue'>matplotlib</font> (a serem vistos posteriormente) que busca organizar dados no formato de tabela

O pacote <font color='blue'>pandas</font> fornece ainda um conjunto de funcionalidades para processar e tratar dados

O <font colo='blue'>pandas</font> organiza os dados em três tipos de estruturas:
- Series
- DataFrame
- Panel (*não* serão abordados neste curso)

## Carregando arquivos
Pandas permite carregar (e escrever) arquivos de diversos formatos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

A célula abaixo irá criar um arquivo tipo '.csv' onde os elementos das colunas são separados por vírgula (padrão para arquivos '.csv')

In [1]:
%%writefile data_access.csv  
day,month,num access,category
31,5,9241,student
31,5,830,teacher
31,5,45,coordinator
3,6,9102,student
3,6,1022,teacher
3,6,30,coordinator
4,6,10301,student
4,6,781,teacher
4,6,81,coordinator

Overwriting data_access.csv


In [4]:
# Carregar um CSV simples
import pandas as pd # importamos a bilbioteca

df = pd.read_csv('data_access.csv')  # o método read_csv carrega um arquivo no formato '.csv'
                                # a primeira linha do arquivo se torna os rótulos das colunas
                                # como os indices não foram especificados, são criados automaticamente

df

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator
3,3,6,9102,student
4,3,6,1022,teacher
5,3,6,30,coordinator
6,4,6,10301,student
7,4,6,781,teacher
8,4,6,81,coordinator


## DataFrames
<font color='blue'>DataFrames</font> é uma estrutura de dados do <font color='blue'>pandas</font> semelhante a uma planilha de cálculo (como uma planilha excel). 

Ao invés de interagir com o mouse e teclado, iremos utilizar a linguagem Python.

Linhas e colunas são indexadas por rótulos. 

Dois métodos são muito úteis para analisar rapidamente um DataFrame: <font color='blue'>head</font> e <font color='blue'>dtypes</font>
- <font color='blue'>head()</font> - mostra as 5 primeiras linhas do DataFrame.
- <font color='blue'>sample(n)</font> - amostra aleatoriamente n linhas do dataframe

In [5]:
df.head()

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator
3,3,6,9102,student
4,3,6,1022,teacher


In [6]:
df.sample(4)

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
5,3,6,30,coordinator
8,4,6,81,coordinator
1,31,5,830,teacher


Atributos úteis de um dataframe
- `shape`: contém o tamanho do dataframe em uma tupla contendo o número de linhas e de colunas
- `dtypes`: contém as colunas e seus tipos
- `columns`: contem uma lista com o nome das colunas

In [7]:
df.dtypes

day            int64
month          int64
num access     int64
category      object
dtype: object

In [16]:
df.shape

(9, 4)

In [17]:
df.columns

Index(['day', 'month', 'num access', 'category'], dtype='object')

### Acessando Colunas

- por rótulo dentro de colchetes []
- por rótulo como atributo (não recomendado, pois existem restrições)
- lista de rótulos dentro de colchetes [] (acessa várias colunas)

In [18]:
print(df['day'])

0    31
1    31
2    31
3     3
4     3
5     3
6     4
7     4
8     4
Name: day, dtype: int64


In [19]:
print(df.day)

0    31
1    31
2    31
3     3
4     3
5     3
6     4
7     4
8     4
Name: day, dtype: int64


In [20]:
# nao funciona para nome de variável / rótulo com espaços e outras restrições
print(df.num access)

SyntaxError: invalid syntax (<ipython-input-20-b8bfe87f586e>, line 2)

In [8]:
print(df[['day', 'num access']])

   day  num access
0   31        9241
1   31         830
2   31          45
3    3        9102
4    3        1022
5    3          30
6    4       10301
7    4         781
8    4          81


#### Convertendo para valores

Use o atributo `values`, e posteriormente covnerta para o tipo desejado, por exemplo: lista:

In [9]:
lista_dias = list(df['day'].values)
print(lista_dias)

[31, 31, 31, 3, 3, 3, 4, 4, 4]


#### Busca (query)

Permite definir expressões para busca dentro de uma coluna

In [None]:
df.query('month == 5')

In [None]:
df.query('month == 5 & category == "teacher"')

In [None]:
df.query('month == 5 & category == "teacher"')['num access']

### Criando e removendo colunas

Criar colunas é possível atribuindo valores e nomeando a nova coluna

In [10]:
# usando um único valor
df['year'] = 2021
df

Unnamed: 0,day,month,num access,category,year
0,31,5,9241,student,2021
1,31,5,830,teacher,2021
2,31,5,45,coordinator,2021
3,3,6,9102,student,2021
4,3,6,1022,teacher,2021
5,3,6,30,coordinator,2021
6,4,6,10301,student,2021
7,4,6,781,teacher,2021
8,4,6,81,coordinator,2021


In [11]:
# usando uma lista
lista = list(range(1,df.shape[0]+1))
df['id'] = lista
df

Unnamed: 0,day,month,num access,category,year,id
0,31,5,9241,student,2021,1
1,31,5,830,teacher,2021,2
2,31,5,45,coordinator,2021,3
3,3,6,9102,student,2021,4
4,3,6,1022,teacher,2021,5
5,3,6,30,coordinator,2021,6
6,4,6,10301,student,2021,7
7,4,6,781,teacher,2021,8
8,4,6,81,coordinator,2021,9


A remoção pode ser feita com:
* `del`
* `drop(<coluna>, axis=1)`: especificamos o eixo para definir se a remoção será de coluna (axis=1) ou de linha (axis=0)

In [None]:
# removendo com drop
df.drop('id', axis=1)
print(df)

del df['year']
print(df)

### Acessando Linhas

Para acessar linhas de um DataFrame:
- <font color='blue'>iloc</font> - manipula o DataFrame como uma matriz com índices inteiros
- <font color='blue'>loc</font> - seleciona linhas pelos seus rótulos (índices) ou por máscara booleana

A princípio esses parecem redudantes, mas o que muda é a seleção pelo rótulo das linhas.

Para melhor explicar vamos refazer o índice do dataframe

O método `set_index()` permite definir um índice com base numa coluna. É preciso especificar o parâmetro `inplace=True` para que o dataframe seja modificado, do contrário, apenas uma cópia é retornada

In [None]:
# criando novamente a coluna ID
lista = list(range(10,(df.shape[0]+1)*10,10))
df['id'] = lista
df

In [None]:
# sem passar o inplace
df.set_index('id')


In [None]:
df.set_index('id', inplace=True)
df

O parâmetro `inplace` é também usado em outros métodos com o mesmo fim.

#### Usando `loc()`

A seleção é feita pelo índice do dataframe


In [None]:
df.loc[20]

In [None]:
# podemos passar uma lista, que será retornada na ordem informada
df.loc[[90,10,30]]

Quando fatiamos, *excepcionalmente com o loc* o intervalo é fechado para os dois extremos

Ou seja, será retornado o valor de índice final

In [None]:
df.loc[10:40]

Podemos também especificar as colunas

In [None]:
df.loc[10:10, ['day', 'month']]

In [None]:
df.loc[10:10, 'category']

**`loc()` com condicionais (booleanas)**

In [None]:
df['category'] == 'student'

In [None]:
df.loc[df['category'] == 'student']

#### Usando `iloc()`

A seleção é feita pela posição de linha e coluna relativa ao início, começando por zero, como se fosse uma matriz


In [None]:
df

In [None]:
df.iloc[1]

In [None]:
cat_pos1 = df.iloc[1,3]
print(cat_pos1)

In [None]:
df.iloc[:,3]

Aqui também podemos usar o atributo `values`

In [None]:
lista_cats = list(df.iloc[:,3].values)
print(lista_cats)

É possível fatiar ambas linhas e colunas, 
* padrão Python, em que o elemento final representa um intervalo ABERTO, ou seja não é retornado

In [None]:
df.iloc[3:5]

In [None]:
df.iloc[3:5,2:3]

`iloc()` e `loc()` retornam uma cópia do dataframe

In [None]:
subdf1 = df.iloc[3:6, 2:]
subdf1.iloc[2, 0] = -1
print(subdf1)

In [None]:
df

In [21]:
subdf2 = df.loc[40:60,['num access', 'category']]
subdf2.iloc[1:, 0] = -1
print(subdf2)

Empty DataFrame
Columns: [num access, category]
Index: []


In [None]:
df