# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python - Aula 18</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material do Prof. Moacir Antonelli Ponti)*

# <font color="red">Conteúdo:</font>

### <span style="color:red">- Modulo: Pandas</span>
### <span style="color:red">- Pandas: Dataframe</span>
### <span style="color:red">- Localização (*loc* e *iloc*)</span>

---

# `pandas`

<font color='blue'>Pandas</font> é um pacote python construído com base no <font color='blue'>numpy</font> e <font color='blue'>matplotlib</font> (a serem vistos posteriormente) que busca organizar dados no formato de tabela

O pacote <font color='blue'>pandas</font> fornece ainda um conjunto de funcionalidades para processar e tratar dados

O <font colo='blue'>pandas</font> organiza os dados em três tipos de estruturas:
- Series
- DataFrame
- Panel (*não* serão abordados neste curso)

## Carregando arquivos
Pandas permite carregar (e escrever) arquivos de diversos formatos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

A célula abaixo irá criar um arquivo tipo '.csv' onde os elementos das colunas são separados por vírgula (padrão para arquivos '.csv')

In [None]:
%%writefile data_access.csv  
day,month,num access,category
31,5,9241,student
31,5,830,teacher
31,5,45,coordinator
3,6,9102,student
3,6,1022,teacher
3,6,30,coordinator
4,6,10301,student
4,6,781,teacher
4,6,81,coordinator

In [None]:
# Carregar um CSV simples
import pandas as pd # importamos a biblioteca

df = pd.read_csv('data_access.csv')  # o método read_csv carrega um arquivo no formato '.csv'
                                # a primeira linha do arquivo se torna os rótulos das colunas
                                # como os indices não foram especificados, são criados automaticamente

df

In [None]:
type(df)

## DataFrames
<font color='blue'>DataFrames</font> é uma estrutura de dados do <font color='blue'>pandas</font> semelhante a uma planilha de cálculo (como uma planilha excel). 

Ao invés de interagir com o mouse e teclado, iremos utilizar a linguagem Python.

Linhas e colunas são indexadas por rótulos. 

Métodos para analisar um DataFrame:
* `info()`: informação geral 
* `head()`: primeiras linhas
* `sample(n)`: amostra de n linhas

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.sample(4)

Atributos úteis de um dataframe
- `shape`: contém o tamanho do dataframe em uma tupla contendo o número de linhas e de colunas
- `dtypes`: contém as colunas e seus tipos
- `columns`: contem uma lista com o nome das colunas

In [None]:
df.dtypes

In [None]:
l, c = df.shape
print(l)
print(c)

In [None]:
df.columns

### Acessando Colunas

- por rótulo dentro de colchetes []
- por rótulo como atributo (não recomendado, pois existem restrições)
- lista de rótulos dentro de colchetes [] (acessa várias colunas)

In [None]:
print(df['day'])

In [None]:
print(df.day)

In [None]:
# nao funciona para nome de variável / rótulo com espaços e outras restrições
print(df.num access)

In [None]:
print(df[ ['day', 'num access'] ])

#### Convertendo para valores

Use o atributo `values`, e posteriormente converta para o tipo desejado, por exemplo: lista:

In [None]:
lista_dias = list(df['day'].values)
print(lista_dias)
type(lista_dias)
acessos = list(df['num access'].values)
acessos_total = sum(acessos)
acessos_total

#### Busca (query)

Permite definir expressões para busca dentro de uma coluna

In [None]:
df.query('month == 6')

In [None]:
df.query('month == 6 & category == "teacher"')

In [None]:
df.query('month == 5 & category == "teacher"')['num access']

### Criando e removendo colunas

Criar colunas é possível atribuindo valores e nomeando a nova coluna

In [None]:
# usando um único valor
df['year'] = 2022
df

In [None]:
# usando uma lista
lista = list(range(1,df.shape[0]+1))
df['id'] = lista
df

A remoção pode ser feita com:
* `del`
* `drop(<coluna>, axis=1)`: especificamos o eixo para definir se a remoção será de coluna (axis=1) ou de linha (axis=0)

In [None]:
# removendo com drop
df = df.drop('id', axis=1)
print(df)

del df['year']
print(df)

### Acessando Linhas

Para acessar linhas de um DataFrame:
- <font color='blue'>iloc</font> - manipula o DataFrame como uma matriz com índices inteiros
- <font color='blue'>loc</font> - seleciona linhas pelos seus rótulos (índices) ou por máscara booleana

A princípio esses parecem redudantes, mas o que muda é a seleção pelo rótulo das linhas.

Para melhor explicar vamos refazer o índice do dataframe

O método `set_index()` permite definir um índice com base numa coluna. É preciso especificar o parâmetro `inplace=True` para que o dataframe seja modificado, do contrário, apenas uma cópia é retornada

In [None]:
# criando novamente a coluna ID
lista = list(range(10,(df.shape[0]+1)*10,10))
df['id'] = lista
df

In [None]:
# sem passar o inplace
df.set_index('id')
df

In [None]:
df.set_index('id', inplace=True)
df

O parâmetro `inplace` é também usado em outros métodos com o mesmo fim.

#### Usando `loc()`

A seleção é feita pelo índice do dataframe


In [None]:
df.loc[20]

In [None]:
# podemos passar uma lista, que será retornada na ordem informada
df.loc[[90,10,30]]

Quando fatiamos, *excepcionalmente com o loc* o intervalo é fechado para os dois extremos

Ou seja, será retornado o valor de índice final

In [None]:
df.loc[10:40]

Podemos também especificar as colunas

In [None]:
df.loc[10:30, ['category']]

In [None]:
df.loc[10:10, 'category']

**`loc()` com condicionais (booleanas)**

In [None]:
df['category'] == 'student'

In [None]:
df.loc[df['num access'] > 1000]

#### Usando `iloc()`

A seleção é feita pela posição de linha e coluna relativa ao início, começando por zero, como se fosse uma matriz


In [None]:
df

In [None]:
df.iloc[1]

In [None]:
cat_pos1 = df.iloc[1,3]
print(cat_pos1)

In [None]:
df.iloc[:,3]

Aqui também podemos usar o atributo `values`

In [None]:
lista_cats = list(df.iloc[:,3].values)
print(lista_cats)

É possível fatiar ambas linhas e colunas, 
* padrão Python, em que o elemento final representa um intervalo ABERTO, ou seja não é retornado

In [None]:
df.iloc[3:5]

In [None]:
df.iloc[3:5,2:4]

`iloc()` e `loc()` retornam uma cópia do dataframe

In [None]:
subdf1 = df.iloc[3:6, 2:]
subdf1.iloc[2, 0] = -1
print(subdf1)

In [None]:
df

In [None]:
subdf2 = df.loc[40:60,['num access', 'category']]
subdf2.loc[60, ['num access']] = -1
print(subdf2)

In [None]:
df

# <font color="red">Resumo da aula</font>

### <span style="color:red">- Modulo: Pandas</span>
### <span style="color:red">- Pandas: Dataframe</span>
### <span style="color:red">- Localização (*loc* e *iloc*)</span>