# <font color="red"> Data Science no Agronegócio</font>
## <span style="color:red">Linguagens e Ferramentas para *Data Science* no Agronegócio</span>

### <span style="color:darkred">Python: Pandas Parte 1</span>

*Dr. Guilherme Martineli Sanches*<br>
*Cropman*

---

# `pandas`

<font color='blue'>Pandas</font> é um pacote python construído com base no <font color='blue'>numpy</font> e <font color='blue'>matplotlib</font> (a serem vistos posteriormente) que busca organizar dados no formato de tabela

O pacote <font color='blue'>pandas</font> fornece ainda um conjunto de funcionalidades para processar e tratar dados

O <font colo='blue'>pandas</font> organiza os dados em três tipos de estruturas:
- Series
- DataFrame
- Panel (*não* serão abordados neste curso)

## Carregando arquivos
Pandas permite carregar (e escrever) arquivos de diversos formatos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

A célula abaixo irá criar um arquivo tipo '.csv' onde os elementos das colunas são separados por vírgula (padrão para arquivos '.csv')

In [1]:
%%writefile data_access.csv  
day,month,num access,category
31,5,9241,student
31,5,830,teacher
31,5,45,coordinator
3,6,9102,student
3,6,1022,teacher
3,6,30,coordinator
4,6,10301,student
4,6,781,teacher
4,6,81,coordinator

Writing data_access.csv


In [2]:
# Carregar um CSV simples
import pandas as pd # importamos a bilbioteca

df = pd.read_csv('/content/data_access.csv')  # o método read_csv carrega um arquivo no formato '.csv'
                                # a primeira linha do arquivo se torna os rótulos das colunas
                                # como os indices não foram especificados, são criados automaticamente

df

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator
3,3,6,9102,student
4,3,6,1022,teacher
5,3,6,30,coordinator
6,4,6,10301,student
7,4,6,781,teacher
8,4,6,81,coordinator


## DataFrames
<font color='blue'>DataFrames</font> é uma estrutura de dados do <font color='blue'>pandas</font> semelhante a uma planilha de cálculo (como uma planilha excel). 

Ao invés de interagir com o mouse e teclado, iremos utilizar a linguagem Python.

Linhas e colunas são indexadas por rótulos. 

Dois métodos são muito úteis para analisar rapidamente um DataFrame: <font color='blue'>head</font> e <font color='blue'>dtypes</font>
- <font color='blue'>head()</font> - mostra as 5 primeiras linhas do DataFrame.
- <font color='blue'>sample(n)</font> - amostra aleatoriamente n linhas do dataframe

In [4]:
df.head(6)

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator
3,3,6,9102,student
4,3,6,1022,teacher
5,3,6,30,coordinator


In [5]:
df.sample(4)

Unnamed: 0,day,month,num access,category
2,31,5,45,coordinator
4,3,6,1022,teacher
1,31,5,830,teacher
8,4,6,81,coordinator


Atributos úteis de um dataframe
- `shape`: contém o tamanho do dataframe em uma tupla contendo o número de linhas e de colunas
- `dtypes`: contém as colunas e seus tipos
- `columns`: contem uma lista com o nome das colunas

In [6]:
df.dtypes

day            int64
month          int64
num access     int64
category      object
dtype: object

In [7]:
df.shape

(9, 4)

In [8]:
df.columns

Index(['day', 'month', 'num access', 'category'], dtype='object')

### Acessando Colunas

- por rótulo dentro de colchetes []
- por rótulo como atributo (não recomendado, pois existem restrições)
- lista de rótulos dentro de colchetes [] (acessa várias colunas)

In [9]:
print(df['day'])

0    31
1    31
2    31
3     3
4     3
5     3
6     4
7     4
8     4
Name: day, dtype: int64


In [10]:
print(df.day)

0    31
1    31
2    31
3     3
4     3
5     3
6     4
7     4
8     4
Name: day, dtype: int64


In [13]:
# nao funciona para nome de variável / rótulo com espaços e outras restrições
print(df['num access'])

0     9241
1      830
2       45
3     9102
4     1022
5       30
6    10301
7      781
8       81
Name: num access, dtype: int64


In [14]:
print(df[['day', 'num access']])

   day  num access
0   31        9241
1   31         830
2   31          45
3    3        9102
4    3        1022
5    3          30
6    4       10301
7    4         781
8    4          81


#### Convertendo para valores

Use o atributo `values`, e posteriormente converta para o tipo desejado, por exemplo: lista:

In [15]:
lista_dias = list(df['day'].values)
print(lista_dias)

[31, 31, 31, 3, 3, 3, 4, 4, 4]


#### Busca (query)

Permite definir expressões para busca dentro de uma coluna

In [16]:
df.query('month == 5')

Unnamed: 0,day,month,num access,category
0,31,5,9241,student
1,31,5,830,teacher
2,31,5,45,coordinator


In [17]:
df.query('month == 5 & category == "teacher"')

Unnamed: 0,day,month,num access,category
1,31,5,830,teacher


In [18]:
df.query('month == 5 & category == "teacher"')['num access']

1    830
Name: num access, dtype: int64

### Criando e removendo colunas

Criar colunas é possível atribuindo valores e nomeando a nova coluna

In [19]:
# usando um único valor
df['year'] = 2021
df

Unnamed: 0,day,month,num access,category,year
0,31,5,9241,student,2021
1,31,5,830,teacher,2021
2,31,5,45,coordinator,2021
3,3,6,9102,student,2021
4,3,6,1022,teacher,2021
5,3,6,30,coordinator,2021
6,4,6,10301,student,2021
7,4,6,781,teacher,2021
8,4,6,81,coordinator,2021


In [20]:
# usando uma lista
lista = list(range(1,df.shape[0]+1))
df['id'] = lista
df

Unnamed: 0,day,month,num access,category,year,id
0,31,5,9241,student,2021,1
1,31,5,830,teacher,2021,2
2,31,5,45,coordinator,2021,3
3,3,6,9102,student,2021,4
4,3,6,1022,teacher,2021,5
5,3,6,30,coordinator,2021,6
6,4,6,10301,student,2021,7
7,4,6,781,teacher,2021,8
8,4,6,81,coordinator,2021,9


A remoção pode ser feita com:
* `del`
* `drop(<coluna>, axis=1)`: especificamos o eixo para definir se a remoção será de coluna (axis=1) ou de linha (axis=0)

In [32]:
# removendo com drop
df.drop('month', axis=1)
print(df)

# del df['year']
# print(df)
df

   day  num access     category  id
0   31        9241      student   1
1   31         830      teacher   2
2   31          45  coordinator   3
3    3        9102      student   4
4    3        1022      teacher   5
5    3          30  coordinator   6
6    4       10301      student   7
7    4         781      teacher   8
8    4          81  coordinator   9


Unnamed: 0,day,num access,category,id
0,31,9241,student,1
1,31,830,teacher,2
2,31,45,coordinator,3
3,3,9102,student,4
4,3,1022,teacher,5
5,3,30,coordinator,6
6,4,10301,student,7
7,4,781,teacher,8
8,4,81,coordinator,9
