# CURSO DATA SCIENCE

## Módulo 1: Extração de Dados

### Aula 2 - Engenharia de Dados

#### 1. Definindo Ambiente de Programação

Vantagens do Jupyter Notebook:
- Ajuda na organização do código;
- Mantém o log das execuções;
- Ajuda a controlar o fluxo de trabalho;
- Permite inserir figuras;
- Permite gerar páginas html;
- Permite plotar gráficos;

<img src="img/jupyter_logo.png" width="20%">

Passo 1: Importar as Bibliotecas Necessárias

A Biblioteca Pandas (PANel DAtaS)
- Significa “dados em painel”;
- Permite a manipulação e análise de dados em Python;
- Torna mais fácil manipulação de diferentes formatos de arquivo (ex: csv);
- Possibilita o uso de Dataframe;

<img src="img/pandas_logo.png" width="30%">

In [None]:
import pandas as pd

Diferença entre usar Lista e Dataframe

In [None]:
#Generating Lists
list_people = [['Gil',35],['Gal',32],['Zé',45]]

In [None]:
list_people

In [8]:
#Generanting Dataframe
list_people_df = pd.DataFrame(list_people)

In [9]:
list_people_df

Unnamed: 0,0,1
0,Gil,35
1,Gal,32
2,Zé,45


In [10]:
list_people_df.columns = ['Nome', 'Idade']

In [11]:
list_people_df

Unnamed: 0,Nome,Idade
0,Gil,35
1,Gal,32
2,Zé,45


A Biblioteca NumPy
- Possibilita a manipulação algébrica de forma extremamente simples;
    - Ordenar vetor, recupera o maior elemento, recupera o menor elemento;
    - Função inversa, transposta, produto interno.
- Permite a realização de operações de cálculo numérico (muito utilizadas em Machine Learning);
- Facilita a manipulação de matrizes multidimensionais;

<img src="img/numpy_logo.png" width="30%">

In [7]:
import numpy as np

Obtendo valores estatísticos

In [13]:
list_people_df[['Idade']]

Unnamed: 0,Idade
0,35
1,32
2,45


In [14]:
mean = np.mean(list_people_df[['Idade']])

In [15]:
mean

Idade    37.333333
dtype: float64

Elementos de Dados Estruturados:
- Os dados podem vir de diversas fontes: 
    - Sensores, texto, imagem, planilhas;
- Os dados podem vir de forma não-estruturada:
    - Imagem (RGB), Sequências textuais, código HTML;
- Para que possamos trabalhar com esses dados, devemos estruturá-los.

Tipos de Dados Estruturados:

- Numérico:
    - Contínuo: dados que possuem valores dentro de um intervalo.
        - Sinônimos: intervalo, float, numeric;
        - Exemplo: velocidade do vento, duração de tempo;
    - Discreto: dados que assumem apenas valores inteiros.
        - Sinônimos: integer, count;
        - Exemplo: contadores, número de ocorrência de um evento;

- Categórico: dados que possui um conjunto fixo de valores.
     - Binário: um caso especial que só aceita duas categorias:
          - Sinônimo: operador lógico, booleano;
          - Exemplo: verdadeiro/ falso, 0/1.
     - Ordinal: dados que apresentam uma ordem explícita.
          - Exemplo: meses do ano, dias da semana, dias do mês
     - Nominal: dados não possuem ordem explícita.
          - Exemplo: Tipos de TV (Screen, LCD, LED), nome de estado (Ceará, Maranhão etc)

<img src="img/variable_statistics.jpg" width="60%">

Rectangular Data (Dados Retangulares):
- Em data science, os dados retangulares são trabalhados em data frames (tipo planilhas), que é a estrutura de dados básica para dados estatísticos e modelos de aprendizagem automática. 
- Alguns conceito-chaves:
    - Feature: Coluna na tabela comumente referenciada por apresentar características importante. 
        - Sinônimo: atributo, varíavel, input, preditor.
    - Registro: uma linha na tabela (data frame).
        - Sinônimo: instância, amostra (sample), observação, linha, record.
    - Outcome: uma feature cujos valores serão preditos pelos modelos de machine learning.
        - Sinônimo: variável dependente, target, label.


<img src="img/retangular_data.png" width="25%">

#### Manipulação e Limpeza de Dados

In [16]:
# Dataframe default
matrix_default_df = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]])

In [17]:
matrix_default_df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [2]:
# DataFrame personalizado
matrix_df = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]], index=(0,'A','$'), columns=['colA', 'colB', 'colC'])
#Valores esotéricos foram utilizados para dar destaque aos rótulos

In [3]:
matrix_df

Unnamed: 0,colA,colB,colC
0,1,2,3
A,4,5,6
$,7,8,9


Acessando Linhas e Colunas no DataFrame

Acessando Linhas

- Podemos fazer manipulação na linha de duas formas: pelo index original ou pelos rótulos dados. Para isso, utilizamos:
    - .loc: Funciona nos rótulos dos index, isto é, se você der .loc[2] ele irá procurar pelo índice de rótulo 2
    - .iloc: Procura pela posição do index, isto é, se você der .iloc[2] ele irá procurar pelo índice 2. 
- Use loc[] para selecionar pelo rótulo e iloc[] para selecionar pelo index

<img src="img/fig1.png" width="25%">

In [20]:
matrix_df.loc['A']

colA    4
colB    5
colC    6
Name: A, dtype: int64

In [4]:
matrix_df.iloc[2]

colA    7
colB    8
colC    9
Name: $, dtype: int64

Acessando Colunas: 

- Podemos fazer manipulação nas colunas simplesmente das seguintes formas:
    - Simplesmente digitando o nome da coluna entre colchetes;
    - Utilizando a função iloc e usando dois argumentos [ arg1, arg2 ]:
        - arg1) dois-pontos: para trazer todas as linhas;
        - arg2) o index da coluna;


In [22]:
matrix_df['colA']

0    1
A    4
$    7
Name: colA, dtype: int64

In [23]:
matrix_df.iloc[:,0]

0    1
A    4
$    7
Name: colA, dtype: int64

In [24]:
matrix_df.iloc[:,2]

0    3
A    6
$    9
Name: colC, dtype: int64

Como adicionar um Index, linha ou coluna em um Dataframe

Adicionando linhas

In [8]:
# Seja o seguinte dataframe
# OBS: Iremos utilizar rótulos “estranhos” para linhas e colunas no intuito de não confundir com os index originais de cada uma.
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), index= [2.5, 12.6, 4.8], columns=[48, 49, 50])


In [9]:
df

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,7,8,9


Alterando os valores de uma linha:
- Se utilizar a função iloc, ele apenas irá substituir os valores da linha do index passado como argumento.
- Como a função iloc[] serve para acessar o index original do DataFrame, se você tentar inserir df.iloc[3] com esses valores, ele não irá encontrar o index 3 e exibirá mensagem de erro.


In [10]:
df.iloc[2] = [60, 50, 40] 
df

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,60,50,40


Adicionando Linhas: 
   - Se utilizar a função loc, ele gerará uma linha nova contendo os valores passados. O rótulo da linha será o valor passado como argumento.
   - É importante que a quantidade de elementos inseridos seja na mesma quantidade e na respectiva ordem para cada coluna!

In [11]:
df.loc[3] = [11, 12, 13] # Gerará um index rotulado 3 com seus respectivos valores
df

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,60,50,40
3.0,11,12,13


In [14]:
df.loc[2.5] = [0, 0, 0] # Altera os valores da linha cujo rotulo é 2.5
df

Unnamed: 0,48,49,50
2.5,0,0,0
12.6,4,5,6
4.8,60,50,40
3.0,11,12,13


Adicionando colunas no DataFrame:
- Para adicionar uma coluna, basta inserir o nome dentro do argumento e atribuir valores ao dataframe. 
- Neste exemplo, adicionamos uma coluna D com os seus valores iguais aos do index do Dataframe.

In [15]:
df['D'] = df.index    #irá gerar uma coluna D com os valores semelhantes aos labels de index de df

df

Unnamed: 0,48,49,50,D
2.5,0,0,0,2.5
12.6,4,5,6,12.6
4.8,60,50,40,4.8
3.0,11,12,13,3.0


In [16]:
df['E'] = [50,60,70,80]
df

Unnamed: 0,48,49,50,D,E
2.5,0,0,0,2.5,50
12.6,4,5,6,12.6,60
4.8,60,50,40,4.8,70
3.0,11,12,13,3.0,80


In [17]:
df['E'] = [5,6,7,8]
df

Unnamed: 0,48,49,50,D,E
2.5,0,0,0,2.5,5
12.6,4,5,6,12.6,6
4.8,60,50,40,4.8,7
3.0,11,12,13,3.0,8


Resetando o index do DataFrame:

In [33]:
#Veja os index atuais do seu dataframe
df

Unnamed: 0,48,49,50,D,E
2.5,0,0,0,2.5,5
12.6,4,5,6,12.6,6
4.8,60,50,40,4.8,7
3.0,11,12,13,3.0,8


In [18]:
# Use `reset_index()` para usar valores padrões 
# drop = descartar nome das linhas; se True, uma nova coluna é gerada
# inplace = aplicar substituições sem instanciar novo objeto

df.reset_index(level=0, drop=True, inplace=True)

In [19]:
df

Unnamed: 0,48,49,50,D,E
0,0,0,0,2.5,5
1,4,5,6,12.6,6
2,60,50,40,4.8,7
3,11,12,13,3.0,8


In [20]:
df['E'] = [5,6,7,'Vozao']
df

Unnamed: 0,48,49,50,D,E
0,0,0,0,2.5,5
1,4,5,6,12.6,6
2,60,50,40,4.8,7
3,11,12,13,3.0,Vozao


In [21]:
df['E']

0        5
1        6
2        7
3    Vozao
Name: E, dtype: object

In [22]:
df['E'] = [5,6,7,8]
df

Unnamed: 0,48,49,50,D,E
0,0,0,0,2.5,5
1,4,5,6,12.6,6
2,60,50,40,4.8,7
3,11,12,13,3.0,8


In [23]:
df['E']

0    5
1    6
2    7
3    8
Name: E, dtype: int64

Se drop=False, ele não descarta a coluna de index antiga, ele gera uma nova coluna no DataFrame e a insere;

In [24]:
df.reset_index(level=0, drop=False, inplace=True)

In [25]:
df

Unnamed: 0,index,48,49,50,D,E
0,0,0,0,0,2.5,5
1,1,4,5,6,12.6,6
2,2,60,50,40,4.8,7
3,3,11,12,13,3.0,8


In [26]:
df.index=(0,'A','$',4)
df

Unnamed: 0,index,48,49,50,D,E
0,0,0,0,0,2.5,5
A,1,4,5,6,12.6,6
$,2,60,50,40,4.8,7
4,3,11,12,13,3.0,8


In [27]:
df.reset_index(level=0, drop=False, inplace=False)

Unnamed: 0,level_0,index,48,49,50,D,E
0,0,0,0,0,0,2.5,5
1,A,1,4,5,6,12.6,6
2,$,2,60,50,40,4.8,7
3,4,3,11,12,13,3.0,8


In [28]:
df

Unnamed: 0,index,48,49,50,D,E
0,0,0,0,0,2.5,5
A,1,4,5,6,12.6,6
$,2,60,50,40,4.8,7
4,3,11,12,13,3.0,8


In [29]:
df.index=(4,'A','A',4)
df

Unnamed: 0,index,48,49,50,D,E
4,0,0,0,0,2.5,5
A,1,4,5,6,12.6,6
A,2,60,50,40,4.8,7
4,3,11,12,13,3.0,8


In [30]:
df.loc[4]

Unnamed: 0,index,48,49,50,D,E
4,0,0,0,0,2.5,5
4,3,11,12,13,3.0,8


Como deletar index, Linhas e Colunas em DataFrames:

Removendo uma linha do DataFrame

- Para remover linhas, é possível remover de duas formas:
    - Removendo pelo nome da linha
    - Removendo pelo seu index
- O argumento axis serve para indicar o que se deseja remover: 0 para linha e 1 para coluna. O default é zero!
- O argumento inplace serve para que a remoção seja efetuada sem precisar atribuir o resultado em uma nova variável. Por default ela é False, e serve apenas para “simular” como ficará o resultado após a remoção.

In [31]:
df1 = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]], index=(3,'AA','BB'), columns=['A', 'B', 'C'])
df1

Unnamed: 0,A,B,C
3,1,2,3
AA,4,5,6
BB,7,8,9


In [32]:
df1.drop('AA', axis=0, inplace=True)
df1

Unnamed: 0,A,B,C
3,1,2,3
BB,7,8,9


In [33]:
df1.drop(df1.index[1], axis=0, inplace=True)
df1

Unnamed: 0,A,B,C
3,1,2,3


Deletando uma coluna do DataFrame

- Para remover colunas, é possível remover de duas formas:
    - Removendo pelo nome da coluna;
    - Removendo pelo seu columns (index da coluna).
- Aqui o argumento axis deve ser explicitado, visto que o default é zero;

In [37]:
df2 = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]], index=(3,'AA','BB'), columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
3,1,2,3
AA,4,5,6
BB,7,8,9


In [38]:
df2.drop('A', axis=1, inplace=True)
df2

Unnamed: 0,B,C
3,2,3
AA,5,6
BB,8,9


In [39]:
df2.drop(df2.columns[0], axis=1, inplace=True)
df2

Unnamed: 0,C
3,3
AA,6
BB,9


Como Renomear o Index ou Coluna de um Dataframe:


In [40]:
df3 = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]], index=(0,0,1), columns=['A', 'B', 'C'])
df3



Unnamed: 0,A,B,C
0,1,2,3
0,4,5,6
1,7,8,9


In [41]:
# Renomeie o index
df3.rename(index={1: 'a'}, inplace=True)
df3

Unnamed: 0,A,B,C
0,1,2,3
0,4,5,6
a,7,8,9


In [42]:
# Defina o nome das colunas
newcols = {
    'A': 'new_column_1', 
    'B': 'new_column_2', 
    'C': 'new_column_3'
}

In [43]:
# Use `rename()` para renomear
df3.rename(columns=newcols, inplace=True)
df3

Unnamed: 0,new_column_1,new_column_2,new_column_3
0,1,2,3
0,4,5,6
a,7,8,9


In [44]:
df3.rename(columns={'A':'ColA'}, inplace=True)
df3

Unnamed: 0,new_column_1,new_column_2,new_column_3
0,1,2,3
0,4,5,6
a,7,8,9


In [45]:
df3.rename(columns={'new_column_1':'ColA'}, inplace=True)
df3

Unnamed: 0,ColA,new_column_2,new_column_3
0,1,2,3
0,4,5,6
a,7,8,9


Formatar Dados no Dataframe
- Podemos alterar elementos dentro do DataFrame das seguintes formas:
    - Alterando uma lista de elementos:

In [46]:
df4 = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), 
                   index= [2.5, 12.6, 4.8], columns=[48, 49, 50])
df4

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,7,8,9


In [47]:
# Substituir números por string
df4.replace([1,2,3,4,5],['Awful', 'Poor', 'OK', 'Acceptable', 'Perfect']) 

Unnamed: 0,48,49,50
2.5,Awful,Poor,OK
12.6,Acceptable,Perfect,6
4.8,7,8,9


Formatar Dados no Dataframe
- Podemos alterar elementos dentro do DataFrame das seguintes formas:
    - Utilizando estrutura de repetição na linha:

In [48]:
df4

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,7,8,9


In [49]:
for i in range(3):
    df4.iloc[2,i] = 0
df4

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,0,0,0


In [50]:
for i in range(3):
    df4[48] = 1
    #df4.iloc[i,0] = 1
df4

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,1,5,6
4.8,1,0,0


In [51]:
df4.replace([1],['ok'],inplace=True)

In [52]:
df4

Unnamed: 0,48,49,50
2.5,ok,2,3
12.6,ok,5,6
4.8,ok,0,0


In [53]:
df4.iloc[0]

48    ok
49     2
50     3
Name: 2.5, dtype: object

In [55]:
df4

Unnamed: 0,48,49,50
2.5,ok,2,3
12.6,ok,5,6
4.8,ok,0,0


In [56]:
# acessando linha e coluna específica
df4.iloc[0][0] = 99

In [57]:
df4

Unnamed: 0,48,49,50
2.5,ok,2,3
12.6,ok,5,6
4.8,ok,0,0


In [58]:
df4.columns.get_loc(48)

0

In [59]:
df4.columns.get_loc(50)

2

In [60]:
df4.iloc[0, df4.columns.get_loc(48)] = 99

In [61]:
df4

Unnamed: 0,48,49,50
2.5,99,2,3
12.6,ok,5,6
4.8,ok,0,0


Função LAMBDA

- O que é uma função lambda?
    - Todas as características de uma função lambda são muito parecidas com as funções comuns que já vimos, com exceção de duas coisas: elas não possuem uma definição em código, ou seja, são declaradas como variáveis e não possuem um def próprio; e elas são funções de uma linha, que funcionam como se houvesse a instrução return antes do comando.

In [1]:
def timesTwo(numero):
    return numero*2

In [2]:
import pandas as pd

In [3]:
df5 = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]], index=(0,1,2), columns=['A', 'B', 'C'])

In [4]:
df5

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [5]:
for i in range(len(df5)):
    for j in range(len(df5.columns)):
        df5.iloc[i,j] = timesTwo(df5.iloc[i,j])

In [6]:
df5

Unnamed: 0,A,B,C
0,2,4,6
1,8,10,12
2,14,16,18


In [11]:
# seja a seguinte função
doubler = lambda x: x*2

In [7]:
df5

Unnamed: 0,A,B,C
0,2,4,6
1,8,10,12
2,14,16,18


In [12]:
df5 = df5.applymap(doubler)
df5

Unnamed: 0,A,B,C
0,4,8,12
1,16,20,24
2,28,32,36


In [13]:
df5

Unnamed: 0,A,B,C
0,4,8,12
1,16,20,24
2,28,32,36


In [14]:
# A função APPLYMAP permite aplicar funções não-lambda também 
df5 = df5.applymap(timesTwo)
df5

Unnamed: 0,A,B,C
0,8,16,24
1,32,40,48
2,56,64,72


In [16]:
# Vamos aplicar a função na coluna 'A'
df5['A'] = df5['A'].apply(doubler)
df5

Unnamed: 0,A,B,C
0,32,16,24
1,128,40,48
2,224,64,72


In [17]:
# Aplicando na linha de rótulo 0
df5.loc[0] = df5.loc[0].apply(doubler)
df5

Unnamed: 0,A,B,C
0,64,32,48
1,128,40,48
2,224,64,72


Criando DataFrame em Branco:

- Para gerar um DataFrame utilizando a função NaN (Not a Number) da biblioteca Numpy:

In [18]:
import numpy as np

In [19]:
df = pd.DataFrame(np.nan, index=[0,1,2,3], columns=['A'])
print(df)

    A
0 NaN
1 NaN
2 NaN
3 NaN


In [20]:
df = pd.DataFrame(np.nan, index=[0,1,2,3], columns=['A','B'])
df

Unnamed: 0,A,B
0,,
1,,
2,,
3,,


Importando Dados para DataFrame

Lendo arquivos CSV e inserindo em DataFrame
- O Pandas permite upload de arquivos (txt, CSV, xlsx, etc) para manipulá-los em DataFrame; 
- A seguir, iremos ler um arquivo em CSV e colocá-lo em um DataFrame;
- Os passos apresentados anteriormente são fundamentais para manipular os elementos dentro do arquivo dentro do DataFrame;


Vamos fazer o upload de um arquivo CSV chamado “aula2_dataManipulation.csv”
- Esse arquivo é um pedaço de um CSV maior que contém informações sobre Tempo médio de resposta a incidentes por ano, mês, classificação e incidente registrado pelo Corpo de Bombeiros de Nova York.
O arquivo completo encontra-se em: https://data.cityofnewyork.us/Social-Services/FDNY-Monthly-Response-Times/j34j-vqvt
- Para ler o arquivo CSV em questão, basta usar a função do Pandas “read_csv”;

In [21]:
file = pd.read_csv('aula2_dataManipulation.csv')

In [22]:
type(file)

pandas.core.frame.DataFrame

- Se quisermos saber o conteúdo das primeiras linhas de file, basta chamar o método head().
- O método head exibe as cinco primeiras linhas do DataFrame, mas se quiséssemos ver mais linhas, basta colocar o valor desejado entre parênteses.

In [169]:
file.head(10)

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
0,2009/07,All Fire/Emergency Incidents,Citywide,40850,04:27
1,2009/07,All Fire/Emergency Incidents,Manhattan,10709,04:32
2,2009/07,All Fire/Emergency Incidents,Bronx,8137,04:37
3,2009/07,All Fire/Emergency Incidents,Staten Island,2205,04:45
4,2009/07,All Fire/Emergency Incidents,Brooklyn,11505,04:01
5,2009/07,All Fire/Emergency Incidents,Queens,8294,04:43
6,2009/07,False Alarm,Citywide,2655,04:07
7,2009/07,False Alarm,Manhattan,474,04:07
8,2009/07,False Alarm,Bronx,755,04:26
9,2009/07,False Alarm,Staten Island,192,03:49


O DataFrame possui um método chamado describe() que serve para dar uma visão geral de colunas numéricas. Se dermos file.describe(), será apresentado apenas um resumo estatístico:

In [23]:
file.describe()

Unnamed: 0,INCIDENTCOUNT
count,24.0
mean,5209.916667
std,8945.296111
min,10.0
25%,354.0
50%,1569.0
75%,6042.25
max,40850.0


Para checarmos os tipos de dados, basta chamarmos o método info():

In [171]:
file.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 5 columns):
YEARMONTH                 24 non-null object
INCIDENTCLASSIFICATION    24 non-null object
INCIDENTBOROUGH           24 non-null object
INCIDENTCOUNT             24 non-null int64
AVERAGERESPONSETIME       24 non-null object
dtypes: int64(1), object(4)
memory usage: 1.0+ KB


In [172]:
len(file)

24

In [173]:
range(len(file))

range(0, 24)

Iterando sob DataFrame
- Como já discutimos anteriormente, para iterar em DataFrame, para iteramos sob linhas basta usar iloc[] ou loc[] e, sob colunas, o nome da coluna entre colchetes:

In [174]:
for i in range(len(file)):
    print(i, file['YEARMONTH'].iloc[i], file['INCIDENTBOROUGH'].iloc[i])

0 2009/07 Citywide
1 2009/07 Manhattan
2 2009/07 Bronx
3 2009/07 Staten Island
4 2009/07 Brooklyn
5 2009/07 Queens
6 2009/07 Citywide
7 2009/07 Manhattan
8 2009/07 Bronx
9 2009/07 Staten Island
10 2009/07 Brooklyn
11 2009/07 Queens
12 2009/07 Citywide
13 2009/07 Manhattan
14 2009/07 Bronx
15 2009/07 Staten Island
16 2009/07 Brooklyn
17 2009/07 Queens
18 2009/07 Citywide
19 2009/07 Manhattan
20 2009/07 Bronx
21 2009/07 Staten Island
22 2009/07 Brooklyn
23 2009/07 Queens


Mas DataFrame também possui um método chamado iterrows[] que pode tornar a iteração mais legível:

In [79]:
for index, row in file.iterrows() :
    print(index, row['YEARMONTH'], row['INCIDENTBOROUGH'])

0 2009/07 Citywide
1 2009/07 Manhattan
2 2009/07 Bronx
3 2009/07 Staten Island
4 2009/07 Brooklyn
5 2009/07 Queens
6 2009/07 Citywide
7 2009/07 Manhattan
8 2009/07 Bronx
9 2009/07 Staten Island
10 2009/07 Brooklyn
11 2009/07 Queens
12 2009/07 Citywide
13 2009/07 Manhattan
14 2009/07 Bronx
15 2009/07 Staten Island
16 2009/07 Brooklyn
17 2009/07 Queens
18 2009/07 Citywide
19 2009/07 Manhattan
20 2009/07 Bronx
21 2009/07 Staten Island
22 2009/07 Brooklyn
23 2009/07 Queens


Agrupamentos:
- Em DataFrame, se for preciso fazer agrupamentos (como o famoso GroupBy nos banco de dados), podemos fazer da seguinte forma:

In [80]:
file.groupby('INCIDENTCLASSIFICATION').groups
#Este método agrupa e retorna os índices de cada elemento de um grupo

{'All Fire/Emergency Incidents': Int64Index([0, 1, 2, 3, 4, 5], dtype='int64'),
 'False Alarm': Int64Index([6, 7, 8, 9, 10, 11], dtype='int64'),
 'Medical Emergencies': Int64Index([12, 13, 14, 15, 16, 17], dtype='int64'),
 'Medical False Alarm': Int64Index([18, 19, 20, 21, 22, 23], dtype='int64')}

In [81]:
file['INCIDENTCLASSIFICATION'].value_counts()
#Este método agrupa e calcula a quantidade de elementos por grupo

Medical Emergencies             6
All Fire/Emergency Incidents    6
Medical False Alarm             6
False Alarm                     6
Name: INCIDENTCLASSIFICATION, dtype: int64

Funções de Agregação:
- As funções de agregação são aquelas que reduzem a dimensão dos objects retornados. Isso significa que a saída do DataFrame tem menos ou as mesmas linhas, como o original. Algumas funções comuns de agregação estão tabuladas abaixo: 
    - max: retorna o valor máximo do grupo
    - min: retorna o valor mínimo do grupo
    - mean: retorna a média do grupo
    - std: retorna o desvio padrão do grupo
    - sum: retorna a soma do grupo

In [82]:
file['INCIDENTCOUNT'].agg(np.max)

40850

In [83]:
file['INCIDENTCOUNT'].max()

40850

In [84]:
file['INCIDENTCOUNT'].agg(np.min)

10

In [175]:
file['INCIDENTCOUNT'].min()

10

In [85]:
file['INCIDENTCOUNT'].mean()

5209.916666666667

In [86]:
file['INCIDENTCOUNT'].agg(np.mean)

5209.916666666667

In [87]:
file['INCIDENTCOUNT'].agg(np.std)

8945.296111057072

In [88]:
file['INCIDENTCOUNT'].std()

8945.296111057072

In [89]:
file['INCIDENTCOUNT'].agg(np.sum)

125038

In [90]:
file['INCIDENTCOUNT'].sum()

125038

Podemos usar função lambda como argumento, se for preciso:
- Neste exemplo, aplicamos a função lambda para checar os elementos da coluna se são ímpares.

In [91]:
file['INCIDENTCOUNT'].agg(lambda x: (x%2 != 0))

0     False
1      True
2      True
3      True
4      True
5     False
6      True
7     False
8      True
9     False
10     True
11     True
12    False
13     True
14     True
15     True
16    False
17     True
18    False
19    False
20     True
21    False
22     True
23    False
Name: INCIDENTCOUNT, dtype: bool

Alterando elemento do DataFrame:
- Suponha que você queira alterar um elemento do DataFrame. A maneira mais “imediata” a se fazer, seria atribuindo um valor diretamente ao DataFrame especificando a linha e coluna como a seguir.
- Neste exemplo, queremos alterar o DataFrame file, na coluna IncidentCount, na linha de index 8 para o valor 50.
- Ao executar a célula, o valor da linha de índice 8 será alterado, mas apresentará o seguinte warning.

In [176]:
file["INCIDENTCOUNT"].iloc[8] = 50

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


In [177]:
file["INCIDENTCOUNT"]

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8        50
9       192
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: int64

Para alterar o elemento de um DataFrame, de acordo com a documentação do Pandas, usando LOC, devemos fazer da seguinte forma:

In [178]:
file.iloc[8, file.columns.get_loc("INCIDENTCOUNT")] = 90


In [179]:
file

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
0,2009/07,All Fire/Emergency Incidents,Citywide,40850,04:27
1,2009/07,All Fire/Emergency Incidents,Manhattan,10709,04:32
2,2009/07,All Fire/Emergency Incidents,Bronx,8137,04:37
3,2009/07,All Fire/Emergency Incidents,Staten Island,2205,04:45
4,2009/07,All Fire/Emergency Incidents,Brooklyn,11505,04:01
5,2009/07,All Fire/Emergency Incidents,Queens,8294,04:43
6,2009/07,False Alarm,Citywide,2655,04:07
7,2009/07,False Alarm,Manhattan,474,04:07
8,2009/07,False Alarm,Bronx,90,04:26
9,2009/07,False Alarm,Staten Island,192,03:49


In [182]:
file.iloc[8, 3] = 120

In [185]:
file

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
0,2009/07,All Fire/Emergency Incidents,Citywide,40850,04:27
1,2009/07,All Fire/Emergency Incidents,Manhattan,10709,04:32
2,2009/07,All Fire/Emergency Incidents,Bronx,8137,04:37
3,2009/07,All Fire/Emergency Incidents,Staten Island,2205,04:45
4,2009/07,All Fire/Emergency Incidents,Brooklyn,11505,04:01
5,2009/07,All Fire/Emergency Incidents,Queens,8294,04:43
6,2009/07,False Alarm,Citywide,2655,04:07
7,2009/07,False Alarm,Manhattan,474,04:07
8,2009/07,False Alarm,Bronx,120,04:26
9,2009/07,False Alarm,Staten Island,192,03:49


In [186]:
file.iloc[8][3] = 150

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [187]:
file

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
0,2009/07,All Fire/Emergency Incidents,Citywide,40850,04:27
1,2009/07,All Fire/Emergency Incidents,Manhattan,10709,04:32
2,2009/07,All Fire/Emergency Incidents,Bronx,8137,04:37
3,2009/07,All Fire/Emergency Incidents,Staten Island,2205,04:45
4,2009/07,All Fire/Emergency Incidents,Brooklyn,11505,04:01
5,2009/07,All Fire/Emergency Incidents,Queens,8294,04:43
6,2009/07,False Alarm,Citywide,2655,04:07
7,2009/07,False Alarm,Manhattan,474,04:07
8,2009/07,False Alarm,Bronx,120,04:26
9,2009/07,False Alarm,Staten Island,192,03:49


In [189]:
file.columns.get_loc("INCIDENTCOUNT")

3

In [190]:
file["INCIDENTCOUNT"]

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8       120
9       192
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: int64

Checando linhas/colunas vazias:
- Quando estamos trabalhando com DataFrames, para checar o tipo de uma coluna, basta chamarmos o método .dtype().

In [191]:
file.INCIDENTCOUNT.dtype

dtype('int64')

Vamos agora alterar um elemento do DataFrame para uma string e ver qual será o novo tipo da coluna:


In [192]:
file.iloc[8, file.columns.get_loc("INCIDENTCOUNT")] = "casa"
#Alteramos o elemento de index 8 que era um inteiro para uma string

In [193]:
file["INCIDENTCOUNT"]

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8      casa
9       192
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: object

In [194]:
file.INCIDENTCOUNT.dtype
#Verificando o novo tipo. ‘O’ é do tipo objeto, que pode ter tanto números (int, float) quanto texto

dtype('O')

Checando linhas/colunas inválidas (NaN):
- Precisamos checar sempre que possível os tipos de dados que temos presente nas colunas para que possamos fazer a manipulação dos dados de forma correta e não se deparar com “surpresas” mais na frente.
    - Por exemplo: Querer fazer contas algébricas em uma coluna que possui um elemento textual em alguma linha ou valores NaN.
- É importante também checar elementos do tipo NaN (Not a Number):
    - NaN geralmente são valores que não são números (e nem string);
    - Geralmente pode aparecer depois de erros na hora de inserir valores inválidos;
    - Pode aparecer em operações com resultados indeterminados:
    

In [195]:
file.iloc[9, file.columns.get_loc("INCIDENTCOUNT")] = np.nan
#NaN presente nas colunas não a tornam do tipo “O”!

In [196]:
file["INCIDENTCOUNT"]

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8      casa
9       NaN
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: object

In [198]:
file.iloc[8, file.columns.get_loc("INCIDENTCOUNT")] = 10

In [199]:
file['INCIDENTCOUNT']

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8        10
9       NaN
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: object

In [200]:
file['INCIDENTCOUNT'].mean()

5395.695652173913

In [201]:
file.iloc[9, file.columns.get_loc("INCIDENTCOUNT")] = 10

In [202]:
file['INCIDENTCOUNT'].mean()

5171.291666666667

In [203]:
float("inf") - float("inf")

nan

In [204]:
file["INCIDENTCOUNT"]

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8        10
9        10
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: object

In [206]:
file.INCIDENTCOUNT.dtype

dtype('O')

Checando linhas/colunas inválidas (NaN):
- Para checarmos se uma coluna possui valores NaN, basta usarmos a seguinte função .isnull()

In [207]:
file.iloc[9, file.columns.get_loc("INCIDENTCOUNT")] = np.nan
#NaN presente nas colunas não a tornam do tipo “O”!

In [208]:
file['INCIDENTCOUNT']

0     40850
1     10709
2      8137
3      2205
4     11505
5      8294
6      2655
7       474
8        10
9       NaN
10      565
11      669
12    18606
13     4895
14     3429
15      933
16     5344
17     4005
18      408
19      110
20       75
21       10
22      111
23      102
Name: INCIDENTCOUNT, dtype: object

In [209]:
 pd.isnull(file["INCIDENTCOUNT"])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
Name: INCIDENTCOUNT, dtype: bool

In [107]:
file.INCIDENTCOUNT.dtype

dtype('O')

In [108]:
 pd.isnull(file["INCIDENTCOUNT"])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
Name: INCIDENTCOUNT, dtype: bool

In [210]:
for i in range(len(file)):
    if (pd.isnull(file["INCIDENTCOUNT"].iloc[i])):
        print("Null em index", i)

Null em index 9


In [211]:
file.iloc[8, file.columns.get_loc("INCIDENTCOUNT")] = 50
file.iloc[9, file.columns.get_loc("INCIDENTCOUNT")] = 256

Célula em Branco:
- Imagine que o arquivo que vc vai fazer upload contém um campo que não está preenchido.
- Vamos fazer o carregamento do arquivo aula2_dataManipulation_2.csv

<img src="img/fig2.png" width="80%">

In [25]:
file_2 = pd.read_csv('aula2_dataManipulation_2.csv')

In [26]:
file_2

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
0,2009/07,All Fire/Emergency Incidents,Citywide,40850.0,04:27
1,2009/07,All Fire/Emergency Incidents,Manhattan,10709.0,04:32
2,2009/07,All Fire/Emergency Incidents,Bronx,8137.0,04:37
3,2009/07,All Fire/Emergency Incidents,Staten Island,2205.0,04:45
4,2009/07,All Fire/Emergency Incidents,Brooklyn,11505.0,04:01
5,2009/07,All Fire/Emergency Incidents,Queens,8294.0,04:43
6,2009/07,False Alarm,Citywide,2655.0,04:07
7,2009/07,False Alarm,Manhattan,474.0,04:07
8,2009/07,False Alarm,Bronx,755.0,04:26
9,2009/07,False Alarm,Staten Island,192.0,03:49


In [214]:
file_2[file_2['INCIDENTBOROUGH']=='Bronx']

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
2,2009/07,All Fire/Emergency Incidents,Bronx,8137.0,04:37
8,2009/07,False Alarm,Bronx,755.0,04:26
14,2009/07,Medical Emergencies,Bronx,3429.0,04:17
20,2009/07,Medical False Alarm,Bronx,75.0,04:00


In [215]:
file_2['INCIDENTBOROUGH']=='Bronx'

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17    False
18    False
19    False
20     True
21    False
22    False
23    False
Name: INCIDENTBOROUGH, dtype: bool

In [27]:
file_2.isnull().values.any()

True

In [28]:
pd.isnull(file_2)

Unnamed: 0,YEARMONTH,INCIDENTCLASSIFICATION,INCIDENTBOROUGH,INCIDENTCOUNT,AVERAGERESPONSETIME
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


In [29]:
def find_for_null_on_DataFrame(df):
    
    if df.isnull().values.any():

        for i in range(len(df)):
            for j in range(len(df.columns)):
                if pd.isnull(df.loc[i][j]):
                    print("LINE:", i, "COLUMN:", j, "("+df.columns.values[j]+")")

    else:
        print("Não há valor null no DataFrame")

In [30]:
find_for_null_on_DataFrame(file_2)

LINE: 16 COLUMN: 3 (INCIDENTCOUNT)


### Iris Dataset no Dataframe

In [222]:
from sklearn import datasets
iris = datasets.load_iris()

In [223]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [226]:
iris_df = pd.DataFrame(data= np.c_[iris['data'], iris['target']])

In [230]:
iris_df

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
5,5.4,3.9,1.7,0.4,0.0
6,4.6,3.4,1.4,0.3,0.0
7,5.0,3.4,1.5,0.2,0.0
8,4.4,2.9,1.4,0.2,0.0
9,4.9,3.1,1.5,0.1,0.0


In [228]:
iris['data']

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [229]:
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [231]:
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [122]:
iris['feature_names'] + ['target']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)',
 'target']

In [232]:
iris_df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

In [233]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
5,5.4,3.9,1.7,0.4,0.0
6,4.6,3.4,1.4,0.3,0.0
7,5.0,3.4,1.5,0.2,0.0
8,4.4,2.9,1.4,0.2,0.0
9,4.9,3.1,1.5,0.1,0.0
