## Seleção

In [3]:
# Seleção
import pandas as pd

In [4]:
# 1 - Importa as bases de dados
flags = pd.read_csv('flags.csv')
# 2 - Seleciona apenas as linhas dos países da oceania
v = (flags['landmass']==6)
flags_oceania = flags[v]

In [5]:
# 3 - Imprime os países da oceania
print(flags_oceania)

                 name  landmass  zone  area  population  language  religion  \
3      American-Samoa         6     3     0           0         1         1   
10          Australia         6     2  7690          15         1         1   
41       Cook-Islands         6     3     0           0         1         1   
57               Fiji         6     2    18           1         1         1   
61   French-Polynesia         6     3     4           0         3         0   
71               Guam         6     1     0           0         1         1   
82          Indonesia         6     2  1904         157        10         2   
94           Kiribati         6     1     0           0         1         1   
109          Marianas         6     1     0           0        10         1   
113        Micronesia         6     1     1           0        10         1   
119             Nauru         6     2     0           0        10         1   
123       New-Zealand         6     2   268         

In [6]:
flags_oceania = (flags['landmass']!=6)

In [7]:
print(flags_oceania)

0       True
1       True
2       True
3      False
4       True
       ...  
189    False
190     True
191     True
192     True
193     True
Name: landmass, Length: 194, dtype: bool


In [8]:
flags_oceania = (flags['colours']<=2)

In [9]:
print(flags_oceania)

0      False
1      False
2      False
3      False
4      False
       ...  
189    False
190    False
191    False
192    False
193    False
Name: colours, Length: 194, dtype: bool


In [10]:
flags_oceania = (flags['language']==1)

In [11]:
print(flags_oceania)

0      False
1      False
2      False
3       True
4      False
       ...  
189     True
190    False
191    False
192    False
193    False
Name: language, Length: 194, dtype: bool


In [12]:
flags_oceania = (flags['language']==4)

In [13]:
print(flags_oceania)

0      False
1      False
2      False
3      False
4      False
       ...  
189    False
190    False
191    False
192    False
193    False
Name: language, Length: 194, dtype: bool


In [14]:
flags_oceania = (flags['landmass']==6)&(flags['area']>200)&(flags['language']==1)

In [15]:
print(flags_oceania)

0      False
1      False
2      False
3      False
4      False
       ...  
189    False
190    False
191    False
192    False
193    False
Length: 194, dtype: bool


## Projeção

In [16]:
import pandas as pd

In [17]:
# 1 - Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [18]:
# 2 - Seleciona apenas as linhas dos países da oceania
# com área acima de 200 mil quilômetros quadrados
v = (flags['landmass']==6)&(flags['area']>200)
df=flags[v]

In [19]:
# 3 - Projeta apenas as colunas "name", "colours", "language" e "area"
df = df[['name', 'colours', 'language', 'area']]

In [20]:
# 4 - Imprime o resultado
print(df)

                 name  colours  language  area
10          Australia        3         1  7690
82          Indonesia        2        10  1904
123       New-Zealand        3         1   268
134  Papua-New-Guinea        4         1   463
137       Philippines        4        10   300


## Recriando os índices

In [21]:
# Método 'reset_index()'
import pandas as pd

In [22]:
# 1 - Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [23]:
# 2 - Seleciona apenas as linhas dos países da oceania
# com área acima de 200 mil quilômetros quadrados
v = (flags['landmass']==6)&(flags['area']>200)
df = flags[v]


In [24]:
# 3 - Projeta apenas as colunas "name", "colours", "language", "landmass" e "area"
df = df[['name', 'colours', 'language', 'landmass', 'area']]


In [25]:
# 4 - Reseta os índices
df = df.reset_index(drop = True)

In [26]:
print(df)

               name  colours  language  landmass  area
0         Australia        3         1         6  7690
1         Indonesia        2        10         6  1904
2       New-Zealand        3         1         6   268
3  Papua-New-Guinea        4         1         6   463
4       Philippines        4        10         6   300


## Modificação de dados

### Inserção

In [30]:
# Inserção
import pandas as pd

In [31]:
# Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [32]:
# Cria um DataFrame com os dados de um novo país
df_novo = pd.DataFrame(
{'name':'East Timor','landmass':5,'area':15,'language':10,},index=[0])

In [33]:
# Insere o novo país em flags
flags = pd.concat([flags,df_novo],ignore_index = True, sort = False)

In [34]:
# Imprime o DataFrame alterado
print(flags[['name','landmass','area','language','religion']])

               name  landmass  area  language  religion
0       Afghanistan         5   648        10       2.0
1           Albania         3    29         6       6.0
2           Algeria         4  2388         8       2.0
3    American-Samoa         6     0         1       1.0
4           Andorra         3     0         6       0.0
..              ...       ...   ...       ...       ...
190      Yugoslavia         3   256         6       6.0
191           Zaire         4   905        10       5.0
192          Zambia         4   753        10       5.0
193        Zimbabwe         4   391        10       5.0
194      East Timor         5    15        10       NaN

[195 rows x 5 columns]


### Atualização

In [36]:
# Atualização
import pandas as pd

In [37]:
# Importa a base de dados
flags = pd.read_csv('flags.csv')

In [38]:
# Cria um DataFrame com os dados do novo país
df_novo = pd.DataFrame(
{'name':'East Timor','landmass':5,'area':15,'language':10,},index=[0])

In [39]:
# Insere o novo país em flags
flags = pd.concat([flags,df_novo],ignore_index = True, sort = False)

In [40]:
# Atualiza o valor do atributo "religion"
# (não especificado np passo 2)
flags.loc[flags['name']=='East Timor','religion']=0

In [41]:
# Imprime o DataFrame alterado
print(flags[['name','landmass','area','language','religion']])

               name  landmass  area  language  religion
0       Afghanistan         5   648        10       2.0
1           Albania         3    29         6       6.0
2           Algeria         4  2388         8       2.0
3    American-Samoa         6     0         1       1.0
4           Andorra         3     0         6       0.0
..              ...       ...   ...       ...       ...
190      Yugoslavia         3   256         6       6.0
191           Zaire         4   905        10       5.0
192          Zambia         4   753        10       5.0
193        Zimbabwe         4   391        10       5.0
194      East Timor         5    15        10       0.0

[195 rows x 5 columns]


### Exclusão

In [44]:
# Exclusão
import pandas as pd

In [45]:
# Importa a base de dados
flags = pd.read_csv('flags.csv')

In [47]:
# Mantém apenas os países com verde, amarelo, azul e branco na bandeira
flags = flags.loc[(flags['green']==1) &  (flags['gold']==1) & (flags['blue']==1)  & (flags['white']==1)]

In [48]:
# Imprime o DataFrame alterado
print(flags[['name','green','gold','blue','white']])

                         name  green  gold  blue  white
17                     Belize      1     1     1      1
19                    Bermuda      1     1     1      1
23                     Brazil      1     1     1      1
24       British-Virgin-Isles      1     1     1      1
26                   Bulgaria      1     1     1      1
33             Cayman-Islands      1     1     1      1
34   Central-African-Republic      1     1     1      1
48                   Dominica      1     1     1      1
56         Falklands-Malvinas      1     1     1      1
57                       Fiji      1     1     1      1
71                       Guam      1     1     1      1
78                  Hong-Kong      1     1     1      1
116                Montserrat      1     1     1      1
135                   Parguay      1     1     1      1
139                  Portugal      1     1     1      1
142                   Romania      1     1     1      1
151           Soloman-Islands      1     1     1

## Funções aplicadas sobre colunas

### Substituindo valores

In [2]:
# Método replace()
import pandas as pd

In [3]:
# Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [4]:
# replace
flags['green']=flags['green'].replace([0,1],['Não','Sim'])

In [6]:
# imprime o DataFrame alterado
print(flags[['name','green']])

               name green
0       Afghanistan   Sim
1           Albania   Não
2           Algeria   Sim
3    American-Samoa   Não
4           Andorra   Não
..              ...   ...
189   Western-Samoa   Não
190      Yugoslavia   Não
191           Zaire   Sim
192          Zambia   Sim
193        Zimbabwe   Sim

[194 rows x 2 columns]


### Limpeza de dados

df['x'] = df['x'].replace(999999,np.nan)

"""
Recorde que NaN é o valor adotado pelas bibliotecas pandas e NumPy para representar valores ausentes; 
no entanto, a constante np.nan é, de fato, proveniente da biblioteca NumPy. Desta forma, 
para que o comando anterior funcione, é preciso realizar a importação da NumPy e da pandas, 
no início do código do programa, como mostrado a seguir:

"""

import numpy as np
import pandas as pd

### Formatando valores

In [8]:
# Método apply()
import pandas as pd

In [9]:
# Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [10]:
# apply
flags['name']=flags['name'].apply(str.upper)

In [11]:
# Imprime o DataFrame alterado
print(flags)

               name  landmass  zone  area  population  language  religion  \
0       AFGHANISTAN         5     1   648          16        10         2   
1           ALBANIA         3     1    29           3         6         6   
2           ALGERIA         4     1  2388          20         8         2   
3    AMERICAN-SAMOA         6     3     0           0         1         1   
4           ANDORRA         3     1     0           0         6         0   
..              ...       ...   ...   ...         ...       ...       ...   
189   WESTERN-SAMOA         6     3     3           0         1         1   
190      YUGOSLAVIA         3     1   256          22         6         6   
191           ZAIRE         4     2   905          28        10         5   
192          ZAMBIA         4     2   753           6        10         5   
193        ZIMBABWE         4     2   391           8        10         5   

     bars  stripes  colours  ...  saltires  quarters  sunstars  crescent  \

## Discretização

### Criando funções

In [12]:
# Observe que se trata de uma função de discretização, pois ela recebe como entrada um valor contínuo (valor da área)
# e retorna como saída um valor categórico, pertencente ao domínio {"A","B","C","D","F","G","H"}.

In [13]:
# Criação e utilização de Função

def classe_area(area):
    if(area<10):
        return 'F'
    elif (area >=10 and area < 50):
        return 'E'
    elif (area >= 50 and area < 100):
        return 'D'
    elif (area >= 100 and area < 500):
        return 'C'
    elif (area >= 500 and area < 1000):
        return 'B'
    else:
        return 'A'

In [14]:
print('Classe de extensão territorial:')
print('Brasil :', classe_area(8515))
print('Moçambique :', classe_area(801))
print('Portugal ;', classe_area(92))
print('Timor Leste :', classe_area(14))

Classe de extensão territorial:
Brasil : A
Moçambique : B
Portugal ; D
Timor Leste : E


### Aplicando a função criada

In [15]:
# Aplicando a função classe_area()
import pandas as pd

In [16]:
# Define a função

def classe_area(area):
    if(area<10):
        return 'F'
    elif (area >=10 and area < 50):
        return 'E'
    elif (area >= 50 and area < 100):
        return 'D'
    elif (area >= 100 and area < 500):
        return 'C'
    elif (area >= 500 and area < 1000):
        return 'B'
    else:
        return 'A'

In [17]:
# Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [18]:
# aplica a função com apply(), criando novo atributo
flags['classe_area'] = flags['area'].apply(classe_area)

In [19]:
# Imprime o DataFrame alterado
print(flags[['name', 'area', 'classe_area']])

               name  area classe_area
0       Afghanistan   648           B
1           Albania    29           E
2           Algeria  2388           A
3    American-Samoa     0           F
4           Andorra     0           F
..              ...   ...         ...
189   Western-Samoa     3           F
190      Yugoslavia   256           C
191           Zaire   905           B
192          Zambia   753           B
193        Zimbabwe   391           C

[194 rows x 3 columns]


"""
Adicionalmente, veja que o programa também exemplificou um processo construção de atributo. Isso porque criamos um novo 
atributo no DataFrame flags, denominado classe_area, cujo valor foi definido a partir do resultado do apply().
"""

### Normalização

#### Normalizando atributos numéricos

In [21]:
# Existem diversas fórmulas que podem ser utilizadas para mapear todos os valores de um atributo para a faixa [0.0, 1.0]. 
# Uma das mais simples é apresentada a seguir. Ela pode ser utilizada sobre qualquer atributo que armazene valores contínuos 
# positivos. valor_normalizado = (x-min(X))/(max(X)-min(X))
# Nesta fórmula, considere que x e o valor real do atributo numérico X em uma dada linha do DataFrame. Por sua vez, min(X) e 
# max(X) consistem, respectivamente, no menor e no maior valor de ​ ​X​ ​ em toda a base de dados. A fórmula apresentada 
# retornará o valor normalizado de x, isto é o valor convertido para algum número localizado entre 0 e 1. No exemplo a seguir, 
# mostra-se uma aplicação prática da fórmula: ela é empregada para computar o valor normalizado do atributo area de todos os 
# países de flags.
 

In [23]:
# Normalização
import pandas as pd

In [24]:
# Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [25]:
# Normaliza a área
area_max = max(flags['area'])
area_min = min(flags['area'])

In [26]:
flags['area_norm'] = (flags['area']-area_min) / (area_max-area_min)

In [27]:
# Imprime o DataFrame alterado
print(flags[['name', 'area', 'area_norm']])


               name  area  area_norm
0       Afghanistan   648   0.028926
1           Albania    29   0.001295
2           Algeria  2388   0.106598
3    American-Samoa     0   0.000000
4           Andorra     0   0.000000
..              ...   ...        ...
189   Western-Samoa     3   0.000134
190      Yugoslavia   256   0.011428
191           Zaire   905   0.040398
192          Zambia   753   0.033613
193        Zimbabwe   391   0.017454

[194 rows x 3 columns]


#### Normalizando atributos categóricos

In [28]:
# Em uma base de dados, os atributos categóricos costumam apresentar grande variação no número de categorias. 
# Veja a seguir o número de categorias de três diferentes atributos da base de dados flags:
# religion: 8 categorias / language: 10 categorias / red: 2 categorias (variável binária)

In [29]:
# Esta variabilidade também pode atrapalhar alguns algoritmos de ciência de dados e, por isso, um tipo de transformação muitas 
# vezes necessário consiste na conversão de todos os atributos categóricos com mais de 2 categorias (como é o caso de religion
# e language) em k atributos binários, onde k é o número original de categorias do atributo. Parece complicado, mas o exemplo a
# seguir deixará tudo mais claro. Considere o atributo language, cujo domínio é: {"1=Inglês", "2=Espanhol", "3=Francês", 
# "4=Alemão", "5=Eslavo", "6=Outro idioma Indo-Europeu", "7=Chinês", "8=Árabe", "9=Japonês/Turco/Finlandês/Húngaro", "10=Outro"}
# Como esse atributo possui 10 categorias distintas, então ele será transformado em 10 atributos binários, conforme indicado a 
# seguir:

In [31]:
# lang_1: indica se idioma predominante do país é Inglês (0=Não, 1=Sim)
# lang_2: Idem para Espanhol 
# lang_3: Idem para Francês  
# lang_4: Idem para Alemão 
# lang_5: Idem para Eslavo
# lang_6: Idem para Outro idioma Indo-Europeu
# lang_7: Chinês 
# lang_8: Árabe 
# lang_9: Japonês/Turco/Finlandês/Húngaro
# lang_10: Idem para Outro

In [32]:
# Normalização de atributo categórico
import pandas as pd

In [33]:
# Importa as bases de dados
flags = pd.read_csv('flags.csv')

In [34]:
# Realiza a transformação com get_dummies() e join()
dummies = pd.get_dummies(flags['language'],prefix='lg')
flags = flags.join(dummies)

In [35]:
print(flags[["language", "lg_1", "lg_2", "lg_3", "lg_4", "lg_5", "lg_6", "lg_7", "lg_8", "lg_9", "lg_10"]])

     language  lg_1  lg_2  lg_3  lg_4  lg_5  lg_6  lg_7  lg_8  lg_9  lg_10
0          10     0     0     0     0     0     0     0     0     0      1
1           6     0     0     0     0     0     1     0     0     0      0
2           8     0     0     0     0     0     0     0     1     0      0
3           1     1     0     0     0     0     0     0     0     0      0
4           6     0     0     0     0     0     1     0     0     0      0
..        ...   ...   ...   ...   ...   ...   ...   ...   ...   ...    ...
189         1     1     0     0     0     0     0     0     0     0      0
190         6     0     0     0     0     0     1     0     0     0      0
191        10     0     0     0     0     0     0     0     0     0      1
192        10     0     0     0     0     0     0     0     0     0      1
193        10     0     0     0     0     0     0     0     0     0      1

[194 rows x 11 columns]
