<a href="https://colab.research.google.com/github/AmandaFerreiraGomes/PythonDataScience/blob/main/TRATAMENTO_DE_DADOS_COM_PYTHON.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1.  INTRODUÇÃO:**

## ***A BIBLIOGRAFIA DESTE ESTUDO É A DE FERNANDO FELTRIN: TRATAMENTO DE DADOS COM PYTHON.***

A biblioteca pandas foi criada especificamente para análise e manipulação de dados. Os dados que são tratados com essa biblioteca são essencialmente organizados em tabelas (linhas x colunas), as quais são indexadas e mapeadas seguindo um padrão. É, se não a melhor, uma das melhores bibliotecas para tratamento de dados.

In [1]:
# Inicialmente, importa-se a biblioteca pandas com a sigla pd, para resumir e facilitar a codificação.
import pandas as pd 

import numpy as np

# Tipos básicos de dados pandas: DataFrame e Series.

## -> Series: equivale a um array unidimensional, o qual é mapeado e indexado, ou seja, possui índice próprio. Esse tipo de dado é capaz de aceitar qualquer tipo de dado python.

In [2]:
# Cria-se o vetor, em que são inseridos 19 elementos (números primos :).
base = [2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,51,53,57,59]

# Converte-se o vetor em uma série, na qual os valores serão indexados.
data = pd.Series(base)

# Imprime-se a sequência de elementos com seus respectivos índices.
print(f'Com series: \n{data}')

# Imprime-se os elementos do vetor, o qual não possui indexação, 
# ou seja, os elementos não têm um índice específico para localização.
print(f'Sem series:')
for i in base:
  print(f'-> {i}')

Com series: 
0      2
1      3
2      5
3      7
4     11
5     13
6     17
7     19
8     23
9     29
10    31
11    37
12    41
13    43
14    47
15    51
16    53
17    57
18    59
dtype: int64
Sem series:
-> 2
-> 3
-> 5
-> 7
-> 11
-> 13
-> 17
-> 19
-> 23
-> 29
-> 31
-> 37
-> 41
-> 43
-> 47
-> 51
-> 53
-> 57
-> 59


## -> DataFrame: equivale a um array multidimensional. É formado por um conjunto de series.


In [3]:
base = {
    'NOME': ['Joaquim', 'Tauriel', 'Kiara', 'Théo', 'Mel', 'Bolinha'],
    'TELEFONE': [88992515587, 88992515588, 88992515589, 88992515590, 88992515591, 88992515592],
    'E-MAIL': ['motinha@hotmail.com', 'tata@hotmail.com', 'kiara@hotmail.com', 'theodoro@gmail.com', 'melanie@gmail.com', 'lilball@gmail.com'],
    'CIDADE': ['Ibiapina', 'Ibiapina', 'Ibiapina', 'Ibiapina', 'Ibiapina', 'Sobral'],
    'UF': ['CE', 'CE', 'CE', 'CE', 'CE', 'CE']
        }

data = pd.DataFrame(base)

print(data)

      NOME     TELEFONE               E-MAIL    CIDADE  UF
0  Joaquim  88992515587  motinha@hotmail.com  Ibiapina  CE
1  Tauriel  88992515588     tata@hotmail.com  Ibiapina  CE
2    Kiara  88992515589    kiara@hotmail.com  Ibiapina  CE
3     Théo  88992515590   theodoro@gmail.com  Ibiapina  CE
4      Mel  88992515591    melanie@gmail.com  Ibiapina  CE
5  Bolinha  88992515592    lilball@gmail.com    Sobral  CE


# **2.  SERIES:**
## CRIANDO UMA SERIE.

In [4]:
# Percebe-se que com o uso de series, podemos indexar os elementos do array, que no caso é unidimensional.
# 1ª forma de criar uma série, com o método construtor mais básico, o qual recebe uma lista de elementos que será convertida em série.
base = ['Amanda', 'Ferreira', 'Gomes']

data = pd.Series(base)

# 2ª orma de criar uma série: data = pd.Series(['Amanda', 'Ferreira', 'Gomes'])

j = 0

for i in data:
  if j == 0:
    print(f'Primeiro Nome: {i}')
    j = j + 1
  elif j == 1:
    print(f'Sobrenome 1: {i}')
    j = j + 1
  else:
    print(f'Sobrenome 2: {i}')

Primeiro Nome: Amanda
Sobrenome 1: Ferreira
Sobrenome 2: Gomes


In [5]:
# Visualizando o cabeçalho (os 5 primeiros elementos), para tal, utiliza-se do método head():

data.head()

# se quiser delimitar o número de exibições:

data.head(2)

# Exibe-se o tipo de dado de 'data':

print(type(data))

# o método head() permite que tenhamos uma visualização de uma certa amostra de dados, que pode ser de qualquer tamanho, mas o padrão é que se exiba 5 elementos.

<class 'pandas.core.series.Series'>


In [6]:
nomes = ['Amanda', 'Ferreira', 'Gomes', 'Tauriel', 'Ferreira', 'Gomes']

data2 = pd.Series(data = nomes)

# pode-se fazer dentro dos parâmetros de series a atribuição da lista à variável que vai receber o array unidimensional serie.
# data2 = pd.Series(nomes) é a mesma vibe de data2 = pd.Series(data = nomes). 
# Isso ocorre pelo fato de que por padrão o primeiro parâmetro da função é a origem dos dados, então, caso hajam mais parâmetros dentro da função, torna-se necessária a atribuição.
print(data2)

0      Amanda
1    Ferreira
2       Gomes
3     Tauriel
4    Ferreira
5       Gomes
dtype: object


In [7]:
# Podemos definir uma lista personalizada de índices, que podem ser de qualquer tipo de dado, letras ou números:
indices = [1, 2, 3, 4, 5, 6]

nomes = ['Amanda', 'Ferreira', 'Gomes', 'Tauriel', 'Ferreira', 'Gomes']

data3 = pd.Series(data = nomes, 
                  index = indices)

print(data3)

1      Amanda
2    Ferreira
3       Gomes
4     Tauriel
5    Ferreira
6       Gomes
dtype: object


In [8]:
# a biblioteca pandas possui fácil integração com outras bibliotecas. 
# importa-se a biblioteca numpy, para integrá-la à biblioteca pandas.
import numpy as np

In [9]:
# a variável nomes recebe um array numpy, o qual possui elementos do tipo string.
nomes = np.array(['Tauriel', 'Joaquim', 'Theodoro', 'Kiara', 'Bolinha', 'Mel'])

# transforma-se o array nomes em uma série e atribui-se à variável data4 essa serie.
data4 = pd.Series(data = nomes, index = [1,2,3,4,5,6])

print(data4)

1     Tauriel
2     Joaquim
3    Theodoro
4       Kiara
5     Bolinha
6         Mel
dtype: object


## Palavras reservadas também podem ser incorporadas às series e aos dataframes.

In [10]:
funcoes = [input, print]

data5 = pd.Series(data = funcoes)

print(data5)

0    <bound method Kernel.raw_input of <google.cola...
1                            <built-in function print>
dtype: object


In [11]:
# pode-se atribuir aos parâmetros da função pd.Series() ou de pd.DataFrame() funções também.

paises = ['Brasil', 'Argentina', 'Turquia', 'Itália', 'Inglaterra']

# a função arange() da biblioteca numpy é atribuída ao parâmetro index. Deste modo, os índices serão gerados por ela
# index = np.arange(a,b) => index = [a, .., b-1]
data6 = pd.Series(data = paises, index = np.arange(1,6))

print(data.index) # verifica o tamanho de uma série, que é definido a partir de seu índice.

print(data6)

print(data6.index)

RangeIndex(start=0, stop=3, step=1)
1        Brasil
2     Argentina
3       Turquia
4        Itália
5    Inglaterra
dtype: object
Int64Index([1, 2, 3, 4, 5], dtype='int64')


## Criando uma serie a partir de um dicionário.

In [12]:
dictionary = {
    'Nome': 'Amanda', 
    'Idade': 23, 
    'Altura': 1.68
    }

serie_dict = pd.Series(dictionary)

# os elementos ficam dispostos de maneira que os cabeçalhos fiquem horizontais em relação aos registros. Os índices passam a ser os dados da chave do dicionário.
print(serie_dict)


Nome      Amanda
Idade         23
Altura      1.68
dtype: object


In [13]:
print('Primeiro Trimestre (meses): ')

meses = {
    1: 'Janeiro', 
    2: 'Fevereiro', 
    3: 'Março'
    }

serie_meses = pd.Series(data = meses)

print(serie_meses)

# usando um dicionário como fonte de dados, a conversão das chaves em índice se torna um processo natural.

Primeiro Trimestre (meses): 
1      Janeiro
2    Fevereiro
3        Março
dtype: object


## Unindo elementos de duas series.

In [14]:
cliente_1 = [3, 5, 6]
cliente_2 = [12, 15, 18]

data_1 = pd.Series(data = cliente_1, index = np.arange(1,4))
data_2 = pd.Series(data = cliente_2, index = np.arange(1,4))

# os elementos correspondentes são somados, isso se refere a qualquer tipo de dado, inclusive texto.
data_3 = data_1 + data_2

print(data_3)


1    15
2    20
3    24
dtype: int64


# **2.1.   CONCLUSÃO**
## Logo, devemos nos ater ao fato de que series são dados bastante básicos, rápidos e eficientes para certas situações, mas para outras o encaixe não é perfefito, pois possui algumas restrições quando se trata de interação de dados de séries distintas.

#**3.  DATAFRAMES:**
## DataFrame é a principal estrutura de dados da biblioteca pandas. É constituído por series. Digamos que as series são o vetor e o dataframe é a matriz, tomando por base a álgebra linear. Tudo o que se aplica a series pode ser aplicado a DataFrames.

## CRIANDO UM DATAFRAME.

In [15]:
base = {
    'NOME': ['Amanda', 'Tauriel', 'Joaquim', 'Théo', 'Bolinha', 'Kiara', 'Mel'],
    'TELEFONE': ['889927', '885587', '895587', '895587', '659895', '336441', '598971'],  
    'E-MAIL': ['amanda@gmail.com', 'tauriel@gmail.com', 'joaquim@gmail.com', 'theo@gmail.com', 'bolinha@gmail.com', 'kiara@gmail.com', 'mel@gmail.com']
        }

data1 = pd.DataFrame(data = base, index = np.arange(1,8))

print(data1)
print('\n')
print(data1.head(3))

      NOME TELEFONE             E-MAIL
1   Amanda   889927   amanda@gmail.com
2  Tauriel   885587  tauriel@gmail.com
3  Joaquim   895587  joaquim@gmail.com
4     Théo   895587     theo@gmail.com
5  Bolinha   659895  bolinha@gmail.com
6    Kiara   336441    kiara@gmail.com
7      Mel   598971      mel@gmail.com


      NOME TELEFONE             E-MAIL
1   Amanda   889927   amanda@gmail.com
2  Tauriel   885587  tauriel@gmail.com
3  Joaquim   895587  joaquim@gmail.com


## -> DataFrames são estruturas de dados geralmente criadas a partir de dicionários, trazendo-nos dados organizados de modo semelhante às planilhas do excel. Porém, podemos criar DataFrames a partir de outros tipos de dados, como arquivos  .csv ou .json, por exemplo. Percebe-se que assim como as series os dataframes têm mapeamento, o qual facilita a manipulação desses dados sem a necessidade de ferramentas externas.

In [63]:
# O método info gera um resumo do dataframe, tendo em vista que essa base de dados está associada a uma variável.
print(data1.info())

# O método describe é outra forma de verificação rápida dos dados do dataframe.
print(data1.describe())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7 entries, 1 to 7
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   NOME      7 non-null      object
 1   TELEFONE  7 non-null      object
 2   E-MAIL    7 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes
None
          NOME TELEFONE            E-MAIL
count        7        7                 7
unique       7        6                 7
top     Amanda   895587  amanda@gmail.com
freq         1        2                 1


## Explorando o parâmetro columns

In [64]:
# No parâmetro columns especificamos que referências passaremos aos nossos cabeçalhos do DataFrame. 
# Como um DataFrame é uma espécie de array multidimensional, pode ter infinitas colunas.

print(data1.columns)  # imprime as colunas do DataFrame data1.

print(data1.index)    # retorna os índices dos registros.

# com os dados do dataframe corretamente mapeados, ou seja, tanto as linhas quanto as colunas identificadas, podemos fazer uma espécie de busca no estilo batalha naval, para identificar onde estão os dados.
print(data1['NOME'])
print('\n')
print(data1['E-MAIL'])  # damos à coluna o nome de serie, pois ela é de fato, tendo em vista que cada coluna do dataframe é uma serie.
print(data1['TELEFONE'])
print(data1['NOME'][1])


Index(['NOME', 'TELEFONE', 'E-MAIL'], dtype='object')
Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')
1     Amanda
2    Tauriel
3    Joaquim
4       Théo
5    Bolinha
6      Kiara
7        Mel
Name: NOME, dtype: object


1     amanda@gmail.com
2    tauriel@gmail.com
3    joaquim@gmail.com
4       theo@gmail.com
5    bolinha@gmail.com
6      kiara@gmail.com
7        mel@gmail.com
Name: E-MAIL, dtype: object
1    889927
2    885587
3    895587
4    895587
5    659895
6    336441
7    598971
Name: TELEFONE, dtype: object
Amanda


In [73]:
# podemos extrair os dados de uma coluna também referenciando apenas o nome da coluna:

print(data1.NOME)

# logo: data1.NOME = data1['NOME']
# data1.NOME é o método nativo, porém é limitado, pois permite a extração de apenas uma coluna por vez.
# data1['NOME', 'TELEFONE'] permite a extração de mais de uma coluna por vez.

1     Amanda
2    Tauriel
3    Joaquim
4       Théo
5    Bolinha
6      Kiara
7        Mel
Name: NOME, dtype: object


### Criando colunas manualmente:


In [66]:
data1['SEXO'] = ['F', 'F', 'M', 'M', 'F', 'F', 'F']

print(data1)

      NOME TELEFONE             E-MAIL SEXO
1   Amanda   889927   amanda@gmail.com    F
2  Tauriel   885587  tauriel@gmail.com    F
3  Joaquim   895587  joaquim@gmail.com    M
4     Théo   895587     theo@gmail.com    M
5  Bolinha   659895  bolinha@gmail.com    F
6    Kiara   336441    kiara@gmail.com    F
7      Mel   598971      mel@gmail.com    F


### Removendo colunas manualmente:

In [67]:
# existem diversas formas de remover uma coluna do dataframe, uma delas é aplicar o método drop().

data1 = data1.drop('TELEFONE', axis=1, inplace=True) # remove todos os elementos da coluna TELEFFONE, por isso utiliza-se o axis = 1, para que não se remova os elementos da linha apenas.

# o parâmetro inplace torna a exclusão permanente, caso contrário, sem o uso do inplace, os dados ficariam presentes, mas sem referências.


In [68]:
print(data1) # exibe-se o dataframe data1 com a coluna telefone devidamente removida.

None


In [74]:
# outra forma de remover uma coluna é utilizar a função do sistema 'del'

del data1['E-MAIL'] # trata-se de uma função do sistema, logo, a exclusão é permanente.

print(data1)

      NOME TELEFONE
1   Amanda   889927
2  Tauriel   885587
3  Joaquim   895587
4     Théo   895587
5  Bolinha   659895
6    Kiara   336441
7      Mel   598971


### Ordenando os elementos de uma coluna:

In [75]:
data1.sort_values(by='NOME', inplace=True) # ordenação ascendente por nome

print(data1)

      NOME TELEFONE
1   Amanda   889927
5  Bolinha   659895
3  Joaquim   895587
6    Kiara   336441
7      Mel   598971
2  Tauriel   885587
4     Théo   895587


In [77]:
data1.sort_values(by='TELEFONE', inplace=True) # ordenação ascendente (padrão) por telefone
print(data1)

      NOME TELEFONE
6    Kiara   336441
7      Mel   598971
5  Bolinha   659895
2  Tauriel   885587
1   Amanda   889927
3  Joaquim   895587
4     Théo   895587


In [78]:
data1.sort_values(by='TELEFONE', ascending=False, inplace=True) # neste caso, é ordenado de forma descendente, já que no parâmetro ascending foi posto False.
print(data1)

      NOME TELEFONE
3  Joaquim   895587
4     Théo   895587
1   Amanda   889927
2  Tauriel   885587
5  Bolinha   659895
7      Mel   598971
6    Kiara   336441


## Método loc[]

## Extraindo dados de uma linha específica:

In [18]:
# utiliza-se o método loc() quando se quer imprimir um registro do dataframe, ou seja, quando se quer imprimir uma linha.
# Esse método utiliza o índice da serie para localizar a linha em questão.
print(data1.loc[2])

NOME                  Tauriel
TELEFONE               885587
E-MAIL      tauriel@gmail.com
Name: 2, dtype: object


## Extraindo dados de um registro específico:

In [19]:
# a primeira referência está associada à linha e a segunda está associada à coluna. 
print(data1.loc[2, 'NOME']) # elemento da linha 2 da coluna 'NOME'

Tauriel
