<a href="https://colab.research.google.com/github/r-hugoalves/Data_Wrangling/blob/master/Data_Wrangling_Parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Wrangling - Parte 1

## **1.DataFrame Pandas**

### 1.1 Pacote Pandas

Pacote Python para manipulação de dados. A documentação pode ser encontrada neste [link](https://pandas.pydata.org/docs/). A abstração base do pandas é o DataFrame, uma estrutura de dados Python de duas dimensões utilizado para representar tabelas.

In [None]:
#Exemplo de criação da um DataFrame a partir de um Dicionário Python

import pandas as pd 

transacoes = dict(
    id=[571, 572, 573], 
    data=['19-01-2021', '19-01-2021', '23-01-2021'], 
    valor=[371.30, 57.19, 101.21], 
    categoria=['supermercado', 'farmacia', 'outros']
)

transacoes_df = pd.DataFrame(transacoes)

#Visualizando o DataFrame
transacoes_df

Unnamed: 0,id,data,valor,categoria
0,571,19-01-2021,371.3,supermercado
1,572,19-01-2021,57.19,farmacia
2,573,23-01-2021,101.21,outros


In [None]:
#Trabalhando com alguns atributos

print(transacoes_df.columns)
print('\n')
print(transacoes_df.dtypes) # objects == strings
print('\n')
print(transacoes_df.index)
print('\n')
print(transacoes_df.shape)

In [None]:
#Trabalhando com alguns métodos

transacoes_df[['id', 'valor']].describe().T #colunas numéricas

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,3.0,572.0,1.0,571.0,571.5,572.0,572.5,573.0
valor,3.0,176.566667,170.074229,57.19,79.2,101.21,236.255,371.3


In [None]:
#Trabalhando com alguns métodos

transacoes_df[['data', 'categoria']].describe().T #colunas categóricas

Unnamed: 0,count,unique,top,freq
data,3,2,19-01-2021,2
categoria,3,3,supermercado,1


In [1]:
#Criando um dataframe a partir de um CSV

%%writefile github.csv
ranking;project;language;stars;stars_today;forks
1;plow;go;1304;574;38
2;n8n;typescript;15668;280;1370
3;slides;go;3218;265;80
4;defi-developer-road-map;;636;247;49
5;pytorch-image-models;python;11065;101;1646
6;javascript-algorithms;javascript;110768;248;18331
7;paddleclas;python;1429;283;323
8;reddit_sentiment_trader;python;369;71;60
9;augly;python;2849;393;99
10;self-taught-guide-to-cloud-computing;;863;179;84

Writing github.csv


In [2]:
import pandas as pd
github_df = pd.read_csv('github.csv', sep=';')

github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


In [None]:
#Selecionando os 5 projetos mais vistos
github_df.head()

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646


In [None]:
#Selecionando os 5 projetos menos vistos
github_df.tail()

Unnamed: 0,ranking,project,language,stars,stars_today,forks
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


### 1.2 Anatomia de um DataFrame

*   **Série**: `Coluna` de um DataFrame;
*   **Índice**: Indentificador de uma `linha` de um DataFrame.

## **2.Seleção e Filtros**

### 2.1 Série

Uma série é uma coluna de um dataframe. 

`serie = dataframe['<nome da coluna>']`

**Obs.: para séries usamos chaves simples [ ]**

In [11]:
#Exemplo: extrair a coluna de linguagem de programação do dataframe github_df

linguagem_serie = github_df['language']

print(linguagem_serie)

0            go
1    typescript
2            go
3           NaN
4        python
5    javascript
6        python
7        python
8        python
9           NaN
Name: language, dtype: object


#### 2.1.1 Seleção

In [None]:
primeiro_valor = linguagem_serie.loc[0]

print(primeiro_valor) #type: str

go


In [None]:
top_5_linguagens = linguagem_serie.loc[0:5]
print(top_5_linguagens)

0            go
1    typescript
2            go
3           NaN
4        python
5    javascript
Name: language, dtype: object


#### 2.1.2 Filtros

In [None]:
linguagem_serie[lambda linguagem: linguagem == 'python']

4    python
6    python
7    python
8    python
Name: language, dtype: object

In [None]:
# Caso eu queira reiniciar os valores dos índices, podemos usar o seguinte comando: 

linguagem_serie[lambda linguagem: linguagem == 'python'].reset_index(drop=True)

0    python
1    python
2    python
3    python
Name: language, dtype: object

### **2.2 DataFrame**

Conjunto de colunas ou séries é um novo dataframa. 
Utilizamos a seguinte notação: 

```novo_dataframe = dataframe[['<nome da coluna a>', '<nome da coluna b>']]```

**Obs.: para dataframes utilizamos chaves duplas [[ ]]**

In [None]:
ranking_linguagem_df = github_df[['ranking', 'language']]

print(ranking_linguagem_df)

   ranking    language
0        1          go
1        2  typescript
2        3          go
3        4         NaN
4        5      python
5        6  javascript
6        7      python
7        8      python
8        9      python
9       10         NaN


#### 2.2.1 Seleção

In [None]:
primeiro_valor = ranking_linguagem_df.loc[0]

print(primeiro_valor) #type: series

ranking      1
language    go
Name: 0, dtype: object


O que foi feito aqui em cima é conhecido também como: transposição. 
Onde pegamos os valores de uma matriz/dataframe (duas dimensões), e transportamos para uma linha/série (uma dimensão)

#### 2.2.2 Filtros

In [5]:
ranking_linguagem_df = github_df[['ranking', 'language']]
print(ranking_linguagem_df)

   ranking    language
0        1          go
1        2  typescript
2        3          go
3        4         NaN
4        5      python
5        6  javascript
6        7      python
7        8      python
8        9      python
9       10         NaN


In [6]:
ranking_linguagem_df.query('language == "python"')

Unnamed: 0,ranking,language
4,5,python
6,7,python
7,8,python
8,9,python


In [7]:
ranking_linguagem_df.query('language == "python" & ranking > 5')

Unnamed: 0,ranking,language
6,7,python
7,8,python
8,9,python


In [8]:
ranking_linguagem_df.query('language == "python" | language == "go"')

Unnamed: 0,ranking,language
0,1,go
2,3,go
4,5,python
6,7,python
7,8,python
8,9,python


## **3.Inserção, Deleção e Atualização**

### 3.1 Série

#### 3.1.1 Inserção

In [17]:
#Exemplo: adição de elementos com o método append

linguagem_serie.append(pd.Series(['java', 'python']), ignore_index=True)
print(linguagem_serie)

0             go
1     typescript
2             go
3            NaN
4         python
5     javascript
6         python
7         python
8         python
9            NaN
10          java
11          java
12          java
13          .net
dtype: object


In [21]:
#Aqui ele vai adicionar sempre na última posição, e sobrepor, caso já tenha algum dado
linguagem_serie = linguagem_serie.append(pd.Series('.net'), ignore_index=True)
print(linguagem_serie)

0             go
1     typescript
2             go
3            NaN
4         python
5     javascript
6         python
7         python
8         python
9            NaN
10          java
11          java
12          java
13          .net
14          .net
15          .net
dtype: object


#### 3.1.2 Deleção

In [23]:
#Exemplo: remoção de elementos com filtro funcional:
linguagem_serie = linguagem_serie[lambda linguagem: linguagem != 'python']

print(linguagem_serie)

0             go
1     typescript
2             go
3            NaN
5     javascript
9            NaN
10          java
11          java
12          java
13          .net
14          .net
15          .net
16            c#
17          .net
dtype: object


#### 3.1.3 Atualização

In [25]:
linguagem_serie.loc[0] = 'Go'
linguagem_serie.loc[2] = 'Go'
print(linguagem_serie)

0             Go
1     typescript
2             Go
3            NaN
5     javascript
9            NaN
10          java
11          java
12          java
13          .net
14          .net
15          .net
16            c#
17          .net
dtype: object


In [28]:
#Também é possível atualizar por meio de fatiamento  e slicing
linguagem_serie.loc[0:2] = pd.Series(['Go', 'Typescript', 'Go'])

#Ou por meio de um filtro funcional
linguagem_serie[lambda linguagem: linguagem == 'java'] = 'Java'

print(linguagem_serie)

0             Go
1     Typescript
2             Go
3            NaN
5     javascript
9            NaN
10          Java
11          Java
12          Java
13          .net
14          .net
15          .net
16            c#
17          .net
dtype: object


### 3.2 DataFrame

#### 3.2.1 Inserção

In [None]:
#Vamos primeiro, criar um dicionário com as informações que vamos inserir

projeto = dict(ranking=[11], project=['signoz'], language=['typescript'], stars=[2651], stars_today=[491], forks=[115])

#Adicionando esse novo valor no DataFrame

github_df.append(pd.DataFrame(projeto), ignore_index=True)

In [None]:
github_df = github_df.append(pd.DataFrame(projeto), ignore_index=True)
print(github_df)

#### 3.2.2 Deleção

In [35]:
github_df.query('language != "python"')

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
5,6,javascript-algorithms,javascript,110768,248,18331
9,10,self-taught-guide-to-cloud-computing,,863,179,84
10,11,signoz,typescript,2651,491,115
11,11,signoz,typescript,2651,491,115


#### 3.2.3 Atualização

In [39]:
#Atualização de apenas um elemento

github_df.loc[0, 'language'] = 'cobol'
print(github_df)

    ranking                               project    language   stars  \
0         1                                  plow       cobol    1304   
1         2                                   n8n  typescript   15668   
2         3                                slides          go    3218   
3         4               defi-developer-road-map         NaN     636   
4         5                  pytorch-image-models      python   11065   
5         6                 javascript-algorithms  javascript  110768   
6         7                            paddleclas      python    1429   
7         8               reddit_sentiment_trader      python     369   
8         9                                 augly      python    2849   
9        10  self-taught-guide-to-cloud-computing         NaN     863   
10       11                                signoz  typescript    2651   
11       11                                signoz  typescript    2651   

    stars_today  forks  
0           574     38  


In [None]:
#Atualização de diversos elementos

github_df['language'] = github_df['language'].apply(lambda linguagem: 'Python' if linguagem == 'python' else linguagem)
print(github_df)

## **4.Exercícios**

Para os exercícios, foi criado um notebook específico que pode ser acessado [aqui](https://colab.research.google.com/drive/1q5zsWzXWhCTpJf9oY2aOsyVNtcJ26npr?usp=sharing)