<a href="https://colab.research.google.com/github/BrunoBento8/Data_Analytics-study/blob/main/Data_Wrangling_I_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Tópicos**

<ol type="1">
  <li>Agregação e Ordenação;</li>
  <li>Combinação;</li>
  <li>Técnicas Avançadas.</li>
</ol>

---

## 0\. Estruturas de dados

*   **Não estruturado**: texto, imagem, aúdio, etc.
*   **Semi estruturado**: html, json, etc.
*   <font color='red'>**Estruturado**</font>: tabelas, planilhas, etc.



## 1\. Agregações e Ordenação

**Arquivo CSV:** github.csv

In [None]:
%%writefile github.csv
ranking;project;language;stars;stars_today;forks
1;plow;go;1304;574;38
2;n8n;typescript;15668;280;1370
3;slides;go;3218;265;80
4;defi-developer-road-map;;636;247;49
5;pytorch-image-models;python;11065;101;1646
6;javascript-algorithms;javascript;110768;248;18331
7;paddleclas;python;1429;283;323
8;reddit_sentiment_trader;python;369;71;60
9;augly;python;2849;393;99
10;self-taught-guide-to-cloud-computing;;863;179;84

Writing github.csv


**DataFrame:** github_df

In [None]:
import pandas as pd

github_df = pd.read_csv('github.csv', sep=';')

In [None]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


### **1.1. Agregações** 

Uma agregação é o processo de resumir um conjunto de dados através de uma métrica agregada, como soma, média, máximo, mínimo, etc.

**Exemplo**: Agregação de dados com o método `describe`.

In [None]:
describe_df = github_df[['ranking', 'stars', 'stars_today', 'forks']].describe().T # colunas numéricas

In [None]:
describe_df

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ranking,10.0,5.5,3.02765,1.0,3.25,5.5,7.75,10.0
stars,10.0,14816.9,34100.448392,369.0,973.25,2139.0,9103.25,110768.0
stars_today,10.0,264.1,143.35151,71.0,196.0,256.5,282.25,574.0
forks,10.0,2208.0,5695.945615,38.0,65.0,91.5,1108.25,18331.0


In [None]:
describe_df.loc['stars', 'max']

110768.0

**Exemplo**: Agregação com o método `agg`.


In [None]:
sum_series = github_df[['stars', 'stars_today', 'forks']].agg('sum')

In [None]:
sum_series

stars          148169
stars_today      2641
forks           22080
dtype: int64

In [None]:
sum_series.loc['stars']

148169

**Exemplo**: Agregação com o método `agg` com múltiplas métricas.

In [None]:
mean_max_df = github_df[['stars', 'stars_today', 'forks']].agg(['mean', 'max'])

In [None]:
mean_max_df

Unnamed: 0,stars,stars_today,forks
mean,14816.9,264.1,2208.0
max,110768.0,574.0,18331.0


In [None]:
mean_max_df.loc['mean', 'stars']

14816.9

**Exemplo**: Agregação por grupos com os métodos `groupby` e `agg`.


In [None]:
grouped_sum_df = github_df[['language', 'stars', 'stars_today', 'forks']].groupby('language').agg('sum')

In [None]:
grouped_sum_df

Unnamed: 0_level_0,stars,stars_today,forks
language,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
go,4522,839,118
javascript,110768,248,18331
python,15712,848,2128
typescript,15668,280,1370


In [None]:
grouped_sum_df.loc['python', 'stars']

15712

**Exemplo**: Agregação por grupos com os métodos `groupby` e `agg` com multiplas métricas.

In [None]:
grouped_count_sum_mean_std_df = (
    github_df[['language', 'stars', 'stars_today', 'forks']]
    .groupby('language')
    .agg(['count', 'sum', 'mean', 'std'])
    )

In [None]:
grouped_count_sum_mean_std_df

Unnamed: 0_level_0,stars,stars,stars,stars,stars_today,stars_today,stars_today,stars_today,forks,forks,forks,forks
Unnamed: 0_level_1,count,sum,mean,std,count,sum,mean,std,count,sum,mean,std
language,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
go,2,4522,2261.0,1353.402379,2,839,419.5,218.495995,2,118,59.0,29.698485
javascript,1,110768,110768.0,,1,248,248.0,,1,18331,18331.0,
python,4,15712,3928.0,4865.26779,4,848,212.0,152.756887,4,2128,532.0,751.653732
typescript,1,15668,15668.0,,1,280,280.0,,1,1370,1370.0,


In [None]:
grouped_count_sum_mean_std_df.loc['python', 'stars']

count        4.00000
sum      15712.00000
mean      3928.00000
std       4865.26779
Name: python, dtype: float64

In [None]:
grouped_count_sum_mean_std_df.loc['python', 'stars'].loc['sum']

15712.0

### **1.2. Ordenação** 

Uma ordenação é o processo de ordernar um conjunto de dados a partir de um conjunto de colunas e um critério (ascendente ou descendente). 

**Exemplo**: Ordernação com uma coluna de referência através do método `sort_values`.

In [None]:
github_df.sort_values(by=['stars'])

In [None]:
github_df.sort_values(by=['stars'], ascending=False)

**Exemplo**: Ordernação com um conjunto de colunas de referência através do método `sort_values`.

In [None]:
github_df.sort_values(by=['language', 'forks'], ascending=False)

**Exemplo**: Ordernação com a "coluna" de indices como referência através do método `sort_index`.

In [None]:
github_df.sort_index()

In [None]:
github_df.sort_index(ascending=False)

## 2\. Combinação

### **2.1. Método `concat`** 

Combina dataframes baseado nas **linhas**, de maneira simples, **sem lógica de combinação**.

In [None]:
primeiros_5 = github_df.query('ranking <= 5')

In [None]:
primeiros_5

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646


In [None]:
ultimos_5 = github_df.query('ranking > 5')

In [None]:
ultimos_5

Unnamed: 0,ranking,project,language,stars,stars_today,forks
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


*   **Exemplo**: Concatenação com colunas iguais:

In [None]:
pd.concat(
    [
       primeiros_5, 
       ultimos_5
     ]
     )

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


In [None]:
pd.concat([ultimos_5, primeiros_5])

*   **Exemplo**: Concatenação com colunas diferentes:

In [None]:
pd.concat([primeiros_5[['ranking', 'stars']], ultimos_5[['ranking', 'language']]])

### **2.2. Método `merge`** 

Combina dataframes baseado em **colunas**, com **lógica de combinação**.

In [None]:
linguagem_df = pd.DataFrame({
    'language': ['c', 'go', 'python', 'javascript', 'typescript'], 
    'creation_year': [1972, 2009, 1991, 1995, 2012], 
    'paradigm': ['imperative', 'imperative', 'imperative, object-oriented', 'imperative, object-oriented', 'imperative, object-oriented']
})

In [None]:
linguagem_df

*   **Exemplo**: Combinação do tipo `inner`:

In [None]:
pd.merge(
    left=github_df, 
    right=linguagem_df, 
    on='language', 
    how='inner'
    )

Unnamed: 0,ranking,project,language,stars,stars_today,forks,creation_year,paradigm
0,1,plow,go,1304,574,38,2009,imperative
1,3,slides,go,3218,265,80,2009,imperative
2,2,n8n,typescript,15668,280,1370,2012,"imperative, object-oriented"
3,5,pytorch-image-models,python,11065,101,1646,1991,"imperative, object-oriented"
4,7,paddleclas,python,1429,283,323,1991,"imperative, object-oriented"
5,8,reddit_sentiment_trader,python,369,71,60,1991,"imperative, object-oriented"
6,9,augly,python,2849,393,99,1991,"imperative, object-oriented"
7,6,javascript-algorithms,javascript,110768,248,18331,1995,"imperative, object-oriented"


*   **Exemplo**: Combinação do tipo `left` e `right`:

In [None]:
pd.merge(left=github_df, right=linguagem_df, on='language', how='left') # trás todas as colunas das tabelas e as linhas que tem alguma combinação 

In [None]:
pd.merge(left=github_df, right=linguagem_df, on='language', how='right')

*   **Exemplo**: Combinação do tipo `outer`:

In [None]:
pd.merge(left=github_df, right=linguagem_df, on='language', how='outer') # trás todas as colunas das tabelas e todas as linhas com combinação ou não (as que não são combinadas recebe valor nulo nas colunas da outra tabela)

Unnamed: 0,ranking,project,language,stars,stars_today,forks,creation_year,paradigm
0,1.0,plow,go,1304.0,574.0,38.0,2009.0,imperative
1,3.0,slides,go,3218.0,265.0,80.0,2009.0,imperative
2,2.0,n8n,typescript,15668.0,280.0,1370.0,2012.0,"imperative, object-oriented"
3,4.0,defi-developer-road-map,,636.0,247.0,49.0,,
4,10.0,self-taught-guide-to-cloud-computing,,863.0,179.0,84.0,,
5,5.0,pytorch-image-models,python,11065.0,101.0,1646.0,1991.0,"imperative, object-oriented"
6,7.0,paddleclas,python,1429.0,283.0,323.0,1991.0,"imperative, object-oriented"
7,8.0,reddit_sentiment_trader,python,369.0,71.0,60.0,1991.0,"imperative, object-oriented"
8,9.0,augly,python,2849.0,393.0,99.0,1991.0,"imperative, object-oriented"
9,6.0,javascript-algorithms,javascript,110768.0,248.0,18331.0,1995.0,"imperative, object-oriented"


## 3\. Técnicas Avançadas

### **3.1. Gráficos** 

O Pandas possuí o método `plot` ([documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)) para a geração de gráficos a partir de DataFrames. Por padrão, utiliza o pacote Python de geração de gráficos **MatplotLib** ([documentação](https://matplotlib.org/stable/index.html)).

#### 3.1.1 Pizza 

Gráfico que relaciona uma variável **categórica** com uma variável **numérica**. Vamos utilizar o método `pie` ([documentação](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html)) do pacote MatplotLib.

*   **Exemplo**: Proporção das linguagens de programação no ranking:

In [None]:
{'amount': len(github_df)*[1]}

In [None]:
languages_df = pd.concat([github_df[['language']], pd.DataFrame({'amount': len(github_df)*[1]})], axis=1)

In [None]:
languages_df

In [None]:
grouped_languages_df = languages_df.groupby('language').agg('sum')

In [None]:
grouped_languages_df

In [None]:
grouped_languages_df.plot.pie(y='amount', figsize=(11, 6))

#### 3.1.2 Pontos 

Gráfico que relaciona variáveis **numéricas**. Vamos utilizar o método `scatter` ([documentação](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html)) do pacote MatplotLib.

*   **Exemplo**: Relação entre o número de `stars` com o `forks`:

In [None]:
github_df.plot.scatter(x='stars', y='forks')

In [None]:
github_df.query('stars < 100000').plot.scatter(x='stars', y='forks', c='ranking', colormap='viridis')

### **3.2. Valores Nulos** 

Valores nulos em um DataFrame Pandas ocorrem quando o pacote não consegue interpretar o dado da fonte de dados, exemplos:

*   Colunas categóricas com valores vazios (` `);
*   Colunas numéricas com valores nulos (`None`);
*   etc.



#### 3.2.1 Identificação

*   **Exemplo**: Identificaçao de linhas com algum valor nulo com os métodos `isnull` e `any`:

In [None]:
github_df

In [None]:
github_df.isnull()

In [None]:
github_df.isnull().any()

In [None]:
github_df.isnull().any().any()

In [None]:
def has_null(df: pd.DataFrame) -> bool:
  return df.isnull().any().any()

In [None]:
has_null(df=github_df)

#### 3.2.2 Remoção 

*   **Exemplo**: Remoção de linhas com algum valor nulo com o método `dropna`:

In [None]:
github_df.dropna()

In [None]:
has_null(df=github_df.dropna())

#### 3.2.3 Preenchimento 

*   **Exemplo**: Preenchimento valores nulos com o método `fillna`:

In [None]:
github_df.fillna('') # preenchimento com espaço em branco, pode ser usado texto ou número também

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


In [None]:
has_null(df=github_df.fillna(''))