# Data Structures - Numpy & Pandas

## Numpy

http://www.numpy.org/ (ou Google numpy python)

"The NumPy library contains multidimensional array and matrix data structures (...). NumPy can be used to perform a wide variety of mathematical operations on arrays. It adds powerful data structures to Python that guarantee efficient calculations with arrays and matrices (...)"

"(...) The NumPy API is used extensively in Pandas, SciPy, Matplotlib, scikit-learn, scikit-image and most other data science and scientific Python packages."

Import

In [1]:
import numpy as np
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Inicialização

In [2]:
# Há arrays unidimensionais e multidimensionais
myarr = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])
myarr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [3]:
myarr.shape

(3, 4)

Operações Array-Constante

In [4]:
myarr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [5]:
#Quando multiplico uma lista, a sequencia da lista é repetida
[1, 2, 3] * 2

[1, 2, 3, 1, 2, 3]

In [6]:
#Já o array é capaz de fazer operações matemáticas, e essa é principal diferença
myarr * 100

array([[ 100,  200,  300,  400],
       [ 500,  600,  700,  800],
       [ 900, 1000, 1100, 1200]])

Operações Internas Array

In [7]:
myarr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [8]:
# Soma total
myarr.sum()

78

In [9]:
# Soma de cada coluna
myarr.sum(axis=0)

array([15, 18, 21, 24])

In [10]:
# Média de cada linha
myarr.mean(axis=1)

array([ 2.5,  6.5, 10.5])

In [11]:
# min e max
print(f"Valor maximo da minha array é {myarr.max()}")
print(f"Valor minimo da minha array é {myarr.min()}")

Valor maximo da minha array é 12
Valor minimo da minha array é 1


In [12]:
# argmax e argmin
print(f"O index do valor maximo da minha array é {myarr.argmax()}")
print(f"O index do valor manimo da minha array é {myarr.argmin()}")

O index do valor maximo da minha array é 11
O index do valor manimo da minha array é 0


## Pandas

https://pandas.pydata.org/

"When working with tabular data, such as data stored in spreadsheets or databases, pandas is the right tool for you. Pandas will help you to explore, clean, and process your data. In pandas, a data table is called a DataFrame."

In [13]:
import numpy as np
import pandas as pd

### DataFrames

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

##### Inicialização

In [14]:
# Dataframes são basicamente tabelas, ou séries apendadas
# Possuem, então, índices e colunas
# E podem ser inicializadas de várias formas, como por um array
a_array = np.array(
    [['Brazil', 'Brasilia', '8.516', '200.4'],
       ['Russia', 'Moscow', '17.1', '143.5'],
       ['India', 'New Delhi', '3.286', '1252'],
       ['China', 'Beijing', '9.597', '1357'],
       ['South Africa', 'Pretoria', '1.221', '52.98']]
)

brics = pd.DataFrame(data=a_array, columns=["country", "capital", "area", "population"])
brics

Unnamed: 0,country,capital,area,population
0,Brazil,Brasilia,8.516,200.4
1,Russia,Moscow,17.1,143.5
2,India,New Delhi,3.286,1252.0
3,China,Beijing,9.597,1357.0
4,South Africa,Pretoria,1.221,52.98


In [15]:
# Ou por um dicionário
a_dict = {
    "country": ["Brazil", "Russia", "India", "China", "South Africa"],
    "capital": ["Brasilia", "Moscow", "New Delhi", "Beijing", "Pretoria"],
    "area": [8.516, 17.10, 3.286, 9.597, 1.221],
    "population": [200.4, 143.5, 1252, 1357, 52.98],
}

brics = pd.DataFrame(data=a_dict)
brics

Unnamed: 0,country,capital,area,population
0,Brazil,Brasilia,8.516,200.4
1,Russia,Moscow,17.1,143.5
2,India,New Delhi,3.286,1252.0
3,China,Beijing,9.597,1357.0
4,South Africa,Pretoria,1.221,52.98


##### Operações (Manipulação de Series)

In [16]:
# Acessando os índices
brics.index

RangeIndex(start=0, stop=5, step=1)

In [17]:
# E as colunas
brics.columns

Index(['country', 'capital', 'area', 'population'], dtype='object')

In [18]:
# Visualizando apenas as primeiras linhas do dataframe (nesse caso, 2 linhas)
brics.head(4)

Unnamed: 0,country,capital,area,population
0,Brazil,Brasilia,8.516,200.4
1,Russia,Moscow,17.1,143.5
2,India,New Delhi,3.286,1252.0
3,China,Beijing,9.597,1357.0


In [19]:
# Visualizando apenas as últimas linhas do dataframe (nesse caso, 2 linhas)
brics.tail(2)

Unnamed: 0,country,capital,area,population
3,China,Beijing,9.597,1357.0
4,South Africa,Pretoria,1.221,52.98


In [21]:
# Alterando os índices. ,
# Note que a nova estrutura de index deve ter a mesma dimensão da estrutura original
brics.index = ['BR', 'RU', 'IN', 'CH', 'SA']
brics

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


In [22]:
# Parar acessar uma coluna, utilizamos [] nos dataframes.
# Como séries são unidimensionais, nelas, usar [] nos retorna um valor de uma linha.
# Uma coluna de um dataframe corresponde a uma série
brics['area']

BR     8.516
RU    17.100
IN     3.286
CH     9.597
SA     1.221
Name: area, dtype: float64

In [23]:
# Como vimos antes, podemos aplicar funcões em séries (ou colunas selecionadas de um dataframe)
brics['area'].mean()

7.944

In [24]:
# Ou podemos operar sobre um dataframe completo
area_and_population = brics[["area", "population"]]
display(area_and_population) #difere do print por mostrar dataframes formatados
area_and_population.mean()

Unnamed: 0,area,population
BR,8.516,200.4
RU,17.1,143.5
IN,3.286,1252.0
CH,9.597,1357.0
SA,1.221,52.98


area            7.944
population    601.176
dtype: float64

In [25]:
# É possível também converter séries em listas ou dicionários
list_of_countries = brics['country'].to_list()
dict_of_countries = brics['country'].to_dict()
display(brics['country'])
print(list_of_countries)
print(dict_of_countries)

BR          Brazil
RU          Russia
IN           India
CH           China
SA    South Africa
Name: country, dtype: object

['Brazil', 'Russia', 'India', 'China', 'South Africa']
{'BR': 'Brazil', 'RU': 'Russia', 'IN': 'India', 'CH': 'China', 'SA': 'South Africa'}


In [26]:
brics.columns

Index(['country', 'capital', 'area', 'population'], dtype='object')

In [27]:
# Analogamente à mudança de index, podemos redefinir o atributo de colunas.
# O match dimensional entre os lados direito e esquerdo ainda deve ser obedecido.
brics.columns = ['pais', 'capital', 'area', 'population']
brics

Unnamed: 0,pais,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


In [28]:
# Renomeando colunas por um dicionário.
# Lembrem-se que dicionários são basicamente de-paras,
# logo, operações de mapeamento exigem um dicionário
brics = brics.rename(columns={'population': 'populacao'})
brics

Unnamed: 0,pais,capital,area,populacao
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


##### Indexação

In [29]:
# Acessando linhas pelo número (iloc)
brics.iloc[2] # Assim como uma coluna,uma linha de um dataframe também corresponde a uma série

pais             India
capital      New Delhi
area             3.286
populacao       1252.0
Name: IN, dtype: object

In [30]:
# Acessando linhas pelo seu índice (loc)
brics.loc['CH']

pais           China
capital      Beijing
area           9.597
populacao     1357.0
Name: CH, dtype: object

In [31]:
# Não é possível acessar uma linha sem iloc ou loc.
# Lembrem-se que [] em dataframes acessam colunas
brics['CH'] # Erro de indexação, pois acessar um dataframe por [] exige que uma chave de coluna seja passada

KeyError: ignored

In [32]:
# A indexação livre acessa colunas
brics['pais']

BR          Brazil
RU          Russia
IN           India
CH           China
SA    South Africa
Name: pais, dtype: object

In [33]:
# Também é possível acessar colunas pelo operador ".", mas essa sintaxe é menos flexível,
# pois em casos de nomes de colunas com caracteres especiais,
# o Python não reconhecerá o acesso pelo operador "."
brics.pais

BR          Brazil
RU          Russia
IN           India
CH           China
SA    South Africa
Name: pais, dtype: object

In [34]:
brics

Unnamed: 0,pais,capital,area,populacao
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


In [37]:
# Em casos de mais de uma colunas, precisamos de duplo colchetes
display(brics[['pais', 'capital', 'area']])

# Equivale a indexar a partir de uma lista
columns = ['pais', 'capital', 'area']
display(brics[columns])

Unnamed: 0,pais,capital,area
BR,Brazil,Brasilia,8.516
RU,Russia,Moscow,17.1
IN,India,New Delhi,3.286
CH,China,Beijing,9.597
SA,South Africa,Pretoria,1.221


Unnamed: 0,pais,capital,area
BR,Brazil,Brasilia,8.516
RU,Russia,Moscow,17.1
IN,India,New Delhi,3.286
CH,China,Beijing,9.597
SA,South Africa,Pretoria,1.221


In [38]:
# Caso tentemos acessar mais de uma coluna sem duplo colchetes, um erro de indexação será levantado
brics['pais', 'capital'] # Erro de indexação

KeyError: ignored

In [39]:
brics

Unnamed: 0,pais,capital,area,populacao
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


In [41]:
# Utilizamos .loc[] para acessar um índice e uma coluna (ou seja, uma célula específica)
brics.loc['CH', 'area']

9.597

In [43]:
# ou também para acessar múltiplos índices e colunas
brics.loc[['BR', 'CH'], ["pais", "capital"]]

Unnamed: 0,pais,capital
BR,Brazil,Brasilia
CH,China,Beijing


In [44]:
brics

Unnamed: 0,pais,capital,area,populacao
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


In [45]:
# Para criar novas colunas, "acessamos" essa coluna no dataframe e atribuímos os respectivos valores
brics['col5'] = range(5)
brics

Unnamed: 0,pais,capital,area,populacao,col5
BR,Brazil,Brasilia,8.516,200.4,0
RU,Russia,Moscow,17.1,143.5,1
IN,India,New Delhi,3.286,1252.0,2
CH,China,Beijing,9.597,1357.0,3
SA,South Africa,Pretoria,1.221,52.98,4


In [46]:
# A nova coluna pode ser uma operação de outras colunas do dataframe. Lembremos aqui que axis = 0 (default)
# corresponde a operações ao longo das linhas (ou seja, coluna a coluna); e axis = 1, ao longo das colunas
brics['col6'] = brics[['area', 'populacao']].sum(axis=1)
brics

Unnamed: 0,pais,capital,area,populacao,col5,col6
BR,Brazil,Brasilia,8.516,200.4,0,208.916
RU,Russia,Moscow,17.1,143.5,1,160.6
IN,India,New Delhi,3.286,1252.0,2,1255.286
CH,China,Beijing,9.597,1357.0,3,1366.597
SA,South Africa,Pretoria,1.221,52.98,4,54.201


In [47]:
# A função set_index redefine a indexação com base em alguma outra coluna do dataframe
new_brics = brics.set_index('pais')
new_brics

Unnamed: 0_level_0,capital,area,populacao,col5,col6
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Brazil,Brasilia,8.516,200.4,0,208.916
Russia,Moscow,17.1,143.5,1,160.6
India,New Delhi,3.286,1252.0,2,1255.286
China,Beijing,9.597,1357.0,3,1366.597
South Africa,Pretoria,1.221,52.98,4,54.201


In [48]:
# E para desindexar, temos a função reset_index()
new_brics = new_brics.reset_index()
new_brics

Unnamed: 0,pais,capital,area,populacao,col5,col6
0,Brazil,Brasilia,8.516,200.4,0,208.916
1,Russia,Moscow,17.1,143.5,1,160.6
2,India,New Delhi,3.286,1252.0,2,1255.286
3,China,Beijing,9.597,1357.0,3,1366.597
4,South Africa,Pretoria,1.221,52.98,4,54.201


##### Loads

CSVs

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

In [49]:
# CSVs carregados com read_csv.
#É importante ficar atento aos argumentos sep, decimal e encoding dessa função.
df_csv = pd.read_csv('drive/MyDrive/ASA 2023/Colab Notebooks/data/pib.csv')
df_csv.head()

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
0,Agropecuária - total,1,10054.0,1996
1,Agropecuária - total,2,10703.0,1996
2,Agropecuária - total,3,11096.0,1996
3,Agropecuária - total,4,8906.0,1996
4,Agropecuária - total,1,12338.0,1997


In [50]:
# Importante realizar inspeção da base logo após carregar...
df_csv.shape

(2254, 4)

In [51]:
# A função info() traz um overview da base
# (colunas, formato, número de não nulos, uso de memória)
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2254 entries, 0 to 2253
Data columns (total 4 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Setores e subsetores  2254 non-null   object 
 1   Trimestre             2254 non-null   int64  
 2   Valor                 2254 non-null   float64
 3   Ano                   2254 non-null   int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 70.6+ KB


Excel

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html

In [52]:
# Para arquivos .xls*, a função é read_excel, podendo ser especificada o nome da aba de interesse.
df_xls = pd.read_excel('drive/MyDrive/ASA 2023/Colab Notebooks/data/pib.xlsx')
df_xls.head()

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
0,Agropecuária - total,1,10054,1996
1,Agropecuária - total,2,10703,1996
2,Agropecuária - total,3,11096,1996
3,Agropecuária - total,4,8906,1996
4,Agropecuária - total,1,12338,1997


##### Filtros

In [53]:
df = df_xls.copy()
df.head()

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
0,Agropecuária - total,1,10054,1996
1,Agropecuária - total,2,10703,1996
2,Agropecuária - total,3,11096,1996
3,Agropecuária - total,4,8906,1996
4,Agropecuária - total,1,12338,1997


In [54]:
# Um filtro consiste na aplicação de uma condição durante o acesso de um dataframe (realizado com [])
df[df['Ano'] == 2020]

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
96,Agropecuária - total,1,119691,2020
97,Agropecuária - total,2,125417,2020
194,Indústria - total,1,305450,2020
195,Indústria - total,2,287544,2020
292,Indústrias extrativas,1,46570,2020
293,Indústrias extrativas,2,39277,2020
390,Indústrias de transformação,1,155338,2020
391,Indústrias de transformação,2,151527,2020
488,"Eletricidade e gás, água, esgoto, atividades d...",1,50276,2020
489,"Eletricidade e gás, água, esgoto, atividades d...",2,46700,2020


In [55]:
# Check de consistência
df[df['Ano'] == 2020]['Ano'].unique()

array([2020])

In [56]:
df[df['Ano'] >= 2018]['Ano'].unique()

array([2018, 2019, 2020])

In [57]:
df['Ano'].unique()

array([1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006,
       2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017,
       2018, 2019, 2020])

In [58]:
# Composição de condições: vamos filtrar os casos em que o Ano é 2020 e o Trimestre é 2
# Notem que o operador de intersecção é & (`and` não faz esse tipo de condição)
#df[(df['Ano'] == 2020) and (df.Trimestre == 2)]
df[(df['Ano'] == 2020) & (df.Trimestre == 2)]

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
97,Agropecuária - total,2,125417,2020
195,Indústria - total,2,287544,2020
293,Indústrias extrativas,2,39277,2020
391,Indústrias de transformação,2,151527,2020
489,"Eletricidade e gás, água, esgoto, atividades d...",2,46700,2020
587,Construção,2,50040,2020
685,Serviços - total,2,1064582,2020
783,Comércio,2,189469,2020
881,"Transporte, armazenagem e correio",2,57629,2020
979,Informação e comunicação,2,51732,2020


In [59]:
# Caso troquemos a condição para união, usamos | (`or` não faz esse tipo de condição)
df[(df["Setores e subsetores"] == 'Comércio') | (df["Setores e subsetores"] == 'Construção')].head()

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
490,Construção,1,11972,1996
491,Construção,2,13587,1996
492,Construção,3,14767,1996
493,Construção,4,15104,1996
494,Construção,1,14443,1997


In [60]:
# Uma outra maneira de fazer o filtro é com o método query()
df.query("Ano == 2020 and Trimestre == 2 and (`Setores e subsetores` == 'Comércio' or `Setores e subsetores` == 'Construção')")

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
587,Construção,2,50040,2020
783,Comércio,2,189469,2020


In [61]:
# Outro operador útil é o "isin": ele permite selecionar os casos em que os
# valores da coluna estão contidos em uma coleção de valores. Nesse caso,
# vamos filtrar os casos em que a coluna `Setores e subsetores` está dentro
# de um range de key_sectors
key_sectors = ['Comércio', 'Construção']
df[df["Setores e subsetores"].isin(key_sectors)]

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
490,Construção,1,11972,1996
491,Construção,2,13587,1996
492,Construção,3,14767,1996
493,Construção,4,15104,1996
494,Construção,1,14443,1997
...,...,...,...,...
779,Comércio,2,209245,2019
780,Comércio,3,220270,2019
781,Comércio,4,222221,2019
782,Comércio,1,207623,2020


##### Exports

In [62]:
# Funções pares de read_csv e read_excel são to_csv e to_excel. São aplicadas sobre séries ou dataframes, especificando
# o path do arquivo
df_2020 = df[df['Ano'] == 2020]

df_2020.to_csv('drive/MyDrive/ASA 2023/Colab Notebooks/data/pib-2020.csv')

In [63]:
df_2020.to_excel('drive/MyDrive/ASA 2023/Colab Notebooks/data/pib-2020.xlsx')

# Exercícios

**Ex. 1)** A partir da base de pib, vamos calcular a **participação em % das Indústrias de transformação sobre o PIB a preços de mercado para o 1o Tri de 2019**

1) Carregando bases: carregue a base contida em `data/pib.csv`;

2) Inspecionando bases: explore a base (colunas, formato, tipos de variáveis);

3) Inspecionando bases: liste os valores únicos e seu número de ocorrências para a coluna Trimestre;

4) Filtre os dados necessários

5) Calcule o valor %

In [None]:
# Seu código aqui
#1)Carregando bases: carregue a base contida em data/pib.csv;
df = pd.read_csv('drive/MyDrive/ASA 2023/Colab Notebooks/data/pib.csv')
df.head(2)

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
0,Agropecuária - total,1,10054.0,1996
1,Agropecuária - total,2,10703.0,1996


In [64]:
#2) Inspecionando bases: explore a base (colunas, formato, tipos de variáveis);
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2254 entries, 0 to 2253
Data columns (total 4 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Setores e subsetores  2254 non-null   object
 1   Trimestre             2254 non-null   int64 
 2   Valor                 2254 non-null   int64 
 3   Ano                   2254 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 70.6+ KB


In [75]:
#3) Inspecionando bases: liste os valores únicos e seu número de ocorrências para a coluna Trimestre;
print(f"Lista de valores únicos: {df['Trimestre'].unique()}")
print(f"Número de ocorrências de cada Trimestre: \n{df['Trimestre'].value_counts()}")

Lista de valores únicos: [1 2 3 4]
Número de ocorrências de cada Trimestre: 
1    575
2    575
3    552
4    552
Name: Trimestre, dtype: int64


In [76]:
#4) Filtre os dados necessários
df_filtrado = df[(df['Trimestre'] == 1) & (df['Ano'] == 2019)]
df_filtrado

Unnamed: 0,Setores e subsetores,Trimestre,Valor,Ano
92,Agropecuária - total,1,92218,2019
190,Indústria - total,1,294741,2019
288,Indústrias extrativas,1,37980,2019
386,Indústrias de transformação,1,153977,2019
484,"Eletricidade e gás, água, esgoto, atividades d...",1,48418,2019
582,Construção,1,54366,2019
680,Serviços - total,1,1087324,2019
778,Comércio,1,199432,2019
876,"Transporte, armazenagem e correio",1,63592,2019
974,Informação e comunicação,1,49914,2019


In [87]:
#5) Calcule o valor da participação em % das Indústrias de transformação sobre o PIB a preços de mercado para o 1o Tri de 2019
x = df_filtrado.loc[df_filtrado['Setores e subsetores'] == 'Indústrias de transformação', 'Valor'].values[0]
z = df_filtrado['Valor'].sum()
print(f'A participação foi de {x/z:.2%}')

A participação foi de 1.81%


# Operações Avançadas em Pandas

In [88]:
import pandas as pd
import numpy as np

In [89]:
# Vamos carregar um dataset para exercitar alguns novos conceitos
df = pd.read_csv('drive/MyDrive/ASA 2023/Colab Notebooks/data/googleplaystore.csv')
df.tail(5)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10836,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10837,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10838,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device
10840,iHoroscope - 2018 Daily Horoscope & Astrology,LIFESTYLE,4.5,398307,19M,"10,000,000+",Free,0,Everyone,Lifestyle,"July 25, 2018",Varies with device,Varies with device


In [90]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   App             10841 non-null  object 
 1   Category        10841 non-null  object 
 2   Rating          9367 non-null   float64
 3   Reviews         10841 non-null  object 
 4   Size            10841 non-null  object 
 5   Installs        10841 non-null  object 
 6   Type            10840 non-null  object 
 7   Price           10841 non-null  object 
 8   Content Rating  10840 non-null  object 
 9   Genres          10841 non-null  object 
 10  Last Updated    10841 non-null  object 
 11  Current Ver     10833 non-null  object 
 12  Android Ver     10838 non-null  object 
dtypes: float64(1), object(12)
memory usage: 1.1+ MB


## Group By

In [91]:
# Agrupando por categoria e tirando a média das avaliações
df.groupby('Category')['Rating'].mean()

Category
1.9                    19.000000
ART_AND_DESIGN          4.358065
AUTO_AND_VEHICLES       4.190411
BEAUTY                  4.278571
BOOKS_AND_REFERENCE     4.346067
BUSINESS                4.121452
COMICS                  4.155172
COMMUNICATION           4.158537
DATING                  3.970769
EDUCATION               4.389032
ENTERTAINMENT           4.126174
EVENTS                  4.435556
FAMILY                  4.192272
FINANCE                 4.131889
FOOD_AND_DRINK          4.166972
GAME                    4.286326
HEALTH_AND_FITNESS      4.277104
HOUSE_AND_HOME          4.197368
LIBRARIES_AND_DEMO      4.178462
LIFESTYLE               4.094904
MAPS_AND_NAVIGATION     4.051613
MEDICAL                 4.189143
NEWS_AND_MAGAZINES      4.132189
PARENTING               4.300000
PERSONALIZATION         4.335987
PHOTOGRAPHY             4.192114
PRODUCTIVITY            4.211396
SHOPPING                4.259664
SOCIAL                  4.255598
SPORTS                  4.223511
T

In [93]:
#Mostrando o que o groupby está fazendo (remover um '#' de cada vez e rodar novamente)
#df[(df['Category'] == 'ART_AND_DESIGN')]#['Rating']#.mean()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7174,Easy DIY CD Craft Ideas,ART_AND_DESIGN,,7,5.6M,"5,000+",Free,0,Everyone,Art & Design,"May 30, 2018",1.0,2.3 and up
8679,Dp for girls,ART_AND_DESIGN,4.2,175,8.2M,"50,000+",Free,0,Everyone,Art & Design,"May 26, 2017",1.2,4.0.3 and up
8712,Name Art DP - Focus n Filter Text 2018,ART_AND_DESIGN,4.3,132,7.7M,"10,000+",Free,0,Everyone,Art & Design,"January 4, 2018",1,4.1 and up
8871,Test Application DT 02,ART_AND_DESIGN,,0,1.2M,0+,Free,0,Everyone,Art & Design,"March 14, 2017",4.0,4.2 and up


In [94]:
# Ou investigando quais versões de Android são atendidas por categoria
df.groupby('Category')['Android Ver'].unique()

Category
1.9                                                                [nan]
ART_AND_DESIGN         [4.0.3 and up, 4.2 and up, 4.4 and up, 2.3 and...
AUTO_AND_VEHICLES      [4.0.3 and up, 4.1 and up, Varies with device,...
BEAUTY                 [5.0 and up, 4.1 and up, 4.0.3 and up, Varies ...
BOOKS_AND_REFERENCE    [Varies with device, 4.4 and up, 4.0 and up, 1...
BUSINESS               [Varies with device, 5.0 and up, 4.4 and up, 4...
COMICS                 [Varies with device, 4.1 and up, 4.0.3 and up,...
COMMUNICATION          [Varies with device, 4.1 and up, 2.3 and up, 4...
DATING                 [4.1 and up, 4.0 and up, 4.0.3 and up, Varies ...
EDUCATION              [Varies with device, 4.1 and up, 4.0 and up, 4...
ENTERTAINMENT          [Varies with device, 4.0.3 and up, 4.1 and up,...
EVENTS                 [4.0.3 and up, Varies with device, 4.1 and up,...
FAMILY                 [4.1 and up, 4.0.3 and up, 2.3 and up, 4.0 and...
FINANCE                [4.2 and up, Varies

In [95]:
# Ou a avaliação máxima por categoria e classificação de conteúdo
df.groupby(['Category', 'Content Rating'])['Rating'].max()#.reset_index()

Category           Content Rating
ART_AND_DESIGN     Everyone          5.0
                   Everyone 10+      4.7
                   Teen              4.7
AUTO_AND_VEHICLES  Everyone          4.9
                   Everyone 10+      4.3
                                    ... 
VIDEO_PLAYERS      Teen              4.6
WEATHER            Everyone          4.8
                   Everyone 10+      4.4
                   Mature 17+        4.7
                   Teen              4.5
Name: Rating, Length: 118, dtype: float64

In [96]:
#Transform
#retorna os mesmos índices que o objeto original preenchido com os valores transformados
df.groupby(['Category', 'Content Rating'])['Rating'].transform("max")

0        5.0
1        5.0
2        5.0
3        4.7
4        5.0
        ... 
10836    5.0
10837    5.0
10838    5.0
10839    4.5
10840    5.0
Name: Rating, Length: 10841, dtype: float64

In [97]:
df['new_col'] = df.groupby(['Category', 'Content Rating'])['Rating'].transform("max")
df.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver,new_col
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up,5.0
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up,5.0
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up,5.0
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up,4.7
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up,5.0


In [98]:
#Eliminando colunas
df = df.drop('new_col', axis=1)
df.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


## Concatenate

fonte: https://www.educative.io/edpresso/three-ways-to-combine-dataframes-in-pandas'

In [99]:
# Criando três cortes do dataframne
df1 = df[df['Category'] == 'GAME']
df2 = df[df['Category'] == 'FAMILY']
df3 = df[df['Category'] == 'BUSINESS']

In [100]:
df1.head(1)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
1653,ROBLOX,GAME,4.5,4447388,67M,"100,000,000+",Free,0,Everyone 10+,Adventure;Action & Adventure,"July 31, 2018",2.347.225742,4.1 and up


In [101]:
df2.head(1)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
2014,YouTube Kids,FAMILY,4.5,470694,Varies with device,"50,000,000+",Free,0,Everyone,Entertainment;Music & Video,"August 3, 2018",3.43.3,4.1 and up


In [102]:
df_12 = pd.concat([df1, df2])

In [103]:
print(df1.shape)
print(df2.shape)
print(df_12.shape)

(1144, 13)
(1972, 13)
(3116, 13)


In [104]:
df_123 = pd.concat([df1, df2, df3])

In [105]:
print(df1.shape)
print(df2.shape)
print(df3.shape)
print(df_123.shape)

(1144, 13)
(1972, 13)
(460, 13)
(3576, 13)


In [106]:
df_12["Category"].unique()

array(['GAME', 'FAMILY'], dtype=object)

In [107]:
df_123["Category"].unique()

array(['GAME', 'FAMILY', 'BUSINESS'], dtype=object)

# Quiz Time

## Quiz 1

Utilizando a base contida em `data/pib.csv`

Calcule o valor agregado pelas Indústrias de transformação no ano de 2019:

A) 685037  
B) 693159  
C) 622532  
D) 614343  
E) 678715  

In [110]:
# Solução 1
df = pd.read_csv('drive/MyDrive/ASA 2023/Colab Notebooks/data/pib.csv')
df.loc[(df['Setores e subsetores'] == 'Indústrias de transformação') & (df['Ano'] == 2019), 'Valor'].sum()

685037.0

In [115]:
# Solução 2
df_agrupado = df.groupby(['Setores e subsetores', 'Ano'])['Valor'].sum()
df_agrupado['Indústrias de transformação'][2019]

685037.0

## Quiz 2

Para o ano de 2019, qual dos setores abaixo teve maior participação no PIB?

A) Indústria - total  
B) Serviços - total  
C) Comércio  
D) Agropecuária - total  
E) Construção  

In [125]:
# Solução
df_2019 = df[df['Ano'] == 2019]
df_agrupado = df_2019.groupby('Setores e subsetores').sum()['Valor']
display(df_agrupado.sort_values(ascending=False))
print('Das alternativas apresentadas, o setor que mais contribuiu para o PIB foi o de Serviços - total')

Setores e subsetores
PIB a preços de mercado                                               7256927.0
Valor adicionado a preços básicos                                     6212776.0
Despesa de consumo das famílias                                       4712376.0
Serviços - total                                                      4590217.0
Despesa de consumo da administração pública                           1471892.0
Indústria - total                                                     1300602.0
Administração, saúde e educação públicas e seguridade social          1118510.0
Formação bruta de capital fixo                                        1114421.0
Outras atividades de serviços                                         1097166.0
Importação de bens e serviços (-)                                     1063445.0
Impostos líquidos sobre produtos                                      1044149.0
Exportação de bens e serviços                                         1039367.0
Comércio           

Das alternativas apresentadas, o setor que mais contribuiu para o PIB foi o de Serviços - total


## Quiz 3

Para o setor das Indústrias de transformação, qual foi o ano com o maior valor nos dados que temos?

A) 2019  
B) 2015  
C) 2013  
D) 2010  
E) 2017  

In [128]:
# Solução
df_filtrado = df[df['Setores e subsetores'] == 'Indústrias de transformação']
df_agrupado = df_filtrado.groupby('Ano')['Valor'].sum()
df_agrupado.sort_values(ascending=False)

Ano
2017    705533.0
2019    685037.0
2016    676239.0
2018    673931.0
2015    630813.0
2014    597375.0
2013    558733.0
2011    515704.0
2012    514021.0
2010    494351.0
2009    435277.0
2008    433978.0
2007    385033.0
2006    339948.0
2005    319907.0
2020    306865.0
2004    295610.0
2003    248256.0
2002    183969.0
2001    172226.0
2000    157497.0
1999    133881.0
1997    123949.0
1998    121837.0
1996    111693.0
Name: Valor, dtype: float64

## Quiz 4

Em quantos anos o valor agregado pelas Indústrias de transformação ultrapassou o valor de 500000?

A) 5  
B) 8  
C) 9  
D) 6  
E) 10  

In [133]:
# Solucao
df_filtrado = df[df['Setores e subsetores'] == 'Indústrias de transformação']
df_agrupado = df_filtrado.groupby('Ano')['Valor'].sum()
df_agrupado = pd.concat([df_agrupado, df_agrupado.cumsum()], axis=1)
df_agrupado.columns = ['Valor', 'soma_cumulativa']
display(df_agrupado)
print('Vemos que no ano 2000 (5 anos), a soma cumulativa já ultrapassa o valor de 500k')

Unnamed: 0_level_0,Valor,soma_cumulativa
Ano,Unnamed: 1_level_1,Unnamed: 2_level_1
1996,111693.0,111693.0
1997,123949.0,235642.0
1998,121837.0,357479.0
1999,133881.0,491360.0
2000,157497.0,648857.0
2001,172226.0,821083.0
2002,183969.0,1005052.0
2003,248256.0,1253308.0
2004,295610.0,1548918.0
2005,319907.0,1868825.0


Vemos que no ano 2000 (5 anos), a soma cumulativa já ultrapassa o valor de 500k
