# Programação para Data Analytics

[Referências](https://docs.python.org/3/)

# MÓDULOS em Python 
### (Python Modules)
Os módulos do Python são ficheiros (com extensão **.py** ) que consistem numa coleção de, entre outras coisas, funções, variáveis  e classes (veremos mais à frente) em Python. Qualquer ficheiro Python pode ser referenciado como um módulo. Alguns módulos estão disponíveis na Biblioteca Padrão do Python e instalados juntos com do programa. Outros podem ser instalados com o gestor de pacotes **pip** do Python. Além disso, o utilizador pode criar seus próprios módulos Python.<br>

Pode-se dizer que um  **módulo**  é uma coleção de funções definidas para uso imediato. <br>
Pode-se organizar os módulos num 'super-módulo' originado assim uma **biblioteca** (library).<br>

 Para a maioria dos utilizadores/progamadores  a utilização de funções de um determinado módulo requer apenas a compreensão da sua funcionalidade (input/output), sem a necessidade de se mergulhar nos detalhes específicos da implementação.<br>
Assim, as funcionalidades do Python podem ser extendidas através da importação de módulos.<br>
De forma intuitiva, pode-se pensar num módulo como um **conjunto de ferramentas** disponíveis para utilizador de modo a resolver problemas.

![Modulo Ferramentas](modulo_ferramentas.png)

Pode-se importar o módulo ``Ferramentas´´ (e assim ter acesso a cada uma das ferramentas) para resolver problemas. Para  isso, utiliza-se o comando:<br>

<span style="color: purple;">import</span>  <span style="color: green;">Ferramentas</span>

Numa situação onde se pretende apenas ter acesso a uma ferramenta específica (sem importar todo o contúdo do módulo), pode-se importar da seguinte forma:<br>

<span style="color: purple;">from</span> Ferramentas <span style="color: purple;">import</span> martelo (só o martelo é importado)

<span style="color: purple;">from</span> Ferramentas <span style="color: purple;">import</span> martelo, pá (martelo e pá são importados)


### Criação de um Módulo

O utilizador pode criar o seu próprio modulo e importa-lo para o ambiente de desenvolvimento. Para isso, como foi dito antes, deve criar uma ficheiro com extensão .py e guarda-lo no mesmo directorio onde está a desenvolver o seu código.

Exemplo: Criar um módulo chamado meu_modulo com as seguintes funções:

In [10]:
def somar(x, y):
    """Recebe dois números x e y e retorna sua soma"""
    return x + y

def multiplicar(x, y):
    """Recebe dois números x e y e retorna sua multiplicação"""
    return x * y


In [1]:
import meu_modulo as mm

In [2]:
whos

Variable   Type      Data/Info
------------------------------
mm         module    <module 'meu_modulo' from<...>m Python\\meu_modulo.py'>


In [3]:
#Um módulo pode também conter variáveis e constantes
#Exemplos:
#1.  Adicionar a lista:
#minha_lista=list(range(1,50,3))
#Adicionar a seguinte Varivel
#PT=10000000 

In [14]:
mm.somar(5,5)

10

In [4]:
from meu_modulo import multiplicar
from meu_modulo import somar

In [25]:
whos

Variable      Type        Data/Info
-----------------------------------
mm            module      <module 'meu_modulo' from<...>m Python\\meu_modulo.py'>
multiplicar   function    <function multiplicar at 0x000001FB72728860>
somar         function    <function somar at 0x000001FB72728040>


In [27]:
multiplicar(2,2)

4

In [29]:
somar(6,6)

12

In [6]:
mm.minha_lista

[1, 4, 7, 10, 13, 16, 19, 22, 25, 28, 31, 34, 37, 40, 43, 46, 49]

In [7]:
mm.PT

10000000

In [8]:
dir(mm)

['PT',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'minha_lista',
 'multiplicar',
 'somar']

#### A função dir()

Existe uma função chamada dir() que lista todos os nomes das funções (e nome de atributos e variáveis) no módulo

# Importação de Bibliotecas/Módulos Externos

Onde encontar Bibliotecas e Módulos para importar? [Aqui](https://pypi.org/)

In [19]:
import math
import statistics

In [16]:
math.sqrt(2)

1.4142135623730951

In [22]:
from statistics import mean

In [23]:
mean(mm.minha_lista)

25

In [24]:
import os

In [25]:
os.getlogin()

'z0049cpu'

# Biblioteca **Numpy**
![Numpy](NumpyLogo.jpg)

[Numpy](https://numpy.org/)

NumPy, que significa **Numerical Python**, é uma poderosa biblioteca da linguagem de programação Python, que consiste em objetos chamados de arrays (matrizes), que são multidimensionais. Essa biblioteca fornece um grande conjunto de funções e operações que ajudam os programadores a executar facilmente cálculos numéricos.<br>
Grande utiização em (lista não exaustiva):<br>
1. Modelos de ae Learning
2. Processamento de Imagem e Computação Gráfica
3. Madelagem matemática<br>

O conceito de **arrays**, que é um objecto que pode contem mais do que um dado e várias dimensões (*ndarrays*) é fundamental no Numpy. 
![Arrays](ArrayExamples.jpg)

### Instalação

no terminal> pip install numpy

### Importação

In [None]:
# É pratica importar numpy e atribuir-lhe o nicknames de 'np'
import numpy as np

In [30]:
# Qual a versão?
print(np.__version__)

2.4.1


In [24]:
# Documentação da biblioteca
#help(np)

## Basics


In [31]:
#1D array
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
print(type(a))
print(a)

<class 'numpy.ndarray'>
[0.  0.5 1.  1.5 2. ]


In [33]:
#2D array
aa=np.array([[1,2,3,4],[5,6,7,10]])
print(aa)
# Pode-se definir o tipo de dados no array
Af = np.array([1, 2, 3], float)
Af

[[ 1  2  3  4]
 [ 5  6  7 10]]


array([1., 2., 3.])

In [34]:
a[:2]  # A indexação é igual às listas

array([0. , 0.5])

### Operações com array
#### a) Arrays unidimensionais (1D array)

In [1]:
a = np.array([0, 0.5, 1.0, 1.5, 2.0])

NameError: name 'np' is not defined

In [35]:
a.sum() 

np.float64(5.0)

In [37]:
print(a.std())

0.7071067811865476


In [38]:
a * 2

array([0., 1., 2., 3., 4.])

In [None]:
np.sqrt(a)

In [None]:
# Mais algumas operações....
# a.min()
# a.max(axis=0)
# a.mean()
# np.median(a)
# np.sin(a)
# np.log(a)
# np.abs(a)
# np.ceil(a)
# np.floor(a)
# np.round(a)
np.array_equal(a,a*2)

# Biblioteca **Pandas**
![Pandas](pandaslogo.png)

[Pandas](https://pandas.pydata.org/)

Pandas, derivado de **Panel Data**, é uma biblioteca da linguagem de programação Python, que consiste na manipulação de objetos chamados de dataframes e series, que são arrays bidemnsionais e unidemnsionais, respetivamente. Analogamente ao Numpy, esta biblioteca fornece um grande conjunto de funções e manipulações que ajudam os programadores a executar facilmente operações sobre conjuntos de dados.<br>
Principalmente usada em:<br>
1. Machine Learning
2. Time Series e Tabelas Numéricas
3. Modelagem matemática em Finanças, Economia, Estatística<br>

O conceito de **dataframe**, que é um objeto que pode conter mais do que um dado e 2 dimensões é fundamental ao uso de Pandas. 

![DataFrame](DataFrame.png)

## DataFrames - Pandas
1. Instalação
1. Importação & Getting Help
1. Basics
1. Seleção de um subconjunto
1. Operações com DataFrames
1. Plots
1. Estatísticas Sumário


### Instalação

no terminal> pip install numpy

no terminal> pip install pandas

### Importação & Getting help

In [3]:
# É pratica importar pandas e atribuir-lhe o nickname de 'pd', bem como importar numpy como 'np'
import numpy as np
import pandas as pd

In [4]:
# Qual a versão?
print(pd.__version__)

3.0.0


In [5]:
# Documentação da biblioteca
#help(pd)

## Basics

Criação de uma Serie e de um Dataframe

In [6]:
#Serie - "1D array"
serie = pd.Series([1, 10, 0, 2, 5], name= "Golos Marcados")
serie

0     1
1    10
2     0
3     2
4     5
Name: Golos Marcados, dtype: int64

In [7]:
type(serie)

pandas.Series

In [8]:
serie[1]

np.int64(10)

In [9]:
#DataFrame
df= pd.DataFrame({

        "Nome": [

            "Fonseca, Gonçalo",

            "Gyokeres, Viktor",

            "Joel, Felisberto",

            "Silva, Gilson",

            "Aghehowa, Samu"

        ],

        "Golos Marcados": [1, 10, 0, 2, 5],

        "Clube": ["Benfica", "Sporting", "Benfica", "Sporting", "Porto"],

    }
)

df

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
1,"Gyokeres, Viktor",10,Sporting
2,"Joel, Felisberto",0,Benfica
3,"Silva, Gilson",2,Sporting
4,"Aghehowa, Samu",5,Porto


Podem pensar num DataFrame como uma tabela de uma spreadsheet, como no Excel, em que os dados inseridos podem ser lidos e interpretados pela relação linha (jogador) e coluna (variável). Para mais, cada coluna de uma DataFrame é efetivamente uma Serie.


![Datatabela](TabelaExcel.png)

In [10]:
# print(serie[:2])  # A indexação é igual às listas e aos arrays do Numpy.

#df["Golos Marcados"][:2] #caso a Serie esteja dentro de uma DataFrame, podem 'chamar a coluna' especifica dessa Serie;

#type(df["Clube"])
type(df)

pandas.DataFrame

In [11]:
# Fazer coisas com DataFrames ...  nomeadamente, dado que são tabelas com dados numéricos, queremos retirar informação útli delas: máximo, mínimo, entre outras estatísticas 'usuais'! 

# ---> Método .describe() devolve uma lista de estatisticas úteis para uma análise superficial [Não se esqueçam dos () quando usam um método.]

df.describe()

#notem que apenas a coluna dos 'Golos Marcados' aparece pelo método... sendo o resto dados escritos, são ignorados pela função describe().

Unnamed: 0,Golos Marcados
count,5.0
mean,3.6
std,4.037326
min,0.0
25%,1.0
50%,2.0
75%,5.0
max,10.0


In [None]:
# ler de um ficheiro CSV

titanic_manifesto = pd.read_csv("titanic.csv")

titanic_manifesto

titanic_manifesto.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [19]:
# ver as primeiras N linhas - método head() - ou as últimas N linhas - método tail() - de uma DataFrame
N = 10

titanic_manifesto.head(N)

titanic_manifesto.tail(N)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [47]:
#guardar em formato Excel, ou '.xlsx' - método to_excel()

titanic_manifesto.to_excel("titanic.xlsx", sheet_name="manifesto", index=False)

In [25]:
# Carregar dados de um ficheiro Excel
new_titanic_manifesto = pd.read_excel("titanic.xlsx", sheet_name="manifesto")

Enquanto que as funções read_*() são usadas para ler dados de ficheiros e estrutura-los numa DataFrame, as funções to_*() guardam os dados que temos nas nossas DataFrames nos tipos de ficheiros que a função designa (por ex.: to_excel(), to_csv(), etc)

In [48]:
new_titanic_manifesto.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [27]:
# Existe ainda uma função que nos dá a informação geral do DataFrame ... quais as variávies, os seus tipos, etc ---> .info()

new_titanic_manifesto.info()

<class 'pandas.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    str    
 4   Sex          891 non-null    str    
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    str    
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    str    
 11  Embarked     889 non-null    str    
dtypes: float64(2), int64(5), str(5)
memory usage: 83.7 KB


### Seleção de um subconjunto de um DataFrame

Já vimos que uma coluna de uma DataFrame é uma Serie... No entanto, o que fazer se quisermos trabalhar apenas com certas colunas?

In [28]:
df

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
1,"Gyokeres, Viktor",10,Sporting
2,"Joel, Felisberto",0,Benfica
3,"Silva, Gilson",2,Sporting
4,"Aghehowa, Samu",5,Porto


In [45]:
golos = df["Golos Marcados"]
clube = df["Clube"]

clube.head(2)


0     Benfica
1    Sporting
Name: Clube, dtype: str

In [30]:
# podemos ainda pedir informação sobre a forma de cada coluna:

golos.shape

(5,)

In [31]:
# para selecionar mais do que uma coluna, colocamos uma lista dentro de []:

golos_clube = df[["Golos Marcados", "Clube"]]
golos_clube.head()

Unnamed: 0,Golos Marcados,Clube
0,1,Benfica
1,10,Sporting
2,0,Benfica
3,2,Sporting
4,5,Porto


In [32]:
type(golos_clube)

pandas.DataFrame

In [33]:
golos_clube.shape

(5, 2)

Conseguimos ainda restringir os dados que queremos consoante alguma condição de procura... imaginemos que queremos apenas os jogadores que marcaram 5 ou mais golos: (analogamente, estamos a selecionar apenas certas linhas, em vez de colunas)

In [34]:
cinco_oumais = df[df["Golos Marcados"]>= 5]

cinco_oumais

Unnamed: 0,Nome,Golos Marcados,Clube
1,"Gyokeres, Viktor",10,Sporting
4,"Aghehowa, Samu",5,Porto


In [35]:
df

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
1,"Gyokeres, Viktor",10,Sporting
2,"Joel, Felisberto",0,Benfica
3,"Silva, Gilson",2,Sporting
4,"Aghehowa, Samu",5,Porto


In [36]:
# a condição dentro dos [] anterior pode ser usada sozinha, como pergunta booleana:

df["Golos Marcados"] >= 5

0    False
1     True
2    False
3    False
4     True
Name: Golos Marcados, dtype: bool

### Operações em DataFrame
#### Expressões condicionais

In [37]:
Benfica_jogadores = df[df["Clube"].isin(["Benfica"])]

Benfica_jogadores

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
2,"Joel, Felisberto",0,Benfica


In [38]:
df

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
1,"Gyokeres, Viktor",10,Sporting
2,"Joel, Felisberto",0,Benfica
3,"Silva, Gilson",2,Sporting
4,"Aghehowa, Samu",5,Porto


In [39]:
BenfSport_jogadores = df[df["Clube"].isin(["Benfica", "Sporting"])] # podemos sempre escrever a condição sobre mais do que um elemento especifico;

BenfSport_jogadores

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
1,"Gyokeres, Viktor",10,Sporting
2,"Joel, Felisberto",0,Benfica
3,"Silva, Gilson",2,Sporting


In [40]:
# podemos sempre escrever a condição sobre mais do que uma categoria especifica;

Sport_cincomais_jogadores = df[(df["Clube"].isin(["Sporting"])) & (df["Golos Marcados"]>= 5)] 

# usamos & quando queremos interseção (x e y) e | quando queremos união (x ou y)

Sport_cincomais_jogadores

Unnamed: 0,Nome,Golos Marcados,Clube
1,"Gyokeres, Viktor",10,Sporting


Podemos ainda selecionar condicionalmente colunas e linhas, simultaneamente:

In [41]:
Goleadores = df.loc[df["Golos Marcados"]>=1, "Nome"] # usamos .loc quando queremos linhas/colunas com um label (em PT, rótulo) particular .. 
#'Golos marcados' neste caso
Goleadores

0    Fonseca, Gonçalo
1    Gyokeres, Viktor
3       Silva, Gilson
4      Aghehowa, Samu
Name: Nome, dtype: str

In [42]:
df

Unnamed: 0,Nome,Golos Marcados,Clube
0,"Fonseca, Gonçalo",1,Benfica
1,"Gyokeres, Viktor",10,Sporting
2,"Joel, Felisberto",0,Benfica
3,"Silva, Gilson",2,Sporting
4,"Aghehowa, Samu",5,Porto


In [43]:
jogador_3 = df.iloc[3] # usamos .iloc quando queremos linhas/colunas com um índice (em PT, rótulo) particular .. 
# na posição 3, neste caso
jogador_3

Nome              Silva, Gilson
Golos Marcados                2
Clube                  Sporting
Name: 3, dtype: object

In [44]:
# Podemos misturar linhas e colunas no método .iloc[], ou seja por exemplo, pedir as linhas de 0 a 3 e de 1 a 3;

df.iloc[0:3, 1:3]

Unnamed: 0,Golos Marcados,Clube
0,1,Benfica
1,10,Sporting
2,0,Benfica


#### Criar Plots (Gráficos) com base nos dados que temos

começamos por no terminal ---> pip install matplotlib


In [None]:
%pip install matplotlib

In [2]:
import matplotlib.pyplot as plt

plt.close('all')

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
quest_resta = pd.read_csv("questionario_rest.csv", index_col = 0)
quest_resta

In [None]:
quest_resta.describe()

In [None]:
quest_resta.plot()
plt.show()

In [1]:
# podemos escolher fazer o plot de uma das categorias especificamente

quest_resta["qualidade_comida"].plot()
plt.show()

NameError: name 'quest_resta' is not defined

In [None]:
# Para este tipo de dados, plots em linhas talvez não seja úteis... e que tal barras?

quest_resta.plot(kind="bar")
plt.show()

In [None]:
# ou um diagrama de caixa de bigodes?

quest_resta.plot.box()
plt.show()

### Obter Estatísticas Sumário

No fim do dia, queremos saber estatisticas e outras medidas que descrevem ou interpretem os dados... como obter?

In [None]:
# para além do .describe(), existem outros métodos para obter medidas uteis dos dados. Vamos usar o exemplo do questionario:

print(quest_resta["ambiente"].mean()) # dá-nos a média

In [None]:
# outra medida central - mediana!

quest_resta[["qualidade_serviço", "qualidade_comida"]].median()

In [None]:
#última medida central - moda!
quest_resta["ambiente"].mode()

In [None]:
#alternativamente podemos pedir uma boa quantidade de informação usando a função describe() para as colunas que queremos

quest_resta[["qualidade_serviço", "ambiente"]].describe()

# Exercícios

### 1. Com base no ficheiro de Excel, escrito pelo código, "titanic.xlsx", calcule as medidas centrais das Categorias 'Age' e 'Fare'.

In [None]:
tit=pd.read_excel('titanic.xlsx')
tit

In [None]:
tit[['Age','Fare']].mean()

### 2. Calcule a média da idade dos passageiros, para cada sexo, usando o método .groupby()

In [None]:
tit.groupby(['Sex'])['Age'].mean()

### 3. Qual o número de passageiros em cada classe de cabine ('Pclass')? Represente graficamente os números de passageiros por classe.

hint: use o método value_counts()