# USP - Introdu√ß√£o √† Ci√™ncia de Dados
**University of S√£o Paulo - School of Pharmaceutical Sciences of Ribeir√£o Preto (FCFRP)**

## Sum√°rio

* [1. Estruturas de Dados](#1-estruturas-de-dados)
* [2. Estruturas de Decis√£o](#2-estruturas-de-decis√£o)
* [3. Estruturas de Repeti√ß√£o](#3-estruturas-de-repeti√ß√£o)
* [4. Fun√ß√µes](#4-fun√ß√µes)
* [5. NumPy](#5-numpy)
* [6. Pandas](#6-pandas)
* [7. Regress√£o](#7-regress√£o)
* [8. Classifica√ß√£o](#8-classifica√ß√£o)
* [9. Agrupamento](#9-agrupamento)
* [10. Refer√™ncias](#10-refer√™ncias)

## 0. Setup de Ambiente

### 0.1. Instala√ß√£o de libs

In [None]:
%%writefile requirements.txt
matplotlib==3.7.1
numpy==1.25.2
pandas==2.0.3
scikit-learn==1.2.2
seaborn==0.13.1

In [None]:
! pip install -r requirements.txt

### 0.2. Importa√ß√£o de libs

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

from pathlib import Path
from urllib.request import urlretrieve

from matplotlib import pyplot as plt
from numpy import ndarray
from pandas import DataFrame
from sklearn.metrics import accuracy_score, r2_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.linear_model import LinearRegression, LogisticRegressionCV
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split, cross_val_predict, StratifiedKFold

### 0.3. Defini√ß√£o de constantes

In [None]:
# @markdown **URL dos Datasets usados**

__REGRESSAO_DATASET_URL: str = 'https://archive.ics.uci.edu/static/public/555/apartment+for+rent+classified.zip' # @param {type: "string"}
__CLASSIFICATION_DATASET_URL: str = 'https://archive.ics.uci.edu/static/public/519/heart+failure+clinical+records.zip' # @param {type: "string"}
__CLUSTERING_DATASET_URL: str = 'https://archive.ics.uci.edu/static/public/862/turkish+music+emotion.zip' # @param {type: "string"}

# @markdown ---

# @markdown **Local de armazenamento dos Datasets**
__DATA_BASE_PATH_VALUE: str = './data/' # @param {type: "string"}
__DATA_BASE_PATH: Path = Path(__DATA_BASE_PATH_VALUE)

__REGRESSION_DATA_PATH_VALUE: str = 'regression' # @param {type: "string"}
REGRESSION_DATA_PATH: Path = __DATA_BASE_PATH / __REGRESSION_DATA_PATH_VALUE

__CLASSIFICATION_DATA_PATH_VALUE: str = 'classification' # @param {type: "string"}
CLASSIFICATION_DATA_PATH: Path = __DATA_BASE_PATH / __CLASSIFICATION_DATA_PATH_VALUE

__DECOMPOSITION_DATA_PATH_VALUE: str = 'decomposition' # @param {type: "string"}
DECOMPOSITION_DATA_PATH: Path = __DATA_BASE_PATH / __DECOMPOSITION_DATA_PATH_VALUE

# @markdown ---

# @markdown **Prefer√™ncias para treinamento dos modelos**

SEED: int = 42 # @param {type: "number"}
VERBOSE: bool = 42 # @param {type: "boolean"}
TEST_RATIO: int = 0.15 # @param {type: "slider", min: 0.1, max: 0.9, step: 0.05}
K_FOLDS: int = 10 # @param {type: "slider", min: 3, max: 10, step: 1}


## 1. Estruturas de Dados

### 1.1. Lista de temperaturas

Crie uma lista de temperaturas de [dez pa√≠ses](https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_extremos_meteorol%C3%B3gicos). Escreva em cada c√©lula de um notebook o acesso a elementos da lista para calcular a temperatura em graus Farenheit:

$$
C=5 \cdot \frac{F - 32}{9}
$$


### 1.2. Altura m√©dia por pa√≠s

Tendo como dados de entrada a [altura m√©dia por pa√≠s](https://pt.wikipedia.org/wiki/Estatura) crie um dicion√°rio com 10 pa√≠ses, com chave como nome do pa√≠s e valor como altura m√©dia, imprima em cada linha de um notebook o peso ideal:

$$
\text{Peso Ideal} = 72 \cdot \text{Altura} - 58
$$

por pa√≠s, utilizando um dicion√°rio e o operador de formata√ß√£o [`f''`](https://docs.python.org/3/tutorial/inputoutput.html#formatted-string-literals)


### 1.3. Convers√£o de valor de bolsa de estudos

Fa√ßa a convers√£o do valor de bolsas de p√≥s-gradua√ß√£o de [tr√™s pa√≠ses](https://exame.abril.com.br/carreira/confira-63-bolsas-para-estudar-em-paises-como-canada-eua-e-alemanha/) para Reais, imprimindo o sal√°rio de uma jornada de 40h semanais:
* Por hora trabalhada;
* Por m√™s;
* Por ano.


## 2. Estruturas de Decis√£o

### 2.1. Est√° frio?

Escreva c√≥digo em uma c√©lula, para, dado o elemento de uma lista de temperaturas acima, imprimir "`est√° frio`" se a temperatura for menor que um valor de uma vari√°vel `t` definida por voc√™ ou "`est√° calor`" caso contr√°rio.

### 2.2. Combust√≠veis

Um posto est√° vendendo combust√≠veis com a seguinte tabela de descontos:

|  Volume  |         √Ålcool         |        Gasolina        |
|---------:|:----------------------:|:-----------------------|
|$\lt{20l}$|desconto de $3%$ por $l$|desconto de $4%$ por $l$|
|$\ge{20l}$|desconto de $5%$ por $l$|desconto de $6%$ por $l$|

Escreva um c√≥digo que leia o n√∫mero de litros vendidos, o tipo de combust√≠vel (codificado da seguinte forma: A-√°lcool, G-gasolina), calcule e imprima o valor a ser pago pelo cliente sabendo-se que o pre√ßo do litro da gasolina √© 2,50 reais, e o pre√ßo do litro do √°lcool √© de 1,90 reais.


### 2.3. Frutaria

Uma fruteira est√° vendendo frutas com a seguinte tabela de pre√ßos:

|Fruta|$\lt{5}\text{Kg}$|$\ge{5}\text{Kg}$|
|-:|:-:|:-|
|Morango|2,50 reais por kilo|2,20 reais por kilo|
|Ma√ß√£|1,80 reais por kilo|1,50 reais por kilo|

Se o cliente comprar mais de 8 Kg em frutas ou o valor total da compra ultrapassar R$ 25,00, receber√° ainda um desconto de 10% sobre este total. Escreva c√≥digo para ler a quantidade (em Kg) de morangos e a quantidade (em Kg) de ma√ßas adquiridas e escreva o valor a ser pago pelo cliente.

## 3. Estruturas de Repeti√ß√£o

### 3.1. Tabuada

Desenvolva um gerador de tabuada, capaz de gerar a tabuada de qualquer n√∫mero inteiro entre 1 a 10. Dada uma vari√°vel k em uma c√©lula calcular a tabuada para o n√∫mero. A sa√≠da deve ser conforme o exemplo abaixo:

```text
Tabuado de 5:
5 X 1 = 5
5 X 2 = 10
...
5 X 10 = 50
```

### 3.2. Repeti√ß√£o com temperaturas

Utilize uma estrutura de repeti√ß√£o para imprimir todos os elementos das listas de temperatura e altura criadas acima.

### 3.3. Repetindo e formatando

Acesse chaves e valores do dicion√°rio criado acima, e imprima cada item utilizando o operador de formata√ß√£o.

## 4. Fun√ß√µes

### 4.1. Invertendo

Fa√ßa uma fun√ß√£o que retorne o reverso de um n√∫mero inteiro informado.
> Por exemplo: `127 -> 721`

### 4.2. Convertendo uma temperatura

Fa√ßa uma fun√ß√£o para converter, que dado um valor num√©rico de temperatura e um valor de caractere para a escala (Celsius ou Farenheit) converta o n√∫mero para a escala desejada e retorna o valor.

### 4.3. 24 para 12 horas com AM/PM

Fa√ßa uma programa que converta da nota√ß√£o de 24 horas para a nota√ß√£o de 12 horas. Por exemplo, o programa deve converter 14:25 em 2:25 P.M. A entrada √© dada em dois inteiros.

## 5. NumPy

### 5.1. Primeira matriz NumPy

Escreva c√≥digo para criar uma matriz 4 x 10, com n√∫meros simulados de uma distribui√ß√£o normal com m√©dia 10 e vari√¢ncia 5, e substitua todos os elementos da primeira coluna maiores que 12 por 0.

### 5.2. Alturas, Pesos e Matrizes

Crie uma matriz 3x3 com 3 alturas de 3 pa√≠ses e calcule o peso ideal (f√≥rmula acima) para multiplicar e somar aos elementos da matriz.

### 5.3. NumPy the Hardway: No broadcasting üí™

Fa√ßa uma fun√ß√£o que recebe dois par√¢metros, uma matriz numpy e uma constante, e utiliza estruturas de repeti√ß√£o para multiplicar cada elemento da matriz e retorna a matriz multiplicada.

## 6. Pandas

> Para os exerc√≠cios, utilize [este conjunto de dados](https://drive.google.com/open?id=1u1SEDTja9QC7MAj_VlQcxNtAhQfs-5YR)

### 6.1. Explorando o [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

Fa√ßa uma fun√ß√£o, que dado um dataframe com os dados acima. imprime a m√©dia e o desvio padr√£o das vari√°veis 'season' e 'holiday'.

### 6.2. Novas colunas, novos dados

Crie uma nova coluna no `dataframe`, com o nome `'month'` com o m√™s correspondente de cada linha da coluna `'datetime'` e escreva uma fun√ß√£o que dado um `dataframe`, e um valor num√©rico entre 1 e 12, retorna um sub-`dataframe` para o m√™s requerido.

### 6.3. _Histogramando_ um pouco

Fa√ßa um histograma da vari√°vel `'temp'` e um boxplot √∫nico com a vari√°vel `'temp'` em cada `'month'` (no eixo x).


## 7. Regress√£o

> **Incluir o conjunto de dados na entrega do notebook.**
>
> **Os conjuntos de dados devem ser diferentes entre os alunos**

**Dataset escolhido:** [Apartment for Rent Classified](https://archive.ics.uci.edu/dataset/555/apartment+for+rent+classified)

Em uma c√©lula do mesmo notebook crie um texto com markdown, incluindo formata√ß√£o com t√≠tulos, **negrito**, _it√°lico_ e inclus√£o de figuras para explicar:


* Explique simplificadamente o que √© o modelo de regress√£o e quando estes modelos podem ser utilizados;

* Apresente um pequeno exemplo num√©rico utilizando o que foi aprendido no curso, utilizando um conjunto de dados que n√£o foi visto no curso (pode ser de qualquer lugar na internet) e imprimindo os seguintes resultados:
  * [R2](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)
  * [Coeficientes da regress√£o](https://www.geeksforgeeks.org/regression-coefficients/)

* E fazendo um gr√°fico com a vari√°vel resposta (eixo `y`) uma das vari√°veis preditoras (eixo `x`) e a reta da regress√£o;

## 8. Classifica√ß√£o

> **Incluir o conjunto de dados na entrega do notebook.**
>
> **Os conjuntos de dados devem ser diferentes entre os alunos**

**Dataset escolhido**: [Heart Failure Clinical Records](https://archive.ics.uci.edu/dataset/519/heart+failure+clinical+records)

Em uma c√©lula do mesmo notebook crie um texto com markdown, incluindo formata√ß√£o com t√≠tulos, **negrito**, _it√°lico_ e inclus√£o de figuras para explicar:


* Explique simplificadamente o que √© o modelo de classifica√ß√£o e quando estes modelos podem ser utilizados;

* Apresente um pequeno exemplo num√©rico utilizando o que foi aprendido no curso, utilizando um conjunto de dados que n√£o foi visto no curso (pode ser de qualquer lugar na internet) e imprimindo, utilizando [valida√ß√£o cruzada](https://scikit-learn.org/stable/modules/cross_validation.html), os seguintes resultados:
  * [Acur√°cia](https://scikit-learn.org/stable/modules/model_evaluation.html#accuracy-score)
  * [Matriz de confus√£o](https://scikit-learn.org/stable/modules/model_evaluation.html#confusion-matrix)

## 9. Agrupamento

> **Incluir o conjunto de dados na entrega do notebook.**
>
> **Os conjuntos de dados devem ser diferentes entre os alunos**

**Dataset escolhido:** [Turkish Music Emotion](https://archive.ics.uci.edu/dataset/862/turkish+music+emotion)

Em uma c√©lula do mesmo notebook crie um texto com markdown, incluindo formata√ß√£o com t√≠tulos, **negrito**, _it√°lico_ e inclus√£o de figuras para explicar:


* Explique simplificadamente o que √© o modelo de [An√°lise de Componentes Principais (_PCA_)](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#pca) e quando estes modelos podem ser utilizados;

* Apresente um pequeno exemplo num√©rico utilizando o que foi aprendido no curso, utilizando um conjunto de dados que n√£o foi visto no curso (pode ser de qualquer lugar na internet) e imprimindo, os seguintes resultados:
  * Vari√¢ncia explicada por cada componente

* Fa√ßa um gr√°fico com os _scores_ do _PCA_ colorindo pelos grupos do seu conjunto de dados.

## 10. Refer√™ncias

* [Python Brasil - Lista de Exerc√≠cios](https://wiki.python.org.br/ListaDeExercicios)
* [numpy](https://numpy.org/doc/stable/reference/index.html)
* [matplotlib](https://matplotlib.org/stable/api/index)
* [seaborn](https://seaborn.pydata.org/api.html)
* [pandas](https://pandas.pydata.org/docs/reference/index.html#api)
* [scikit-learn](https://scikit-learn.org/stable/api/index.html)
* Datasets:
  * Regress√£o:
    * Apartment for Rent Classified. (2019). UCI Machine Learning Repository. https://doi.org/10.24432/C5X623.
  * Classifica√ß√£o:
    * Heart Failure Clinical Records. (2020). UCI Machine Learning Repository. https://doi.org/10.24432/C5Z89R.
  * Agrupamento:
    * Er,Mehmet Bilal. (2023). Turkish Music Emotion. UCI Machine Learning Repository. https://doi.org/10.24432/C5JG93.