**Ciência de Dados**

Prof. Miguel Bozer da Silva - miguel.bozer@senaisp.edu.br

---

# Bibliotecas da aula

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

# Recebendo o conjunto de Dados

In [7]:
peixes = pd.read_csv("../data/Fish.csv" , sep=",")

In [8]:
peixes.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134


In [9]:
peixes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Species  159 non-null    object 
 1   Weight   159 non-null    float64
 2   Length1  159 non-null    float64
 3   Length2  159 non-null    float64
 4   Length3  159 non-null    float64
 5   Height   159 non-null    float64
 6   Width    159 non-null    float64
dtypes: float64(6), object(1)
memory usage: 8.8+ KB


In [10]:
peixes.shape

(159, 7)

# 1. Tipos de Amostras

## 1.1 Amostras Aleatórias Simples

Para fazer uma seleção de uma amostra aleatória simples a partir de um conjunto de dados existente podemos usar o `np.random.choice()`.

Esse método precisa dos seguintes argumentos:



*   `a`: Possíveis valores que serão criados aleatoriamente
*   `size`: Quantidade de valores que iremos criar
*   `replace`: Se iremos usar (`True`) a reposição ou não (`False`)
*   `p`: Qual a proporção que teremos para cada valor selecionado (valores entre 0 e 1).



## 1.2 Amostras Estratificadas

Podemos usar o comando `X, _, y, _ = train_test_split(*arrays, train_size=None, stratify=None)` irá realizar uma divisão dos nossos dados. Iremos usar ela em mais detalhes na disciplina de Inteligência Artificial. Entretanto, pode usá-la para fazer a amostragem estratificada. Os argumentos dessa função são:



*   `*arrays`: Informamos os DataFrames com as colunas que iremos separar. Primeiro para X e depois para y.
*   `train_size`: Percentual dos dados que iremos separar para X e y
*   `stratify`: Informamos a coluna com os dados categóricos para estratificarmos.



# 2. Medidas de Tendencia Central e Dispersão

Vamos iniciar pelas medidas de tendencia central como a média e a mediana. Para esses dois casos usamos o `mean()` e o `median()` respectivamente.

In [11]:
media_peso = peixes['Weight'].mean() #Média
mediana_peso = peixes['Weight'].median() #mediana
moda_peso = peixes['Weight'].mode() #Moda

print(f"Média: {media_peso: .2f} ")
print(f"Mediana: {mediana_peso} ")
print(f"Moda: {moda_peso} ")

Média:  398.33 
Mediana: 273.0 
Moda: 0    300.0
Name: Weight, dtype: float64 


Iremos agora ver as medidas de dispersão dos nossos dados. Para isso, iremos em primeiro lugar calcular manualmente a variancia e o desio padrão. Após isso, iremos usar funções do pandas para obter os valores diretamente.

Primeiro iremos criar uma coluna com os valores individuais de cada linha para a primeira parte da equação da variancia:

$(x_{i} - \bar{x} )^2$

In [16]:
media_peso = peixes['Weight'].mean()
peixes['Weight_var'] = (peixes['Weight']- media_peso) **2;

In [17]:
peixes.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width,Weight_var
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02,24437.948056
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056,11734.612207
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961,3401.970698
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555,1247.955603
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134,1003.215981


Agora iremos fazer o somatório de todas as linhas e dividir por n-1, isto é, iremos calcular a variancia conforme:

$\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$

In [18]:
soma = peixes['Weight_var'].sum()
n = peixes.shape[0]-1
var = soma / n

print(f"A variância da coluna Weight é de: {var}")

A variância da coluna Weight é de: 128148.47512061142


Para o desvio padrão podemos apenas tirar a raiz quadrada:

In [19]:
desvpad = var**(0.5)
print(f"O desvio padrão da Coluna Weight é de : {desvpad}")

O desvio padrão da Coluna Weight é de : 357.9783165508931


Vamos agora conferir se o procedimento executado foi correto usando o método `std()`:

In [21]:
desvpad = peixes['Weight'].std()
min_peso = peixes['Weight'].min();
max_peso = peixes['Weight'].max();
amplitude = max_peso - min_peso
print(f"O desvio padrão é {desvpad}, o menor peso é : {min_peso}, o maior peso é: {max_peso} e a amplitude é : {amplitude}")

O desvio padrão é 357.9783165508931, o menor peso é : 0.0, o maior peso é: 1650.0 e a amplitude é : 1650.0


Podemos notar que ambos os resultados ficaram corretos! Quando houver a necessidade de obter o valr do desvio padrão, use o comando `std()`.

Com relação aos quartis, podemos usar o numpy para obter essa informação:

In [22]:
quartis = np.quantile(peixes['Weight'], [0.25,0.5,0.75])

quartis[0]

quartis[1]

np.float64(273.0)

Uma forma simples de obter todas as medidas anteriores num único resumo e para todas as colunas é usar o método `describe()`

Calculo de IMC

In [12]:
peso = 85
altura = 1.80
imc = peso / altura **2
print(f"IMC é igual: {imc}")

IMC é igual: 26.234567901234566
