### Importando as bibliotecas
* Pandas: utilizado para manipular o dataset e dataframe;
* Numpy: utilizado para operações matemáticas;
* Stats (Scipy): utilizado para descrever os dados estatisticamente;

In [0]:
import numpy as np
import pandas as pd
from scipy import stats

### Lendo dataset de um arquivo csv

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/jose-gilberto/data-science/master/datasets/iris.csv')
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### Contando os valores de cada espécie do dataframe
Agrupamos as linhas por espécies e contamos quantos individuos de cada espécie há no dataframe.

In [4]:
df['species'].value_counts()

virginica     50
setosa        50
versicolor    50
Name: species, dtype: int64

### Filtrando setosas
Na primeira linha filtramos as linhas do dataframe que são individuos da espécie 'setosa' e logo em seguida exibimos uma contagem das espécies existentes nesse novo dataframe filtrado. Essa contagem serve para saber se não há algum elemento indesejado no novo dataframe, algum elemento de outra espécie se não a setosa.

In [6]:
setosas = df[df['species'] == 'setosa']
setosas['species'].value_counts()

setosa    50
Name: species, dtype: int64

### Exibindo valores máximos e mínimos
O atributo a ser observado daqui em diante será o `sepal_length`, ou comprimento da sepala de uma setosa. A partir de agora também será utilizado o novo dataframe filtrado, o `setosas`.

In [10]:
print('Tamanho mínimo da sepala de uma setosa: {}'.format(setosas['sepal_length'].min()))
print('Tamanho máximo da sepala de uma setosa: {}'.format(setosas['sepal_length'].max()))

Tamanho mínimo da sepala de uma setosa: 4.3
Tamanho máximo da sepala de uma setosa: 5.8


### Calculando quartis do comprimento da sepala
Calculamos os quartis 0, 1, 2, 3 e 4, onde:
* 0 - Elemento mínimo, o resultado deve ser compatível ao mínimo calculado anteriormente;
* 1 - Elemento maior que 25% dos dados e menor que 75%;
* 2 - Elemento igual a mediana dos dados;
* 3 - Elemento maior que 75% dos dados e menor que 25%;
* 4 - Elemento máximo, assim como o mínimo o resultado deve ser compatível ao calculado anteriormente;

In [12]:
np.quantile(setosas['sepal_length'], [0, .25, .5, .75, 1])

array([4.3, 4.8, 5. , 5.2, 5.8])

### Contagem dos valores do comprimento da sepala
Com a contagem é possível saber a existência da moda do conjunto, que neste caso é bimodal (5.1, 5.0) cada um com 8 ocorrências.

In [14]:
setosas['sepal_length'].value_counts()

5.1    8
5.0    8
5.4    5
4.8    5
4.6    4
4.9    4
4.4    3
5.2    3
5.7    2
4.7    2
5.5    2
5.3    1
5.8    1
4.3    1
4.5    1
Name: sepal_length, dtype: int64

### Calculando a média e mediana
Podemos calcular a média e mediana do conjunto, a mediana deve ser compatível com o dado do segundo quartil calculado anteriormente.

In [16]:
print('Média do tamanho das sepalas: {}'.format(setosas['sepal_length'].mean()))
print('Mediana do tamanho das sepalas: {}'.format(setosas['sepal_length'].median()))

Média do tamanho das sepalas: 5.005999999999999
Mediana do tamanho das sepalas: 5.0


### Calculando o desvio padrão do conjunto

In [17]:
np.std(setosas['sepal_length'])

0.348946987377739

### Descrevendo o conjunto de dados com o Pandas

In [18]:
setosas['sepal_length'].describe()

count    50.00000
mean      5.00600
std       0.35249
min       4.30000
25%       4.80000
50%       5.00000
75%       5.20000
max       5.80000
Name: sepal_length, dtype: float64

### Descrevendo o conjunto de dados com o Scipy (Stats)

In [19]:
stats.describe(setosas['sepal_length'])

DescribeResult(nobs=50, minmax=(4.3, 5.8), mean=5.006, variance=0.12424897959183677, skewness=0.11645392749203057, kurtosis=-0.34576467558246327)