# 6 - Explorando os dados

Foi dito que é mais fácil pegar uma SME (Subject Matter Expert, Especialista no assunto) e treiná-la em ciência de dados do que o contrário. Não tenho certeza se concordo com isso 100%, mas é verdade que os dados têm nuances e um SME pode ajudar a separar isso. Ao entender o negócio e os dados, eles são capazes de criar modelos melhores e ter um impacto melhor em seus negócios.

> Antes de criar um modelo, farei uma análise exploratória de dados. Isso me dá uma ideia dos dados, mas também é uma ótima desculpa para encontrar e discutir problemas com as unidades de negócios que controlam isso

In [5]:
import pandas as pd
import numpy as np
import janitor as jn

In [6]:
def coletar_dados():
    
    url = "https://hbiostat.org/data/repo/titanic3.xls"
    df = pd.read_excel(url).clean_names()
    
    return df

df = coletar_dados()

## 1 - tamanho dos dados  

Novamente, estamos usando o conjunto de dados do Titanic aqui. A propriedade .shape do pandas retornará uma tupla do número de linhas e colunas:

In [8]:
df.shape

(1309, 14)

## 6.2 - Estatísticas resumidas 

Podemos usar pandas para obter estatísticas resumidas de nossos dados. O método .describe também nos dará a contagem de valores não-NaN. Vejamos os resultados da primeira e da última coluna:

In [11]:
df.describe().iloc[:,[0,-1]]

Unnamed: 0,pclass,body
count,1309.0,121.0
mean,2.294882,160.809917
std,0.837836,97.696922
min,1.0,1.0
25%,2.0,72.0
50%,3.0,155.0
75%,3.0,256.0
max,3.0,328.0


In [10]:
df.embarked.describe()

count     1307
unique       3
top          S
freq       914
Name: embarked, dtype: object

## Dica

Um DataFrame pandas tem um atributo `iloc` no qual podemos fazer operações de índice. Ele nos permitirá escolher linhas e colunas por localização do índice. Passamos as posições das linhas como escalar, lista ou fatia e, em seguida, podemos adicionar uma vírgula e passar as posições das colunas como escalar, lista ou fatia.

Aqui retiramos a segunda e a quinta linha e as três últimas colunas:



In [14]:
df.iloc[[1,4], -3:]

Unnamed: 0,boat,body,home_dest
1,11.0,,"Montreal, PQ / Chesterville, ON"
4,,,"Montreal, PQ / Chesterville, ON"



Há também um atributo `.loc`, e podemos colocar linhas e colunas com base no nome (em vez da posição). Aqui está a mesma parte do DataFrame:

In [16]:
df.loc[[677,864], "sex":]

Unnamed: 0,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home_dest
677,male,26.0,0,0,349224,7.8958,,S,,,"Bulgaria Chicago, IL"
864,female,28.0,0,0,347086,7.775,,S,,,
