## Explorando um dataframe

<p> Depois de utilizar o Pandas para criar um dataframe com seus dados, é hora de explorá-los! Essa exploração é extremamente importante, pois é ela que vai te dar a primeira visão quanto a qualidade dos dados que você possui e, consequentemente, o trabalho que você terá para arrumá-los! Existem várias maneiras de obter insights essenciais dos dados para nos ajudar a entender melhor nosso conjunto de dados.
</p>

In [3]:
# importando as bibliotecas que iremos utilizar 
# e carregando um dataframe para executarmos os exemplos desse notebook
import pandas as pd
import numpy as np

caminho_arquivo = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(caminho_arquivo, header=None)

#primeiro criamos uma lista de "cabeçalhos" que inclui todos os nomes de colunas em ordem.
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]


#em seguida, usamos dataframe.columns = headers para substituir os cabeçalhos pela lista que criamos.
df.columns = headers

### Tipos de Dados

Dados têm vários tipos! 
Os principais tipos armazenados nos dataframes do Pandas são object, float, int, bool e datetime64. Para conhecer melhor cada atributo, é sempre bom sabermos o tipo de dado de cada coluna.


In [4]:
df.dtypes


symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

### Info

Outro método que você pode usar para verificar seu conjunto de dados é o info() que fornece um resumo conciso do seu dataframe com informações sobre tipo, colunas, valores não nulos e até uso de memória.

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

### Describe

Se quisermos obter um resumo estatístico de cada coluna, como contagem, valor médio, desvio padrão, etc... podemos utilizar o método describe():

In [7]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,10.142537,25.219512,30.75122
std,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,3.97204,6.542142,6.886443
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


Este notebook não vai se aprofundar no describe()

# É isso!

### Este é apenas um exemplo de exploração inicial dos dados, com pandas.

### Muito obrigado pela sua leitura!

## Autor:

<h4>Anderson Cordeiro</h4>

Você pode encontrar mais conteúdo no meu Medium<br> ou então entrar em contato comigo :D

<a href="https://www.linkedin.com/in/anderson-cordeiro-26986430/" target="_blank">[LinkedIn]</a>
<a href="https://medium.com/@andcordeiro" target="_blank">[Medium]</a>
