# Imports

In [3]:
import pandas as pd
from sklearn.datasets import load_iris

# Importing data

In [84]:
#Carregando os dados do dataset em uma variável.
iris = load_iris()

#Transformando dados do dataset em um DataFrame pandas
#Definindo as variáveis preditoras
df = pd.DataFrame(iris.data, columns=[iris.feature_names])

#Definindo a variável target
#y = pd.Series(iris.target)

# Visualization

## Visualizando as 5 primeiras linhas do dataset

In [85]:
#Visualizando as 5 primeiras linhas do dataset
#Para visualizar mais linhas é necessário colocar a quantidade de linhas pretendida como parâmetro.
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


## Visualizando o tamanho do dataset

In [11]:
#o data set possui 150 classes/linhas e 4 features/colunas.
df.shape

(150, 4)

In [26]:
#Imprime dados do DataFrame(total de classes, media, desvio padrão, minimos e maximos, 1º 2º 3º quartil)
df.describe()

Unnamed: 0,sepal length (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0
mean,5.386667,3.758,1.199333
std,0.841752,1.765298,0.762238
min,4.0,1.0,0.1
25%,5.0,1.6,0.3
50%,5.0,4.35,1.3
75%,6.0,5.1,1.8
max,7.0,6.9,2.5


# Filtrando informações no DataFrame

## Filtro por coluna

In [30]:
#Apresenta as 5 primeiras e 5 ultimas classes(linhas)
df['sepal length (cm)']

Unnamed: 0,sepal length (cm)
0,5
1,4
2,4
3,4
4,5
...,...
145,6
146,6
147,6
148,6


## Filtro por linha

In [29]:
#Filtrando da linha 0 até a linha 3 de todas as features
df.loc[0:3]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5,3.5,1.4,0.2
1,4,3.0,1.4,0.2
2,4,3.2,1.3,0.2
3,4,3.1,1.5,0.2


In [31]:
#Filtrando da linha 0 até a linha 2 de uma feature específica
df['petal length (cm)'].loc[0:2]

Unnamed: 0,petal length (cm)
0,1.4
1,1.4
2,1.3


In [37]:
#Filtro para buscas por valores específicos
df[df['petal length (cm)'] == 1.4]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,,,1.4,
1,,,1.4,
2,,,,
3,,,,
4,,,1.4,
...,...,...,...,...
145,,,,
146,,,,
147,,,,
148,,,,


## Valores faltantes

In [12]:
#Verificando se existem valores faltantes no dataset.
df.isnull().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

In [15]:
#Verificando o porcentual de valores faltantes no dataset.
df.isnull().sum() / len(df['sepal length (cm)']) * 100

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

## Verificando a quantidade de valores de uma feature

In [19]:
'''Em problemas de classificação é importante para ajudar na decisão de fazer a classificação em 0 e 1 para features 
que possuem dois valores ou one hot encoding para features que contem acima de 2 valores'''

df['sepal length (cm)'].value_counts()

(sepal length (cm),)
5.0                     10
6.3                      9
5.1                      9
5.7                      8
6.7                      8
6.4                      7
5.8                      7
5.5                      7
5.4                      6
6.1                      6
5.6                      6
6.0                      6
4.9                      6
4.8                      5
6.5                      5
6.2                      4
5.2                      4
4.6                      4
7.7                      4
6.9                      4
7.2                      3
5.9                      3
4.4                      3
6.8                      3
4.7                      2
6.6                      2
7.4                      1
7.6                      1
7.3                      1
4.3                      1
7.1                      1
7.0                      1
5.3                      1
4.5                      1
7.9                      1
dtype: int64

# Modificando dados do DataFrame

## Tipos de dados no DataFrame

In [17]:
df.dtypes

sepal length (cm)    float64
sepal width (cm)     float64
petal length (cm)    float64
petal width (cm)     float64
dtype: object

## Alterando o tipo de dado para "int"

In [24]:
#Atribuindo a ateração do tipo de dado a própria feature.
df['sepal length (cm)'] = df['sepal length (cm)'].astype(int)
df.dtypes

sepal length (cm)      int32
sepal width (cm)     float64
petal length (cm)    float64
petal width (cm)     float64
dtype: object

## Alterando o tipo de dado para "object"

In [25]:
df['sepal width (cm)'] = df['sepal width (cm)'].astype(object)
df.dtypes

sepal length (cm)      int32
sepal width (cm)      object
petal length (cm)    float64
petal width (cm)     float64
dtype: object

## Alterando o nome das features(colunas)

In [47]:
#copiando o DataFrame "df"
df2 = df.copy()

#Renomeando o nome das colunas
df2.rename(columns={'sepal length (cm)':'comprimento_sepala(cm)',
                    'sepal width (cm)':'largura_sepala(cm)',
                    'petal length (cm)':'comprimento_petala(cm)',
                    'petal width (cm)':'largura_petala(cm)'}, inplace=True) #inplace=true para não imprimir as alterações.

In [48]:
df2.head(2)

Unnamed: 0,comprimento_sepala(cm),largura_sepala(cm),comprimento_petala(cm),largura_petala(cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2


# Criando e deletando features(colunas)

## Criando nova coluna onde os valores são "object"

In [86]:
#Visualizando as colunas atuais do Dataset
df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [87]:
#Criando nova coluna
df['nova_coluna'] = 'novos_valores'

In [88]:
df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),nova_coluna
0,5.1,3.5,1.4,0.2,novos_valores
1,4.9,3.0,1.4,0.2,novos_valores
2,4.7,3.2,1.3,0.2,novos_valores


## Criando nova coluna onde os valores são "int"

In [89]:
#Criando nova coluna
df['nova_coluna_int'] = 77

In [90]:
df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),nova_coluna,nova_coluna_int
0,5.1,3.5,1.4,0.2,novos_valores,77
1,4.9,3.0,1.4,0.2,novos_valores,77
2,4.7,3.2,1.3,0.2,novos_valores,77


## Criando nova coluna onde os valores são do tipo date

### Criando coluna data com tipo "object" e transformando em tipo "datetime64"

In [95]:
df['date'] = '2020-05-05'
df.dtypes

sepal length (cm)    float64
sepal width (cm)     float64
petal length (cm)    float64
petal width (cm)     float64
nova_coluna           object
nova_coluna_int        int64
date                  object
dtype: object

In [96]:
#Mudando a coluna date de "object" para "datetime64"
#df['date'] = pd.to_datetime(df['date'])
df['date'] = df['date'].astype('datetime64')
df.dtypes

sepal length (cm)           float64
sepal width (cm)            float64
petal length (cm)           float64
petal width (cm)            float64
nova_coluna                  object
nova_coluna_int               int64
date                 datetime64[ns]
dtype: object

### Criando coluna data2 já com tipo "datetime64"

In [97]:
df['date2'] = pd.to_datetime('2021-01-01')
df.dtypes

sepal length (cm)           float64
sepal width (cm)            float64
petal length (cm)           float64
petal width (cm)            float64
nova_coluna                  object
nova_coluna_int               int64
date                 datetime64[ns]
date2                datetime64[ns]
dtype: object

## Excluindo feature(coluna)

In [98]:
df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),nova_coluna,nova_coluna_int,date,date2
0,5.1,3.5,1.4,0.2,novos_valores,77,2020-05-05,2021-01-01
1,4.9,3.0,1.4,0.2,novos_valores,77,2020-05-05,2021-01-01


In [99]:
#Excluindo apenas uma coluna
df.drop('date2', axis=1, inplace=True)
df.head(2)

  obj = obj._drop_axis(labels, axis, level=level, errors=errors)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),nova_coluna,nova_coluna_int,date
0,5.1,3.5,1.4,0.2,novos_valores,77,2020-05-05
1,4.9,3.0,1.4,0.2,novos_valores,77,2020-05-05


In [100]:
#Excluindo várias colunas
cols = ['nova_coluna', 'nova_coluna_int', 'date']
df.drop(cols, axis=1, inplace=True)
df.head(2)

  obj = obj._drop_axis(labels, axis, level=level, errors=errors)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
