# Pilula - Tratando Outliers IIE
### Objetivo da Pílula

* Ler uma base de dadosplanilha IIE
* Identificar outliers
* Remover outliers

### Material de Apoio


[Data Cleaning Using Pandas](https://www.analyticsvidhya.com/blog/2021/06/data-cleaning-using-pandas/) |
[pandas.DataFrame.fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) |
[HOW TO USE FILLNA TO REPLACE MISSING VALUES](https://www.sharpsightlabs.com/blog/pandas-fillna/) |
[dataframe-replace-nan-values-with-average-of-columns](https://stackoverflow.com/questions/18689823/pandas-dataframe-replace-nan-values-with-average-of-columns) |
[pandas.DataFrame.mean](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html)

In [1]:
# Bibliotecas Gerais
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [133]:
df = pd.read_excel(r'D:\Python\Estudos\experimentos\xls\python.xlsx', \
                   sheet_name='Query1')

In [134]:
plant='RECAP'
process= 'DST'
unit='U500'

In [135]:
df=df.loc[(df['Plant']==plant) & (df['Process']==process) & (df['Unit']==unit)] 

In [136]:
df.head()

Unnamed: 0,Plant,Process,Unit,DataBase,CARGA,IO2,FOMPP,IIE
6679,RECAP,DST,U500,2022-03-08,9300.1512,1.941855,100.0,102.297747
6680,RECAP,DST,U500,2022-03-09,8928.09747,1.799451,100.0,104.277509
6681,RECAP,DST,U500,2022-03-10,9233.421215,1.789455,100.0,101.921716
6682,RECAP,DST,U500,2022-03-11,9300.039044,1.771716,100.0,101.279949
6683,RECAP,DST,U500,2022-03-12,9299.977312,1.980498,100.0,100.677824


In [137]:
#carregando o df com dados originais
data=df[['DataBase','IIE','CARGA','IO2','FOMPP']]

## Vamos analisar como estão os dados no meu Dataset

In [138]:
# Avaliando o shape do dataset
data.shape

(448, 5)

In [139]:
# avaliando o formato dos dados e já fazendo uma contagem dos nulos
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 448 entries, 6679 to 62614
Data columns (total 5 columns):
DataBase    448 non-null datetime64[ns]
IIE         205 non-null float64
CARGA       448 non-null float64
IO2         92 non-null float64
FOMPP       188 non-null float64
dtypes: datetime64[ns](1), float64(4)
memory usage: 21.0 KB


In [140]:
# Avaliando dados gerais do df
data.describe()

Unnamed: 0,IIE,CARGA,IO2,FOMPP
count,205.0,448.0,92.0,188.0
mean,102.303181,8662.623448,2.272124,98.476413
std,38.200792,1083.740873,2.546187,10.095077
min,47.097091,444.933379,1.456338,2.207719
25%,82.741207,8050.243019,1.90546,100.0
50%,102.561345,9019.834708,1.991822,100.0
75%,104.847713,9439.881168,2.023723,100.0
max,250.520974,9980.894581,26.306578,100.0


* dá pra perceber nas contagens o numero de dados faltantes

In [141]:
# Analisando dados nulos
data.isnull()

Unnamed: 0,DataBase,IIE,CARGA,IO2,FOMPP
6679,False,False,False,False,False
6680,False,False,False,False,False
6681,False,False,False,False,False
6682,False,False,False,False,False
6683,False,False,False,False,False
...,...,...,...,...,...
55607,False,False,False,True,True
60587,False,True,False,True,True
62050,False,False,False,True,False
62491,False,True,False,True,True


In [142]:
# Avaliando dados NAN
data.isna()

Unnamed: 0,DataBase,IIE,CARGA,IO2,FOMPP
6679,False,False,False,False,False
6680,False,False,False,False,False
6681,False,False,False,False,False
6682,False,False,False,False,False
6683,False,False,False,False,False
...,...,...,...,...,...
55607,False,False,False,True,True
60587,False,True,False,True,True
62050,False,False,False,True,False
62491,False,True,False,True,True


In [143]:
# Checando qual coluna tem dados faltantes
data.isna().any()

DataBase    False
IIE          True
CARGA       False
IO2          True
FOMPP        True
dtype: bool

In [144]:
# Somando o numero de registors que tem nullo
data.isna().sum()

DataBase      0
IIE         243
CARGA         0
IO2         356
FOMPP       260
dtype: int64

## Preenchendo os valores faltantes com a média das colunas (df.mean)
Para este meu caso decidi pegar todos as colunas e substituir o valor NAN pela média da coluna. Usei para isso o método pandas mean().


In [145]:
#carregando o df com dados originais
data=df[['DataBase','IIE','CARGA','IO2','FOMPP']]

In [146]:
data.mean() # aqui é mostrada a média de cada coluna o que em minha análise inicial está adequado para substituir pelo NAN

IIE       102.303181
CARGA    8662.623448
IO2         2.272124
FOMPP      98.476413
dtype: float64

In [147]:
#carrego do df com a mean
data=data.fillna(data.mean())

In [148]:
# contabdo os NAN do df
data.isna().any()

DataBase    False
IIE         False
CARGA       False
IO2         False
FOMPP       False
dtype: bool

In [149]:
data.isna().sum()

DataBase    0
IIE         0
CARGA       0
IO2         0
FOMPP       0
dtype: int64

In [150]:
data.shape

(448, 5)

In [152]:
#exportando para arquivo tratado
data.to_csv(r'D:\Python\Estudos\experimentos\csv\dataset_{}_{}_{}.csv' .format(plant,process,unit))

## Outras formas de realizar o processo
- Substituir uma coluna em específico com a Méida

## Deletando os NAN baseado na coluna

* Sobre dropna

|Instrucao|Comentario|
|---------|----------|
|df.dropna()|              #drop all rows that have any NaN values|
|df.dropna(how='all')|     #drop only if ALL columns are NaN|
|df.dropna(thresh=2)|      #Drop row if it does not have at least two values that are **not** NaN|
|df.dropna(subset=[1])|    #Drop only if NaN in specific column (as asked in the question)|