## Descobrindo o que existe nos dados


In [None]:
from lxml import objectify
import pandas as pd

xml = objectify.parse(open('XMLData2_copy.xml'))
root = xml.getroot()
df = pd.DataFrame(columns = ('Number', 'String', 'Boolean'))

for i in range(0,4):
    obj = root.getchildren()[i].getchildren()
    row = dict(zip(['Number', 'String', 'Boolean'],
                  [obj[0].text, obj[1].text, obj[2].text]))
    
    row_s = pd.Series(row)
    row_s.name = i
    df = df.append(row_s)

search = pd.DataFrame.duplicated(df)
print(df)
print()
print(search[search==True])

  Number  String Boolean
0      1   First    True
1      2  Second   False
2      3   Third    True
3      3   Third    True

3    True
dtype: bool


  df = df.append(row_s)
  df = df.append(row_s)
  df = df.append(row_s)
  df = df.append(row_s)


## Removendo Duplicadas

In [None]:
from lxml import objectify
import pandas as pd

xml = objectify.parse(open('XMLData2_copy.xml'))
root = xml.getroot()
df = pd.DataFrame(columns = ('Number', 'String', 'Boolean'))

for i in range(0,4):
    obj = root.getchildren()[i].getchildren()
    row = dict(zip(['Number', 'String', 'Boolean'],
                  [obj[0].text, obj[1].text, obj[2].text]))
    
    row_s = pd.Series(row)
    row_s.name = i
    df = df.append(row_s)


print(df.drop_duplicates())

  Number  String Boolean
0      1   First    True
1      2  Second   False
2      3   Third    True


  df = df.append(row_s)
  df = df.append(row_s)
  df = df.append(row_s)
  df = df.append(row_s)


# Manipulando Variáveis Categóricas

In [None]:
import pandas as pd
print(pd.__version__)

1.4.4


## Criando variável Categórica

In [None]:
import pandas as pd

car_colors = pd.Series(['Azul', 'Vermelho', 'Verde'],
                     dtype = 'category')

car_data = pd.Series(
    pd.Categorical(
        ['Amarelo', 'Verde', 'Azul', 'Roxo', 'Vermelho'],
            categories=car_colors, ordered=False))


find_entries = pd.isnull(car_data)

print(car_colors)
print()
print(car_data)
print()
print(find_entries[find_entries == False])

0        Azul
1    Vermelho
2       Verde
dtype: category
Categories (3, object): ['Azul', 'Verde', 'Vermelho']

0         NaN
1       Verde
2        Azul
3         NaN
4    Vermelho
dtype: category
Categories (3, object): ['Azul', 'Verde', 'Vermelho']

1    False
2    False
4    False
dtype: bool


## Combinando Categorias

In [None]:
import pandas as pd

car_colors = pd.Series(['Azul','Vermelho','Verde'],
                      dtype = 'category')
car_data = pd.Series(
    pd.Categorical(
        ['Azul','Verde','Vermelho','Verde','Vermelho','Verde'],
        categories=car_colors, ordered=False))

car_data = car_data.cat.set_categories(
    ['Azul','Verde','Vermelho','Azul_Vermelho'])

print(car_data.loc[car_data.isin(['Verde'])])

car_data.loc[car_data.isin(['Vermelho'])] = "Azul_Vermelho"
car_data.loc[car_data.isin(['Azul'])] = "Azul_Vermelho"

car_data = car_data.cat.set_categories(
    ['Verde','Azul_Vermelho'])

print()
print(car_data)

1    Verde
3    Verde
5    Verde
dtype: category
Categories (4, object): ['Azul', 'Verde', 'Vermelho', 'Azul_Vermelho']

0    Azul_Vermelho
1            Verde
2    Azul_Vermelho
3            Verde
4    Azul_Vermelho
5            Verde
dtype: category
Categories (2, object): ['Verde', 'Azul_Vermelho']


# Lidando com Dados Ausentes
## Encontrando dados ausentes

In [6]:
import pandas as pd
import numpy as np

s = pd.Series([1, 2, 3 , np.NaN, 5, 6, None])

print(s.isnull())

print()

print(s[s.isnull()])

0    False
1    False
2    False
3     True
4    False
5    False
6     True
dtype: bool

3   NaN
6   NaN
dtype: float64


In [31]:
"""
from sklearn.preprocessing import Imputer
 - essa linha de código estava apresentando erro
 pois a biblioteca estava descontinuada
 
 Existem algumas técnicas para inserção de dados, 
 essa atribui valores a dados ausentes

"""
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

s = [[1, 2, 3 , np.NaN, 5, 6, None]]

imp = SimpleImputer(
    missing_values=np.NaN,
    strategy='mean')

imp.fit([[1,2,3,4,5,6,7]])

x = pd.Series(imp.transform(s).tolist()[0])

print(x)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
6    7.0
dtype: float64


## Inputação univariada

In [18]:
# O trecho a seguir demonstra como substiruir os valores ausentes, codificados como np.nanm usando o valor médio das colunas
#(eixo 0) que contem os valores ausentes

import numpy as np
from sklearn.impute import SimpleImputer

imp = SimpleImputer(missing_values = np.nan, strategy = 'mean')

imp.fit([[1,2],[np.nan,3],[7,6]]) #exio 0 > 1 + 7 = 8 / 2 = 4
SimpleImputer()                   #eixo 1 > 2 + 3 + 6 = 11 / 3 = 3.66666 
x = [[np.nan,2],[6,np.nan],[7,6]]
print(imp.transform(x))


[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]


In [29]:
# Também aplica-se a matrizes

import scipy.sparse as sp 
x = sp.csc_matrix([[1,2],[0,-1],[8,4]])
imp = SimpleImputer(missing_values=-1, strategy='mean')
imp.fit(x)

x_test = sp.csc_matrix([[-1,2],[6,-1],[7,6]])
print(imp.transform(x_test).toarray())

[[3. 2.]
 [6. 3.]
 [7. 6.]]


In [32]:
# SimpleImporter permite aplicação também com variáveis categóricas

import pandas as pd
df = pd.DataFrame([['a','x'],
                  [np.nan, 'y'],
                  ['a',np.nan],
                  ['b','y']],dtype='category')

imp = SimpleImputer(strategy='most_frequent')
print(imp.fit_transform(df))


[['a' 'x']
 ['a' 'y']
 ['a' 'y']
 ['b' 'y']]


https://scikit-learn.org/stable/modules/impute.html