In [1]:
import pandas as pd

# Criando a base que irá explorar:
base = pd.read_csv('census.csv')

In [3]:
# Leitura da base criada:
base.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [4]:
# Contando todos os itens da base:
base.shape

(32561, 15)

In [5]:
# Verificando uma coluna específica, nesse caso os dados da coluna 'income':
base['income']

0         <=50K
1         <=50K
2         <=50K
3         <=50K
4         <=50K
          ...  
32556     <=50K
32557      >50K
32558     <=50K
32559     <=50K
32560      >50K
Name: income, Length: 32561, dtype: object

In [6]:
# Separando a base entre os previsores 'X, y':
X = base.iloc[:, 0:14].values
y = base.iloc[:, 14].values

In [7]:
# Saída de 'X':
X

array([[39, ' State-gov', 77516, ..., 0, 40, ' United-States'],
       [50, ' Self-emp-not-inc', 83311, ..., 0, 13, ' United-States'],
       [38, ' Private', 215646, ..., 0, 40, ' United-States'],
       ...,
       [58, ' Private', 151910, ..., 0, 40, ' United-States'],
       [22, ' Private', 201490, ..., 0, 20, ' United-States'],
       [52, ' Self-emp-inc', 287927, ..., 0, 40, ' United-States']],
      dtype=object)

In [8]:
# Chamando um registro especifico:
X[0]

array([39, ' State-gov', 77516, ' Bachelors', 13, ' Never-married',
       ' Adm-clerical', ' Not-in-family', ' White', ' Male', 2174, 0, 40,
       ' United-States'], dtype=object)

In [12]:
# Importando o modulo para transformando as 'str' em 'num':
from sklearn.preprocessing import LabelEncoder

In [13]:
# Chamando a função 'LabelEncoder' e passando os parametros a serem transformados em 'num':
label_encoder = LabelEncoder()
X[:,1] = label_encoder.fit_transform(X[:,1])
X[:,3] = label_encoder.fit_transform(X[:,3])
X[:,5] = label_encoder.fit_transform(X[:,5])
X[:,6] = label_encoder.fit_transform(X[:,6])
X[:,7] = label_encoder.fit_transform(X[:,7])
X[:,8] = label_encoder.fit_transform(X[:,8])
X[:,9] = label_encoder.fit_transform(X[:,9])
X[:,13] = label_encoder.fit_transform(X[:,13])


In [14]:
# Retorno dos dados transformados em numericos:
X[0]

array([39, 7, 77516, 9, 13, 4, 1, 1, 4, 1, 2174, 0, 40, 39], dtype=object)

In [16]:
# importando o modulo 'StandarScaler' para normalizar as escalas dos dados:
from sklearn.preprocessing import StandardScaler

# Criando a escala
scaler_x = StandardScaler()
X = scaler_x.fit_transform(X)

In [17]:
# Verificando os dados em nova escala:
X[0]

array([ 0.03067056,  2.15057856, -1.06361075, -0.33543693,  1.13473876,
        0.92163395, -1.3178091 , -0.27780504,  0.39366753,  0.70307135,
        0.1484529 , -0.21665953, -0.03542945,  0.29156857])

In [18]:
# Separando os dados de 'teste' e 'treino':
from sklearn.model_selection import train_test_split

# Criando as váriaveis de treinamentos e testes:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.2) # Tamanho da divisão do teste (20%) e treinamento (80%)

In [19]:
# Retorno dos dados para o treinamento de 'X':
X_treinamento.shape

(26048, 14)

In [20]:
# Retorno dos dados para o treinamento de 'y':
y_treinamento.shape

(26048,)

In [21]:
# Retorno dos dados para o teste de 'X':
X_teste.shape

(6513, 14)

In [22]:
# Retorno dos dados para o teste de 'y':
y_teste.shape

(6513,)

In [23]:
# Treinando o modelo de regressão logistica:
from sklearn.linear_model import LogisticRegression

# Classificando os dados (X_treinamento e y_treinamento):
cla = LogisticRegression(max_iter = 12000)
cla.fit(X_treinamento, y_treinamento)

In [24]:
# Criando as previsões:
prev = cla.predict(X_teste)

In [25]:
# Retorno da 'prev' criada:
prev

array([' <=50K', ' <=50K', ' <=50K', ..., ' >50K', ' <=50K', ' >50K'],
      dtype=object)

In [26]:
# Verificando se o algritmo acertou as previsoes:
y_teste

array([' <=50K', ' >50K', ' <=50K', ..., ' >50K', ' <=50K', ' >50K'],
      dtype=object)

In [29]:
# Verificando a taxa de acerto 'tc' do algoritmo(Regressao Logistica):
from sklearn.metrics import accuracy_score
tc = accuracy_score(y_teste, prev)

# Saída da 'tc':
tc

0.8229694457239367