In [1]:
import pandas as pd

In [24]:
df = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Camila', 'Daniel'],
    'genero': ['F', 'M', 'F', 'M'],
    'cidade': ['SP', 'RJ', 'BA', 'SP'],
    'idade': [25, 34, 29, 41],
    'escolaridade': ['Fundamental', 'Pós-Graduação', 'Superior', 'Médio']
})

In [13]:
# Verifica os tipos
print(df.dtypes)

nome            object
genero          object
cidade          object
idade            int64
escolaridade    object
dtype: object


In [None]:
# Filtra apenas colunas categóricas
categoricas = df.select_dtypes(include='object')
print(categoricas.head())

     nome genero cidade   escolaridade
0     Ana      F     SP    Fundamental
1   Bruno      M     RJ  Pós-Graduação
2  Camila      F     BA       Superior
3  Daniel      M     SP          Médio


In [15]:
from sklearn.preprocessing import LabelEncoder

In [16]:
le = LabelEncoder()
df['genero_encoded'] = le.fit_transform(df['genero'])

In [17]:
df.head(5)

Unnamed: 0,nome,genero,cidade,idade,escolaridade,genero_encoded
0,Ana,F,SP,25,Fundamental,0
1,Bruno,M,RJ,34,Pós-Graduação,1
2,Camila,F,BA,29,Superior,0
3,Daniel,M,SP,41,Médio,1


In [18]:
# One-Hot-Encoded
df_encoded = pd.get_dummies(df, columns=['cidade'], prefix='cidade', )

In [19]:
df_encoded.head(5)

Unnamed: 0,nome,genero,idade,escolaridade,genero_encoded,cidade_BA,cidade_RJ,cidade_SP
0,Ana,F,25,Fundamental,0,False,False,True
1,Bruno,M,34,Pós-Graduação,1,False,True,False
2,Camila,F,29,Superior,0,True,False,False
3,Daniel,M,41,Médio,1,False,False,True


In [25]:
escolaridade_ordem = {
    'Fundamental': 0,
    'Médio': 1,
    'Superior': 2,
    'Pós-Graduação': 3
}

df['escolaridade'] = df['escolaridade'].map(escolaridade_ordem)

In [26]:
df.head(5)

Unnamed: 0,nome,genero,cidade,idade,escolaridade
0,Ana,F,SP,25,0
1,Bruno,M,RJ,34,3
2,Camila,F,BA,29,2
3,Daniel,M,SP,41,1


In [32]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler


In [33]:
# Simulando um DataFrame com problemas
df = pd.DataFrame({
    'nome': ['Ana', 'João', 'ana', 'Maria', 'JOÃO'],
    'idade': [25, 30, np.nan, 22, np.nan],
    'salario': [3000, 4000, np.nan, 2800, 999999],
    'cidade': ['São Paulo', 'sao paulo', 'São Paulo', np.nan, 'RIO']
})

print("Original:")
print(df)

Original:
    nome  idade   salario     cidade
0    Ana   25.0    3000.0  São Paulo
1   João   30.0    4000.0  sao paulo
2    ana    NaN       NaN  São Paulo
3  Maria   22.0    2800.0        NaN
4   JOÃO    NaN  999999.0        RIO


In [34]:
# Limpeza de dados

# Padronizar nomes
df['nome'] = df['nome'].str.strip().str.lower()

In [35]:
# Corrigir cidade
df['cidade'] = df['cidade'].str.strip().str.lower()

In [36]:
# Remover duplicatas
df = df.drop_duplicates()

In [37]:
# Preencher valores nulos
df['idade'] = df['idade'].fillna(df['idade'].mean())
df['cidade'] = df['cidade'].fillna('desconhecido')

In [38]:
print("\nApós limpeza:")
print(df)


Após limpeza:
    nome      idade   salario        cidade
0    ana  25.000000    3000.0     são paulo
1   joão  30.000000    4000.0     sao paulo
2    ana  25.666667       NaN     são paulo
3  maria  22.000000    2800.0  desconhecido
4   joão  25.666667  999999.0           rio


In [39]:
# Normalização e Padronização

# Normalização (0 a 1)
scaler_norm = MinMaxScaler()
df['salario_normalizado'] = scaler_norm.fit_transform(df[['salario']])

In [40]:
# Padronização (z-score)
scaler_std = StandardScaler()
df['salario_padronizado'] = scaler_std.fit_transform(df[['salario']])

In [41]:
print("\nCom colunas normalizadas e padronizadas:")
print(df[['salario', 'salario_normalizado', 'salario_padronizado']])


Com colunas normalizadas e padronizadas:
    salario  salario_normalizado  salario_padronizado
0    3000.0             0.000201            -0.577968
1    4000.0             0.001203            -0.575651
2       NaN                  NaN                  NaN
3    2800.0             0.000000            -0.578431
4  999999.0             1.000000             1.732050


In [42]:
# Visualiza valores ausentes
print(df.isnull())

    nome  idade  salario  cidade  salario_normalizado  salario_padronizado
0  False  False    False   False                False                False
1  False  False    False   False                False                False
2  False  False     True   False                 True                 True
3  False  False    False   False                False                False
4  False  False    False   False                False                False


In [43]:
# Total por coluna
print(df.isnull().sum())

nome                   0
idade                  0
salario                1
cidade                 0
salario_normalizado    1
salario_padronizado    1
dtype: int64


In [45]:
# Percentual
print((df.isnull().sum() / len(df)) * 100)

nome                    0.0
idade                   0.0
salario                20.0
cidade                  0.0
salario_normalizado    20.0
salario_padronizado    20.0
dtype: float64


In [46]:
# Preencher com média
df['idade'] = df['idade'].fillna(df['idade'].mean())

In [48]:
# Preencher com mediana
df['salario'] = df['salario'].fillna(df['salario'].median())

In [49]:

# Preencher com valor fixo em coluna categórica
df['cidade'] = df['cidade'].fillna('desconhecido')


In [50]:
# Remove linhas com qualquer NaN
df_limpo = df.dropna()

In [51]:
# Remove colunas com muitos NaNs
df = df.dropna(axis=1, thresh=3)  # pelo menos 3 valores não-nulos

In [52]:
from sklearn.linear_model import LinearRegression

In [53]:
# Exemplo simples: prever renda com base na idade
df_modelo = df.dropna(subset=['idade'])  # só onde 'idade' está presente
modelo = LinearRegression()

In [56]:
# Treina com dados válidos
modelo.fit(df_modelo[['idade']], df_modelo['salario'])

In [59]:
# Prever onde a renda é NaN
df['salario_pred'] = modelo.predict(df[['idade']])
df['salario'] = round(df['salario'].fillna(df['salario_pred']),0)


In [60]:
df.head(10)

Unnamed: 0,nome,idade,salario,cidade,salario_normalizado,salario_padronizado,salario_pred
0,ana,25.0,3000.0,são paulo,0.000201,-0.577968,202556.398639
1,joão,30.0,4000.0,sao paulo,0.001203,-0.575651,203331.908844
2,ana,25.666667,3500.0,são paulo,,,202659.8
3,maria,22.0,2800.0,desconhecido,0.0,-0.578431,202091.092517
4,joão,25.666667,999999.0,rio,1.0,1.73205,202659.8


In [61]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np


In [62]:
# Carregando os dados
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['Target'] = data.target  # Adiciona a variável alvo (preço médio da casa)

In [63]:

# Exibe as primeiras linhas
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,Target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
