### Carregamento de bibliotecas

In [1]:
import pandas as pd 
import numpy as np
import polars as pl

## Pandas

In [2]:
# 1. Leitura do dataset Titanic 
df = pd.read_csv(r'C:\Users\HP\Desktop\Formação\Eisnt\UFCD 10808 - Limpeza e transformação de dados em Python\titanic.csv', sep=',', encoding='latin1')

In [3]:
# 2. Visualização inicial 
print("Primeiras linhas do dataset:") 
print(df.head()) 
print("\nDimensão do dataset:", df.shape) 
print("\nColunas:", df.columns)

Primeiras linhas do dataset:
    Age Cabin Embarked     Fare                                          Name  \
0  34.5   NaN        Q   7.8292                              Kelly, Mr. James   
1  47.0   NaN        S   7.0000              Wilkes, Mrs. James (Ellen Needs)   
2  62.0   NaN        Q   9.6875                     Myles, Mr. Thomas Francis   
3  27.0   NaN        S   8.6625                              Wirz, Mr. Albert   
4  22.0   NaN        S  12.2875  Hirvonen, Mrs. Alexander (Helga E Lindqvist)   

   Parch  PassengerId  Pclass     Sex  SibSp  Survived   Ticket Title  \
0      0          892       3    male      0       NaN   330911    Mr   
1      0          893       3  female      1       NaN   363272   Mrs   
2      0          894       2    male      0       NaN   240276    Mr   
3      0          895       3    male      0       NaN   315154    Mr   
4      1          896       3  female      1       NaN  3101298   Mrs   

   Family_Size  
0            0  
1          

In [None]:
# 3. Verificação de tipos e valores nulos 
print("\nInformação geral do dataset:") 
print(df.info())
print("\nContagem de valores nulos por coluna:") 
print(df.isnull().sum())

In [5]:
# 4. Limpeza de dados 
# Preencher valores nulos em 'Age' com a média 
df['Age'] = df['Age'].fillna(df['Age'].mean()) 

# Preencher valores nulos em 'Embarked' com a moda 
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

# Conversão segura do tipo de dado 'Fare' para float 
df['Fare'] = pd.to_numeric(df['Fare'], errors='coerce')


In [6]:
# 5. Estatísticas básicas com NumPy 
ages = df['Age'].dropna() 
fares = df['Fare'].dropna() 

print("\nEstatísticas sobre a idade:") 
print(f"Média das idades: {np.mean(ages):.2f}")
print("Mediana das idades:", np.median(ages)) 

print("\nEstatísticas sobre a tarifa (Fare):") 
print(f"Desvio padrão: {np.std(fares):.2f}") 
print("25º percentil:", np.percentile(fares, 25)) 
print("75º percentil:", np.percentile(fares, 75))


Estatísticas sobre a idade:
Média das idades: 29.81
Mediana das idades: 30.0

Estatísticas sobre a tarifa (Fare):
Desvio padrão: 55.79
25º percentil: 7.8958
75º percentil: 31.471875


In [7]:
# 6. Combinação com outro DataFrame (exemplo) 
cabines = pd.DataFrame({ 
                        'Cabin': ['C85', 'C123', 'E46'],
                        'Tipo': ['Luxo', 'Standard', 'Luxo']
                        })

# Juntar com base na coluna 'Cabin' 
df_merged = pd.merge(df, cabines, on='Cabin', how='inner') 
print("\nDataset após junção com cabines:")
print(df_merged.head())


Dataset após junção com cabines:
    Age Cabin Embarked     Fare                         Name  Parch  \
0  30.0   E46        S  51.8625  Hilliard, Mr. Herbert Henry      0   
1  39.0   C85        C  71.2833    Cumings, Mr. John Bradley      0   

   PassengerId  Pclass   Sex  SibSp  Survived    Ticket Title  Family_Size  \
0         1038       1  male      0       NaN     17463    Mr            0   
1         1126       1  male      1       NaN  PC 17599    Mr            1   

   Tipo  
0  Luxo  
1  Luxo  


## Polars

In [8]:
# 1. Leitura do dataset Titanic 
df1 = pl.read_csv(r'C:\Users\HP\Desktop\Formação\Eisnt\UFCD 10808 - Limpeza e transformação de dados em Python\titanic.csv', separator=',', encoding='latin1')

In [9]:
# 2. Visualização inicial 
print("Primeiras linhas do dataset:") 
print(df1.head())

print("\nDimensão do dataset:", df1.shape) 
print("Colunas:", df1.columns)

Primeiras linhas do dataset:
shape: (5, 14)
┌──────┬───────┬──────────┬─────────┬───┬──────────┬─────────┬───────┬─────────────┐
│ Age  ┆ Cabin ┆ Embarked ┆ Fare    ┆ … ┆ Survived ┆ Ticket  ┆ Title ┆ Family_Size │
│ ---  ┆ ---   ┆ ---      ┆ ---     ┆   ┆ ---      ┆ ---     ┆ ---   ┆ ---         │
│ f64  ┆ str   ┆ str      ┆ f64     ┆   ┆ str      ┆ str     ┆ str   ┆ i64         │
╞══════╪═══════╪══════════╪═════════╪═══╪══════════╪═════════╪═══════╪═════════════╡
│ 34.5 ┆ null  ┆ Q        ┆ 7.8292  ┆ … ┆ null     ┆ 330911  ┆ Mr    ┆ 0           │
│ 47.0 ┆ null  ┆ S        ┆ 7.0     ┆ … ┆ null     ┆ 363272  ┆ Mrs   ┆ 1           │
│ 62.0 ┆ null  ┆ Q        ┆ 9.6875  ┆ … ┆ null     ┆ 240276  ┆ Mr    ┆ 0           │
│ 27.0 ┆ null  ┆ S        ┆ 8.6625  ┆ … ┆ null     ┆ 315154  ┆ Mr    ┆ 0           │
│ 22.0 ┆ null  ┆ S        ┆ 12.2875 ┆ … ┆ null     ┆ 3101298 ┆ Mrs   ┆ 2           │
└──────┴───────┴──────────┴─────────┴───┴──────────┴─────────┴───────┴─────────────┘

Dimensão do dataset:

In [10]:
#3. Verificação de valores nulos 
print("\nContagem de valores nulos por coluna:") 
print(df1.null_count())


Contagem de valores nulos por coluna:
shape: (1, 14)
┌─────┬───────┬──────────┬──────┬───┬──────────┬────────┬───────┬─────────────┐
│ Age ┆ Cabin ┆ Embarked ┆ Fare ┆ … ┆ Survived ┆ Ticket ┆ Title ┆ Family_Size │
│ --- ┆ ---   ┆ ---      ┆ ---  ┆   ┆ ---      ┆ ---    ┆ ---   ┆ ---         │
│ u32 ┆ u32   ┆ u32      ┆ u32  ┆   ┆ u32      ┆ u32    ┆ u32   ┆ u32         │
╞═════╪═══════╪══════════╪══════╪═══╪══════════╪════════╪═══════╪═════════════╡
│ 0   ┆ 327   ┆ 0        ┆ 0    ┆ … ┆ 418      ┆ 0      ┆ 0     ┆ 0           │
└─────┴───────┴──────────┴──────┴───┴──────────┴────────┴───────┴─────────────┘


In [11]:
# 4. Limpeza de dados 
# Preencher valores nulos em 'Age' com a média 
mean_age = df1.select(pl.col("Age").mean()).item() 

df1 = df1.with_columns([ pl.when(pl.col("Age").is_null())
                      .then(mean_age)
                      .otherwise(pl.col("Age"))
                      .alias("Age") ])

# Preencher valores nulos em 'Embarked' com a moda (valor mais frequente) 
mode_embarked = ( 
                 df1.select("Embarked") 
                 .drop_nulls() 
                 .to_series() 
                 .value_counts() 
                 .sort("count", descending=True) 
                 .get_column("Embarked")[0] ) 

df1 = df1.with_columns([ 
                      pl.when(pl.col("Embarked").is_null()) 
                      .then(pl.lit(mode_embarked)) 
                      .otherwise(pl.col("Embarked")) 
                      .alias("Embarked") ]) 

# Conversão de 'Fare' para float (em Polars já é geralmente automático) 
df1 = df1.with_columns([ pl.col("Fare").cast(pl.Float64) ])

In [12]:
# 5. Estatísticas com NumPy (usando conversão para arrays) 
ages = df1.select("Age").drop_nulls().to_series().to_numpy() 
fares = df1.select("Fare").drop_nulls().to_series().to_numpy() 

print("\nEstatísticas sobre a idade:") 
print(f"Média das idades: {np.mean(ages):.2f}") 
print("Mediana das idades:", np.median(ages)) 

print("\nEstatísticas sobre a tarifa (Fare):") 
print(f"Desvio padrão: {np.std(fares):.2f}") 
print("25º percentil:", np.percentile(fares, 25)) 
print("75º percentil:", np.percentile(fares, 75))


Estatísticas sobre a idade:
Média das idades: 29.81
Mediana das idades: 30.0

Estatísticas sobre a tarifa (Fare):
Desvio padrão: 55.79
25º percentil: 7.8958
75º percentil: 31.471875


In [13]:
#6. Combinação com outro DataFrame (exemplo) 
cabines = pl.DataFrame({
    'Cabin': ['C85', 'C123', 'E46'],
    'Tipo': ['Luxo', 'Standard', 'Luxo'] }) 

df_join = df1.join(cabines, on='Cabin', how='inner') 
print("\nDataset após junção com cabines:") 
print(df_join.head())


Dataset após junção com cabines:
shape: (2, 15)
┌──────┬───────┬──────────┬─────────┬───┬──────────┬───────┬─────────────┬──────┐
│ Age  ┆ Cabin ┆ Embarked ┆ Fare    ┆ … ┆ Ticket   ┆ Title ┆ Family_Size ┆ Tipo │
│ ---  ┆ ---   ┆ ---      ┆ ---     ┆   ┆ ---      ┆ ---   ┆ ---         ┆ ---  │
│ f64  ┆ str   ┆ str      ┆ f64     ┆   ┆ str      ┆ str   ┆ i64         ┆ str  │
╞══════╪═══════╪══════════╪═════════╪═══╪══════════╪═══════╪═════════════╪══════╡
│ 30.0 ┆ E46   ┆ S        ┆ 51.8625 ┆ … ┆ 17463    ┆ Mr    ┆ 0           ┆ Luxo │
│ 39.0 ┆ C85   ┆ C        ┆ 71.2833 ┆ … ┆ PC 17599 ┆ Mr    ┆ 1           ┆ Luxo │
└──────┴───────┴──────────┴─────────┴───┴──────────┴───────┴─────────────┴──────┘


# EXERCICIOS COM DATASET House Prices


In [14]:
# 1. Leitura do dataset Titanic 
df = pd.read_csv(r'C:\Users\HP\Desktop\Formação\Eisnt\UFCD 10808 - Limpeza e transformação de dados em Python\train.csv', sep=',', encoding='latin1')
print("Primeiras linhas do dataset:")
print(df.head(10))
print("\nUltimos 10 registos:", df.tail(10))

Primeiras linhas do dataset:
   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   
5   6          50       RL         85.0    14115   Pave   NaN      IR1   
6   7          20       RL         75.0    10084   Pave   NaN      Reg   
7   8          60       RL          NaN    10382   Pave   NaN      IR1   
8   9          50       RM         51.0     6120   Pave   NaN      Reg   
9  10         190       RL         50.0     7420   Pave   NaN      Reg   

  LandContour Utilities  ... PoolArea PoolQC  Fence MiscFeature MiscVal  \
0         Lvl    AllPub  ...        0    NaN    NaN         NaN       0   
1     

In [15]:
print("\nDimensão do dataset:", df.shape)
print("\nColunas:", df.columns)


Dimensão do dataset: (1460, 81)

Colunas: Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'Ga

In [16]:
print("\nInformação geral do dataset:") 
print(df.info())


Informação geral do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 no

In [17]:
print("\nContagem de valores nulos por coluna:") 
print(df.isnull().sum())


Contagem de valores nulos por coluna:
Id                 0
MSSubClass         0
MSZoning           0
LotFrontage      259
LotArea            0
                ... 
MoSold             0
YrSold             0
SaleType           0
SaleCondition      0
SalePrice          0
Length: 81, dtype: int64


In [18]:
null_values = df.isnull().sum()
print("\nValores nulos\n",null_values[null_values > 0])


Valores nulos
 LotFrontage      259
Alley           1369
MasVnrType       872
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtExposure      38
BsmtFinType1      37
BsmtFinType2      38
Electrical         1
FireplaceQu      690
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
PoolQC          1453
Fence           1179
MiscFeature     1406
dtype: int64


Oportunidades para limpeza de dados:
- Valores nulos: Variáveis como LotFrontage, GarageYrBlt e MasVnrArea contêm valores ausentes.

In [19]:
# 4. Limpeza de dados

# Preencher valores nulos em 'LotFront' com a média
df['LotFrontage'] = df['LotFrontage'].fillna(df['LotFrontage'].mean())

# Preencher valores nulos em 'GarageType' com a moda
df['GarageType'] = df['GarageType'].fillna(df['GarageType'].mode()[0])

# Preencher valores nulos em 'MasVnrArea' com a média
df['MasVnrArea'] = df['MasVnrArea'].fillna(df['MasVnrArea'].mean())


# Preencher valores nulos em 'Alley' com 'desconhecido'
print("\nValores nulos na coluna Alley:")
print(df['Alley'].isnull().sum())
df['Alley'] = df['Alley'].fillna('desconhecido')

# Exemplo para remover linhas com valores nulos em 'PoolQC'
df = df.dropna(subset=['PoolQC'])

# Conferir se ainda há valores nulos
print(df.isnull().sum())




Valores nulos na coluna Alley:
1369
Id               0
MSSubClass       0
MSZoning         0
LotFrontage      0
LotArea          0
                ..
MoSold           0
YrSold           0
SaleType         0
SaleCondition    0
SalePrice        0
Length: 81, dtype: int64


- Conversão de tipos: Algumas colunas numéricas são representadas como strings e precisam ser convertidas.

In [20]:
df['LotFrontage'] = pd.to_numeric(df['LotFrontage'], errors='coerce')
df['MasVnrArea'] = pd.to_numeric(df['MasVnrArea'], errors='coerce')

cols = ['LotFrontage', 'MasVnrArea', 'GarageYrBlt']
df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

- Imputação: Preenchimento de valores ausentes com média, mediana ou moda.

In [21]:
# Preencher valores nulos em 'LotFrontage' com a média
df['LotFrontage'] = df['LotFrontage'].fillna(df['LotFrontage'].mean())

# Preencher valores nulos em 'MasVnrArea' com a mediana
df['MasVnrArea'] = df['MasVnrArea'].fillna(df['MasVnrArea'].median())

# Preencher valores nulos em 'GarageType' com a moda
df['GarageType'] = df['GarageType'].fillna(df['GarageType'].mode()[0])

# Média da coluna LotFrontage
media_lotfrontage = df['LotFrontage'].mean()
print(f"\nMédia da coluna LotFrontage: {media_lotfrontage:.2f}")

lotes = df['LotArea'].dropna() 
print("\nEstatísticas sobre a (LotArea):") 
print(f"Desvio padrão: {np.std(lotes):.2f}") 
print("25º percentil:", np.percentile(lotes, 25)) 
print("75º percentil:", np.percentile(lotes, 75))


Média da coluna LotFrontage: 135.86

Estatísticas sobre a (LotArea):
Desvio padrão: 17403.87
25º percentil: 12881.5
75º percentil: 22554.5


## Considera o dataset Cafe Sales - Dirty Data for Cleaning Training

In [22]:
# 1. Leitura do dataset Titanic 
df = pd.read_csv(r'C:\Users\HP\Desktop\Formação\Eisnt\UFCD 10808 - Limpeza e transformação de dados em Python\dirty_cafe_sales.csv', sep=',', encoding='latin1')
print("Primeiras 10 linhas do dataset:")
print(df.head(10))
print("\nUltimos 10 registos:", df.tail(10))

Primeiras 10 linhas do dataset:
  Transaction ID      Item Quantity Price Per Unit Total Spent  \
0    TXN_1961373    Coffee        2            2.0         4.0   
1    TXN_4977031      Cake        4            3.0        12.0   
2    TXN_4271903    Cookie        4            1.0       ERROR   
3    TXN_7034554     Salad        2            5.0        10.0   
4    TXN_3160411    Coffee        2            2.0         4.0   
5    TXN_2602893  Smoothie        5            4.0        20.0   
6    TXN_4433211   UNKNOWN        3            3.0         9.0   
7    TXN_6699534  Sandwich        4            4.0        16.0   
8    TXN_4717867       NaN        5            3.0        15.0   
9    TXN_2064365  Sandwich        5            4.0        20.0   

   Payment Method  Location Transaction Date  
0     Credit Card  Takeaway       2023-09-08  
1            Cash  In-store       2023-05-16  
2     Credit Card  In-store       2023-07-19  
3         UNKNOWN   UNKNOWN       2023-04-27  
4  Dig

In [23]:
print("\nDimensão do dataset:", df.shape)
print("\nColunas:", df.columns)


Dimensão do dataset: (10000, 8)

Colunas: Index(['Transaction ID', 'Item', 'Quantity', 'Price Per Unit', 'Total Spent',
       'Payment Method', 'Location', 'Transaction Date'],
      dtype='object')


In [None]:
print("\nInformação geral do dataset:") 
print(df.info())

- Valores nulos

In [None]:
print("\nContagem de valores nulos por coluna:") 
print(df.isnull().sum())

In [None]:
null_values = df.isnull().sum()
print("\nValores nulos\n",null_values[null_values > 0])

- Conversão de tipos

In [32]:
cols = ['Quantity', 'Price Per Unit', 'Total Spent']
df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

- Imputação

In [33]:
# 4. Limpeza de dados

# Preencher valores nulos numericos com a média
df['Quantity'] = df['Quantity'].fillna(df['Quantity'].mean())
df['Price Per Unit'] = df['Price Per Unit'].fillna(df['Price Per Unit'].mean())

# Preencher valores nulos string com a moda
df['Item'] = df['Item'].fillna(df['Item'].mode()[0])
df['Location'] = df['Location'].fillna(df['Location'].mode()[0])

# Remover linhas com valores nulos em 'Transaction Date'
df = df.dropna(subset=['Transaction Date'])

# Preencher valores nulos em 'Payment Method' com 'desconhecido'
print("\nValores nulos na coluna Payment Method:")
print(df['Payment Method'].isnull().sum())
df['Payment Method'] = df['Payment Method'].fillna('desconhecido')


Valores nulos na coluna Payment Method:
2531


In [34]:
null_values = df.isnull().sum()
print("\nValores nulos\n",null_values[null_values > 0])


Valores nulos
 Total Spent    493
dtype: int64


- Detecção de outliers: