In [None]:
# =============================================
# PASSO 1 - Importar bibliotecas e montar o Google Drive
# =============================================

import pandas as pd
import numpy as np
from google.colab import drive

# Montar o Google Drive para acessar os arquivos
drive.mount('/content/drive')

# =============================================
# PASSO 2 - Definir caminhos dos arquivos no Drive
# =============================================

path_hotel = '/content/drive/MyDrive/Separa/Analise de Dados/HotelFinalDataset.csv'
path_empresa = '/content/drive/MyDrive/Separa/Analise de Dados/empresadataset.csv'
path_titanic = '/content/drive/MyDrive/Separa/Analise de Dados/Titanic.csv'


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# =============================================
# PASSO 3 - Carregar e explorar o dataset de EMPRESA
# =============================================

df_empresa = pd.read_csv(path_empresa)

print("Informações do DataFrame - Empresa:")
df_empresa.info()

print("\nPrimeiras linhas da Empresa:")
print(df_empresa.head())

print("\nÚltimas linhas da Empresa:")
print(df_empresa.tail())

# Classificação da variável 'Inst'
ordem_categorias = ['Fundamental', 'Médio', 'Superior']
df_empresa['Inst'] = pd.Categorical(df_empresa['Inst'], categories=ordem_categorias, ordered=True)

# Criar nova variável 'Idade'
df_empresa['Idade'] = df_empresa['Anos'] + df_empresa['Meses'] / 12

print("\nEmpresa após ajustes:")
print(df_empresa.head())


Informações do DataFrame - Empresa:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Funcionario  36 non-null     int64  
 1   Est.civil    36 non-null     object 
 2   Inst         36 non-null     object 
 3   Filhos       20 non-null     float64
 4   Salario      36 non-null     float64
 5   Anos         36 non-null     int64  
 6   Meses        36 non-null     int64  
 7   Regiao       36 non-null     object 
dtypes: float64(2), int64(3), object(3)
memory usage: 2.4+ KB

Primeiras linhas da Empresa:
   Funcionario Est.civil     Inst  Filhos  Salario  Anos  Meses    Regiao
0            1  solteiro  1o Grau     NaN     4.00    26      3  interior
1            2    casado  1o Grau     1.0     4.56    32     10   capital
2            3    casado  1o Grau     2.0     5.25    36      5   capital
3            4  solteiro  2o Grau     NaN     5.73    

In [None]:
# =============================================
# PASSO 4 - Carregar e explorar o dataset do HOTEL
# =============================================

df_hotel = pd.read_csv(path_hotel, sep=";", encoding='ISO-8859-1')

print("Informações do DataFrame - Hotel:")
df_hotel.info()

print("\nPrimeiras linhas do Hotel:")
print(df_hotel.head())

print("\nÚltimas linhas do Hotel:")
print(df_hotel.tail())


Informações do DataFrame - Hotel:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Unnamed: 0    525 non-null    int64  
 1   Name          525 non-null    object 
 2   Place         525 non-null    object 
 3   Type          525 non-null    object 
 4   Price         525 non-null    object 
 5   ReviewsCount  512 non-null    float64
 6   Rating        515 non-null    object 
 7   City          525 non-null    object 
 8   State         133 non-null    object 
dtypes: float64(1), int64(1), object(7)
memory usage: 37.0+ KB

Primeiras linhas do Hotel:
   Unnamed: 0                  Name                             Place  \
0           0  BUNK Hotel Amsterdam        Amsterdam Noord, Amsterdam   
1           1       YOTEL Amsterdam        Amsterdam Noord, Amsterdam   
2           2       Multatuli Hotel  Amsterdam City Center, Amsterdam   
3     

In [None]:
# =============================================
# PASSO 5 - Carregar e processar o dataset TITANIC
# =============================================

df_titanic = pd.read_csv('/content/drive/MyDrive/Separa/Analise de Dados/Titanic.csv')
df_titanic.info()

print("\nInformações do Titanic:")
df_titanic.info()

print("\nPrimeiras linhas do Titanic:")
print(df_titanic.head())

print("\nResumo estatístico do Titanic:")
print(df_titanic.describe(include='all'))

# Verificar e remover duplicatas
print(f"\nDuplicatas encontradas: {df_titanic.duplicated().sum()}")
df_titanic = df_titanic.drop_duplicates()

# Preencher valores ausentes
print("\nValores ausentes antes de preencher:")
print(df_titanic.isnull().sum())

df_titanic['Age'] = df_titanic['Age'].fillna(df_titanic['Age'].mean())
df_titanic['Embarked'] = df_titanic['Embarked'].fillna(df_titanic['Embarked'].mode()[0])

print("\nValores ausentes após preenchimento:")
print(df_titanic.isnull().sum())

print("\nTitanic após limpeza:")
print(df_titanic.head())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB

Informações do Titanic:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null

In [None]:
# =============================================
# PASSO 6 - Exercício de remoção e preenchimento de valores ausentes
# =============================================

df_exemplo = pd.DataFrame({
    'A': [1, np.nan, np.nan, 4],
    'B': [np.nan, 2, np.nan, 4],
    'C': [1, np.nan, np.nan, np.nan]
})

print("\nDataFrame de exemplo com valores ausentes:")
print(df_exemplo)

# Remover linhas com menos de 2 valores não nulos
df_thresh_rows = df_exemplo.dropna(thresh=2)

# Remover colunas com menos de 2 valores não nulos
df_thresh_cols = df_exemplo.dropna(axis=1, thresh=2)

print("\nApós remover linhas com poucos valores preenchidos:")
print(df_thresh_rows)

print("\nApós remover colunas com poucos valores preenchidos:")
print(df_thresh_cols)



DataFrame de exemplo com valores ausentes:
     A    B    C
0  1.0  NaN  1.0
1  NaN  2.0  NaN
2  NaN  NaN  NaN
3  4.0  4.0  NaN

Após remover linhas com poucos valores preenchidos:
     A    B    C
0  1.0  NaN  1.0
3  4.0  4.0  NaN

Após remover colunas com poucos valores preenchidos:
     A    B
0  1.0  NaN
1  NaN  2.0
2  NaN  NaN
3  4.0  4.0
