# Hands-On

Você foi designado para realizar a limpeza e preparação de dados de dois conjuntos de dados (base1.csv e base2.csv) distintos que representam informações relacionadas a risco de crédito.

Seu objetivo é ler os dois conjuntos de dados usando a biblioteca Pandas, realizar a concatenação dos dados, lidar com valores duplicados e faltantes, além de verificar a presença de outliers nos dados combinados.

____

## Passos a serem seguidos:

1. **Leitura dos Arquivos:** Utilize a biblioteca Pandas para ler os dois arquivos de dados: 'base1.csv' e 'base2.csv', que estão no diretório datasets, no repositório do módulo.
2. **Concatenação dos Dados:** Concatene os dois conjuntos de dados em um único DataFrame, verificando se os dados possuem a mesma estrutura para uma concatenação adequada.
3. **Tratamento de Dados Duplicados:** Verifique se há linhas duplicadas no DataFrame combinado e remova-as, mantendo a primeira ocorrência.
4. **Tratamento de Valores Faltantes:** Identifique e lide com os valores faltantes no DataFrame combinado. Preencha os valores ausentes com estratégias apropriadas (média, mediana, valor específico etc.) dependendo do contexto dos dados.
5. **Verificação de Outliers:** Utilize métodos estatísticos ou gráficos (como boxplots) para identificar a presença de outliers nos dados. Considere se eles são significativos para a análise ou se precisam ser tratados de alguma forma.

In [0]:
'''Passo 1 Fazendo a leitura dos Arquivos'''

'Passo 1 Fazendo a leitura dos Arquivos'

In [0]:
import pandas as pd

In [0]:
base1 = pd.read_csv('/Workspace/Repos/lsetto@unimedcampinas.com.br/ADA_classes/DS-PY-Data-Science/DS-PY-004 TÉCNICAS DE PROGRAMAÇÃO I (PY)/Material do Aluno/datasets/base1.csv')

base2 = pd.read_csv('/Workspace/Repos/lsetto@unimedcampinas.com.br/ADA_classes/DS-PY-Data-Science/DS-PY-004 TÉCNICAS DE PROGRAMAÇÃO I (PY)/Material do Aluno/datasets/base2.csv')

In [0]:
base1

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,104,104,26,male,2,rent,,,2445,12,car,good
1,360,360,61,male,2,free,,moderate,1239,18,education,good
2,695,695,50,male,2,rent,quite rich,,1236,6,car,good
3,902,902,42,male,2,free,,,10477,36,car,good
4,312,312,26,female,2,own,little,rich,3749,24,furniture/equipment,good
...,...,...,...,...,...,...,...,...,...,...,...,...
665,456,456,36,male,2,rent,little,little,3905,11,car,good
666,623,623,22,female,2,rent,little,little,1858,12,furniture/equipment,good
667,225,225,27,male,2,own,little,,2613,36,repairs,good
668,874,874,29,male,1,own,little,little,3590,12,furniture/equipment,good


In [0]:
base2

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,674,674,41,male,1,own,quite rich,,2580,21,business,bad
1,983,983,26,male,2,own,little,little,8229,36,car,bad
2,31,31,27,male,2,own,little,little,4020,24,furniture/equipment,good
3,50,50,29,male,1,own,,moderate,2333,24,furniture/equipment,good
4,654,654,35,male,2,own,little,,2346,24,car,good
...,...,...,...,...,...,...,...,...,...,...,...,...
325,467,467,32,male,2,own,,,7238,48,radio/TV,good
326,829,829,38,male,2,free,,moderate,6681,48,business,good
327,296,296,20,female,2,rent,,,4675,12,car,good
328,235,235,30,male,3,own,little,little,1823,24,radio/TV,bad


In [0]:
'''Passo 2 Concatenação dos Dados'''

'Passo 2 Concatenação dos Dados'

In [0]:
#utilizei o ignore_index=True, para não importar duas vezes o indice
df = pd.concat([base1, base2], ignore_index=True)

df

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,104,104,26,male,2,rent,,,2445,12,car,good
1,360,360,61,male,2,free,,moderate,1239,18,education,good
2,695,695,50,male,2,rent,quite rich,,1236,6,car,good
3,902,902,42,male,2,free,,,10477,36,car,good
4,312,312,26,female,2,own,little,rich,3749,24,furniture/equipment,good
...,...,...,...,...,...,...,...,...,...,...,...,...
995,467,467,32,male,2,own,,,7238,48,radio/TV,good
996,829,829,38,male,2,free,,moderate,6681,48,business,good
997,296,296,20,female,2,rent,,,4675,12,car,good
998,235,235,30,male,3,own,little,little,1823,24,radio/TV,bad


In [0]:
'''Passo 3 Tratamento de Dados Duplicados'''

'Passo 3 Tratamento de Dados Duplicados'

In [0]:
# criado a função que mostrou que não tem texto duplicados
df.loc[df.duplicated()]

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk


In [0]:
# Caso tivesse, esse seria o código para remover dados duplicados

df.drop_duplicates()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,104,104,26,male,2,rent,,,2445,12,car,good
1,360,360,61,male,2,free,,moderate,1239,18,education,good
2,695,695,50,male,2,rent,quite rich,,1236,6,car,good
3,902,902,42,male,2,free,,,10477,36,car,good
4,312,312,26,female,2,own,little,rich,3749,24,furniture/equipment,good
...,...,...,...,...,...,...,...,...,...,...,...,...
995,467,467,32,male,2,own,,,7238,48,radio/TV,good
996,829,829,38,male,2,free,,moderate,6681,48,business,good
997,296,296,20,female,2,rent,,,4675,12,car,good
998,235,235,30,male,3,own,little,little,1823,24,radio/TV,bad


In [0]:
'''Passo 4 Tratamento de Valores Faltantes'''
#Neste passo vamos identificar os valores faltantes por coluna

'Passo 4 Tratamento de Valores Faltantes'

In [0]:
missing_values = df.isnull().sum()

In [0]:
# Essa função substitui os valores ausentes no DataFrame pela cadeia de caracteres "Texto não preenchido". O parâmetro inplace=True modifica o DataFrame no lugar.

df.fillna('Texto não preenchido', inplace=True)

In [0]:
"Passo 5 Verificação de Outliers"
# Verificação de outliers com boxplot
# Substitua 'coluna_numerica' pelo nome da coluna numérica que você quer analisar
import matplotlib.pyplot as plt

plt.boxplot(df['Texto não preenchido'])
plt.title('Boxplot da Coluna Texto não preenchido ')
plt.show()

[0;31m---------------------------------------------------------------------------[0m
[0;31mKeyError[0m                                  Traceback (most recent call last)
File [0;32m/databricks/python/lib/python3.10/site-packages/pandas/core/indexes/base.py:3629[0m, in [0;36mIndex.get_loc[0;34m(self, key, method, tolerance)[0m
[1;32m   3628[0m [38;5;28;01mtry[39;00m:
[0;32m-> 3629[0m     [38;5;28;01mreturn[39;00m [38;5;28;43mself[39;49m[38;5;241;43m.[39;49m[43m_engine[49m[38;5;241;43m.[39;49m[43mget_loc[49m[43m([49m[43mcasted_key[49m[43m)[49m
[1;32m   3630[0m [38;5;28;01mexcept[39;00m [38;5;167;01mKeyError[39;00m [38;5;28;01mas[39;00m err:

File [0;32m/databricks/python/lib/python3.10/site-packages/pandas/_libs/index.pyx:136[0m, in [0;36mpandas._libs.index.IndexEngine.get_loc[0;34m()[0m

File [0;32m/databricks/python/lib/python3.10/site-packages/pandas/_libs/index.pyx:163[0m, in [0;36mpandas._libs.index.IndexEngine.get_loc[0;34m()[0m

F