# MBA em Ciência de Dados
# Técnicas Avançadas de Captura e Tratamento de Dados

### <span style="color:darkred">Módulo I - Dados Estruturados, Não Estruturados e problemas típicos em bases de dados</span>


## <span style="color:darkred">Avaliação com soluções</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos


---

In [1]:
# carregando a biblioteca necessária
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


Considere a base de dados disponível em `TACTD-01-Base-Avaliacao2024.csv`. Essa base contém dados de profissionais da área da saúde incluindo: nome, sexo, ano de nascimento, religião, país e cidade de residência, país de origem, idade ao final de 2022, salário e ano do primeiro emprego.

### Questão 1)

Considere a base de dados disponível em `TACTD-01-Base-Avaliacao2024.csv`. 

Analise o atributo 'Sex' buscando por dados incorretos, considerando que são corretos apenas 'F' e 'M' (em letras maiúsculas). Corrija os que forem possível corrigir. 

Após o tratamento, analise as linhas com dados faltantes no atributo 'Sex', i.e. linhas que não sejam 'F' nem 'M', inspecionando em conjunto com as colunas: Year of Birth, Country of Residency e City (analisar apenas essas colunas). 

Com essa análise podemos dizer que os dados faltantes:
 
 (a) São do tipo completamente aleatório (MCAR)<br>
 (b) São do tipo (condicionalmente) aleatório (MAR)<br>
 (c) São do tipo não aleatório<br>
 (d) Não há dados faltantes<br>
 (e) Metade são do tipo (condicionalmente) aleatório (MAR) e a outra metade completamente aleatório (MCAR)<br>

In [1]:
import pandas as pd
df = pd.read_csv(r'./dados/TACTD-01-Base-Avaliacao2024.csv')
df.head()

Unnamed: 0,Name,Sex,Year of Birth,Country of Residency,Religion,City,Country of Origin,Continent of Origin,Profession,Current Age 2022,Salary,Year first employment
0,Vinicius Vitorio,M,1940,Brazil,Christian,São Paulo,Australia,Oceania,Physical therapist,82,53626.3,1986.0
1,Ariel Almada,F,1950,Portugal,Christian,Lisbon,Australia,Oceania,Carpenter,72,47150.7,1976.0
2,Maia Banks,masc,1957,USA,Christian,New York,Australia,Oceania,Dental hygienist,65,50703.7,1990.0
3,Diego Colque,M,1958,Peru,Christian,Arequipa,Australia,Oceania,Event planner,64,56111.3,1987.0
4,Vivian Arnold,F,1960,Brazil,Christian,São Paulo,Australia,Oceania,Musician,62,48790.6,1995.0


In [2]:
df['Sex'].unique()

array(['M', 'F', 'masc', 'f', 'm', nan], dtype=object)

In [3]:
sexo = {'F': 'F', 'f': 'F', 'm': 'M', 'M': 'M', 'masc': 'M'}

# Aplicando a função lambda para mapear os valores
df['Sex'] = df['Sex'].apply(lambda x: sexo.get(x, x))


In [4]:
df['Sex'].unique()

array(['M', 'F', nan], dtype=object)

In [6]:
df[df['Sex'].isna()]

Unnamed: 0,Name,Sex,Year of Birth,Country of Residency,Religion,City,Country of Origin,Continent of Origin,Profession,Current Age 2022,Salary,Year first employment
90,Rupert Rollison,,1986,England,Christian,Birmingham,New Zealand,Oceania,Nurse,36,49492.3,2016.0
91,Jameson Mendoza,,1987,Mexico,Christian,Acapulco,Australia,Oceania,Construction worker,35,46206.1,
92,Mayra Mcnish,,1987,England,Christian,Birmingham,Australia,Oceania,Server,35,46957.2,2018.0
93,Willene Wolfgram,,1987,USA,Christian,New Orleans,Australia,Oceania,Police Officer,35,49000.0,2017.0
94,Izaiah Duarte,,1987,Brazil,Christian,São Paulo,Australia,Oceania,Nurse,35,49562.1,2016.0
95,Susie Hodges,,1987,Brazil,Christian,São Paulo,Australia,Oceania,Chef,35,50418.9,
96,David Pittman,,1987,Australia,Christian,Brisbane,Australia,Oceania,Actor,35,52518.4,2020.0
97,Jim Foster,,1988,USA,Christian,New Orleans,Australia,Oceania,Dentist,34,50469.8,
98,Herta Hatley,,1988,USA,Christian,New Orleans,Australia,Oceania,Human resources manager,34,54388.5,2011.0
99,Bernard Summers,,1989,USA,Christian,New Orleans,Australia,Oceania,Sales representative,33,53984.6,2019.0


In [10]:
df['Year of Birth'].value_counts()

Year of Birth
1984    10
1981     7
1982     6
1987     6
1985     5
1962     5
1976     5
1980     4
1967     4
1973     4
1979     3
1978     3
1977     3
1974     3
1970     3
1983     3
1966     3
1965     3
1969     3
1972     2
1968     2
1986     2
1988     2
1989     2
1990     2
1940     1
1950     1
1971     1
1963     1
1961     1
1960     1
1958     1
1957     1
2010     1
Name: count, dtype: int64

In [13]:
df['Country of Residency'].value_counts()

Country of Residency
USA                     24
Brazil                  14
Spain                   11
Scotland                 8
Canada                   8
Mexico                   7
Australia                7
England                  7
Portugal                 6
Peru                     6
United Arab Emirates     5
Wales                    1
Name: count, dtype: int64

In [14]:
df['City'].value_counts()

City
New Orleans    19
São Paulo      13
Valencia       11
Edinburgh       9
Acapulco        7
Vancouver       7
Brisbane        7
Lisbon          6
Arequipa        6
Birmingham      6
New York        5
Dubai           5
Rivendell       1
Santo André     1
_Dh             1
Name: count, dtype: int64

---

### Questão 2)

Considere a base de dados disponível em `TACTD-01-Base-Avaliacao2024` (carregue a versão original), e analise os dados no atributo 'Religion' por dados incorretos. 
1. Corrija os que for possível corrigir
2. Marque como nulos/nans os incorretos que não foram passíveis de correção.

Após os processos acima, podemos afirmar que houve:

 (a) 8 dados faltantes ao final, sendo 6 inicialmente errôneos, 2 dados corrigidos<br>
 (b) 8 dados faltantes ao final, sendo 4 inicialmente errôneos, nenhum corrigido<br>
 (c) 8 dados faltantes ao final, sendo 4 inicialmente errôneos, 3 dados corrigidos<br>
 (d) 9 dados faltantes ao final, sendo 6 inicialmente errôneos, 2 dados corrigidos<br>
 (e) 9 dados faltantes ao final, sendo 4 inicialmente errôneos, nenhum corrigido
 

In [13]:
df = pd.read_csv("./dados/TACTD-01-Base-Avaliacao2024.csv")

In [14]:
# codigo

---
### Questão 3)

Quais dos items abaixo são características de dados estruturados?

I - Endereçamento direto de dados individuais<br>
II - Grande Flexibilidade na coleta/captura dos dados<br>
III - Alta redundância<br>
IV - Maior riqueza e variedade de informação devido ao baixo controle<br>
V - Adequados para armazenamento e recuperação a partir de bases de dados relacionais<br>

(a) I, II<br>
(b) I, V<br>
(c) I, IV, V<br>
(d) II, III, V<br>
(e) todos os items<br>


---

### Questão 4)

Considere a base de dados disponível em `TACTD-01-Base-Avaliacao2024.csv`, e analise os dados no atributo `Salary` por meio do gráfico de caixa e depois visualizando as linhas contendo outliers mostrados no gráfico de caixa. 

O atributo possui:

(a) 2 outliers globais<br>
(b) 3 outliers globais<br>
(c) 4 outliers globais<br>
(d) 5 outliers globais<br>
(e) 6 outliers globais<br>

In [23]:
df = pd.read_csv("./dados/TACTD-01-Base-Avaliacao2024.csv")

In [15]:
## seu codigo

## Questão 5)

Considere a base de dados disponível em `TACTD-01-Base-Avaliacao2024.csv`, e busque por linhas duplicadas considerando apenas os dados nas colunas `Name`, `Sex`, `City` e `Year of Birth`. 

A seguir, busque por atributos não informativos (redundantes/constantes) em todas as colunas. Quantas linhas duplicadas foram encontradas, e qual(is) atributo(s) pode(m) ser considerado(s) não informativo(s)?

(a) 1 linha duplicada; atributos não informativos: Continent of Origin<br>
(b) 1 linha duplicada; atributos não informativos: Profession e Country of Origin<br>
(c) 4 linhas duplicadas; atributos não informativos: Current Age 2022, Continent of Origin<br>
(d) 5 linhas duplicadas; atributos não informativos: Country of Origin<br>
(e) 5 linhas duplicadas; atributos não informativos: Current Age 2022 e Continent of Origin<br>

In [27]:
df = pd.read_csv("./dados/TACTD-01-Base-Avaliacao2024.csv")

In [16]:
## seu codigo