---

author: Юрій Клебан

---

# Робота з неіменованими та "поганоіменованими" даними

## Іменування даних

Першим прикладом проблем у даних можна розгянути читання неіменованих даних, тобто стопці таблиці не мають заголовків у файлі.

Створимо такий файл у блокноті і зчитаємо його:

In [3]:
data <- read.csv("data/untitled.csv")
data

X23,X185,X85.7,Male
<int>,<chr>,<dbl>,<chr>
41,175,68.3,M
11,142*,55.4,Female
12,,48.2,Man
54,171,,Looks like a man
32,168,78.0,F


Зверніть увагу, що у якості стовпців взято перший рядок даних у додано `X` на початку. Зчитаємо дані із параметром, що вказує на відсутність заголовків:

In [4]:
data <- read.csv("data/untitled.csv", header = FALSE)
data

V1,V2,V3,V4
<int>,<chr>,<dbl>,<chr>
23,185,85.7,Male
41,175,68.3,M
11,142*,55.4,Female
12,,48.2,Man
54,171,,Looks like a man
32,168,78.0,F


Проблема іменування не вирішена, дані ми уже не втратили. Передамо одночасно з читанням інформацію про назви стовпців:

In [11]:
data <- read.csv("data/untitled.csv", 
            header = FALSE,
            col.names = c("Age","Height", "Weight", "Gender"))
data

Age,Height,Weight,Gender
<int>,<chr>,<dbl>,<chr>
23,185,85.7,Male
41,175,68.3,M
11,142*,55.4,Female
12,,48.2,Man
54,171,,Looks like a man
32,168,78.0,F


Ще одним варіантом задання назв стовпців є використання функції `colnames()` як для усіх різом, так і для окремого:

In [13]:
colnames(data) <- c("age", "height", "width", "gender")
data
colnames(data)[2] <- "HEIGHT"
data

age,height,width,gender
<int>,<chr>,<dbl>,<chr>
23,185,85.7,Male
41,175,68.3,M
11,142*,55.4,Female
12,,48.2,Man
54,171,,Looks like a man
32,168,78.0,F


age,HEIGHT,width,gender
<int>,<chr>,<dbl>,<chr>
23,185,85.7,Male
41,175,68.3,M
11,142*,55.4,Female
12,,48.2,Man
54,171,,Looks like a man
32,168,78.0,F


Також змінювати назви стовпців можна за допомогою функції `rename()` з пакету `dplyr`:

In [15]:
library(dplyr)

data <- data |> rename(AGE = age)
data

AGE,HEIGHT,width,gender
<int>,<chr>,<dbl>,<chr>
23,185,85.7,Male
41,175,68.3,M
11,142*,55.4,Female
12,,48.2,Man
54,171,,Looks like a man
32,168,78.0,F


---

## Заміна назв стовпців data.frame <a class="anchor" id="id22">

Зчитаємо файл, що містить інформацію про осіб, але уже має іменовані стовпці: 

In [16]:
data <- read.csv("data/badtitled.csv")
data

Person.Age,Person__Height,person.Weight,Person.Gender,empty
<int>,<chr>,<dbl>,<chr>,<lgl>
23,185,,Male,
41,175,68.3,M,
11,142*,55.4,Female,
12,,48.2,Man,
54,191,,female,
32,168,78.0,F,
22,,54.0,male.,
21,165,,m,
14,,90.2,Man,
51,250,,female,


Швидко змінити назви стовпців та привести їх до однакового стилю можна за домогою бібліотеки `janitor`:

In [21]:
#install.packages("janitor")

In [22]:
library(janitor)
clean <- clean_names(data)
colnames(clean)

---

## Набори даних

1. https://github.com/kleban/r-book-published/tree/main/datasets/untitled.csv
2. https://github.com/kleban/r-book-published/tree/main/datasets/badtitled.csv
3. https://github.com/kleban/r-book-published/tree/main/datasets/cleaned_titled.csv
4. https://github.com/kleban/r-book-published/tree/main/datasets/cleaned_titled2.csv
5. https://github.com/kleban/r-book-published/tree/main/datasets/river_eco.csv

---

## Використані та додаткові джерела

1. [KPMG Virtual Internship](https://www.insidesherpa.com/virtual-internships/m7W4GMqeT3bh9Nb2c)
2. [An introduction to data cleaning with R / Edwin de Jonge, Mark van der Loo, 2013](https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf)
3. [Anomaly Detection in R](datacamp.com/courses/anomaly-detection-in-r)
4. [K-nearest Neighbor: The maths behind it, how it works and an example](https://medium.com/analytics-vidhya/k-nearest-neighbor-the-maths-behind-it-how-it-works-and-an-example-f1de1208546c)
5. [Quantile. Wikipedia](https://en.wikipedia.org/wiki/Quantile)