# Adattisztítás és integráció

A valós adathalmazok gyakran zajosak, hiányosak, avagy éppen redundáns információt vagy duplikátum egyedeket tartalmaznak. Ezért a tudásfeltárás folyamatában az adattisztítás és adatintegrálással kezdődik.

Az adattisztítás szerepe javítani az adatok minőségén azáltal, hogy kiszűri és eltávolítja az adatokban fellépő hibákat és inkonzisztenciákat.

Az [adattisztítás](https://hu.wikipedia.org/wiki/Adattiszt%C3%ADtás) során:
"
- felmérjük a hibákat
	- ellenőrizzük az adatfájl szerkezeti épségét
	- a zajt, felesleges információt tartalmazó mezőket javítjuk
	- felmérjük a hiányzó értékeket és amennyiben lehet ezeket pótoljuk
	- felmérjük az adatközlési és adatbeviteli hibákat
		- megvizsgáljuk az egyes változók eloszlását
			- az eloszlások szélein elhelyezkedő extrém értékeket ellenőrizzük
			- felmérjük, hogy az eloszlások megfelelnek-e az előzetes elvárásainknak, vannak-e nem várt sűrűsödések, ritkulások egyes értéktartományokban (például durva kerekítés vagy eltérő mértékegység használata az adatszolgáltatók egy részénél)
		-  megvizsgáljuk, hogy a változók közötti triviális összefüggések teljesülnek-e
-  a hibásnak tűnő adatokat felülvizsgáljuk, javítjuk 
".


# Feladatok

1. Az `egyetemek.txt` fájlból szűrjük ki az államokat és azon belül a városokat, melyben egyetemek találhatóak. Ha vannak duplikátumok, helytelen adatok (pl. számokat tartalmazó államnév), ezeket javítsuk. Vizsgáljuk meg az egyetemek eloszlását államok szerint. Melyik államban van a legtöbb, legkevesebb egyetem?


In [17]:
with open('/content/sample_data/egyetemek.txt', 'r', encoding='utf-8') as f:
    data = f.readlines()

universities = {}

for line in data:
    line = line.strip()
    if line:
        try:
            state, unis = line.split("[edit]")
            state = state.strip()
            unis = unis.strip().strip("[]")
            uni_list = unis.split(",")
            universities[state] = [uni.strip() for uni in uni_list]
        except ValueError:
            print(f"Could not process line: {line}")

for line in data:
    line = line.strip()
    if line:
        state, unis = line.split("[edit]") if "[edit]" in line else (line, "")
        state = state.strip()
        unis = unis.strip().strip("[]")
        uni_list = unis.split(",")
        universities[state] = [uni.strip() for uni in uni_list]

counts = {state: len(unis) for state, unis in universities.items()}

most_unis_state = max(counts, key=counts.get)
least_unis_state = min(counts, key=counts.get)

print("**********************************************************")
print(f"Legtöbb egyetem: {most_unis_state} ({counts[most_unis_state]} db)")
print(f"Legkevesebb egyetem: {least_unis_state} ({counts[least_unis_state]} db)")
print("**********************************************************")

# print(universities)




Could not process line: Auburn (Auburn University)[1]
Could not process line: Florence (University of North Alabama)
Could not process line: Jacksonville (Jacksonville State University)[2]
Could not process line: Livingston (University of West Alabama)[2]
Could not process line: Montevallo (University of Montevallo)[2]
Could not process line: Troy (Troy University)[2]
Could not process line: Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Could not process line: Tuskegee (Tuskegee University)[5]
Could not process line: Fairbanks (University of Alaska Fairbanks)[2]
Could not process line: Flagstaff (Northern Arizona University)[6]
Could not process line: Tempe (Arizona State University)
Could not process line: Tucson (University of Arizona)
Could not process line: Arkadelphia (Henderson State University, Ouachita Baptist University)[2]
Could not process line: Conway (Central Baptist College, Hendrix College, University of Central Arkansas)[2]
Could not process 

2. Bővítsük ki az adatbázisunkat egy oszloppal, mely tartalmazza az államok rövidítését is (pl. Texas - TX, California - CA stb.).  [Forrás](https://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations).

In [None]:
abbreviations = {}

with open('/content/sample_data/data.csv') as f:
    for line in f:
        state, abbreviation = line.strip().split(',')
        abbreviations[state] = abbreviation

def load_universities(filename):
    universities = {}
    with open(filename) as f:
        state = None
        for line in f:
            line = line.strip()
            if not line:
                continue
            if "[edit]" in line:
                state = line.replace("[edit]", "").strip()
                if state in abbreviations:
                    state_abbrev = abbreviations[state]
                else:
                    state_abbrev = None
                universities[state] = {"abbrev": state_abbrev, "universities": []}
            else:
                universities[state]["universities"].append(line)
    return universities

load_universities('/content/sample_data/egyetemek.txt')


3. Az adatbázist integráljuk a [List of states and territories of the United States by population](https://en.wikipedia.org/wiki/List_of_states_and_territories_of_the_United_States_by_population) linken szereplő népszámlálási adatokkal és számoljuk ki államonként hány főre jut egy egyetemi város.

4. Hasonlóan, a [List of U.S. states and territories by area](https://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_area) linken szereplő területi adatok integrálásával, számoljuk ki államonként átlagban hány négyzetkilométerre jut egy egyetemi város.

5. A [példa](https://datasciencechalktalk.com/2019/09/28/analyzing-u-s-exports-with-plotly/), a kivitelt, exportmennyiséget ábrázolja az Amerikai Egyesült Államok térképen, államonként lebontva ezt. Készítsünk hasonló ábrákat az egyetemek abszolút, lakoság és terület szerinti eloszlásáról is. Az ábrákat exportáljuk kép formájában.
![](https://i.ibb.co/s1zdnLY/mapplot.png)

Ábra 1. [Térképen való ábrázolás](https://plotly.com/python/maps/) Plotly segítségével. [Forrás](https://datasciencechalktalk.com/2019/09/28/analyzing-u-s-exports-with-plotly/).

6. Számoljuk ki, hány egyetem van városonként, majd összesítve államonként. Ehhez az `egyetemek.txt` fájlban miután megkapunk egy várost, az utána következő kerek zárójelek között megszámoljuk, hány vesszővel elválasztott karakterlánc található. 
Pl. a következő sorban:	`Claremont (Claremont McKenna College, Pomona College, Harvey Mudd College, Scripps College, Pitzer College, Keck Graduate Institute, Claremont Graduate University)[5]` -> 6 vessző van a kerek zárójelek között, tehát 7 egyetem van a városban.    
Melyik államban és melyik városban van a legtöbb egyetem?