In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Wczytwyanie danych i bazy danych

**Zadanie 1**
Dokonaj iteracji (po 1000 elementowych kawałkach) przez plik *dane6.csv* (z wykładu), dokonując agregacji wartości umieszczonych w kolumnie `key` (zliczając liczbę wystąpień każdego klucza). Posortuj zestawienie od najawiększej liczby wystąpień kluczy do najmniejszej.


In [None]:
import pandas as pd
from collections import Counter

file_path = '/content/drive/MyDrive/Analiza_Danych/dane6.csv'

key_counts = Counter()

chunk_size = 1000
for chunk in pd.read_csv(file_path, chunksize=chunk_size):
    key_counts.update(chunk['key'].value_counts())

key_counts_df = pd.DataFrame(key_counts.items(), columns=['key', 'count'])
key_counts_df = key_counts_df.sort_values(by='count', ascending=False).reset_index(drop=True)

display(key_counts_df)

Unnamed: 0,key,count
0,40,20
1,37,18
2,36,18
3,34,18
4,38,17
5,39,15
6,45,13
7,42,13
8,35,12
9,43,11


**Zadanie 2**
Korzystając z funkcji `read_html()` pakietu `pandas` wczytaj tabele z polskiej strony Wikipedii dot. Krakowa. Znadź tabelę zawirającą średnia temperatura i opady dla Krakowa. Usuń soatni wiersz tej tabeli a kolumne z rocznym podsumowanie zastąp poprawnie na nowo wyliczonymi wartosciami (dlaczego ta kolumna we wczytanej tabeli zawiara błędne dane?).

In [None]:
import pandas as pd
url = "https://pl.wikipedia.org/wiki/Krak%C3%B3w"
tables = pd.read_html(url)
climate_table = tables[7]
print("Oryginalna tabela:")
display(climate_table)

climate_table = climate_table.iloc[:-2]
for index, row in climate_table.iterrows():
  row = row.replace('−', '-')
  if "Średnie" in row.iloc[0]:
    climate_table.at[index, 'Roczna'] = pd.to_numeric(row[1:13], errors='coerce').mean()
  else:
    climate_table.at[index, 'Roczna'] = pd.to_numeric(row[1:13], errors='coerce').sum()

print("Tabela po przeliczeniu kolumny Roczna i usunięciu ostatniego wiersza:")
display(climate_table)

Oryginalna tabela:


Unnamed: 0,Miesiąc,Sty,Lut,Mar,Kwi,Maj,Cze,Lip,Sie,Wrz,Paź,Lis,Gru,Roczna
0,Średnie temperatury w dzień [°C],1.2,3.0,7.8,14.4,19.8,22.3,24.6,24.1,18.9,13.9,6.9,2.1,133
1,Średnie dobowe temperatury [°C],−2.1,−0.6,3.5,8.9,14.2,16.9,19.0,18.5,14.0,9.2,3.5,−0.9,87
2,Średnie temperatury w nocy [°C],−5.3,−4.2,−0.9,3.4,8.5,11.5,13.4,12.8,9.0,4.5,0.0,−3.8,41
3,Opady [mm],37.5,29.7,40.2,46.4,81.2,86.4,87.9,75.7,62.4,43.2,42.1,38.8,6715
4,Średnia liczba dni z opadami,16,16,15,13,15,15,15,13,12,13,16,17,175
5,Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30],Źródło: Światowa Organizacja Meteorologiczna[30]


Tabela po przeliczeniu kolumny Roczna i usunięciu ostatniego wiersza:


Unnamed: 0,Miesiąc,Sty,Lut,Mar,Kwi,Maj,Cze,Lip,Sie,Wrz,Paź,Lis,Gru,Roczna
0,Średnie temperatury w dzień [°C],1.2,3.0,7.8,14.4,19.8,22.3,24.6,24.1,18.9,13.9,6.9,2.1,13.25
1,Średnie dobowe temperatury [°C],−2.1,−0.6,3.5,8.9,14.2,16.9,19.0,18.5,14.0,9.2,3.5,−0.9,11.966667
2,Średnie temperatury w nocy [°C],−5.3,−4.2,−0.9,3.4,8.5,11.5,13.4,12.8,9.0,4.5,0.0,−3.8,7.8875
3,Opady [mm],37.5,29.7,40.2,46.4,81.2,86.4,87.9,75.7,62.4,43.2,42.1,38.8,671.5


**Zadanie 3**
Na podstawie wykładu i zbioru plików danych (*database*) utwórz na ramki danych oraz baze danych z tabelami na podstawi tych danych.

In [None]:
import pandas as pd
import sqlite3
import os
from google.colab import drive

folder_path = "/content/drive/MyDrive/Analiza_Danych/database"

dataframes = {}
for file_name in os.listdir(folder_path):
  if file_name.endswith(".csv"):
    df_name = file_name.replace(".csv", "")
    df = pd.read_csv(os.path.join(folder_path, file_name))
    dataframes[df_name] = df

conn = sqlite3.connect("/content/database.db")

for table_name, df in dataframes.items():
  df.to_sql(table_name, conn, index=False, if_exists="replace")

**W kolejnych zadaniach wykorzystaj dane utworzone po wykonaniu zadania 3.**

**Zadanie 4**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Kolumna `engine` z tabeli `planes` określa typ silnika - oczywiście każdy z nich może być zamontowany w więcej niż jednym samolocie. Wypisz dostępne  i unikatowe typy silników.

In [None]:
conn = sqlite3.connect('database.db')
cursor = conn.cursor()
# sposób 1
query = "SELECT DISTINCT engine FROM planes;"
unique_engines_sql = pd.read_sql_query(query, conn)
print("Dostępne i unikatowe typy silników (SQL):")
display(unique_engines_sql)

# sposób 2

unique_engines_pandas = dataframes['planes']['engine'].drop_duplicates().reset_index(drop=True)
print("Dostępne i unikatowe typy silników (Pandas):")
display(unique_engines_pandas)

Dostępne i unikatowe typy silników (SQL):


Unnamed: 0,engine
0,Turbo-fan
1,Turbo-jet
2,Reciprocating
3,4 Cycle
4,Turbo-shaft
5,Turbo-prop


Dostępne i unikatowe typy silników (Pandas):


Unnamed: 0,engine
0,Turbo-fan
1,Turbo-jet
2,Reciprocating
3,4 Cycle
4,Turbo-shaft
5,Turbo-prop


**Zadanie 5**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Zmienna `type` określa typ samolotu. Wybierz wszystkie unikatowe pary postaci: typ silnika, typ samolotu.

In [None]:
cursor.execute("SELECT DISTINCT engine, type FROM planes;")
results = cursor.fetchall()

for row in results:
    print(row)

('Turbo-fan', 'Fixed wing multi engine')
('Turbo-jet', 'Fixed wing multi engine')
('Reciprocating', 'Fixed wing single engine')
('Reciprocating', 'Fixed wing multi engine')
('4 Cycle', 'Fixed wing single engine')
('Turbo-shaft', 'Rotorcraft')
('Turbo-prop', 'Fixed wing multi engine')


In [None]:
unique_pairs = df[['engine', 'type']].drop_duplicates().reset_index(drop=True)
display(unique_pairs)

KeyError: "None of [Index(['engine', 'type'], dtype='object')] are in the [columns]"

**Zadanie 6**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Dla każdego typu silnika oblicz , w ilu samolotach został on zamontowany.

In [None]:
#sposób 1
query = """
SELECT engine, COUNT(*) AS count
FROM planes
GROUP BY engine;
"""
engine_counts_sql = pd.read_sql_query(query, conn)
print("Liczba samolotów dla każdego typu silnika (SQL):")
display(engine_counts_sql)

#sposób 2
engine_counts_pandas = dataframes['planes'].groupby('engine').size().reset_index(name='count')
print("Liczba samolotów dla każdego typu silnika (Pandas):")
display(engine_counts_pandas)

Liczba samolotów dla każdego typu silnika (SQL):


Unnamed: 0,engine,count
0,4 Cycle,2
1,Reciprocating,28
2,Turbo-fan,2750
3,Turbo-jet,535
4,Turbo-prop,2
5,Turbo-shaft,5


Liczba samolotów dla każdego typu silnika (Pandas):


Unnamed: 0,engine,count
0,4 Cycle,2
1,Reciprocating,28
2,Turbo-fan,2750
3,Turbo-jet,535
4,Turbo-prop,2
5,Turbo-shaft,5


**Zadanie 7**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Znajdź okresy produkcji samolotów w podgrupach wyznaczonych przez unikatowe kombinacje par postaci: typ silnika, typ samolotu., wyznaczając rok produkcji najstarszego (minimalny rok produkcji) i najmłodszego (maksymalny rok produkcji) z nich.

In [None]:
# sposób 1
query = """
SELECT engine, type, MIN(year) AS oldest_year, MAX(year) AS newest_year
FROM planes
GROUP BY engine, type;
"""
print("Okresy produkcji samolotów dla unikatowych kombinacji (SQL):")
display(pd.read_sql_query(query, conn))

# sposób 2
production_periods_pandas = dataframes['planes'].groupby(['engine', 'type']).agg(
oldest_year=('year', 'min'),
newest_year=('year', 'max')
).reset_index()
print("Okresy produkcji samolotów dla unikatowych kombinacji (Pandas):")
display(production_periods_pandas)

Okresy produkcji samolotów dla unikatowych kombinacji (SQL):


Unnamed: 0,engine,type,oldest_year,newest_year
0,4 Cycle,Fixed wing single engine,1975.0,1975.0
1,Reciprocating,Fixed wing multi engine,1956.0,1980.0
2,Reciprocating,Fixed wing single engine,1959.0,2007.0
3,Turbo-fan,Fixed wing multi engine,1965.0,2013.0
4,Turbo-jet,Fixed wing multi engine,1974.0,2005.0
5,Turbo-prop,Fixed wing multi engine,1967.0,1972.0
6,Turbo-shaft,Rotorcraft,1975.0,2012.0


Okresy produkcji samolotów dla unikatowych kombinacji (Pandas):


Unnamed: 0,engine,type,oldest_year,newest_year
0,4 Cycle,Fixed wing single engine,1975.0,1975.0
1,Reciprocating,Fixed wing multi engine,1956.0,1980.0
2,Reciprocating,Fixed wing single engine,1959.0,2007.0
3,Turbo-fan,Fixed wing multi engine,1965.0,2013.0
4,Turbo-jet,Fixed wing multi engine,1974.0,2005.0
5,Turbo-prop,Fixed wing multi engine,1967.0,1972.0
6,Turbo-shaft,Rotorcraft,1975.0,2012.0


**Zadanie 8**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wybierz wszystkie obserwacje z tabeli `planes`, dla których wartości zmiennej speed nie są brakami danych.

In [None]:
df = dataframes["planes"]

firstSolution = df[df['speed'].notna()]

print(firstSolution)

query = "SELECT * FROM PLANES WHERE SPEED IS NOT NULL"

cursor.execute(query)

      Unnamed: 0 tailnum    year                      type       manufacturer  \
424          425  N201AA  1959.0  Fixed wing single engine             CESSNA   
427          428  N202AA  1980.0   Fixed wing multi engine             CESSNA   
821          822  N350AA  1980.0   Fixed wing multi engine              PIPER   
893          894  N364AA  1973.0   Fixed wing multi engine             CESSNA   
1027        1028  N378AA  1963.0  Fixed wing single engine             CESSNA   
1037        1038  N381AA  1956.0   Fixed wing multi engine            DOUGLAS   
1190        1191  N425AA  1968.0  Fixed wing single engine              PIPER   
1430        1431  N508AA  1975.0                Rotorcraft               BELL   
1480        1481  N519MQ  1983.0  Fixed wing single engine             CESSNA   
1515        1516  N525AA  1980.0   Fixed wing multi engine              PIPER   
1589        1590  N545AA  1976.0  Fixed wing single engine              PIPER   
1694        1695  N567AA  19

<sqlite3.Cursor at 0x795ee85f7ac0>

**Zadanie 9**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wybierz wszystkie wartości zmiennej `tailnum` z tabeli `planes`, dla tych obserwacji, w których wartości zmiennej `year` są większe lub równe `2010`.

In [None]:
df = dataframes["planes"]

df = df[df['year'] >= 2010]

df_tailnums = df['tailnum']

query = "SELECT TAILNUM FROM PLANES WHERE YEAR >= 2010"

cursor.execute(query)

rows = cursor.fetchall()

print(len(df_tailnums))
print(len(rows))

301
301


**Zadanie 10**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Odczytaj `10` początkowych rekordów z tabeli `planes` odpowiadających liczbie siedzeń (`seats`) większe lub równej `100` oraz jednocześnie mniejszej lub równej `200`.

In [None]:
df = dataframes["planes"]

df = df[(df['seats'] >= 100) & (df['seats'] <= 200)][:10]

print(df)

query = "SELECT * FROM PLANES WHERE seats >= 100 and seats <= 200 LIMIT 10"

cursor.execute(query)

rows = cursor.fetchall()

    Unnamed: 0 tailnum    year                     type      manufacturer  \
1            2  N102UW  1998.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
2            3  N103US  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
3            4  N104UW  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
5            6  N105UW  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
6            7  N107US  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
7            8  N108UW  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
8            9  N109UW  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
9           10  N110UW  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
33          34  N111US  1999.0  Fixed wing multi engine  AIRBUS INDUSTRIE   
34          35  N11206  2000.0  Fixed wing multi engine            BOEING   

       model  engines  seats  speed     engine  
1   A320-214        2    182    NaN  Turbo-fan  
2   A320-214        2    182    NaN  Turbo-fan  
3   A

**Zadanie 11**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wybierz samoloty o liczbie siedzeń większej lub równej `379`, które zostały wyprodukowanie przez firmy BOEING lub AIRBUS.

In [None]:
df = dataframes["planes"]

df = df[(df['seats'] >= 379) & ((df['manufacturer'].isin(['AIRBUS','BOEING'])))]

print(df)

query = "SELECT * FROM PLANES WHERE seats >= 379 and (manufacturer = 'AIRBUS' or manufacturer = 'BOEING')"

cursor.execute(query)

rows = cursor.fetchall()

      Unnamed: 0 tailnum    year                     type manufacturer  \
439          440  N206UA  1999.0  Fixed wing multi engine       BOEING   
484          485  N228UA  2002.0  Fixed wing multi engine       BOEING   
577          578  N272AT     NaN  Fixed wing multi engine       BOEING   
1427        1428  N507AY  2008.0  Fixed wing multi engine       AIRBUS   
1432        1433  N508AY  2008.0  Fixed wing multi engine       AIRBUS   
...          ...     ...     ...                      ...          ...   
2804        2805  N862DA  1999.0  Fixed wing multi engine       BOEING   
2806        2807  N863DA  1999.0  Fixed wing multi engine       BOEING   
2809        2810  N865DA  1999.0  Fixed wing multi engine       BOEING   
2919        2920  N903JB  2013.0  Fixed wing multi engine       AIRBUS   
2982        2983  N913JB  2013.0  Fixed wing multi engine       AIRBUS   

         model  engines  seats  speed     engine  
439    777-222        2    400    NaN  Turbo-fan  
484    77

**Zadanie 12**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Dla każdego producenta policz , ile wyprodukował samolotów o liczbie siedzeń większej niż `200`.

In [None]:
df = dataframes["planes"]

df_filtered = df[df['seats'] > 200]

grouped = df_filtered.groupby('manufacturer').size().reset_index(name='count')

print(grouped)

print()

query = "SELECT manufacturer, count(*) FROM PLANES WHERE seats > 200 GROUP BY manufacturer"

cursor.execute(query)

rows = cursor.fetchall()

for row in rows:
  print(row)

       manufacturer  count
0            AIRBUS     66
1  AIRBUS INDUSTRIE      4
2            BOEING    225

('AIRBUS', 66)
('AIRBUS INDUSTRIE', 4)
('BOEING', 225)


**Zadanie 13**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wybierz tylko tych producentów, którzy wyprodukowali więcej niż `10` samolotów, które są wyposażone w więcej niż `200` siedzeń.

In [None]:
df = dataframes["planes"]

df_filtered = df[df['seats'] > 200]

grouped = df_filtered.groupby('manufacturer').size().reset_index(name='count')

result = grouped[grouped['count'] > 10]

print(result)

print()

query = "SELECT manufacturer, count(*) as cnt FROM PLANES WHERE seats > 200 GROUP BY manufacturer HAVING cnt > 10"

cursor.execute(query)

rows = cursor.fetchall()

for row in rows:
  print(row)

  manufacturer  count
0       AIRBUS     66
2       BOEING    225

('AIRBUS', 66)
('BOEING', 225)


**Zadanie 14**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wyznacz trzech najbardziej produktywnych producentów samolotów.

In [None]:
query = """
SELECT manufacturer, COUNT(*) AS plane_count
FROM planes
GROUP BY manufacturer
ORDER BY plane_count DESC
LIMIT 3;
"""

top_manufacturers_sql = pd.read_sql_query(query, conn)
print("Najbardziej produktywni producenci samolotów (SQL):")
print(top_manufacturers_sql)
#------------------------------------
planes_df = dataframes["planes"]

top_manufacturers_df = planes_df.groupby("manufacturer").size().reset_index(name="plane_count")

top_manufacturers_df = top_manufacturers_df.sort_values(by="plane_count", ascending=False).head(3)

print("Najbardziej produktywni producenci samolotów (DataFrame):")
print(top_manufacturers_df)

Najbardziej produktywni producenci samolotów (SQL):
       manufacturer  plane_count
0            BOEING         1630
1  AIRBUS INDUSTRIE          400
2    BOMBARDIER INC          368
Najbardziej produktywni producenci samolotów (DataFrame):
        manufacturer  plane_count
9             BOEING         1630
2   AIRBUS INDUSTRIE          400
10    BOMBARDIER INC          368


**Zadanie 15**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wybierz wszystkie samoloty wyprodukowane przed 1970r. Uzyskane wyniki posortuj rosnąc względem `year` oraz `seats`.

In [None]:
query = """
SELECT *
FROM planes
WHERE year < 1970
ORDER BY year ASC, seats ASC;
"""

planes_before_1970_sql = pd.read_sql_query(query, conn)
print("Samoloty wyprodukowane przed 1970 rokiem (SQL):")
print(planes_before_1970_sql)

planes_df = dataframes["planes"]

planes_before_1970_df = planes_df[planes_df['year'] < 1970]

planes_before_1970_df = planes_before_1970_df.sort_values(by=['year', 'seats'])

print("Samoloty wyprodukowane przed 1970 rokiem (DataFrame):")
print(planes_before_1970_df)

Samoloty wyprodukowane przed 1970 rokiem (SQL):
   Unnamed: 0 tailnum    year                      type manufacturer  \
0        1038  N381AA  1956.0   Fixed wing multi engine      DOUGLAS   
1         425  N201AA  1959.0  Fixed wing single engine       CESSNA   
2        1695  N567AA  1959.0  Fixed wing single engine  DEHAVILLAND   
3        1028  N378AA  1963.0  Fixed wing single engine       CESSNA   
4        1726  N575AA  1963.0  Fixed wing single engine       CESSNA   
5         192  N14629  1965.0   Fixed wing multi engine       BOEING   
6        1868  N615AA  1967.0   Fixed wing multi engine        BEECH   
7        1191  N425AA  1968.0  Fixed wing single engine        PIPER   

         model  engines  seats  speed         engine  
0       DC-7BF        4    102  232.0  Reciprocating  
1          150        1      2   90.0  Reciprocating  
2  OTTER DHC-3        1     16   95.0  Reciprocating  
3         172E        1      4  105.0  Reciprocating  
4   210-5(205)        1     

**Zadanie 16**
Przypomnij sobie inrormacje na temat operacji  teoriomnogościowych w bazaach danych, takich jak suma (w SQL to UNION), iloczyn (w SQL to INTERSECT) i różnica (w SQL to EXCEPT) dwóch zbiorów. Ponadto, zdefinuj dwie dodoatkowe aramik danyc danych:
```python
A = planes.iloc[planes.year.values < 1960, 0:4].reset_index(drop=True)
B = planes.iloc[(planes.year.values >= 1959) & (planes.year.values <= 1963), 0:4].reset_index(drop=True)
```
Na podstawie wyżej zdefiniowanych ramaek `A` i `B` dodaj tabele do bazy danych o takich samych nazwach.

In [None]:
import pandas as pd
import sqlite3

planes_df = pd.read_csv("/content/drive/MyDrive/Analiza_Danych/database/planes.csv")

planes_df = planes_df.dropna(subset=["year"])

A = planes_df.iloc[planes_df.year.values < 1960, 0:4].reset_index(drop=True)
B = planes_df.iloc[(planes_df.year.values >= 1959) & (planes_df.year.values <= 1963), 0:4].reset_index(drop=True)

A.to_sql("A", conn, if_exists="replace", index=False)
B.to_sql("B", conn, if_exists="replace", index=False)

print("Ramki danych A i B zostały dodane do bazy danych my_database.db")

Ramki danych A i B zostały dodane do bazy danych my_database.db


**Zadanie 17**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wyznacz sumę tabel `A` i `B`. Wyznacz sumę tabel `A` i `B`, ale bez usuwania duplikatów.

In [None]:
query_union = """
SELECT * FROM A
UNION
SELECT * FROM B;
"""
sum_union_sql = pd.read_sql_query(query_union, conn)
print("Suma tabel A i B (SQL - bez duplikatów):")
print(sum_union_sql)

query_union_all = """
SELECT * FROM A
UNION ALL
SELECT * FROM B;
"""
sum_union_all_sql = pd.read_sql_query(query_union_all, conn)
print("Suma tabel A i B (SQL - z duplikatami):")
print(sum_union_all_sql)

sum_union_df = pd.concat([A, B]).drop_duplicates().reset_index(drop=True)
print("Suma tabel A i B (DataFrame - bez duplikatów):")
print(sum_union_df)

sum_union_all_df = pd.concat([A, B]).reset_index(drop=True)
print("Suma tabel A i B (DataFrame - z duplikatami):")
print(sum_union_all_df)

Suma tabel A i B (SQL - bez duplikatów):
   Unnamed: 0 tailnum    year                      type
0         425  N201AA  1959.0  Fixed wing single engine
1        1028  N378AA  1963.0  Fixed wing single engine
2        1038  N381AA  1956.0   Fixed wing multi engine
3        1695  N567AA  1959.0  Fixed wing single engine
4        1726  N575AA  1963.0  Fixed wing single engine
Suma tabel A i B (SQL - z duplikatami):
   Unnamed: 0 tailnum    year                      type
0         425  N201AA  1959.0  Fixed wing single engine
1        1038  N381AA  1956.0   Fixed wing multi engine
2        1695  N567AA  1959.0  Fixed wing single engine
3         425  N201AA  1959.0  Fixed wing single engine
4        1028  N378AA  1963.0  Fixed wing single engine
5        1695  N567AA  1959.0  Fixed wing single engine
6        1726  N575AA  1963.0  Fixed wing single engine
Suma tabel A i B (DataFrame - bez duplikatów):
   Unnamed: 0 tailnum    year                      type
0         425  N201AA  1959.0  F

**Zadanie 18**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wyznacz iloczyn (część wspólną) tabel `A` i `B`.

In [None]:
query_intersection = """
SELECT * FROM A
INTERSECT
SELECT * FROM B;
"""
intersection_sql = pd.read_sql_query(query_intersection, conn)
print("Iloczyn (część wspólna) tabel A i B (SQL):")
print(intersection_sql)

intersection_df = pd.merge(A, B, how="inner")
print("Iloczyn (część wspólna) tabel A i B (DataFrame):")
print(intersection_df)

Iloczyn (część wspólna) tabel A i B (SQL):
   Unnamed: 0 tailnum    year                      type
0         425  N201AA  1959.0  Fixed wing single engine
1        1695  N567AA  1959.0  Fixed wing single engine
Iloczyn (część wspólna) tabel A i B (DataFrame):
   Unnamed: 0 tailnum    year                      type
0         425  N201AA  1959.0  Fixed wing single engine
1        1695  N567AA  1959.0  Fixed wing single engine


**Zadanie 19**
Rozwiąż zadanie na dwa sposoby tj. wykonując odowiednie zapytanie SQL oraz operacje na ramkach dadnych.

Wyznacz tylko rekordy z `A`, których nie ma w `B`.

In [None]:
query_difference = """
SELECT * FROM A
EXCEPT
SELECT * FROM B;
"""
only_in_a_sql = pd.read_sql_query(query_difference, conn)
print("Rekordy tylko z A (SQL):")
print(only_in_a_sql)

only_in_a_df = pd.merge(A, B, how="left", indicator=True).query('_merge == "left_only"').drop('_merge', axis=1)
print("Rekordy tylko z A (DataFrame):")
print(only_in_a_df)


Rekordy tylko z A (SQL):
   Unnamed: 0 tailnum    year                     type
0        1038  N381AA  1956.0  Fixed wing multi engine
Rekordy tylko z A (DataFrame):
   Unnamed: 0 tailnum    year                     type
1        1038  N381AA  1956.0  Fixed wing multi engine


**Zadanie 20**
Złącz ramkę danych `flights` z ramką `planes`. Wybierz najbardziej odpowiedni rodzaj złączenia oraz kolumny biorące w nim udział. Wykonaj zadanie z wykorzystaniem zapytania SQL oraz na ramkach danych.


In [None]:
query_join = """
SELECT *
FROM flights AS f
LEFT JOIN planes AS p
ON f.tailnum = p.tailnum;
"""
flights_planes_join_sql = pd.read_sql_query(query_join, conn)
print("Złączone tabele flights i planes (SQL):")
print(flights_planes_join_sql.head())

flights_planes_join_df = pd.merge(dataframes["flights"], dataframes["planes"], how="left", on="tailnum")
print("Złączone ramki flights i planes (DataFrame):")
print(flights_planes_join_df.head())

Złączone tabele flights i planes (SQL):
   Unnamed: 0  year  month  day  dep_time  dep_delay  arr_time  arr_delay  \
0           1  2013      1    1     517.0        2.0     830.0       11.0   
1           2  2013      1    1     533.0        4.0     850.0       20.0   
2           3  2013      1    1     542.0        2.0     923.0       33.0   
3           4  2013      1    1     544.0       -1.0    1004.0      -18.0   
4           5  2013      1    1     554.0       -6.0     812.0      -25.0   

  carrier tailnum  ...  Unnamed: 0 tailnum    year                     type  \
0      UA  N14228  ...       178.0  N14228  1999.0  Fixed wing multi engine   
1      UA  N24211  ...       516.0  N24211  1998.0  Fixed wing multi engine   
2      AA  N619AA  ...      1881.0  N619AA  1990.0  Fixed wing multi engine   
3      B6  N804JB  ...      2555.0  N804JB  2012.0  Fixed wing multi engine   
4      DL  N668DN  ...      2089.0  N668DN  1991.0  Fixed wing multi engine   

   manufacturer     mo

**Zadanie 21**
Złącz ramkę danych `flights` z ramką `airports`. Wykonaj zadanie z wykorzystaniem zapytania SQL oraz na ramkach danych.


In [None]:
query = """
SELECT f.*,
       a1.name AS origin_airport_name, a1.lat AS origin_lat, a1.lon AS origin_lon,
       a1.alt AS origin_alt, a1.tz AS origin_tz, a1.dst AS origin_dst,
       a2.name AS dest_airport_name, a2.lat AS dest_lat, a2.lon AS dest_lon,
       a2.alt AS dest_alt, a2.tz AS dest_tz, a2.dst AS dest_dst
FROM flights AS f
LEFT JOIN airports AS a1 ON f.origin = a1.faa
LEFT JOIN airports AS a2 ON f.dest = a2.faa
"""


flights_airports_df_sql = pd.read_sql_query(query, conn)

print(flights_airports_df_sql.head())
print("\n")

flights_with_origin = dataframes['flights'].merge(
    dataframes['airports'],
    left_on="origin",
    right_on="faa",
    how="left",
    suffixes=('', '_origin')
)

flights_with_origin.drop(columns=['Unnamed: 0_origin'], inplace=True)

flights_airports_df_pandas = flights_with_origin.merge(
    dataframes['airports'],
    left_on="dest",
    right_on="faa",
    how="left",
    suffixes=('_origin', '_dest')
)

flights_airports_df_pandas.drop(columns=['Unnamed: 0_dest'], inplace=True)

print(flights_airports_df_pandas.head())


   Unnamed: 0  year  month  day  dep_time  dep_delay  arr_time  arr_delay  \
0           1  2013      1    1     517.0        2.0     830.0       11.0   
1           2  2013      1    1     533.0        4.0     850.0       20.0   
2           3  2013      1    1     542.0        2.0     923.0       33.0   
3           4  2013      1    1     544.0       -1.0    1004.0      -18.0   
4           5  2013      1    1     554.0       -6.0     812.0      -25.0   

  carrier tailnum  ...  origin_lon origin_alt origin_tz  origin_dst  \
0      UA  N14228  ...  -74.168667         18        -5           A   
1      UA  N24211  ...  -73.872608         22        -5           A   
2      AA  N619AA  ...  -73.778925         13        -5           A   
3      B6  N804JB  ...  -73.778925         13        -5           A   
4      DL  N668DN  ...  -73.872608         22        -5           A   

                 dest_airport_name   dest_lat   dest_lon dest_alt  dest_tz  \
0     George Bush Intercontinent

**Zadanie 22**
Złącz ramkę danych `flights` z ramką `weather`. Wykonaj zadanie z wykorzystaniem zapytania SQL oraz na ramkach danych.


In [None]:
query = """
SELECT f.*,
       w.temp, w.dewp, w.humid, w.wind_dir, w.wind_speed, w.wind_gust,
       w.precip, w.pressure, w.visib
FROM flights AS f
LEFT JOIN weather AS w
ON f.origin = w.origin
   AND f.year = w.year
   AND f.month = w.month
   AND f.day = w.day
   AND f.hour = w.hour
"""


flight_weather_df_sql = pd.read_sql_query(query, conn)

print(flight_weather_df_sql.head())


flights_weather_no_hour_df = dataframes['flights'].merge(
    dataframes['weather'],
    on=["origin", "year", "month", "day"],
    how="left"
)

print(flights_weather_no_hour_df.head())

   Unnamed: 0  year  month  day  dep_time  dep_delay  arr_time  arr_delay  \
0           1  2013      1    1     517.0        2.0     830.0       11.0   
1           2  2013      1    1     533.0        4.0     850.0       20.0   
2           3  2013      1    1     542.0        2.0     923.0       33.0   
3           4  2013      1    1     544.0       -1.0    1004.0      -18.0   
4           5  2013      1    1     554.0       -6.0     812.0      -25.0   

  carrier tailnum  ...  minute temp dewp  humid  wind_dir  wind_speed  \
0      UA  N14228  ...    17.0  NaN  NaN    NaN       NaN         NaN   
1      UA  N24211  ...    33.0  NaN  NaN    NaN       NaN         NaN   
2      AA  N619AA  ...    42.0  NaN  NaN    NaN       NaN         NaN   
3      B6  N804JB  ...    44.0  NaN  NaN    NaN       NaN         NaN   
4      DL  N668DN  ...    54.0  NaN  NaN    NaN       NaN         NaN   

   wind_gust  precip  pressure  visib  
0        NaN     NaN       NaN    NaN  
1        NaN     N

**Zadanie 23**
Złącz ramkę danych `flights` z ramkami `weather`, `planes` oraz `airport`. Wykonaj zadanie z wykorzystaniem zapytania SQL oraz na ramkach danych.


In [None]:
query = """
SELECT f.*,
       w.temp, w.dewp, w.humid, w.wind_dir, w.wind_speed, w.wind_gust,
       w.precip, w.pressure, w.visib,
       p.type AS plane_type, p.manufacturer, p.model, p.engines, p.seats, p.speed,
       a1.name AS origin_airport_name, a1.lat AS origin_lat, a1.lon AS origin_lon,
       a1.alt AS origin_alt, a1.tz AS origin_tz, a1.dst AS origin_dst,
       a2.name AS dest_airport_name, a2.lat AS dest_lat, a2.lon AS dest_lon,
       a2.alt AS dest_alt, a2.tz AS dest_tz, a2.dst AS dest_dst
FROM flights AS f
LEFT JOIN weather AS w ON f.origin = w.origin
                        AND f.year = w.year
                        AND f.month = w.month
                        AND f.day = w.day
                        AND f.hour = w.hour
LEFT JOIN planes AS p ON f.tailnum = p.tailnum
LEFT JOIN airports AS a1 ON f.origin = a1.faa
LEFT JOIN airports AS a2 ON f.dest = a2.faa
"""

flights_weather_planes_airports_df_sql = pd.read_sql_query(query, conn)


print(flights_weather_planes_airports_df_sql.head())
print("\n")

flights_weather_df = dataframes['flights'].merge(
    dataframes['weather'],
    on=["origin", "year", "month", "day", "hour"],
    how="left"
)

flights_weather_planes_df = flights_weather_df.merge(
    dataframes['planes'],
    on="tailnum",
    how="left"
)

flights_weather_planes_airports_df = flights_weather_planes_df.merge(
    dataframes['airports'],
    left_on="origin",
    right_on="faa",
    how="left",
    suffixes=('_origin', '_dest')
)

flights_weather_planes_airports_df = flights_weather_planes_airports_df.merge(
    dataframes['airports'],
    left_on="dest",
    right_on="faa",
    how="left",
    suffixes=('_origin', '_dest')
)

print(flights_weather_planes_airports_df.head())

   Unnamed: 0  year  month  day  dep_time  dep_delay  arr_time  arr_delay  \
0           1  2013      1    1     517.0        2.0     830.0       11.0   
1           2  2013      1    1     533.0        4.0     850.0       20.0   
2           3  2013      1    1     542.0        2.0     923.0       33.0   
3           4  2013      1    1     544.0       -1.0    1004.0      -18.0   
4           5  2013      1    1     554.0       -6.0     812.0      -25.0   

  carrier tailnum  ...  origin_lon origin_alt origin_tz  origin_dst  \
0      UA  N14228  ...  -74.168667         18        -5           A   
1      UA  N24211  ...  -73.872608         22        -5           A   
2      AA  N619AA  ...  -73.778925         13        -5           A   
3      B6  N804JB  ...  -73.778925         13        -5           A   
4      DL  N668DN  ...  -73.872608         22        -5           A   

                 dest_airport_name   dest_lat   dest_lon  dest_alt  dest_tz  \
0     George Bush Intercontinen

**Zadanie 24**
Plik *game.xlsx* zawiera dane o gach planszowych, odczytaj dane z pliku i załaduj do `DataFrame`. Zwróć uwagę na braki danych, które mogą występować w pliku. Po odczytaniu danych znajdź kolumnę, w której występuje najwięcej braków danych i usuń ją. Dane po oczyszczeniu zapisz do pliku *games.xml* nadając nazwę korzeniowi `games` a każdemu rekordowi `game`..


In [None]:
df = pd.read_excel("/content/drive/MyDrive/Analiza_Danych/games.xlsx")

print(df.head())

missing_data = df.isna().sum()
print("Brakujące dane w kolumnach:")
print(missing_data)

column_with_most_missing = missing_data.idxmax()
print(f"Kolumna z największą liczbą braków: {column_with_most_missing}")

df_cleaned = df.drop(columns=[column_with_most_missing])

print("\nDane po usunięciu kolumny z brakami:")
print(df_cleaned.head())


df_cleaned.to_xml("games.xml", root_name="games", row_name="game", index=False)

print("\nDane zostały zapisane do pliku 'games.xml'")

                               title  year  \
0                  Brass: Birmingham  2018   
1          Pandemic Legacy: Season 1  2015   
2  Twilight Imperium: Fourth Edition  2017   
3                     Dune: Imperium  2020   
4    War of the Ring: Second Edition  2011   

                                               brief  range  age  minPlayer  \
0  Build networks, grow industries, and navigate ...    8.6  14+          2   
1  Mutating diseases are spreading around the wor...    8.5  13+          2   
2  Build an intergalactic empire through trade, r...    8.6  14+          3   
3  Influence, intrigue, and combat in the univers...    8.4  14+          1   
4  The Fellowship and the Free Peoples clash with...    8.5  13+          2   

   maxPlayer  difficulty timePlay   price  \
0          4        3.89   60-120   94.81   
1          4        2.83       60   74.99   
2          6        4.31  240-480   84.90   
3          4        3.03   60-120   98.14   
4          4        4.2

**Zadanie 25**
Skorzystaj z pliku `games.xml`, który został stworzony w poprzednim zadaniu i wczytaj dane do ramki danych. Następnie posortuj po kolumnie `year` w porządku rosnącym i załaduj dane do utworzonej bazy danych sqlite.


In [None]:
df = pd.read_xml('games.xml')

df_sorted = df.sort_values(by='year', ascending=True)

df_sorted.to_sql('games', conn, if_exists='replace', index=False)

print("Dane zostały załadowane do bazy SQLite 'games_database.db' i posortowane.")

Dane zostały załadowane do bazy SQLite 'games_database.db' i posortowane.


**Zadanie 26**
Plik *weather.zip* zawiera katalog *city* z plikami o rozszerzeniach _*.xlsx_, _*.csv_, _*.xml_. Każdy plik reprezentuje osobne miasto i zawiera dane pogodowe. Napisz rozwiązanie, które odczyta następujące kolumny `time`, `temperature_2m_mean`, `daylight_duration`, `rain_sum`, `snowfall_sum`, `wind_speed_10m_max`, `wind_direction_10m_dominant` i połącz je w jedną ramkę danych. Dodając dane do wspólnej ramki danych dodaj nową kolumnę `city_id`, która będzie odpowiadać numerowi miasta. Dane zapisz w dwóch plikach ``weather.jso`` (dane pogodowe) oraz `city_key.jso`  (miasta z numerami id).

In [None]:
import xml.etree.ElementTree as ET
import glob
def read_csv(file_path):
    desired_columns = ["time", "temperature_2m_mean", "daylight_duration", "rain_sum", "snowfall_sum", "wind_speed_10m_max", "wind_direction_10m_dominant"]
    df = pd.read_csv(file_path)
    available_columns = [col for col in desired_columns if col in df.columns]
    print(f"Dostępne kolumny: {available_columns}")
    return pd.read_csv(file_path, usecols=available_columns)

def read_excel(file_path):
    return pd.read_excel(file_path, usecols=["time", "temperature_2m_mean", "daylight_duration",
                                              "rain_sum", "snowfall_sum", "wind_speed_10m_max", "wind_direction_10m_dominant"])

def read_xml(file_path):
    tree = ET.parse(file_path)
    root = tree.getroot()

    data = []
    for city in root.findall('city'):
        time = city.find('time').text
        temperature_2m_mean = city.find('temperature_2m_mean').text
        daylight_duration = city.find('daylight_duration').text
        rain_sum = city.find('rain_sum').text
        snowfall_sum = city.find('snowfall_sum').text
        wind_speed_10m_max = city.find('wind_speed_10m_max').text
        wind_direction_10m_dominant = city.find('wind_direction_10m_dominant').text
        data.append([time, temperature_2m_mean, daylight_duration, rain_sum, snowfall_sum,
                     wind_speed_10m_max, wind_direction_10m_dominant])

    return pd.DataFrame(data, columns=["time", "temperature_2m_mean", "daylight_duration",
                                       "rain_sum", "snowfall_sum", "wind_speed_10m_max", "wind_direction_10m_dominant"])

city_folder = 'city'

files = glob.glob(os.path.join(city_folder, '*.*'))

weather_data = pd.DataFrame()

city_key = {}

city_id = 1

for file in files:
    if file.endswith('.csv'):
        city_data = read_csv(file)
    elif file.endswith('.xlsx'):
        city_data = read_excel(file)
    elif file.endswith('.xml'):
        city_data = read_xml(file)
    else:
        continue

    city_data['city_id'] = city_id
    weather_data = pd.concat([weather_data, city_data], ignore_index=True)
    city_key[city_id] = os.path.basename(file).split('.')[0]
    city_id += 1

# Zapisanie danych do pliku JSON
weather_data.to_json('weather.json', orient='records', lines=True)
pd.DataFrame(list(city_key.items()), columns=['city_id', 'city_name']).to_json('city_key.json', orient='records', lines=True)

print("Dane zostały zapisane do plików 'weather.json' oraz 'city_key.json'.")

Dane zostały zapisane do plików 'weather.json' oraz 'city_key.json'.


In [None]:
conn.close()