# Ćwiczenia z biblioteki Pandas
Wykonasz poniższe zadania, aby nauczyć się podstawowej obsługi biblioteki pandas w Pythonie. Skorzystamy z plików CSV dotyczących psów, które dostarczono, aby zapoznać się z operacjami takimi jak wczytywanie, czyszczenie i analiza danych.

## Zadania

### 1. Wczytaj pliki CSV
Wczytaj plik CSV `dogs.csv` do DataFrame w pandas.

- Użyj funkcji `pd.read_csv()`, aby załadować dane do zmiennych.
- Sprawdź kilka pierwszych wierszy danych, aby zobaczyć ich strukturę za pomocą `head()`.


In [1]:
import pandas as pd
df1 = pd.read_csv('dogs.csv')
import datetime
print(df1.head())

  Name ;Breed ;Color ;Height (cm) ;Weight (kg) ;Date of Birth ;Tail Length (cm) ;Number of Paws;
0                                            ;;;;;;;                                            
1  Bella ;Labrador ;Brown ;56;25;01.07.2013 ;30 ;4;0                                            
2                                            ;;;;;;;                                            
3  Charlie ;Poodle ;Black ;43;23;16.09.2016 ;25 ;4;0                                            
4                                            ;;;;;;;                                            


### 2. Naprawienie formatu danych
Plik `dogs.csv` jest rozdzielony za pomocą średników (`;`). Spróbuj wczytać go poprawnie.

**Zwróc uwagę aby nazwy kolumn były odpowiednie oraz nie zawierały żadnych dodatkowych znaków**

In [2]:
df2 = pd.read_csv('dogs.csv', sep = ';')
print(df2.head())

      Name      Breed   Color   Height (cm)   Weight (kg)  Date of Birth   \
0       NaN        NaN     NaN           NaN           NaN            NaN   
1    Bella   Labrador   Brown           56.0          25.0    01.07.2013    
2       NaN        NaN     NaN           NaN           NaN            NaN   
3  Charlie     Poodle   Black           43.0          23.0    16.09.2016    
4       NaN        NaN     NaN           NaN           NaN            NaN   

   Tail Length (cm)   Number of Paws  Unnamed: 8  
0                NaN             NaN         NaN  
1               30.0             4.0         0.0  
2                NaN             NaN         NaN  
3               25.0             4.0         0.0  
4                NaN             NaN         NaN  


### 3. Sprawdź podstawowe informacje o danych
Dla obu DataFrame'ów:

- Użyj funkcji `info()`, aby zobaczyć informacje o typach danych w kolumnach oraz liczbie niepustych wartości.
- Skorzystaj z `describe()`, aby wygenerować podstawowe statystyki opisowe dla danych numerycznych.

**Zwróć uwagę na długość datafraeme oraz na liczbę wartośći null**

In [3]:
df1.info()
df1.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 1 columns):
 #   Column                                                                                          Non-Null Count  Dtype 
---  ------                                                                                          --------------  ----- 
 0   Name ;Breed ;Color ;Height (cm) ;Weight (kg) ;Date of Birth ;Tail Length (cm) ;Number of Paws;  99 non-null     object
dtypes: object(1)
memory usage: 920.0+ bytes


Unnamed: 0,Name ;Breed ;Color ;Height (cm) ;Weight (kg) ;Date of Birth ;Tail Length (cm) ;Number of Paws;
count,99
unique,50
top,;;;;;;;
freq,50


In [4]:
df2.info()
df2.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Name               49 non-null     object 
 1   Breed              49 non-null     object 
 2   Color              49 non-null     object 
 3   Height (cm)        49 non-null     float64
 4   Weight (kg)        49 non-null     float64
 5   Date of Birth      49 non-null     object 
 6   Tail Length (cm)   49 non-null     float64
 7   Number of Paws     49 non-null     float64
 8   Unnamed: 8         49 non-null     float64
dtypes: float64(5), object(4)
memory usage: 7.1+ KB


Unnamed: 0,Height (cm),Weight (kg),Tail Length (cm),Number of Paws,Unnamed: 8
count,49.0,49.0,49.0,49.0,49.0
mean,50.142857,27.77551,26.938776,4.0,0.0
std,16.907838,21.067615,8.921902,0.0,0.0
min,17.0,2.0,10.0,4.0,0.0
25%,44.0,19.0,22.0,4.0,0.0
50%,50.0,23.0,25.0,4.0,0.0
75%,58.0,28.0,34.0,4.0,0.0
max,80.0,78.0,42.0,4.0,0.0


### 4. Czyszczenie danych
W pliku `dogs.csv` znajdują się puste wiersze, które należy usunąć, następne ćwiczenia wykonuj na `DataFrame` z którego usunięte zostały puste wiersze.

- Użyj funkcji `dropna()`, aby usunąć wszystkie wiersze zawierające brakujące dane.
- Sprawdź rozmiar DataFrame'a przed i po czyszczeniu, aby upewnić się, że operacja się powiodła.

In [5]:
df_cleaned = df2.dropna()
df_cleaned.head()

Unnamed: 0,Name,Breed,Color,Height (cm),Weight (kg),Date of Birth,Tail Length (cm),Number of Paws,Unnamed: 8
1,Bella,Labrador,Brown,56.0,25.0,01.07.2013,30.0,4.0,0.0
3,Charlie,Poodle,Black,43.0,23.0,16.09.2016,25.0,4.0,0.0
5,Lucy,Chow Chow,Brown,46.0,22.0,25.08.2014,22.0,4.0,0.0
7,Cooper,Schnauzer,Gray,49.0,17.0,11.12.2011,24.0,4.0,0.0
9,Max,Labrador,Black,59.0,29.0,20.01.2017,35.0,4.0,0.0


### 5. Usuwanie zbędnych kolumn
Teraz usuniemy niepotrzebne kolumny z pliku `dogs.csv` i zapiszemy go do zmiennej `dogs_clean`

- Usuń wszystkie zbędne kolumny, które są puste lub niepotrzebne (zobacz z których danych będziesz korzystał w następnych ćwiczeniach).
- Użyj funkcji `drop()` z parametrem `axis=1`, oraz `label=[lista nazw kolumn]` aby usunąć kolumny.

In [6]:
dogs_clean = df_cleaned.drop(axis = 1, labels ='Unnamed: 8')
print(dogs_clean.head())

      Name       Breed   Color   Height (cm)   Weight (kg)  Date of Birth   \
1    Bella    Labrador   Brown           56.0          25.0    01.07.2013    
3  Charlie      Poodle   Black           43.0          23.0    16.09.2016    
5     Lucy   Chow Chow   Brown           46.0          22.0    25.08.2014    
7   Cooper   Schnauzer    Gray           49.0          17.0    11.12.2011    
9      Max    Labrador   Black           59.0          29.0    20.01.2017    

   Tail Length (cm)   Number of Paws  
1               30.0             4.0  
3               25.0             4.0  
5               22.0             4.0  
7               24.0             4.0  
9               35.0             4.0  


### 6. Dodanie nowej kolumny
Dodaj nową kolumnę `Age (Years)` do DataFrame'a `dogs_clean`, która będzie wyliczać wiek każdego psa w latach na podstawie kolumny `Date of Birth`.

- Najpierw przekształć kolumnę `Date of Birth` na format daty za pomocą `pd.to_datetime()`.
- Następnie oblicz wiek psa, odejmując datę urodzenia od bieżącej daty.

In [7]:
dogs_clean['Date of Birth '] = pd.to_datetime(dogs_clean['Date of Birth '],dayfirst = True)
current_date = pd.Timestamp(datetime.datetime.now())
dogs_clean['Age'] = ((current_date - dogs_clean['Date of Birth ']).dt.days/365.25).astype(int)
print(dogs_clean.head())

      Name       Breed   Color   Height (cm)   Weight (kg)  Date of Birth   \
1    Bella    Labrador   Brown           56.0          25.0     2013-07-01   
3  Charlie      Poodle   Black           43.0          23.0     2016-09-16   
5     Lucy   Chow Chow   Brown           46.0          22.0     2014-08-25   
7   Cooper   Schnauzer    Gray           49.0          17.0     2011-12-11   
9      Max    Labrador   Black           59.0          29.0     2017-01-20   

   Tail Length (cm)   Number of Paws  Age  
1               30.0             4.0   11  
3               25.0             4.0    8  
5               22.0             4.0   10  
7               24.0             4.0   12  
9               35.0             4.0    7  


### 7. Filtracja danych
Wykonaj filtrację danych, aby wyświetlić tylko te psy, które ważą więcej niż 20 kg i mają więcej niż 50 cm wzrostu.

- Użyj operatora logicznego w pandas, aby przefiltrować DataFrame według warunków na kolumny `Weight (kg)` i `Height (cm)`.

In [8]:
condition_weight = dogs_clean['Weight (kg) '] > 20
condition_height = dogs_clean['Height (cm) '] > 50
dogs_filtered = dogs_clean[condition_height & condition_weight]
dogs_filtered.head()

Unnamed: 0,Name,Breed,Color,Height (cm),Weight (kg),Date of Birth,Tail Length (cm),Number of Paws,Age
1,Bella,Labrador,Brown,56.0,25.0,2013-07-01,30.0,4.0,11
9,Max,Labrador,Black,59.0,29.0,2017-01-20,35.0,4.0,7
13,Bernie,St. Bernard,White,77.0,74.0,2018-02-27,40.0,4.0,6
15,Daisy,Labrador,Yellow,57.0,27.0,2012-06-30,32.0,4.0,12
23,Sadie,Labrador,Chocolate,58.0,28.0,2014-10-14,33.0,4.0,10


### 8. Grupowanie danych
Zgrupuj dane według rasy psa (`Breed`) i oblicz średnią wagę oraz wzrost psów dla każdej grupy.

- Skorzystaj z funkcji `groupby()` i `mean()`.

In [9]:
print(dogs_clean.columns.tolist())
dogs_grouped = dogs_clean.groupby('Breed ')
dogs_grouped = dogs_grouped.agg({'Weight (kg) ': 'mean', 'Height (cm) ': 'mean'})
print(dogs_grouped)

dogs_clean.columns = dogs_clean.columns.str.strip()

# Sprawdź kolumny
print(dogs_clean.columns.tolist())

['Name ', 'Breed ', 'Color ', 'Height (cm) ', 'Weight (kg) ', 'Date of Birth ', 'Tail Length (cm) ', 'Number of Paws', 'Age']
              Weight (kg)   Height (cm) 
Breed                                   
Chihuahua         2.428571     18.000000
Chow Chow        22.714286     47.285714
Labrador         27.357143     57.714286
Poodle           21.571429     43.142857
Schnauzer        18.000000     49.714286
St. Bernard      75.000000     77.428571
['Name', 'Breed', 'Color', 'Height (cm)', 'Weight (kg)', 'Date of Birth', 'Tail Length (cm)', 'Number of Paws', 'Age']


### 9. Eksportowanie danych
Wyeksportuj oczyszczony i przekształcony DataFrame z powrotem do pliku CSV.

- Użyj funkcji `to_csv()`, aby zapisać plik pod nazwą `dogs_cleaned.csv`.

In [10]:
dogs_clean.to_csv('dogs_cleaned.csv')

### 10. Protokół TIER
Na podstawie wyżej wykonanych zadań utwórz projekt zgodnie ze strukturą zaproponowaną przez [TIER](https://www.projecttier.org/tier-protocol/protocol-4-0/). Danymi wejściowmi powinien być plik `dogs.csv`, a efektem końcowym sprawozdanie w którym odpowiemy na pytanie która rasa psów jest najcięższa. Sprawozdanie powinno zawierać cały przebieg od momentu surowych danych poprzez ich przetworzenie aż do końcowego wniosku, należy w nim również umieścić zrzut ekranu z drzewem folderów w strukturze zaproponanej przez TIER. 

**Pamiętaj że należy utworzyć skrypty pythona a nie noteboooki w poszczególnych folderach**