# Einstieg Pandas
große Datensätze analysieren mit Pandas

# Was ist Pandas?

- Bibliothek auf Basis von NumPy
- Stellt Datenstrukturen und Tools zur Analyse großer Datenmengen zur Verfügung
- Vorteile ggü. Arbeit mit Excel
    - deutlich performanter
    - Open Source, große Community

# Datenstrukturen in Pandas
- Pandas arbeitet mit 2 Datenstrukturen: `Series` und `DataFrames`
    - `Series`: 1-dimensional mit Label (vgl. Excel-Spalte/Zeile)
    - `DataFrames`: 2-dimensional mit N Spalten (vgl. Excel-Tabelle)


# Daten in Pandas importieren

- Pandas bietet Funktionen um die meisten Datenformate zu importieren
    - Heute: .csv-Daten mithilfe von `read_csv(pfad-zur-datei)


In [18]:
import pandas
csv_daten = pandas.read_csv('../datasets/kundendaten_mock.csv')
csv_daten.head()

Unnamed: 0.1,Unnamed: 0,id,Vorname,Nachname,Email,Geschlecht,Alter
0,0,1,Owen,Lambol,olambol0@oaic.gov.au,M,29
1,1,2,Cullin,Goodwell,cgoodwell1@shinystat.com,M,63
2,2,3,Weber,Majury,wmajury2@techcrunch.com,M,12
3,3,4,Felipe,Prendergrast,fprendergrast3@hostgator.com,M,21
4,4,5,Helyn,Frounks,hfrounks4@123-reg.co.uk,F,31


# Einen Überblick verschaffen

*Hinweis: df steht hier für jeweils einen DataFrame etwa df = read.csv()..*
- `df.head(n)` zeigt die ersten n Zeilen eines DataFrames an, analog `df.tail(n)`
- `df.sample(n)` Stichprobe der Größe n entnehmen
- `df.sort_values(by=)` sortiert Tabelle nach gegebener Spalte
- `df.describe()` zeigt verschiedene Statistiken (Median, usw.) zu den Daten an    

In [14]:
# csv_daten.head(10)
# csv_daten.tail(10)
# csv_daten.sort_values(by='Alter')
print(csv_daten.describe())
csv_daten.sample(n=20)

       Unnamed: 0          id       Alter
count  100.000000  100.000000  100.000000
mean    49.500000   50.500000   43.290000
std     29.011492   29.011492   19.427303
min      0.000000    1.000000  -14.000000
25%     24.750000   25.750000   28.000000
50%     49.500000   50.500000   41.000000
75%     74.250000   75.250000   58.000000
max     99.000000  100.000000   90.000000


Unnamed: 0.1,Unnamed: 0,id,Vorname,Nachname,Email,Geschlecht,Alter
80,80,81,Rudie,Froud,rfroud28@barnesandnoble.com,M,11
60,60,61,Kalila,Devon,kdevon1o@cmu.edu,F,40
18,18,19,Borg,Feedome,bfeedomei@arstechnica.com,M,62
37,37,38,Arliene,Poupard,apoupard11@digg.com,F,22
36,36,37,Evvie,Benez,ebenez10@cmu.edu,F,38
3,3,4,Felipe,Prendergrast,fprendergrast3@hostgator.com,M,21
53,53,54,Temple,Bucklan,tbucklan1h@nbcnews.com,M,58
50,50,51,Margy,Ziemen,mziemen1e@youtu.be,F,32
27,27,28,Ivor,McDavitt,imcdavittr@harvard.edu,M,61
77,77,78,Nathan,Carson,ncarson25@vk.com,M,46


# Daten selektieren

- nach Zeile `df.loc[1]` bzw. Abschnitt `df.loc[:10]`
- nach Spalte `df['Alter']` bzw. `df['Alter'][10:50]`
- nach Eigenschaften `df[df['Geschlecht'] == M` oder `df.query()`

In [15]:
#csv_daten.loc[10]
#csv_daten.loc[:10]
#csv_daten['Alter'][10:50]
#csv_daten['Email'].sample(10)
#csv_daten[csv_daten['Geschlecht'] == 'M']
csv_daten.query("Alter > 20")

Unnamed: 0.1,Unnamed: 0,id,Vorname,Nachname,Email,Geschlecht,Alter
0,0,1,Owen,Lambol,olambol0@oaic.gov.au,M,29
1,1,2,Cullin,Goodwell,cgoodwell1@shinystat.com,M,63
3,3,4,Felipe,Prendergrast,fprendergrast3@hostgator.com,M,21
4,4,5,Helyn,Frounks,hfrounks4@123-reg.co.uk,F,31
5,5,6,Ode,Lambal,olambal5@unblog.fr,M,36
6,6,7,Estell,Grandison,egrandison6@sciencedaily.com,F,41
7,7,8,Jodee,Sulman,jsulman7@oracle.com,F,55
8,8,9,Graig,McPhater,gmcphater8@ucoz.ru,M,51
9,9,10,Tammy,Faraday,tfaraday9@1und1.de,F,59
11,11,12,Thorvald,Cobbing,tcobbingb@angelfire.com,M,64


# Abschlussaufgabe: Explorativ Datensätze analysieren

- Als Abschlussaufgabe für den heutigen Tag haben wir 2 Datensätze vorbereitet
    - "Wine review"-Datensatz
    - Kickstarter-Datensatz
- Entnommen von der Plattform [Kaggle](https://www.kaggle.com/)
    - [https://www.kaggle.com/kemical/kickstarter-projects](https://www.kaggle.com/kemical/kickstarter-projects)
    - [https://www.kaggle.com/zynicide/wine-reviews](https://www.kaggle.com/zynicide/wine-reviews)

# Kickstarter-Datensatz

- Crowdfunding-Plattform [Kickstarter]()
- ~300.000 Datensätze zu Kickstarterprojekten
- Metadaten wie:
    - Projektname
    - Projektkategorie
    - erfragte Summe

In [19]:
import pandas
kickstarter = pandas.read_csv(r'../datasets/kickstarter-projects/ks-projects-201801.csv')
kickstarter.head().transpose()

Unnamed: 0,0,1,2,3,4
ID,1000002330,1000003930,1000004038,1000007540,1000011046
name,The Songs of Adelaide & Abullah,Greeting From Earth: ZGAC Arts Capsule For ET,Where is Hank?,ToshiCapital Rekordz Needs Help to Complete Album,Community Film Project: The Art of Neighborhoo...
category,Poetry,Narrative Film,Narrative Film,Music,Film & Video
main_category,Publishing,Film & Video,Film & Video,Music,Film & Video
currency,GBP,USD,USD,USD,USD
deadline,2015-10-09,2017-11-01,2013-02-26,2012-04-16,2015-08-29
goal,1000,30000,45000,5000,19500
launched,2015-08-11 12:12:28,2017-09-02 04:43:57,2013-01-12 00:20:50,2012-03-17 03:24:11,2015-07-04 08:35:03
pledged,0,2421,220,1,1283
state,failed,failed,failed,failed,canceled


# Wine-Review-Datensatz

- Datensatz mit Weinbewertungen von der Plattform [WineEnthusiast](https://www.winemag.com/)
- ~130.000 Datensätze mit Weinbewertungen
- Metadaten wie:
    - Beschreibung des Sommeliers (blumig, erdig usw.)
    - Herkunftsland/-region
    - Winzer
    - Bewertung auf einer Punkteskala
    

In [17]:
import pandas
wine_reviews = pandas.read_csv(r'../datasets/wine-reviews/winemag-data_first150k.csv')
wine_reviews.head().transpose()

Unnamed: 0,0,1,2,3,4
Unnamed: 0,0,1,2,3,4
country,US,Spain,US,US,France
description,This tremendous 100% varietal wine hails from ...,"Ripe aromas of fig, blackberry and cassis are ...",Mac Watson honors the memory of a wine once ma...,"This spent 20 months in 30% new French oak, an...","This is the top wine from La Bégude, named aft..."
designation,Martha's Vineyard,Carodorum Selección Especial Reserva,Special Selected Late Harvest,Reserve,La Brûlade
points,96,96,96,96,95
price,235,110,90,65,66
province,California,Northern Spain,California,Oregon,Provence
region_1,Napa Valley,Toro,Knights Valley,Willamette Valley,Bandol
region_2,Napa,,Sonoma,Willamette Valley,
variety,Cabernet Sauvignon,Tinta de Toro,Sauvignon Blanc,Pinot Noir,Provence red blend


# Aufgabe:

1. Importieren sie die .csv-Daten in ihr Jupyter Notebook
2. Verschaffen sie sich einen Überblick über den Datensatz
    - (`head()`, `describe()`, `sample(n)`)
3. Überlegen sie sich Hypothesen, die sie unterstützen möchten
4. Untersuchen sie die Hypothesen und visualisieren die Ergebnisse