# Statistische Analyse - Ist die Avocado für Amerikaner ein Luxusprodukt?

Gilles Alain Luc Romer 

## Hintergrund und Fragestellung

### Hintergrund
Im Internet findet man viele Datensätze. Diese sind teils frei nutzbar, müssen gekauft werden oder dürfen auch oft nur angeschaut werden.
Um keine Lizenzen kaufen zu müssen und der Aufgabenstellung entgegen zu kommen habe ich mich darauf konzentriert eine frei nutzbare Quelle zu suchen. Dies gelingt selbst ohne konkrete Idee ziemlich schnell.

[Kaggle](https://www.kaggle.com) hat sich hierfür sehr gut geeignet, da man dort kategorisch suchen und sortieren kann und somit Datensätze findet, die seinen Interessen entsprechen. Zudem bieten die Ersteller der Datensätze allen Nutzern die Möglichkeit über sogenannte Kernels, diesen Datensatz für weitere Zwecke zu nutzen und sofort öffentlich zu teilen.
Somit habe ich ein [Kernel](https://www.kaggle.com/mohammedmurtuzalabib/pandas-101-one-stop-shop-for-data-science) gefunden, welcher mir bei meiner Analyse und Auswertung sehr weiter helfen wird. Es handelt sich um eine Zusammenfassung, wie man mit Python und Pandas solche riesigen Datenmengen visualisiert.

Selbstverständlich ist mir auch bewusst, dass es [Kernels](https://www.kaggle.com/neuromusic/avocado-prices/kernels) gibt, welche mir diese Arbeit der Datenanalyse abnehmen. Dennoch werde ich diese Kernels höchstens zur Inspiration aber keinesfalls zum ab kopieren nutzen. Dies würde mir dem Spaß an der Sache nehmen, nicht beweisen was ich kann und sicherlich auch an einem Täuschungsversuch oder einer nicht zu bewertbaren Abgabe grenzen.

### Warum habe ich diesen Datensatz gewählt?

Avocados sind meine absoluten Lieblingsfrüchte. Ob auf einem Burger, zu einem frischen Salat, einer Guacamole oder einfach mit einem Schuss Olivenöl: Avocados sind großartig! Sie sind einfach zu essen, können mit allem kombiniert werden und sind somit in irgendeiner Form ein absoluter Muss auf meinem sonntags Frühstückstisch. 
Somit hat mich beim Überfliegen der tausenden Datensätze dieser besonders abgeholt:
[Avocado Prices - Historical data on avocado prices and sales volume in multiple US markets](https://www.kaggle.com/neuromusic/avocado-prices)

Gekennzeichnet als besonders übersichtlich, gut beschrieben, sauber und von vielen genutzt hat dann auch die Tatsache, dass es sich um den US markt und nicht um den EU markt handelt, keine Rolle mehr gespielt. Somit begann für mich die Arbeit.

### Fragestellung

Die haupt Fragestellung der Analyse wird sein:  
- **In welcher Region Americas muss ich wohnen um wie gewohnt meine Sonntags-Avocado am günstigsten genießen zu können?**

Dazu hilft mir auch folgende Frage um zu einem Entschluss zu kommen:  
- **Hat die Saison in den verschiedenen Regionen einen Einfluss auf den Preis?**

## Beschreibung des Datensets

### Allgemeine Beschreibung

Der genutzte Datensatz zeigt Verkaufsdaten verschiedener Avocado Sorten, in verschiedenen Bundesstaaten der US, in den Jahren 2015-2018.

### Spalten des Datensatzes

`Date` - Das Datum der Beobachtung  
`AveragePrice` - der Durchschnittspreis einer einzelnen Avocado  
`type` - konventionell oder ökologisch  
`year` - das Jahr  
`Region` - die Stadt oder Region der Beobachtung  
`Total Volume` - Gesamtzahl der verkauften Avocados  
`4046` - Gesamtzahl der verkauften Avocados mit PLU 4046  
`4225` - Gesamtzahl der verkauften Avocados mit PLU 4225  
`4770` - Gesamtzahl der verkauften Avocados mit PLU 4770  

### Link zum Datensatz
- Kaggle: [https://www.kaggle.com/neuromusic/avocado-prices](https://www.kaggle.com/neuromusic/avocado-prices)
- Ursprung: [http://www.hassavocadoboard.com/retail/volume-and-price-data](http://www.hassavocadoboard.com/retail/volume-and-price-data)

## Visualisierungen und Analyse

### Inhaltsverzeichnis

- [Inhaltsverzeichnis](#Inhaltsverzeichnis)
- [Allgemeine Informationen des Datensatzes](#Allgemeine-Informationen-des-Datensatzes)

### Allgemeine Informationen des Datensatzes

Um nicht sofort von vielen Grafen überrumpelt zu werden fange ich an mir einen Überblick zu verschaffen.

In [1]:
import pandas as pd
dataset = pd.read_csv("./avocado.csv")
dataset

Unnamed: 0.1,Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany
2,2,2015-12-13,0.93,118220.22,794.70,109149.67,130.50,8145.35,8042.21,103.14,0.0,conventional,2015,Albany
3,3,2015-12-06,1.08,78992.15,1132.00,71976.41,72.58,5811.16,5677.40,133.76,0.0,conventional,2015,Albany
4,4,2015-11-29,1.28,51039.60,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18244,7,2018-02-04,1.63,17074.83,2046.96,1529.20,0.00,13498.67,13066.82,431.85,0.0,organic,2018,WestTexNewMexico
18245,8,2018-01-28,1.71,13888.04,1191.70,3431.50,0.00,9264.84,8940.04,324.80,0.0,organic,2018,WestTexNewMexico
18246,9,2018-01-21,1.87,13766.76,1191.92,2452.79,727.94,9394.11,9351.80,42.31,0.0,organic,2018,WestTexNewMexico
18247,10,2018-01-14,1.93,16205.22,1527.63,2981.04,727.01,10969.54,10919.54,50.00,0.0,organic,2018,WestTexNewMexico


Anhand der Angezeigten Tabelle können wir nun entnehmen dass es sich um 18249 reihen und 14 Spalten handelt.  
Auch wenn die Tabelle sauber scheint, möchte ich nach Daten schauen, welche meine Auswertung verfälschen könnten. Hierfür suche ich (wo sinnfoll) in den Spalten nach allen ein mal vorkommenden Namen oder Zahlen. Angefangen mit den Regionen:

In [2]:
print(set(dataset["region"]))

{'LosAngeles', 'Tampa', 'GreatLakes', 'LasVegas', 'Philadelphia', 'Boston', 'DallasFtWorth', 'Portland', 'Midsouth', 'Columbus', 'Houston', 'Orlando', 'RichmondNorfolk', 'Southeast', 'Atlanta', 'California', 'HartfordSpringfield', 'Albany', 'CincinnatiDayton', 'GrandRapids', 'NorthernNewEngland', 'Chicago', 'Boise', 'PhoenixTucson', 'Nashville', 'BuffaloRochester', 'Roanoke', 'SouthCentral', 'Jacksonville', 'Spokane', 'TotalUS', 'NewOrleansMobile', 'Plains', 'Denver', 'Charlotte', 'WestTexNewMexico', 'SanDiego', 'Detroit', 'Seattle', 'Syracuse', 'HarrisburgScranton', 'Northeast', 'Sacramento', 'Louisville', 'West', 'Pittsburgh', 'RaleighGreensboro', 'SouthCarolina', 'BaltimoreWashington', 'Indianapolis', 'StLouis', 'MiamiFtLauderdale', 'NewYork', 'SanFrancisco'}


Sofort fällt auf, dass wir eine reihe von Regionen haben aus denen die Daten stammen. Hier sticht die Region `TotalUS` heraus. Diese Region könnte die Auswertung verfälschen, wenn es sich wirklich um eine Summe aller Regionen handelt.   
Um dies zu überprüfen wird die Summe aller Verkauften Säcke (`Total Bags`) in der Region `TotalUS` zu jedem Datum (`Date`) verglichen mit der gleichen Summe in allen Regionen ausschließlich der Region `TotalUS`.

In [3]:
# Indexierung aller Daten in der Spalte "Date"
date = set(dataset["Date"])
vector = []
for dates in date:
    # Daten für TotalUS
    cur_date = dataset["Date"] == dates
    TotalUS_region = dataset["region"] == "TotalUS"
    TotalUS_data = dataset[TotalUS_region & cur_date]
    TotalUS_sum = TotalUS_data["Total Bags"].sum()
    # Daten für alles außer TotalUS
    not_TotalUS_region = dataset["region"] != "TotalUS"
    not_TotalUS_data = dataset[not_TotalUS_region & cur_date]
    not_TotalUS_sum = TotalUS_data["Total Bags"].sum()
    # Überprüfung ob beide Summen gleich sind
    vector.append(TotalUS_sum == not_TotalUS_sum)
# Ausgabe
print(*set(vector))

True
