title: "World-happiness-report"
author: "Rafaat Choki"
date: "2024-07-02"

## Einleitung

In dieser Analyse untersuchen wir die Entwicklung von Smartphones über die Jahre hinweg und die Zusammenhänge zwischen verschiedenen technischen Merkmalen. Unser Ziel ist es, zu verstehen, wie sich die Spezifikationen von Smartphones verändert haben, um den steigenden Anforderungen der Nutzer gerecht zu werden. Dazu werden wir die Daten bereinigen, explorativ analysieren, Hypothesen testen und statistische Modelle verwenden, um die wichtigsten Trends und Korrelationen in den Smartphone-Daten zu identifizieren.

### Hypothesen


**1. Hypothese:** **Größere Akkukapazität ist mit größeren Displays verbunden.**

   - **Erklärung:** Diese Hypothese nimmt an, dass Smartphones mit größeren Displays auch größere Akkus benötigen, um den zusätzlichen Energieverbrauch auszugleichen. Größere Bildschirme bieten eine bessere Benutzererfahrung, erfordern jedoch mehr Energie, was eine größere Batterie erforderlich macht, um eine angemessene Akkulaufzeit zu gewährleisten.

**2. Hypothese:** **Smartphones mit höherer Display-Auflösung bieten auch eine höhere Bildwiederholrate (Display_Refresh_Rate).**

   - **Erklärung:** Diese Hypothese nimmt an, dass Smartphones mit einer höheren Display-Auflösung (höherer Pixelwert) auch eine höhere Bildwiederholrate aufweisen. Geräte mit einer besseren Display-Technologie erfordern möglicherweise auch eine verbesserte Bildwiederholrate, um die hohe Auflösung flüssig darzustellen und eine bessere visuelle Erfahrung zu bieten.

**3. Hypothese:** Der **Primary_Storage**, **Memory**, **Primary_Camera**, **Front_Camera**, **Battery**, **Display_Refresh_Rate**, und **Display_Resolution** von Smartphones haben sich im Laufe der Jahre vergrößert, um den steigenden Anforderungen der Nutzer gerecht zu werden.

   - **Erklärung:** Diese Hypothese besagt, dass die wichtigsten technischen Merkmale von Smartphones (Speicher, Kameraauflösungen, Akkukapazität, Displayauflösungen und Bildwiederholraten) mit den Jahren gewachsen sind, um mit der wachsenden Nachfrage nach leistungsfähigeren Geräten und besseren Nutzererfahrungen Schritt zu halten. Dies könnte auf den zunehmenden Bedarf an Speicherplatz für größere Apps, bessere Kameraqualität und längere Akkulaufzeiten hinweisen.

### Vorgehensweise

**Datenimport**: Wir importieren die notwendigen Daten und Bibliotheken.

**1. Datenvorbereitung und Bereinigung**: 
Wir beginnen mit der Datenvorbereitung, indem wir sicherstellen, dass alle relevanten Spalten korrekt formatiert sind und keine fehlenden oder fehlerhaften Werte enthalten. Insbesondere müssen Spalten wie `Primary_Storage`, `Memory`, `Primary_Camera`, `Battery`, `Display_Resolution` und `Display_Refresh_Rate` überprüft und bereinigt werden. Falls nötig, konvertieren wir `Display_Resolution` in numerische Werte (z. B. Gesamtpixelanzahl), um eine einfachere Analyse zu ermöglichen.

**2. Explorative Datenanalyse**:
Nach der Bereinigung analysieren wir die Daten mithilfe von deskriptiver Statistik und Visualisierungen, um die Entwicklung der Smartphone-Technologien über die Jahre hinweg zu verstehen. Wir erstellen Diagramme wie Scatterplots, Boxplots und Liniencharts, um Trends und Korrelationen zwischen den wichtigsten Merkmalen zu erkennen. Dies umfasst die Untersuchung, wie sich `Primary_Storage`, `Memory`, `Primary_Camera`, `Battery` und andere Merkmale im Laufe der Jahre verändert haben.

**3. Korrelation und Trendanalyse**:
Wir analysieren die Korrelationen zwischen verschiedenen Merkmalen, um festzustellen, ob es signifikante Zusammenhänge gibt, z. B. ob größere Akkus mit größeren Displays oder höheren Bildwiederholraten korrelieren. Zusätzlich verwenden wir Trendlinien, um die Entwicklung bestimmter Merkmale über die Jahre hinweg darzustellen.

**4. Lineare Regression zur Schätzung der Entwicklung**:
Um die Beziehungen zwischen den verschiedenen Merkmalen und deren Veränderungen im Laufe der Zeit zu quantifizieren, verwenden wir lineare Regression. Diese hilft uns, die wichtigsten Faktoren zu identifizieren, die für das Wachstum von `Primary_Storage`, `Battery`, `Display_Resolution` und anderen Merkmalen verantwortlich sind. Zudem können wir die Bedeutung von Faktoren wie Displaygröße und Kameraauflösung im Zusammenhang mit anderen technischen Eigenschaften analysieren.

**5. Hypothesen testen**:
Wir überprüfen unsere Hypothesen mithilfe von statistischen Tests und Visualisierungen. Beispielsweise testen wir, ob der Zusammenhang zwischen Akkukapazität und Displaygröße signifikant ist oder ob Smartphones mit höherer Displayauflösung tatsächlich eine höhere Bildwiederholrate aufweisen.

## Hauptteil

### 1. Daten import

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

data = pd.read_csv("C:/Users/rafaa/Desktop/phones_analysis/data/smartphones.csv")
data

### 1. Datenvorbereitung

**1.1. Allgemeine Informationen zu den Daten anzeigen:**
    
   - **Grund:** Bevor wir mit der eigentlichen Datenanalyse beginnen, ist es wichtig, einen Überblick über die Struktur und den Inhalt unserer Daten zu erhalten. Dies hilft uns, mögliche Probleme wie fehlende Werte, falsche Datentypen oder unvollständige Einträge zu erkennen und diese entsprechend zu behandeln.

   - **Beobachtung:** Die Daten beinhalten eine Vielzahl von technischen Spezifikationen für Smartphones. Einige Spalten enthalten fehlende Werte (z.B. `Processor`, `Front_Camera`, `Display_Refresh_Rate`), was darauf hindeutet, dass bestimmte Geräte in diesen Bereichen keine Angaben haben oder die Information nicht erfasst wurde. Zudem sind einige Spalten als Zeichenketten (Strings) formatiert, obwohl sie numerische Werte enthalten sollten (z.B. `Display_Resolution`), was zu potenziellen Schwierigkeiten bei der Analyse führen kann.
    
   - **Code:**

In [None]:
# Allgemeine Informationen zu den Daten anzeigen
data.info()
data.describe()

In [None]:
# Daten nach erscheinungsdatum sortieren
data_sorted = data.sort_values(by='Release_Date', ascending=False)

# Ein kurzer Blick auf die ersten Zeilen der Daten
data_sorted.head()

In [None]:
# Ein kurzer Blick auf die letzen Zeilen der Daten
data_sorted.tail()

### 1.2. Analyse der Spalten und Entfernen irrelevanter Spalten

  - **Grund:** Bevor wir mit der eigentlichen Analyse fortfahren, ist es wichtig, die verschiedenen Spalten zu überprüfen und zu entscheiden, ob sie für die Analyse notwendig sind. Einige Spalten, die wenig bis keine Variation in den Daten aufweisen oder für die Analyse irrelevant sind, können entfernt werden, um den Datensatz zu optimieren und die Analyse zu vereinfachen.
  
  - **Beobachtung:** Die Spalte `External_Storage` wird für die Analyse irrelevant sein. Es gibt auch doppelte Einträge für "not expandable" sowie leere Werte (7,8%).

  - **Code:**

In [None]:
# Prozentsatz der verschiedenen Werte in der Spalte 'External_Storage'
external_storage_unique_percentage = data['External_Storage'].value_counts(normalize=True) * 100

# Ausgabe der verschiedenen Werte und deren Prozentsatz
print("Prozentuale Verteilung der verschiedenen Werte in 'External_Storage':")
print(external_storage_unique_percentage)

# Wenn die Spalte irrelevant ist, löschen wir sie
data = data.drop(columns=['External_Storage'])

# Überprüfen, ob die Spalte 'External_Storage' noch existiert
print(f"Existiert die Spalte 'External_Storage' noch? {'External_Storage' in data.columns}")

### 1.3. Umwandlung der Display-Auflösung in numerische Werte

  - **Grund:** Um die Hypothese zu überprüfen, dass Smartphones mit höherer Display-Auflösung auch eine höhere Bildwiederholrate (Display_Refresh_Rate) bieten, müssen wir die `Display_Resolution`-Daten in eine numerische Form bringen. Die aktuelle Darstellung der Auflösung als Zeichenkette (z. B. "1280 x 720") hindert uns daran, eine statistische Analyse durchzuführen. Durch das Aufteilen der Auflösung in Breite und Höhe sowie der Berechnung der Gesamtauflösung können wir die Daten numerisch auswerten und die Hypothese validieren.

  - **Code:**

In [50]:
# Schritt 1: Display_Resolution aufteilen in Breite und Höhe
data[['Resolution_Width', 'Resolution_Height']] = data['Display_Resolution'].str.split(' x ', expand=True)

# Schritt 2: Umwandlung in numerische Werte
data['Resolution_Width'] = pd.to_numeric(data['Resolution_Width'], errors='coerce')
data['Resolution_Height'] = pd.to_numeric(data['Resolution_Height'], errors='coerce')

# Schritt 3: Berechnung der Gesamtauflösung
data['Total_Resolution'] = data['Resolution_Width'] * data['Resolution_Height']

# Überprüfen der ersten Zeilen
data[['Display_Resolution', 'Resolution_Width', 'Resolution_Height', 'Total_Resolution']].head()

Unnamed: 0,Display_Resolution,Resolution_Width,Resolution_Height,Total_Resolution
0,854 x 480,854.0,480.0,409920.0
1,1280 x 720,1280.0,720.0,921600.0
2,1920 x 1080,1920.0,1080.0,2073600.0
3,1280 x 720,1280.0,720.0,921600.0
4,1280 x 720,1280.0,720.0,921600.0
