# Introducere în Studiul Data Science

Acest notebook explorează domeniul fascinant al Data Science, folosind un set de date colectate dintr-un studiu despre starea actuală a acestui sector. Aceste date sunt stocate în fișierul `data/surveyDataScience.csv`. Vom folosi aceste informații pentru a investiga diverse aspecte ale Data Science, incluzând:

- **Informații descriptive**: Numărul de respondenți, atributele colectate, și completitudinea datelor.
- **Durata studiilor superioare**: Estimarea anilor necesari pentru diverse niveluri educaționale presupunând: licență = 3 ani, master = 2 ani, doctorat = 3 ani.
- **Analiza subgrupurilor**: Filtrarea respondenților pentru a investiga anumite grupuri, cum ar fi cei din România sau femeile care utilizează Python sau C++.
- **Rezumatul domeniilor de valori**: Prezentarea valorilor posibile pentru diferite atribute, inclusiv transformarea datelor privind vechimea în programare și calcularea momentelor statistice cheie.
- **Vizualizări**: Crearea de grafice care să evidențieze distribuțiile pe categorii de vârstă și să ajute la identificarea valorilor extreme în ceea ce privește vechimea în programare.

Pe parcursul acestui notebook, vom adăuga explicații și comentarii pentru a oferi claritate, facilitând înțelegerea proceselor și a rezultatelor obținute pentru studenții care încep să învețe despre Data Science. De asemenea, vom utiliza vizualizări atractive pentru a face analiza mai interactivă și mai ușor de înțeles.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re

# Asigurăm afișarea graficelor în notebook
%matplotlib inline

# Încărcăm fișierul CSV
file_path = 'data/surveyDataScience.csv'
df = pd.read_csv(file_path)

print('Primele 5 înregistrări:')
display(df.head())

Primele 5 înregistrări:


  df = pd.read_csv(file_path)


Unnamed: 0,Time from Start to Finish (seconds),Q1,Q2,Q3,Q4,Q5,Q6,Q7_Part_1,Q7_Part_2,Q7_Part_3,...,Q38_B_Part_3,Q38_B_Part_4,Q38_B_Part_5,Q38_B_Part_6,Q38_B_Part_7,Q38_B_Part_8,Q38_B_Part_9,Q38_B_Part_10,Q38_B_Part_11,Q38_B_OTHER
0,Duration (in seconds),What is your age (# years)?,What is your gender? - Selected Choice,In which country do you currently reside?,What is the highest level of formal education ...,Select the title most similar to your current ...,For how many years have you been writing code ...,What programming languages do you use on a reg...,What programming languages do you use on a reg...,What programming languages do you use on a reg...,...,"In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor...","In the next 2 years, do you hope to become mor..."
1,910,50-54,Man,India,Bachelor’s degree,Other,5-10 years,Python,R,,...,,,,,,,,,,
2,784,50-54,Man,Indonesia,Master’s degree,Program/Project Manager,20+ years,,,SQL,...,,,,,,,,,,
3,924,22-24,Man,Pakistan,Master’s degree,Software Engineer,1-3 years,Python,,,...,,,TensorBoard,,,,,,,
4,575,45-49,Man,Mexico,Doctoral degree,Research Scientist,20+ years,Python,,,...,,,,,,,,,,


## 1.a. Analize descriptive

Această secțiune examinează datele de bază despre respondenții sondajului. Se va determina câte persoane au răspuns la sondaj, câte atribute sunt disponibile și se vor examina tipurile de date pentru fiecare atribut. 

```python
# Importăm librăriile necesare
import pandas as pd

# 1. Numărul total de respondenți
total_respondents = df.shape[0]  # Numărul de rânduri în DataFrame indică numărul de respondenți
print(f'Numărul total de respondenți: {total_respondents}')

# 2. Numărul și tipul atributelor pentru un respondent
total_attributes = df.shape[1]  # Numărul de coloane indică numărul de atribute
print(f'Numărul de atribute: {total_attributes}\n')

# Se afișează tipul fiecărui atribut pentru a înțelege natura datelor
print('Tipul fiecărui atribut:')
print(df.dtypes)
```

### Explicații

- **Numărul total de respondenți**: Ne arată câte persoane au participat la sondaj.
- **Numărul de atribute**: Indică câte caracteristici sau întrebări au fost incluse în sondaj.
- **Tipul fiecărui atribut**: Ne ajută să înțelegem ce fel de date analizăm (de exemplu, numerice sau categorice), permițând o analiză ulterioară mai ușoară.

In [2]:
# 1. Numarul total de respondenți
num_respondents = df.shape[0]
print('Numărul total de respondenți:', num_respondents)

# 2. Numărul și tipul atributelor (proprietăților) pentru un respondent
num_attributes = df.shape[1]
print('Numărul de atribute:', num_attributes)

print('\nTipul fiecărui atribut:')
print(df.dtypes)

Numărul total de respondenți: 25974
Numărul de atribute: 369

Tipul fiecărui atribut:
Time from Start to Finish (seconds)    object
Q1                                     object
Q2                                     object
Q3                                     object
Q4                                     object
                                        ...  
Q38_B_Part_8                           object
Q38_B_Part_9                           object
Q38_B_Part_10                          object
Q38_B_Part_11                          object
Q38_B_OTHER                            object
Length: 369, dtype: object


In [3]:
# 3. Numărul de respondenți cu date complete
df_complete = df.dropna()
num_complete = df_complete.shape[0]
print('Numărul de respondenți cu date complete:', num_complete)

Numărul de respondenți cu date complete: 1


### Calcularea duratei medii a studiilor superioare

În cadrul acestei analize, vom determina durata medie a studiilor superioare, folosind următoarele presupuneri standard:
- Studiile de licență durează **3 ani**
- Studiile de master durează **2 ani**
- Studiile de doctorat durează **3 ani**

Vom calcula media pe trei grupuri specifice:
- Toți respondenții cu date complete
- Respondenții care trăiesc în România
- Respondenții din România care sunt femei

Asigurându-ne că fiecare calcul este clar și ușor de înțeles, îi invităm pe studenți să exploreze motivele din spatele acestor presupuneri și să discute eventualele variații în duratele studiilor în funcție de țară sau program. Acest exercițiu va ajuta la înțelegerea utilizării media ca mijloc de descriere a datelor.

In [4]:
# Numele coloanei de educație (conform header-ului din CSV)
edu_col = "What is your highest level of formal education that you have attained or plan to attain within the next 2 years?"

# Mapping-ul pentru durata studiilor
edu_mapping = {
    "Bachelor’s degree": 3,
    "Master’s degree": 2,
    "Doctorate": 3
}

# Lucrăm pe setul de date cu completețe
df_complete = df_complete.copy()
df_complete['education_years'] = df_complete[edu_col].map(edu_mapping)

# Calculăm media pentru respondenții cu date complete (extragând doar valorile nenule)
mean_all = df_complete['education_years'].dropna().mean()
print('Durata medie a studiilor superioare pentru respondenții cu date complete:', mean_all)

# Respondenții din România
romania_mask = df_complete['In which country do you currently reside?'] == 'Romania'
df_romania = df_complete[romania_mask]
mean_romania = df_romania['education_years'].dropna().mean()
print('Durata medie a studiilor pentru respondenții din România:', mean_romania)

# Respondenții din România care sunt femei
female_mask = df_complete['What is your gender? - Selected Choice'] == 'Female'
df_romania_female = df_romania[female_mask]
mean_romania_female = df_romania_female['education_years'].dropna().mean()
print('Durata medie a studiilor pentru respondenții din România care sunt femei:', mean_romania_female)

KeyError: 'What is your highest level of formal education that you have attained or plan to attain within the next 2 years?'

In [None]:
# 5. Numărul de respondenți femei din România cu date complete
num_romania_female_complete = df_romania_female.shape[0]
print('Numărul de respondenți femei din România cu date complete:', num_romania_female_complete)

### Analiza limbajelor de programare pentru femeile din România

În această secțiune, vom analiza două aspecte cheie în ceea ce privește femeile din România și limbajele de programare Python și C++:

- Vom determina câte femei din România folosesc Python și C++ în mod regulat.
- Vom examina grupul de vârstă cu cel mai mare număr de respondente care folosesc aceste limbaje.

Informațiile despre limbajul de programare se regăsesc în coloanele:
- `... - Python`
- `... - C++` 

Aceste coloane indică dacă respondenții folosesc regulat limbajele respective.

In [None]:
# Numele coloanelor pentru limbajele Python și C++ (conform header-ului)
python_col = "What programming languages do you use on a regular basis? (Select all that apply) - Selected Choice - Python"
cpp_col = "What programming languages do you use on a regular basis? (Select all that apply) - Selected Choice - C++"

# Filtrare pentru femeile din România care programează în Python
df_romania_female_python = df_romania_female[df_romania_female[python_col].notna()]
num_romania_female_python = df_romania_female_python.shape[0]
print('Numărul de femei din România care programează în Python:', num_romania_female_python)

# Determinăm intervalul de vârstă cu cele mai multe femei care programează în Python
age_col = "What is your age (# years)?"
age_counts_python = df_romania_female_python[age_col].value_counts()
if not age_counts_python.empty:
    print('Intervalul de vârstă cu cele mai multe femei care programează în Python:',
          age_counts_python.idxmax(), '(', age_counts_python.max(), 'respondente)')
else:
    print('Nu există date pentru femeile care programează în Python.')

# Filtrare pentru femeile din România care programează în C++
df_romania_female_cpp = df_romania_female[df_romania_female[cpp_col].notna()]
num_romania_female_cpp = df_romania_female_cpp.shape[0]
print('Numărul de femei din România care programează în C++:', num_romania_female_cpp)

age_counts_cpp = df_romania_female_cpp[age_col].value_counts()
if not age_counts_cpp.empty:
    print('Intervalul de vârstă cu cele mai multe femei care programează în C++:',
          age_counts_cpp.idxmax(), '(', age_counts_cpp.max(), 'respondente)')
else:
    print('Nu există date pentru femeile care programează în C++.')

### Domeniul de valori posibile și valorile extreme pentru fiecare atribut

În această secțiune, vom examina datele pentru a înțelege mai bine valorile posibile pentru fiecare atribut. Vom genera un rezumat diferit în funcție de tipul fiecărei coloane: dacă atributul este numeric, vom afișa valorile minime și maxime; pentru atributele categorice, vom arăta numărul de valori unice disponibile și câteva exemple de valori.

```python
# Creăm o listă pentru a stoca rezumatul fiecărei trăsături (atribut)
feature_summary = []

# Parcurgem fiecare coloană din DataFrame
for col in df.columns:
    # Verificăm dacă tipul de date al coloanei este numeric
    if pd.api.types.is_numeric_dtype(df[col]):
        summary = {
            'Feature': col,
            'Type': 'Numeric',
            'Min': df[col].min(),  # Valoarea minimă
            'Max': df[col].max(),  # Valoarea maximă
            'Unique': df[col].nunique()  # Numărul de valori unice
        }
    else:
        # Pentru date de tip categorial
        unique_vals = df[col].dropna().unique()
        summary = {
            'Feature': col,
            'Type': 'Categorical',
            'Unique Values Count': len(unique_vals),  # Numărul de valori unice
            'Example Values': unique_vals[:5]  # Primele 5 valori unice
        }
    # Adăugăm rezumatul în listă
    feature_summary.append(summary)

# Creăm un DataFrame din lista de rezumate pentru a o afișa frumos
summary_df = pd.DataFrame(feature_summary)

# Afișăm primele 10 rezumate într-un mod clar și organizat
print('Primele 10 rezumate de atribute:')
display(summary_df.head(10))
```

**Explicație:**

- Am adăugat comentarii explicative în fiecare pas al scriptului pentru a face clară funcționalitatea sa.
- Am structurat codul astfel încât să fie mai ușor de înțeles și de urmat, respectând un stil consistent.
- Am folosit funcția `display()` pentru a face prezentarea tabelei mai estetică și mai informativă.

In [None]:
feature_summary = []
for col in df.columns:
    if pd.api.types.is_numeric_dtype(df[col]):
        summary = {
            'Feature': col,
            'Type': 'Numeric',
            'Min': df[col].min(),
            'Max': df[col].max(),
            'Unique': df[col].nunique()
        }
    else:
        unique_vals = df[col].dropna().unique()
        summary = {
            'Feature': col,
            'Type': 'Categorical',
            'Unique Values Count': len(unique_vals),
            'Example Values': unique_vals[:5]
        }
    feature_summary.append(summary)

summary_df = pd.DataFrame(feature_summary)
print('Primele 10 rezumate de atribute:')
display(summary_df.head(10))

### Transformarea informațiilor despre vechimea în programare

În această secțiune, vom transforma informația din coloana "For how many years have you been writing code and/or programming?" într-o valoare numerică, folosind mijlocul intervalului (ex.: "5-10 years" → 7.5). Aceasta ne va permite să calculăm statistici descriptive clare.

```python
# Definim coloana care conține informațiile despre vechimea în programare
exp_col = "For how many years have you been writing code and/or programming?"

# Funcția ce transformă intervalul de ani într-o valoare medie numerică
def experience_to_years(x):
    if pd.isnull(x):
        return np.nan
    # Căutăm numerele în intervalul de text și le convertim la float pentru calcul
    nums = re.findall(r'\d+', x)
    if len(nums) == 2:
        return (float(nums[0]) + float(nums[1])) / 2.0
    elif len(nums) == 1:
        return float(nums[0])
    else:
        return np.nan

# Aplicăm funcția asupra întregii coloane și adăugăm rezultatele într-o nouă coloană
df['exp_years'] = df[exp_col].apply(experience_to_years)

# Calculul momentelor statistice esențiale
min_exp = df['exp_years'].min()
max_exp = df['exp_years'].max()
mean_exp = df['exp_years'].mean()
std_exp = df['exp_years'].std()
median_exp = df['exp_years'].median()

# Afișăm rezultatele și explicăm importanța lor
print('Vechimea în programare (ani):')
print(f'Minim: {min_exp} ani')
print(f'Maxim: {max_exp} ani')
print(f'Media: {mean_exp:.2f} ani')
print(f'Deviație standard: {std_exp:.2f} ani')
print(f'Mediana: {median_exp} ani')

# Observație privind variabilitatea și potențialii outlieri
print('\nObservație: Variabila vechime în programare prezintă o variabilitate notabilă; '
      'valorile extreme pot indica prezența unor outlieri.')
```

Acest cod ajută la convertirea datelor textuale într-un format numeric practic pentru analize statistice ulterioare. De asemenea, explică pas cu pas fiecare etapă și introduce terminologia statistică într-un mod accesibil pentru studenți.

In [None]:
exp_col = "For how many years have you been writing code and/or programming?"

def experience_to_years(x):
    if pd.isnull(x):
        return np.nan
    # Căutăm toate numerele din șir
    nums = re.findall(r'\d+', x)
    if len(nums) == 2:
        return (float(nums[0]) + float(nums[1])) / 2.0
    elif len(nums) == 1:
        return float(nums[0])
    else:
        return np.nan

# Aplicăm funcția și creăm o nouă coloană
df['exp_years'] = df[exp_col].apply(experience_to_years)

min_exp = df['exp_years'].min()
max_exp = df['exp_years'].max()
mean_exp = df['exp_years'].mean()
std_exp = df['exp_years'].std()
median_exp = df['exp_years'].median()

print('Vechimea în programare (ani):')
print('Minim:', min_exp)
print('Maxim:', max_exp)
print('Media:', mean_exp)
print('Deviație standard:', std_exp)
print('Mediana:', median_exp)

print('\nObservație: Variabila vechime în programare prezintă o variabilitate notabilă; valorile extreme pot indica prezența unor outlieri.')

## 1.b. Vizualizări

Pentru a înțelege mai bine distribuția respondenților care folosesc Python și pentru evidențierea outlierilor, vom realiza câteva vizualizări îmbunătățite. Vom utiliza `seaborn` pentru a crea grafice mai atractive vizual și pentru a facilita analiza datelor.

```python
import seaborn as sns

# Configurăm stilul pentru grafice
sns.set(style="whitegrid")
plt.figure(figsize=(10, 6))

# Vizualizarea distribuției respondenților care programează în Python pe categorii de vârstă
df_python = df[df[python_col].notna()]
age_counts_python_all = df_python[age_col].value_counts().sort_index()

sns.countplot(data=df_python, x=age_col, palette="deep")
plt.title('Distribuția respondenților care programează în Python pe categorii de vârstă')
plt.xlabel('Interval de vârstă')
plt.ylabel('Număr de respondenți')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
```

Această secțiune adresează și îmbogățește vizualizarea inițială având scopul de a face analizele mai accesibile și interesante pentru studenți. Am folosit `seaborn` pentru a înfrumuseța graficele și a facilita comparația vizuală. Considerați adăugarea de note sau indicii suplimentare pentru a ajuta studenții să înțeleagă mai bine elementele cheie.

In [None]:
# Vizualizarea distribuției respondenților care programează în Python pe categorii de vârstă
df_python = df[df[python_col].notna()]
age_counts_python_all = df_python[age_col].value_counts().sort_index()

plt.figure(figsize=(8,5))
age_counts_python_all.plot(kind='bar')
plt.title('Distribuția respondenților care programează în Python pe categorii de vârstă')
plt.xlabel('Interval de vârstă')
plt.ylabel('Număr de respondenți')
plt.show()

In [None]:
# Vizualizarea distribuției respondenților din România care programează în Python pe categorii de vârstă
df_romania_python = df[df['In which country do you currently reside?'] == 'Romania']
df_romania_python = df_romania_python[df_romania_python[python_col].notna()]
age_counts_romania_python = df_romania_python[age_col].value_counts().sort_index()

plt.figure(figsize=(8,5))
age_counts_romania_python.plot(kind='bar')
plt.title('Distribuția respondenților din România care programează în Python pe categorii de vârstă')
plt.xlabel('Interval de vârstă')
plt.ylabel('Număr de respondenți')
plt.show()

In [None]:
# Vizualizarea distribuției respondenților femei din România care programează în Python pe categorii de vârstă
df_romania_female_python_vis = df[(df['In which country do you currently reside?'] == 'Romania') & 
                                  (df['What is your gender? - Selected Choice'] == 'Female') & 
                                  (df[python_col].notna())]
age_counts_romania_female_python = df_romania_female_python_vis[age_col].value_counts().sort_index()

plt.figure(figsize=(8,5))
age_counts_romania_female_python.plot(kind='bar')
plt.title('Distribuția respondenților femei din România care programează în Python pe categorii de vârstă')
plt.xlabel('Interval de vârstă')
plt.ylabel('Număr de respondenți')
plt.show()

In [None]:
# Boxplot pentru identificarea outlierilor în vechimea în programare
plt.figure(figsize=(8,5))
plt.boxplot(df['exp_years'].dropna(), vert=False)
plt.title('Boxplot pentru vechimea în programare')
plt.xlabel('Ani de experiență')
plt.show()