# Mobile Data Challenge 2024
## Notebook de prova

En aquest challenge treballareu amb un gran dataset real i pot ser que mai hagueu treballat amb dades mitjançant codi. Us proporcionem un dataset de mostra similar a una extracció del que rebreu per part de Telefónica, amb dades aleatòries per l'objectiu de que dugueu a terme les següents activitats simples a partir d'elles. Les dades proporcionades són fictícies i només pel propòsit de simular unes activitats bàsiques, qualsevol similitud amb la realitat es només una coincidència. Els resultats que obtingueu poden no tenir sentit.

El dataset es composa d'un CSV amb 6 columnes: 
1. Dia al que es refereix la medició (format DD/MM/AAAA)
2. Nom de la província d'origen
3. Nom de la província de destí
4. Dia de la setmana
5. Mes
6. Número de conexions mòbils desplaçades d'origen a destí (nº de viatges)

Per a que el notebook funcioni, el dataset s'ha de trobar al mateix directori que el notebook i sota el nom original "testdata.csv". Si heu canviat el nom del CSV, canvieu-lo també a la línea de codi del file_path que trobareu a sota.

In [2]:
# Installs and imports
# !pip install pandas
# !pip install matplotlib
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
# Path to the CSV file (CSV SHOULD BE INSIDE SAME DIRECTORY AS NOTEBOOK)
file_path = 'testdata.csv'

# Read the CSV file into a DataFrame
df = pd.read_csv(file_path, delimiter=';')

In [4]:
# Print columns for making sure read_csv worked
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123 entries, 0 to 122
Data columns (total 6 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Day                     123 non-null    object
 1   Provincia Origen Name   123 non-null    object
 2   Provincia Destino Name  123 non-null    object
 3   Day Of Week             123 non-null    object
 4   Month                   123 non-null    object
 5   Viajes                  123 non-null    int64 
dtypes: int64(1), object(5)
memory usage: 5.9+ KB
None


Amb aquest dataset, per exemple ens agradaria obtenir les dades de quanta gent de fora ha vingut a Catalunya la 3a setmana d'agost (dies 19-25).

Per això hem de filtrar aquelles entrades en les quals l'origen sigui alguna província de Catalunya (Barcelona, Girona, Lleida i Tarragona):

In [14]:
# List of provinces to discard
catalan_provinces = ['Barcelona', 'Girona', 'Lérida', 'Tarragona']

# Filter the DataFrame
filtered_df = df[~df['Provincia Origen Name'].isin(catalan_provinces)]

# Convert the filtered DataFrame to a list of dictionaries
filtered_data = filtered_df.to_dict(orient='records')

print(filtered_data)


[{'Day': '01/05/2024', 'Provincia Origen Name': 'Madrid', 'Provincia Destino Name': 'Girona', 'Day Of Week': 'Sábado', 'Month': 'Mayo', 'Viajes': 27050}, {'Day': '03/05/2024', 'Provincia Origen Name': 'Valencia', 'Provincia Destino Name': 'Barcelona', 'Day Of Week': 'Martes', 'Month': 'Mayo', 'Viajes': 2980}, {'Day': '04/05/2024', 'Provincia Origen Name': 'Sevilla', 'Provincia Destino Name': 'Lérida', 'Day Of Week': 'Viernes', 'Month': 'Mayo', 'Viajes': 4123}, {'Day': '05/05/2024', 'Provincia Origen Name': 'Zaragoza', 'Provincia Destino Name': 'Málaga', 'Day Of Week': 'Miércoles', 'Month': 'Mayo', 'Viajes': 1865}, {'Day': '06/05/2024', 'Provincia Origen Name': 'Málaga', 'Provincia Destino Name': 'Cádiz', 'Day Of Week': 'Jueves', 'Month': 'Mayo', 'Viajes': 2450}, {'Day': '07/05/2024', 'Provincia Origen Name': 'Murcia', 'Provincia Destino Name': 'Girona', 'Day Of Week': 'Domingo', 'Month': 'Mayo', 'Viajes': 47890}, {'Day': '08/05/2024', 'Provincia Origen Name': 'Alicante', 'Provincia Des

Ara, hauriem de filtrar les entrades d'aquesta nova llista que tinguin com a província destí una província de Catalunya:

In [15]:
# Filter the list
filtered_df = filtered_df[filtered_df['Provincia Destino Name'].isin(catalan_provinces)]

print(filtered_df)

            Day Provincia Origen Name Provincia Destino Name Day Of Week  \
0    01/05/2024                Madrid                 Girona      Sábado   
2    03/05/2024              Valencia              Barcelona      Martes   
3    04/05/2024               Sevilla                 Lérida     Viernes   
6    07/05/2024                Murcia                 Girona     Domingo   
14   15/05/2024             La Coruña              Tarragona      Jueves   
18   19/05/2024              Albacete              Tarragona     Domingo   
20   21/05/2024                Cuenca              Barcelona     Viernes   
23   24/05/2024               Segovia                 Girona       Lunes   
31   01/06/2024                Teruel              Tarragona      Jueves   
34   04/06/2024               Badajoz                 Lérida   Miércoles   
39   09/06/2024                Huelva                 Girona     Domingo   
46   16/06/2024              Alicante              Barcelona     Domingo   
52   22/06/2

Obtenim les entrades que corresponguin a la 3a setmana d'agost (del 19 al 25):

In [17]:
# Filter the list for entries with 'Month' being 'Agosto'
filtered_df = filtered_df[filtered_df['Month'] == 'Agosto']

# Select the entries for the specified dates (between 19/08/2024 and 25/08/2024)
filtered_df = filtered_df[(filtered_df['Day'] >= '19/08/2024') & (filtered_df['Day'] <= '25/08/2024')]

print(filtered_df)


            Day Provincia Origen Name Provincia Destino Name Day Of Week  \
111  20/08/2024           Ciudad Real              Tarragona     Viernes   
115  24/08/2024               Segovia              Tarragona      Martes   

      Month  Viajes  
111  Agosto   36780  
115  Agosto   18600  


Ara amb això podem fer un gràfic de quins són les províncies d'on ve més gent a Catalunya la 3a setmana d'agost:

In [None]:

# Count the number of entries for each province of origin

# Sum the values of column 'Viajes' by 'Provincia Origen Name'

# Plot the bar graph

# Add title and labels

# Annotate the bar graph with the values (optional)

# Show the plot

El podem mostrar ordenat per veure clarament de quines províncies ha vingut més gent:

In [None]:
# Sort the series by the number of trips

# Plot the sorted bar graph

# Add title and labels

# Annotate the bar graph with the values (optional)

# Show the plot

Això és només un exemple de sortida que es pot obtenir treballant amb un dataset similar al que se us proporcionarà. Les possibilitats son moltes i estem segurs que en treureu profit!