## Etapa 1. Descripción de los datos 

In [2]:
import pandas as pd

In [6]:
file_path = "music_project_en.csv"
df = pd.read_csv(file_path)

In [8]:
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [10]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


## Etapa 2. Preprocesamiento de datos 
### 2.1 Estilo del encabezado

In [12]:
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [14]:
for column in df.columns:
    df.rename(columns={column: column.lower()}, inplace=True)

print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [16]:
for column in df.columns:
    df.rename(columns={column: column.lower().strip()}, inplace=True)


print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [18]:
df.rename(columns={'userid': 'user_id'}, inplace=True)


print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [20]:
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### 2.2 Valores ausentes

In [22]:
total_missing_values = df.isnull().sum().sum()

print("Número total de valores ausentes en la tabla:", total_missing_values)

Número total de valores ausentes en la tabla: 10108


In [33]:
columns_to_fill = ['track', 'artist', 'genre']


for column in columns_to_fill:
    df[column].fillna('unknown', inplace=True)


print("Cantidad de valores ausentes después de rellenarlos:")
print(df.isnull().sum())

Cantidad de valores ausentes después de rellenarlos:
user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna('unknown', inplace=True)


In [35]:
missing_values_after_fill = df.isnull().sum()


print("Número de valores ausentes después del reemplazo:")
print(missing_values_after_fill)

Número de valores ausentes después del reemplazo:
user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### 2.3  Duplicados

In [38]:
duplicate_count = df.duplicated().sum()

print(duplicate_count)

3826


In [40]:
df.drop_duplicates(inplace=True)

In [42]:
duplicate_count_after_drop = df.duplicated().sum()

print(duplicate_count_after_drop)

0


In [44]:
genres_column = df['genre']

unique_genres = genres_column.unique()

print("Valores únicos en la columna 'genre':")
print(unique_genres)

Valores únicos en la columna 'genre':
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetang

In [46]:
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)
    return df

In [48]:
replace_wrong_genres(['hip', 'hop', 'hip-hop'], 'hiphop')

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hiphop,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [50]:
print(df['genre'].unique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

## Etapa 3 Hipotesis

### 3.1 comparar el comportamiento del usuario o la usuaria en las dos ciudades

In [60]:
# Agrupar los datos por ciudad y contar el número de canciones reproducidas en cada grupo
canciones_por_ciudad = df.groupby('city')['track'].count()

# Mostrar el resultado
print("Cantidad de canciones reproducidas en cada ciudad:")
print(canciones_por_ciudad)

Cantidad de canciones reproducidas en cada ciudad:
city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


In [62]:
# Agrupar los datos por día de la semana y contar el número de canciones reproducidas en cada grupo
canciones_por_dia = df.groupby('day')['track'].count()

# Mostrar el resultado
print("Cantidad de canciones reproducidas en cada día de la semana:")
print(canciones_por_dia)

Cantidad de canciones reproducidas en cada día de la semana:
day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


In [64]:
def number_tracks(day, city):
    # Filtrar los datos por día de la semana
    filtered_by_day = df[df['day'] == day]
    
    # Filtrar la tabla resultante por ciudad
    filtered_by_city = filtered_by_day[filtered_by_day['city'] == city]
    
    # Contar el número de canciones reproducidas en el día y ciudad especificados
    number_of_tracks = filtered_by_city['user_id'].count()
    
    # Devolver el número de canciones reproducidas
    return number_of_tracks

In [66]:
tracks_monday_shelbyville = number_tracks(day='Monday', city='Shelbyville')
print("Canciones reproducidas en Shelbyville el lunes:", tracks_monday_shelbyville)

Canciones reproducidas en Shelbyville el lunes: 5614


In [68]:
tracks_monday_shelbyville = number_tracks(day='Monday', city='Shelbyville')
print("Canciones reproducidas en Shelbyville el lunes:", tracks_monday_shelbyville)


Canciones reproducidas en Shelbyville el lunes: 5614


In [70]:
tracks_wednesday_springfield = number_tracks(day='Wednesday', city='Springfield')
print("Canciones reproducidas en Springfield el miércoles:", tracks_wednesday_springfield)


Canciones reproducidas en Springfield el miércoles: 11056


In [72]:
tracks_wednesday_shelbyville = number_tracks(day='Wednesday', city='Shelbyville')
print("Canciones reproducidas en Shelbyville el miércoles:", tracks_wednesday_shelbyville)


Canciones reproducidas en Shelbyville el miércoles: 7003


In [74]:
tracks_friday_springfield = number_tracks(day='Friday', city='Springfield')
print("Canciones reproducidas en Springfield el viernes:", tracks_friday_springfield)


Canciones reproducidas en Springfield el viernes: 15945


In [76]:
tracks_friday_shelbyville = number_tracks(day='Friday', city='Shelbyville')
print("Canciones reproducidas en Shelbyville el viernes:", tracks_friday_shelbyville)


Canciones reproducidas en Shelbyville el viernes: 5895


# Conclusiones

Basándonos en los datos proporcionados y en el análisis realizado, podemos concluir lo siguiente:

Hay diferencias en la actividad de reproducción de música entre las ciudades de Springfield y Shelbyville.

Springfield tiene una actividad de reproducción de música más alta en comparación con Shelbyville.

La actividad de reproducción de música varía según el día de la semana en ambas ciudades. En general, los viernes parecen ser los días con mayor actividad de reproducción de música en ambas ciudades.

Aunque los datos sugieren que hay diferencias en la actividad de reproducción de música entre las ciudades y los días de la semana, se necesitarían pruebas estadísticas adicionales para determinar si estas diferencias son estadísticamente significativas.

La hipótesis inicial de que "la actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad" parece ser plausible, pero requiere una validación estadística más rigurosa.

En resumen, los datos proporcionados nos brindan información útil sobre las preferencias musicales de los usuarios en diferentes ciudades y días de la semana, pero se necesitarían análisis estadísticos adicionales para llegar a conclusiones más sólidas.