La comparación de Moscú y Petersburgo está rodeada de mitos. Por ejemplo:
 * Moscú - metrópolis, sujeto al duro ritmo de la semana laboral;
 * Petersburgo - capital cultural, con sus propios gustos.

En los datos de Yandex Music comparará el comportamiento de los usuarios de las dos capitales.

***El objetivo del estudio** - probar tres hipótesis:
1. La actividad de los usuarios depende del día de la semana. Y en Moscú y San Petersburgo se manifiesta de manera diferente.
2. Lunes por la mañana en Moscú prevalecen algunos géneros, y en Petersburgo - otros. También el viernes por la noche, prevalecen diferentes géneros - dependiendo de la ciudad. 
3. Moscú y St. Petersburgo prefieren diferentes géneros de música.

**Progreso de la investigación**

Obtendrá información sobre el comportamiento del usuario en el archivo [yandex_music_project.csv¹. No se sabe nada sobre la calidad de los datos. Por lo tanto, antes de probar hipótesis tendrá que revisar los datos. 

Comprobará los datos en busca de errores y evaluará su impacto en la investigación. Luego, en la fase de procesamiento previo, buscará una oportunidad para corregir los errores de datos más críticos.
 
Así, el estudio se realizará en tres etapas:
 1. Revisión de los datos.
 2. Tratamiento previo de los datos.
 3. Hipótesis de ensayo.

## Revisión de datos

Haga la primera representación de los datos de Yandex Music.

**Trabajo 1**

La principal herramienta de análisis es í pandas¹. Importa esta biblioteca.

In [1]:
import pandas as pd

**Trabajo 2**

Lea el archivo [yandex_music_project.csv[ desde la carpeta ¹/datasets‍ y guárdelo en la variable ¹df ː:

In [2]:
df = pd.read_csv('/Applications/Python/Проекты/Датасеты/yandex_music_project.csv')

**Trabajo 3**


Muestra las primeras diez filas de la tabla:

In [3]:
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                    Преданная         IMPERVTOR  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE     И вновь продолжается бой               NaN  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

             City        time        Day  
0  Saint-Petersburg  20:28:33  Wednesday  
1            Moscow  14:07:09     Friday  
2  Saint-Petersburg  20:58:07  Wednesday  
3  Saint-Petersburg  08:37:09     Monday  
4            M

**Trabajo 4**


Un comando para obtener información general sobre la tabla usando el método ːinfo()):

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Por lo tanto, hay siete columnas en la tabla. El tipo de datos en todas las columnas es objeto expo.

Según la documentación de datos:
* ː userID= - identificador de usuario;
* € Track‍ - el nombre de la pista;  
* El artista que se ocupa del artista - nombre del artista;
* =genre‍ - el nombre del género;
* € Ciudad¹ - Ciudad usuario;
* ː time= - el comienzo de la audición;
* € Día del año - el día de la semana.

El número de valores en las columnas varía. Esto significa que faltan valores en los datos.

**Trabajo 5**

**Pregunta con respuesta gratuita**

En los títulos de las columnas puede ver violaciones de estilo:
* Las letras minúsculas se combinan con las mayúsculas.
* Lagunas encontradas

¿Cuál es la tercera infracción?

Las palabras están mejor separadas por subrayado: user_id

***Conclusiones**

En cada fila de la tabla - datos sobre la pista escuchada. Parte de las columnas describe la composición misma: nombre, artista y género. El resto de los datos habla del usuario: de qué ciudad estaba escuchando música. 

Puede argumentarse provisionalmente que los datos son suficientes para probar hipótesis. Pero hay omisiones en los datos, y en los títulos de las columnas - diferencias con un buen estilo.

Para avanzar, necesitamos solucionar problemas de datos.

## Vista previa de datos
Corrija el estilo en los encabezados de las columnas, elimine los saltos. A continuación, compruebe los datos en busca de duplicados.

#### Estilo de encabezado

**Trabajo 6**

Imprima los nombres de las columnas en la pantalla:

In [5]:
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

**Trabajo 7**


Alinear títulos con buen estilo:
* unas pocas palabras en el nombre escribir en «zminom_register»,
* Hacer todos los caracteres en minúsculas,
* Rellenar los huecos.

Para ello, cambie el nombre de las columnas de la siguiente manera:
    
* `'  userID'` → `'user_id'`;
* `'Track'` → `'track'`;
* `'  City  '` → `'city'`;
* `'Day'` → `'day'`.

In [7]:
df = df.rename(columns = {
    '  userID' : 'user_id',
    'Track' : 'track',
    '  City  ' : 'city',
    'Day' : 'day'
})

**Trabajo 8**


Compruebe el resultado. Para ello, vuelva a imprimir los nombres de las columnas:

In [8]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Saltar valores

**Trabajo 9**.

Primero, calcule cuántos valores faltan en la tabla. Para esto, dos métodos son suficientes ¹pandas ː:

In [9]:
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

No todos los valores omitidos afectan al estudio. Por lo tanto, en el tema ¹ y en el caso de artistas que omiten no son importantes para su trabajo. Basta con sustituirlas por designaciones explícitas.

Sin embargo, las omisiones en el género pueden interferir con la comparación de los gustos musicales en Moscú y San Petersburgo. En la práctica sería correcto establecer la causa de los saltos y recuperar los datos. Esta posibilidad no está disponible en el proyecto de formación. Usted tendrá que hacer lo siguiente:
* Rellenar estos espacios en blanco con símbolos explícitos;
* evaluar cuánto dañarán los cálculos. 

**Trabajo 10**

Reemplace los valores que faltan en las columnas ¹track ľ, ī artist= y ¹genre‍ con la fila ¿'unknown'. Para hacer esto, cree una lista de las columnas que se han de reemplazar, busque sus elementos con un ciclo de ¹€ y reemplace los valores que faltan para cada columna:

In [10]:
columns_to_replace = [['track'], ['artist'], ['genre']]
for i in columns_to_replace:
    df[i] = df[i].fillna('unknown')

**Trabajo 11**

Asegúrese de que no quedan espacios en blanco en la tabla. Para ello, cuente los valores que faltan de nuevo.

In [11]:
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Duplicados

**Trabajo 12**

Cuente los duplicados explícitos en la tabla como un comando:

In [12]:
df.duplicated().sum()

3826

**Trabajo 13**

Llame al método especial ːpandas¹para eliminar duplicados obvios:

In [13]:
df = df.drop_duplicates().reset_index(drop=True)

**Trabajo 14**

Una vez más contar los duplicados explícitos en la tabla - asegúrese de deshacerse de ellos por completo:

In [14]:
df.duplicated().sum()

0

Ahora deshacerse de los duplicados implícitos en la columna ːgenre¹. Por ejemplo, el nombre del mismo género se puede escribir de una manera ligeramente diferente. Estos errores también afectarán al resultado del estudio.

**Trabajo 15**.

Muestra una lista de nombres de género únicos en orden alfabético. Para hacer esto:
1. Extraer la columna de marco de datos deseada; 
2. Aplicarle el método de clasificación;
3. Para la columna ordenada, llame al método que devuelve valores únicos de la columna.

In [15]:
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

**Trabajo 16**

Revise la lista y encuentre duplicados implícitos del nombre ¿hiphop³. Estos pueden ser nombres con errores o nombres alternativos del mismo género.

Verá los siguientes duplicados implícitos:
* *hip*,
* *hop*,
* *hip-hop*.

Para borrar la tabla, use el método ːreplace()) con dos argumentos: una lista de filas duplicadas (incluyendo *hip*, *hop*, y *hip-hop*) y una cadena con el valor correcto. Es necesario corregir la columna ːgenre[ en la tabla ¹df¹: reemplazar cada valor de la lista de duplicados con el correcto. En lugar de la tabla ¿hip ː, ¹hopñ y ¿hip-hopñ, la tabla debe tener el valor ¿hiphop:

In [16]:
df = df.replace(['hip', 'hop', 'hip-hop'], 'hiphop')

**Trabajo 17**

Compruebe que ha reemplazado los nombres incorrectos:

hip,
hop,
hip-hop.

Imprima una lista ordenada de valores de columna únicos ːgenre ê:

In [17]:
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

***Conclusiones**

El procesamiento previo reveló tres problemas de datos:

- violaciones al estilo de los titulares,
- valores que faltan,
- duplicados - explícitos e implícitos.

Ha corregido los encabezados para simplificar el trabajo con la tabla. Sin duplicados, el estudio será más preciso.

Los valores omitidos han sido reemplazados por ¹'unknown'ː. Aún está por verse si la omisión en la columna ¿genre³no dañará la investigación.

Ahora podemos pasar a la prueba de hipótesis. 

## Hypothesis Testing

#### Comparando el comportamiento del usuario entre dos mayúsculas

La primera hipótesis afirma que los usuarios escuchan música de diferentes maneras en Moscú y San Petersburgo. Compruebe este supuesto durante tres días de la semana - lunes, miércoles y viernes. Para hacer esto:

* Divida a los usuarios de Moscú y San Petersburgo.
* Compare cuántas pistas escuchó cada grupo de usuarios los lunes, miércoles y viernes.

**Trabajo 18**

Para el entrenamiento, primero realice cada cálculo por separado. 

Evaluar la actividad de los usuarios en cada ciudad. Agrupar los datos de la ciudad y contar los anuncios en cada grupo.

In [18]:
cities = df.groupby('city')['track'].count()
cities

city
Moscow              42741
Saint-Petersburg    18512
Name: track, dtype: int64

Hay más audiciones en Moscú que en St. Petersburg. Solo más usuarios en Moscú.

**Trabajo 19**

Ahora agrupa el día de la semana y cuenta las audiciones el lunes, miércoles y viernes. Tenga en cuenta que los datos contienen información sobre la audición solo para estos días.

In [19]:
days = df.groupby('day')['track'].count()
days

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

En promedio, los usuarios de dos ciudades son menos activos los miércoles. Pero la imagen puede cambiar si considera cada ciudad por separado.

**Trabajo 20**


Ya has visto cómo funciona el grupo en la ciudad y en los días de la semana. Ahora escribe una característica que combine estos dos cálculos.

Cree una función ːnumber_tracks()ː que cuente listados para un día y ciudad dados. Necesitará dos parámetros:
* día de la semana,
* nombre de la ciudad.

En funciones, guarde en una fila variable de la tabla de origen con el valor:
  * En la columna día ːdísÂ es igual al parámetro ¹día¹,
  * en la columna ːcityľ es igual al parámetro ːcity ː.

Para ello, aplique el filtrado secuencial con indexación lógica (o expresiones lógicas complejas en una sola línea si ya está familiarizado con ellas).

A continuación, calcule los valores en la columna [user_id# de la tabla resultante. Guarde el resultado en la nueva variable. Devuelva esta variable desde la función.

In [20]:
def number_tracks(day, city):
    track_list = df[df['day'] == day]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

**Trabajo 21**

Llama a ːnumber_tracks()) seis veces, cambiando el valor del parámetro para obtener los datos de cada ciudad en cada uno de los tres días.

In [21]:
result = number_tracks('Monday', 'Moscow')
result

15740

In [22]:
result = number_tracks('Monday', 'Saint-Petersburg')
result

5614

In [23]:
result = number_tracks('Wednesday', 'Moscow')
result

11056

In [24]:
result = number_tracks('Wednesday', 'Saint-Petersburg')
result

7003

In [25]:
result = number_tracks('Friday', 'Moscow')
result

15945

In [26]:
result = number_tracks('Friday', 'Saint-Petersburg')
result

5895

**Trabajo 22**

Cree con la ayuda del constructor un cuadro donde
* los nombres de las columnas - € ['ciudad', 'lunes', 'miércoles', 'viernes']);
* datos - los resultados que obtuvo con la ayuda de ːnumber_tracks.

In [28]:
data = [['Moscow', 15740, 11056, 15945],
       ['Saint-Petersburg', 5614, 7003, 5895]] # Таблица с результатами
columns = ['city', 'monday', 'wednesday', 'friday']
print(pd.DataFrame(data=data, columns=columns))

               city  monday  wednesday  friday
0            Moscow   15740      11056   15945
1  Saint-Petersburg    5614       7003    5895


***Conclusiones**

Los datos muestran la diferencia en el comportamiento del usuario:

- En Moscú, el pico de las audiciones cae el lunes y el viernes, y el miércoles se nota un descenso.
- En St. Petersburg, por el contrario, más gente escucha música los miércoles.

Así que los datos apoyan la primera hipótesis.

Música al principio y al final de la semana

Según la segunda hipótesis, el lunes por la mañana, algunos géneros prevalecen en Moscú y otros en Petersburgo. También el viernes por la noche, prevalecen diferentes géneros - dependiendo de la ciudad.

**Trabajo 23**

Guarde tablas con datos en dos variables:
* para Moscú - en ːmoscow_general ː;
* para San Petersburgo - en [spb_general¹.

In [29]:
moscow_general = df[df['city'] == 'Moscow']

In [30]:
spb_general = df[df['city'] == 'Saint-Petersburg']

**Trabajo 24**.

Cree la función ːgenre_weekday()‍ con cuatro parámetros:
* tabla (dataframe) con datos
* día de la semana,
* marca de tiempo inicial en el formato 'hh:mm', 
* la última marca de tiempo en el formato 'hh:mm'.

La función debe devolver información sobre los 10 principales géneros de las pistas que se escucharon en el día especificado, entre las dos marcas de tiempo.

In [31]:
def genre_weekday(df, day, time1, time2):
    genre_df = df[df['day'] == day]
    genre_df = genre_df[genre_df['time'] < time2]
    genre_df = genre_df[genre_df['time'] > time1]
    genre_df_count = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending = False)
    return genre_df_sorted[:10]

**Trabajo 25**


Compare los resultados de la función para Moscú y San Petersburgo el lunes por la mañana (de 7:00 a 11:00) y el viernes por la noche (de 17:00 a 23:00):

In [32]:
print(genre_weekday(moscow_general, 'Monday', '07:00', '11:00'))

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: genre, dtype: int64


In [33]:
print(genre_weekday(spb_general, 'Monday', '07:00', '11:00'))

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: genre, dtype: int64


In [34]:
print(genre_weekday(moscow_general, 'Friday', '17:00', '23:00'))

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: genre, dtype: int64


In [35]:
print(genre_weekday(spb_general, 'Friday', '17:00', '23:00'))

genre
pop            256
electronic     216
rock           216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: genre, dtype: int64


***Conclusiones**

Si comparas los 10 mejores géneros el lunes por la mañana, puedes sacar las siguientes conclusiones:

1. Moscú y San. Petersburgo escuchar música similar. La única diferencia - la calificación de Moscú entró en el género "mundo", y en Petersburgo - jazz y clásicos.

2. En Moscú, los valores que faltaban eran tantos que el valor de ¹'unknown'³ ocupaba el décimo lugar entre los géneros más populares. Así que los valores perdidos son una parte significativa de los datos y amenazan la credibilidad del estudio.

El viernes por la noche no cambia esta imagen. Algunos géneros suben un poco más, otros descienden, pero en general los 10 primeros siguen siendo los mismos.

Así, la segunda hipótesis solo se confirmó parcialmente:
* Los usuarios escuchan música similar al comienzo de la semana y al final.
* La diferencia entre Moscú y St. Petersburg no es demasiado pronunciada.

Sin embargo, las omisiones en los datos arrojan dudas sobre este resultado. Hay tantos de ellos en Moscú que la parte superior 10 calificación podría parecer diferente si no para los datos perdidos sobre los géneros.

### Preferencias de género en Moscú y Petersburgo

Hipótesis: Petersburgo - la capital del rap, la música de este género se escucha allí más a menudo que en Moscú.  Y Moscú es una ciudad de contrastes, en la que, sin embargo, domina la música pop.

**Trabajo 26**

Agrupa la tabla ːmoscow_general¹ por género y considera escuchar las canciones de cada género como ¹count(). A continuación, ordenar el resultado en orden descendente y guardarlo en la tabla ¿moscow_genres¹.

In [36]:
moscow_genres = moscow_general.groupby('genre')['genre'].count().sort_values(ascending = False)

**Trabajo 27**

Mostrar las primeras diez líneas de ːmoscow_genres e:

In [37]:
moscow_genres[:10]

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

**Trabajo 28**


Ahora repite lo mismo para Petersburgo.

Agrupar la tabla ːspb_general= por género. Contar escuchando las pistas de cada género. Ordenar el resultado en orden descendente y guardarlo en la tabla ¿spb_genres ê:

In [38]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending = False)


**Tarea 29**

Mostrar las primeras diez líneas de ːspb_genres e:

In [39]:
spb_genres[:10]

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

***Conclusiones**

La hipótesis fue parcialmente confirmada:
* La música pop es el género más popular en Moscú, como sugiere la hipótesis. Por otra parte, en el top 10 géneros hay un género cercano - música popular rusa.
* Contrariamente a las expectativas, el rap es igualmente popular en Moscú y Petersburgo. 

## Resultados de la investigación

Probaste tres hipótesis y estableciste:

1. El día de la semana influye de diferentes maneras en la actividad de los usuarios en Moscú y Petersburgo. 

La primera hipótesis está totalmente confirmada.

2. Las preferencias musicales no cambian mucho en una semana - si es Moscú o Petersburgo. Pequeñas diferencias son visibles al comienzo de la semana, los lunes:
* escuchar música "mundial" en Moscú,
* en Petersburgo - jazz y clásicos.

Por lo tanto, la segunda hipótesis solo se confirmó parcialmente. Este resultado podría haber sido diferente si no fuera por los datos que faltaban.

3. En los gustos de los usuarios de Moscú y St. Petersburgo hay más común que las diferencias.

La tercera hipótesis no es cierta. Si existen diferencias en las preferencias, son invisibles para el público en general.