# Datos en formato cvs

Los datos en formato cvs (comma separated values) son un formato de archivo que se utiliza para almacenar datos tabulares. Cada línea del archivo corresponde a una fila de la tabla, y los valores de cada fila están separados por comas.

La biblioteca `pandas` de Python permite leer y escribir archivos en formato cvs.

Instalación de la biblioteca `pandas`:

```conda install pandas ```

## Lectura de datos

Para leer un archivo en formato cvs se utiliza la función `read_csv` de la biblioteca `pandas`. Por ejemplo, para leer un archivo llamado `datos.csv` se utiliza la siguiente instrucción:

``` pd.read_csv('datos.csv') ```

### Ejemplos de los parámetros de la función read_csv
```
read.csv(filepath="../datasets/customer-churn-model/Customer Churn Model.csv/titanic3.csv",
        sep = ",",         
        dtype={"ingresos":np.float64, "edad":np.int32}, 
        header=0,names={"ingresos", "edad"},
        skiprows=12, 
        index_col=None, 
        skip_blank_lines=False, 
        na_filter=False
        )
```
1. **sep** separado por comas
2. **dtype** columna ingresos de tipo flotante. El valor determinado es None, quiere decir que panda asignara el tipo que mas le convenga
3. **header** donde esta la cabecera, y cuales quieres utilizar
4. **skiperows** saltar filas 
5. **index_col** cambiar la columna del index
6. **skipe_blank** saltar lineas en blancos
7. **na_filter** elimina NaN


In [2]:
# Importar bibliotecas 
import pandas as pd # Biblioteca para manejo de datos
import numpy as np # Biblioteca para manejo de arreglos
import os # Biblioteca para manipulacion de archivos

In [None]:
# Datos desde URL
sample_url = "https://drive.google.com/uc?id=1zO8ekHWx9U7mrbx_0Hoxxu6od7uxJqWw&export=download"
sample_data = pd.read_csv(sample_url)
sample_data.head()

## Escritura de datos

Para escribir un archivo en formato cvs se utiliza la función `to_csv` de la biblioteca `pandas`. Por ejemplo, para escribir un archivo llamado `datos.csv` se utiliza la siguiente instrucción:

``` df.to_csv('datos.csv', index=False) ```

```  df = pd.DataFrame(data=datos, columns=nombres_columnas)```

Donde `df` es un objeto de tipo `DataFrame` de la biblioteca `pandas`.

In [None]:
# Ejemplo: Medidas se almacenan en una lista de listas
measurements = [['Sun', 146, 152],
                                ['Moon', 0.36, 0.41], 
                                ['Mercury', 82, 217], 
                                ['Venus', 38, 261],
                                ['Mars', 56, 401],
                                ['Jupiter', 588, 968],
                                ['Saturn', 1195, 1660],
                                ['Uranus', 2750, 3150],
                                ['Neptune', 4300, 4700],
                                ['Halley\'s comet', 6, 5400]]

# los nombres de las columnas se almacenan en la variable header
header = ['Celestial bodies ','MIN', 'MAX'] 

# guardar el DataFrame en la variable celestial
celestial = pd.DataFrame(data=measurements, columns=header)
celestial

<div class="alert alert-block alert-success">
<b>Ejemplo: Preferencias musicales de las ciudades de Springfield y Shelbyville </b> <a class="tocSkip"></a>

https://www.kaggle.com/code/cirilobomaye/limpieza-de-datos-musica/input


- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.



In [4]:
# Cargar datos
mainpath = "./datasets/" #carpeta global 
filename = "music_project_en.csv" #dataset 
fullpath = os.path.join(mainpath, filename) 
data = pd.read_csv (fullpath)

In [5]:
# Ver los primeros registros
data.head()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday


In [6]:
# Ver los ultimos registros
data.tail()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday
65078,3A64EF84,Tell Me Sweet Little Lies,Monica Lopez,country,Springfield,21:59:46,Friday


In [7]:
# Ver registros random
data.sample(5)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
45338,CF376A90,Raisins and Almonds (Yiddish Lullaby),Mr. Eric & Mr. Michael (Eric Litwin & Michael ...,children,Springfield,21:13:06,Monday
3601,D567BD65,We Might Be Dead by Tomorrow,Stingray Music,pop,Springfield,21:10:59,Wednesday
31656,7750970,Tornado,Offramp,dance,Shelbyville,20:37:58,Wednesday
23955,FC71F19F,Where Is My Moon?,Sivert Høyem,rock,Shelbyville,09:53:57,Friday
43105,CCCF37F6,Creed,ØMG,pop,Springfield,14:35:08,Wednesday


In [8]:
# Ver dimensiones
data.shape # (filas, columnas)

(65079, 7)

In [9]:
#cabeceras de las columnas
data.columns.values 

array(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'],
      dtype=object)

Podemos ver tres problemas con el estilo en los encabezados de la tabla:

1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Nombres con dos palabras sin guión bajo de separación (snake_case)

### Descripciones numéricas y describe()
Una comprensión aún más avanzada de los datos se puede obtener con el método **describe()** , que muestra las principales medidas estadísticas del conjunto de datos, 
incluida la desviación estándar, los valores mínimos y máximos para *valores numéricos*
 

In [10]:
# Resumen estadístico de las variables numéricas
data.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


## Tipos de datos

Los tipos de datos en pandas son similares a los tipos de datos en Python. Algunos de los tipos de datos más importantes son:

1. **object**: texto
2. **int64**: números enteros
3. **float64**: números decimales
4. **datetime64**: fecha y hora
5. **bool**: valores booleanos


In [11]:
# #tipo de datos (objetc=string)
data.dtypes 


  userID    object
Track       object
artist      object
genre       object
  City      object
time        object
Day         object
dtype: object


## Convertir tipos de datos

Para convertir los tipos de datos de una columna se utiliza la función `astype`. Por ejemplo, para convertir la columna `edad` a tipo `float` se utiliza la siguiente instrucción:

``` df['edad'] = df['edad'].astype(float) ```
</div>

### Conversión de los valores de string a  números

**números:**  to_numeric() . Convierte los valores de columna al tipo float64 o int64 (número entero), según el valor de entrada.

El método  to_numeric()  tiene un parámetro  errors . Este parámetro determina qué hará  **to_numeric**  al encontrar un valor no válido:

1. errors='raise'  (predeterminado): se genera una excepción cuando se encuentra un valor incorrecto, lo que detiene la conversión a números.
2. errors='coerce' : los valores incorrectos se reemplazan por  NaN .
3. errors='ignore' : los valores incorrectos no se modifican.

``` pd.to_numeric(df['column']) 
    pd.to_numeric(df['column'], errors='raise' ) 
    pd.to_numeric(df['column'], errors='coerce') 
    pd.to_numeric(df['column'], errors='ignore')
```

### Conversión de strings a horas y fechas

**datetime:** datos especial que utilizamos cuando trabajamos con fechas y horas:

Para convertir los strings a fechas y horas, usamos el método  **to_datetime()**  de pandas. Los parámetros del método incluyen el nombre de la columna que contiene strings y el 
formato de fecha en un string.

``` pd.to_datetime(df['column'], format='%d/%m/%Y %H:%M:%S') ```
Establecemos el formato de fecha utilizando un sistema de designación especial:


* %d : día del mes (01 a 31);
* %m : mes (01 a 12);
* %Y : año en cuatro dígitos (por ejemplo, 1994);
* %y : año en dos dígitos (por ejemplo, 94);
* Z  o  T : separador estándar para la fecha y la hora;
* %H : hora (00 a 23);
* %M : minuto (00 a 59);
* %S : segundo (00 a 59).

### Conversión de strings a categorías

**categorías:** datos especiales que utilizamos cuando trabajamos con datos que tienen un número limitado de valores únicos.

Para convertir los strings a categorías, usamos el método  **astype()**  de pandas. 

``` df['column'] = df['column'].astype('category') ```


In [12]:
#pd.to_datetime(data['time'], format='%H:%M:%S').dt.time 

<div class="alert alert-block alert-success">
<b>Preprocesamiento de datos</b> <a class="tocSkip"></a>

El preprocesamiento de datos es una etapa importante en el análisis de datos. En esta etapa, se realizan tareas como la limpieza de datos, la transformación de datos y la reducción de datos.

In [13]:
'''
Renombrar columnas: Bucle en los encabezados para :
1. Poner todo en minúsculas
2. Eliminar los espacios
3. Remplazar espacio entre palabras por "_"
'''

new_col_names = []

for name in data.columns:
    # Luego, pon todas las letras en minúsculas
    name_lowered = name.lower()
    # Elimina los espacios al principio y al final
    name_stripped = name_lowered.strip()
    # Por último, reemplaza los espacios entre palabras por guiones bajos
    name_no_spaces = name_stripped.replace(' ', '_')
    # Agrega el nuevo nombre a la lista de nuevos nombres de columna
    new_col_names.append(name_no_spaces)

# Reemplaza los nombres anteriores por los nuevos
data.columns = new_col_names
data.head()

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday


In [14]:
data.dtypes

userid    object
track     object
artist    object
genre     object
city      object
time      object
day       object
dtype: object

### Valores faltantes

Los valores faltantes (NaN) pueden ser causados por errores en la recopilación de datos, errores en la entrada de datos o errores en la manipulación de datos.

Para manejar los valores faltantes, se pueden utilizar diferentes estrategias, como eliminar los valores faltantes, reemplazar los valores faltantes con un valor predeterminado o reemplazar los valores faltantes con un valor calculado.

En pandas se pueden encontrar con:

``` pd.notnull(data["artist"]).values.ravel().sum() ``` 


``` pd.isnull(data["artist"]).values.ravel().sum() ```

crea una lista de datos no nulos/nulos y luego suma los valores de la lista.

Con el método **isnull()** se puede encontrar los valores faltantes en un DataFrame. El método **isnull()** devuelve un DataFrame de valores booleanos, donde los valores True indican valores faltantes.

``` df.isnull() ```

y el método **sum()**:

``` df.isnull().sum() ```

Para eliminar los valores faltantes, usa el método **dropna()**:

``` df.dropna() ```

Para reemplazar los valores faltantes con un valor predeterminado, usa el método **fillna()**:

``` df.fillna(0) ```

Para reemplazar los valores faltantes con un valor calculado, usa el método **fillna()** con un valor calculado:

``` df.fillna(df.mean()) ```

Para reemplazar los valores faltantes con un valor calculado, usa el método **fillna()** con un valor anterior:

``` df.fillna(method='ffill') ```

o posterior
    
``` df.fillna(method='bfill') ```



In [15]:
# Calcular el número de valores ausentes
data.isna().sum()

userid       0
track     1343
artist    7567
genre     1198
city         0
time         0
day          0
dtype: int64

No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville, pero ya que solo hay  1198 NaN y los valores no nulos son 61253, remplazarlos por `'unknown'` no deberia de afectar a los resultados ya que solo es el 1.9% del total de la muestra


In [16]:
# Bucle en los encabezados reemplazando los valores ausentes 
# con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for col in columns_to_replace:
    data[col].fillna('unknow', inplace=True)

In [17]:
# Contar valores ausentes
print(data.isna().sum())

userid    0
track     0
artist    0
genre     0
city      0
time      0
day       0
dtype: int64


### Valores duplicados

Los valores duplicados pueden ser causados por errores en la recopilación de datos, errores en la entrada de datos o errores en la manipulación de datos.

Para encontrar los valores duplicados, se puede utilizar el método **duplicated()**:

``` df.duplicated() ```

Para eliminar los valores duplicados, se puede utilizar el método **drop_duplicates()**:

``` df.drop_duplicates() ```

In [18]:
# Contar duplicados explícitos
data.duplicated().sum()

3826

Cuando eliminas filas, a menudo también es importante actualizar el índice. Para hacerlo, llama al método reset_index(). Esto creará un nuevo DataFrame en el que:

1. Los índices del DataFrame original se ubicarán en una nueva columna llamada 'index'.
2. Los nuevos índices se establecerán en orden para todas las filas en el DataFrame.

In [19]:
# Eliminar duplicados explícitos
data = data.drop_duplicates().reset_index(drop=True)


In [20]:
# Comprobar de nuevo si hay duplicados
data.duplicated().sum()

0

Para descubrir duplicados menos evidentes, se deben buscar valores que pueden incluir:

1. Ortografías alternativas de la misma palabra (por ejemplo, 'jazz' y 'jass');
2. Faltas de ortografía (por ejemplo, 'jazzz' en lugar de 'jazz');
3. Mayúsculas inconsistentes.

unique()  y  nunique()  son métodos que te ayudarán a encontrar valores únicos y contarlos. 

``` df['column'].unique() 
    df['column'].nunique() 
```


In [21]:
data['genre'].nunique()# Número de valores únicos en la columna 'genre'


269

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:
* Extrae la columna `genre` del DataFrame.
* Llama al método que devolverá todos los valores únicos en la columna extraída.

In [22]:
# Inspeccionar los nombres de géneros no únicos
data.groupby('genre')['genre'].count().sort_values(ascending=False)

genre
pop           8323
dance         6367
rock          5844
electronic    5522
hip           2975
              ... 
laiko            1
kayokyoku        1
karadeniz        1
jungle           1
ïîï              1
Name: genre, Length: 269, dtype: int64

In [23]:
print(data['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Busca en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, crea una función llamada `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que necesitas reemplazar.
* `correct_genre=`: este es un string que vas a utilizar como reemplazo.

Como resultado, la función debería corregir los nombres en la columna `'genre'` de la tabla `data`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.

Dentro del cuerpo de la función, utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos, extrae la columna `'genre'` y aplica el método `replace` para hacer correcciones.

In [24]:
# Función para reemplazar duplicados implícitos
def replace_wrong_genres(df, column, wrong_genres, correct_genres): 
    for wrong in wrong_genres: # 
        df[column] = df[column].replace(wrong_genres, correct_genres) 
    return df 

In [25]:
# Eliminar duplicados implícitos
wrong_genres = ['hip', 'hop', 'hip-hop'] #lista de nombres mal escritos
name = 'hiphop' #genero correcto
data = replace_wrong_genres(data, 'genre', wrong_genres, name)


In [26]:
# Comprobación de duplicados implícitos
print(data['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

In [54]:
# Conversión de strings a horas 
data['time'] = pd.to_datetime(data['time'], format='%H:%M:%S')
# Conversión de strings a categorías
data['city'] = data['city'].astype('category') 
data.dtypes

userid             object
track              object
artist             object
genre              object
city             category
time       datetime64[ns]
day                object
weekend              bool
dtype: object

### Variables dummy

Las variables dummy son variables binarias que representan categorías. Se utilizan para representar variables categóricas en modelos de regresión.

Para crear variables dummy en pandas, se utiliza la función **get_dummies()**:

``` pd.get_dummies(df['column']) ```

Para agregar las variables dummy al DataFrame, se utiliza la función **concat()**:

``` pd.concat([df, pd.get_dummies(df['column'])], axis=1) ```

El parámetro **axis=1** se utiliza para concatenar las columnas horizontalmente.



In [30]:
# Variables dummies

# Crear variables dummies
city_dummy  = pd.get_dummies(data['city'], prefix='city')
#city_dummy  = pd.get_dummies(data['city'], prefix='city', drop_first=True)
city_dummy.head()


Unnamed: 0,city_Shelbyville,city_Springfield
0,1,0
1,0,1
2,1,0
3,1,0
4,0,1


In [31]:
# Concatenar el DataFrame original con el DataFrame de variables dummies
data_dummy = pd.concat([data, city_dummy], axis=1)
data_dummy.head()

Unnamed: 0,userid,track,artist,genre,city,time,day,city_Shelbyville,city_Springfield
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday,1,0
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday,0,1
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday,1,0
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday,1,0
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday,0,1


    Todo definido en una función

In [33]:
def createDummies(df, var_name):
    dummy = pd.get_dummies(df[var_name], prefix=var_name)
    df = df.drop(var_name, axis = 1)
    df = pd.concat([df, dummy ], axis = 1)
    return df

In [34]:
# mostrar información del DataFrame
def info(df):
    display(df.head(10))
    print()
    print(df.info())
    print()
    print(df.describe())
    print()
    print('Duplicated: ',df.duplicated().sum())
    print()
    print('Null values %:')
    print(100*df.isnull().sum()/len(df))

info(data)

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,unknow,dance,Shelbyville,21:20:49,Wednesday



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61253 entries, 0 to 61252
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   userid  61253 non-null  object  
 1   track   61253 non-null  object  
 2   artist  61253 non-null  object  
 3   genre   61253 non-null  object  
 4   city    61253 non-null  category
 5   time    61253 non-null  object  
 6   day     61253 non-null  object  
dtypes: category(1), object(6)
memory usage: 2.9+ MB
None

          userid   track  artist  genre         city      time     day
count      61253   61253   61253  61253        61253     61253   61253
unique     41748   39667   37807    266            2     20392       3
top     A8AE9169  unknow  unknow    pop  Springfield  08:14:07  Friday
freq          71    1262    7097   8323        42741        13   21840

Duplicated:  0

Null values %:
userid    0.0
track     0.0
artist    0.0
genre     0.0
city      0.0
time      0.0
day       0.0
dtype

In [None]:
data.columns.values.tolist()

## Crear un subconjunto de datos

In [35]:
desired_columns = ['genre', 'city', 'time', 'day'] #crear una lista de columnas
subset = data[desired_columns] #crear el subset de columnas de la lista
subset.head()

Unnamed: 0,genre,city,time,day
0,rock,Shelbyville,20:28:33,Wednesday
1,rock,Springfield,14:07:09,Friday
2,pop,Shelbyville,20:58:07,Wednesday
3,folk,Shelbyville,08:37:09,Monday
4,dance,Springfield,08:34:34,Monday


In [42]:
subset_first_20 = data[["genre", "city"]][:2]
subset_first_20

Unnamed: 0,genre,city
0,rock,Shelbyville


### Filtrado con loc e iloc: Filtrado de filas y columnas a la vez

In [43]:
data.iloc[1:10, 3:6]#10 filas y columnas de la 3 a la 6
#loc para etiquetas y iloc para posiciones

Unnamed: 0,genre,city,time
1,rock,Springfield,14:07:09
2,pop,Shelbyville,20:58:07
3,folk,Shelbyville,08:37:09
4,dance,Springfield,08:34:34
5,rusrap,Shelbyville,13:09:41
6,dance,Springfield,13:00:07
7,dance,Springfield,20:47:49
8,ruspop,Springfield,09:17:40
9,dance,Shelbyville,21:20:49


### Filtrar por condición booleana

Para filtrar un DataFrame por una condición booleana, se puede utilizar la siguiente sintaxis:

``` df[df['column'] > value] ```

``` df[df['column'] == value] ```

``` df[df['column'] != value] ```

``` df[df['column'].isin([value1, value2])] ```

``` df[df['column'].notnull()] ```

``` df[df['column'].isnull()] ```

``` df[df['column'].str.contains('value')] ```

``` df[df['column'].str.startswith('value')] ```

``` df[df['column'].str.endswith('value')] ```

``` df[df['column'].str.len() > value] ```
</div>

In [45]:
 #filtrar por genero pop, ciudad New York y dia Lunes

data_filter = data[(data['genre'] == 'pop') & (data['day'] == 'Monday')]
data_filter


Unnamed: 0,userid,track,artist,genre,city,time,day
12,FF3FD2BD,Truth,Bamboo,pop,Springfield,09:19:49,Monday
26,982219FD,We Not Speak Americano,Genio Band,pop,Shelbyville,20:03:03,Monday
57,E35653A8,Yurak Ezilar,Shoxruz Abadiya,pop,Springfield,20:07:56,Monday
60,E2F8BE12,Banga,unknow,pop,Springfield,08:45:42,Monday
66,B103C670,When I Was Your Man,Kriss Ramirez,pop,Shelbyville,14:42:11,Monday
...,...,...,...,...,...,...,...
61096,2705A54D,Confidence Man,The Jeff Healey Band,pop,Springfield,14:07:39,Monday
61113,1301E0AE,Hold On,Wilson Phillips,pop,Springfield,09:41:06,Monday
61147,21D8803B,Total Eclipse of the Heart,Nicki French,pop,Springfield,21:04:47,Monday
61180,E13B82C,No Love,Salt Cathedral,pop,Springfield,08:30:33,Monday


# Insertar nuevas filas en el dataframe

Para insertar nuevas filas en un DataFrame, se utiliza el método **append()**. El método **append()** agrega filas al final del DataFrame.

``` df.append({'column1': value1, 'column2': value2}, ignore_index=True) ```

El parámetro **ignore_index=True** se utiliza para restablecer los índices de las filas agregadas.


In [46]:
#conaenar dos dataframes
data1 = data.iloc[0:10, :]
data2 = data.iloc[10:20, :]
data_concat = pd.concat([data1, data2], axis=0)
data_concat

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,unknow,dance,Shelbyville,21:20:49,Wednesday


In [47]:
# crear una nueva columna con el nombre 'weekend' que contenga True si el día es 'Saturday' o 'Sunday' y False en caso contrario
data['weekend'] = data['day'].apply(lambda x: True if x in ['Saturday', 'Sunday'] else False)
data.head()


Unnamed: 0,userid,track,artist,genre,city,time,day,weekend
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday,False
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday,False
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday,False
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday,False
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday,False


## Referencias

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
data['time'] = pd.to_datetime(data['time'], format='%H:%M:%S')
# Convertir la columna 'time' a segundos
data['time_in_seconds'] = data['time'].dt.hour * 3600 + data['time'].dt.minute * 60 + data['time'].dt.second
# Agrupar los datos por ciudad y sumar las horas de reproducción en segundos
city_hours = data.groupby('city')['time_in_seconds'].sum().reset_index()
# Convertir los segundos a horas
city_hours['hours_played'] = city_hours['time_in_seconds'] / 3600
# Cambiar el tamaño de la figura
plt.figure(figsize=(5, 3))
# Crear un gráfico de barras
sns.barplot(x='city', y='hours_played', data=city_hours, palette='viridis')
# Etiquetas y título
plt.xlabel('City')
plt.ylabel('Hours Played')
plt.title('Hours Played per City')
# Mostrar la gráfica
plt.show()