<h1><center>Introducción al Análisis de Datos con Pandas</center></h1>
<h2><center>Ponente : María Camila Guerrero Giraldo </center></h2>
<h3><center>Agosto 27 de 2018</center></h3>

> *Nota*: Los contenidos de este cuaderno fueron tomados de la documentación oficial de Pandas [aquí](https://pandas.pydata.org/pandas-docs/stable/).


A través de este ejercicio veremos algunas de las operaciones más utlizadas en Pandas. Para empezar, importo Pandas y otras librerias que serán útiles a la hora de realizar el análisis de datos :

In [None]:
#Importar las librerías necesarias :) 
import numpy as np 
import pandas as pd 
import matplotlib as mpl
import matplotlib.pyplot as plt
import os
%matplotlib inline
from subprocess import check_output
from wordcloud import WordCloud, STOPWORDS


## 0. Requerimientos de los datos y recolección

http://notes.io/1BCx

Los dos datasets que se usan en este cuaderno se generaron de la API de Spotify y están disponibles en [esta carpeta](https://drive.google.com/open?id=1dpae_kU08ITSBpBK9GYxaMqlWKryj63O). Se llaman data.csv y features.csv respectivamente. Cuando los hayas descargado guardalos en un directorio y cambia la ruta que aparece más abajo


## 1. Lectura y estructura

Pandas tiene varios métodos para cargar archivos según su extensión. Existen por ejemplo :

    read_csv
    read_excel
    read_html
    read_json
    read_sas
    read_sql
    read_stata

Los dos conjuntos de datos con los que trabajé están guardados en formato *CSV* (comma-separated values), un formato de texto plano . Por ello vamos a usar la función `read_csv`.

In [None]:
#Cargar los conjuntos de datos
data = pd.read_csv('C:/Users/Camila/Documents/Jupyter/data.csv')
features = pd.read_csv('C:/Users/Camila/Documents/Jupyter/featuresdf.csv')

In [None]:
#Identificando el dataset1
print(data.columns.values)
data.dtypes

In [None]:
#Identificando el dataset2 de características
print(features.columns.values)
features.dtypes

In [None]:
print("El dataset 1 tiene " + str(len(data)) + " registros")
print("El dataset 2 de features tiene " + str(len(features)) + " registros")

## 2. Procesamiento 

### Limpieza

En algunos análisis se remueven los registros que presentan información incompleta para que estos valores no intervengan en la estadística descriptiva y la presentación de resultados

In [None]:
data = data.dropna(axis=0, how="any")

In [None]:
features = features.dropna(axis=0, how="any")

In [None]:
print("Removiendo valores en blanco el dataset 1 tiene ahora " + str(len(data)) + " registros")

In [None]:
print("Removiendo valores en blanco el dataset 2 tiene ahora " + str(len(features)) + " registros")

### Filtrado

En esta parte usé algunas operaciones básicas de filtrado. Para seleccionar columnas de estos  datos, podemos hacerlo de las siguientes formas:

In [None]:
posicion = data['Position']
nombre = data['Track Name']
artista = data['Artist']
stream = data['Streams']
url = data['URL']
fecha = data['Date']
region = data['Region']

In [None]:
nombreF = features['name']
artistas = features['artists']
es_bailable = features['danceability']
es_energica = features['energy']
key = features['key']
es_ruidosa = features['loudness']
modo = features['mode']
tiene_habla = features['speechiness']
es_acustica = features['acousticness']
es_vocal = features['instrumentalness']
en_vivo = features['liveness']
valencia = features['valence']
tempo = features['tempo']
duracion = features['duration_ms']
tiempoS = features['time_signature']

Esta operación no retorna un Dataframe ,sino un objeto de tipo Series. Además con el metodo ´head( )´ visualizamos tan solo los 5 primeros datos de la serie . 

In [None]:
nombre.head()

In [None]:
type(nombre)

## 3. Análisis Exploratorio

### Estadística Descriptiva

In [None]:
# Media indica que la mayoria de las canciones son bailables
es_bailable.mean()

In [None]:
# En promedio las canciones duran 3.6 minutos
duracion_minutos = (duracion.mean()*0.001)/60
print(duracion_minutos)

In [None]:
# El número de decibeles promedio es de -5dB
es_ruidosa.mean()

In [None]:
#Dato que más se repite en la columna Tempo
tempo.mode()

In [None]:
#Descripción estadística de la columna energy
es_energica.describe()

La función describe genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la distribución que tiene el conjunto de datos. Excluye los valores NaN.

In [None]:
#Descripción estadística de la columna liveness 
en_vivo.describe()

In [None]:
#Canciones que duran más de 5 minutos (5 min * 60 seg * 1000 ms)
features[features.duration_ms>= 300000]

In [None]:
conteo_artistas = artistas.value_counts() #esto es una serie
top_artistas = conteo_artistas[(conteo_artistas > 1)]

## 4. Modelado 

A continuación veremos la correlación entre las características del DataFrame features

In [None]:
#Extraer las características del dataset
feat = features.loc[:, 'danceability':'liveness']

In [None]:
feat.tail()

In [None]:
#Matriz de correlación de las características
matrizCorr = feat.corr(method='pearson')

In [None]:
matrizCorr

## 5. Presentación y visualización de datos

El método plot de las series y de los DataFrames es sólo un simple decorador o envolvente del método plot de matplotlib, según la documentación :) 

In [None]:
top_artistas.plot(kind='bar', x='Artistas' , title='Top de artistas en el año 2017' , y='Apariciones')

In [None]:
#Top 5 por cantidad de streams en Colombia
region_co = data[data['Region'] == 'co']
region_co_top5=region_co.head(5)

In [None]:
region_co_top5.plot.pie(y='Streams',labels=region_co_top5['Track Name'])

In [None]:
#Top 5 por cantidad de streams en USA
region_us = data[data['Region'] == 'us']
region_us_top5=region_us.head(5)

In [None]:
region_us_top5

In [None]:
region_us_top5.plot.pie(y='Streams',labels=region_us_top5['Track Name'])

A continuación , se relacionan 3 columnas, para poder presentar un informe de ¿Cuáles son las canciones de Ed Sheeran que estuvieron en el Top 100 de Colombia?

In [None]:
ed_co_100 = data[(data['Region']=='co') & (data['Artist']=='Ed Sheeran') & (data['Position']<=100)]

In [None]:
ed_co_100_groupby = ed_co_100.groupby('Track Name').sum()

In [None]:
ed_co_100_groupby.sort_values('Streams', ascending=False)

Una forma interesante de representar la frecuencia de palabras en una columna, es hacerlo a través de un Wordcloud. A continuación veremos como generar uno , darle estilo y guardarlo en un directorio.

In [None]:
os.chdir("C://Users/Camila/Desktop")

In [None]:
#Wordcloud artista que está liderando el top
wordcloud = WordCloud(background_color='white', mode = "RGB", width = 2000, height=1000).generate(' '.join(data['Artist']))

In [None]:
fig = plt.figure(figsize=(20,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
fig.savefig("word1.png", dpi=900)

Con la información obtenida en el modelado de Correlación, haremos un gráfico de correlación 

In [None]:
cols_matrizCorr=matriz.columns.values

In [None]:
#Gráfico de la matriz de correlación
fig = plt.figure(figsize=(12,12))
ax = fig.add_subplot(111)
cax = ax.matshow(matriz, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = np.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(cols_matrizCorr)
ax.set_yticklabels(cols_matrizCorr)
plt.show()