### Librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Conexión a MySQL y guardar tablas en dataframes

In [None]:
from sqlalchemy import create_engine

bbdd = 'nombre_bbdd'
contraseña = ''
conexion = create_engine(f'mysql+mysqlconnector://root:{contraseña}@localhost/{bbdd}')

#lista de tablas de la BBDD en MySQL: SHOW FULL TABLES FROM bbdd;
tablas_db = ['nombres_tablas']
dataframe = {}

for tabla in tablas_db:
	query = f'SELECT * FROM {tabla}'
	dataframe[tabla] = pd.read_sql(query, conexion)

#simplificar nombres de dataframes
tabla1 = dataframe['tabla1']
tablaX = dataframe['tablaX']

### Mostrar información de un dataframe

In [None]:
#primeras filas
dataframe.head()

# últimas filas
dataframe.tail()

#tipos de datos
dataframe.dtypes

#  cantidad de filas, cantidad de columnas
dataframe.info()
dataframe.columns
dataframe.shape

#estadísticas clave
dataframe.describe()

### Manipulación básica de dataframes

In [None]:
#acceder a una columna concreta del dataframe
dataframe['nombre_columna']

#cambio nombre de una columna
dataframe = dataframe.rename(columns={'nombre_original':'nuevo_nombre','nombre_orignal2':'nuevo_nombre2'}) #tambien se puede guardar con inplace=True

#merge entre tablas: si el nombre del campo de relación no coincide, hay que especificar left_on= y right_on=
dataframe = pd.merge(tabla1, tablaX, on='campo_relacion')

#filtrar con una condición 
filtro = dataframe['columna_condición'] + 'condición' 
dataframe[filtro]

#alternativa al filtro: query 
dataframe.query('filtro') #filtro (columna + condicion) entre ' ', de lo contrario no funciona

#ordenar dataframe por columnas
dataframe.sort_values(by=['columna1','columna2']) #comprobar el orden (extra: ascending  = False) y guardarlo con inplace=True

### Agrupación  + cálculos

* columna_agrupacion - columna por la que agrupas
* columna_calculo - columna a la que quieres aplicar cálculo
* nombre_columna_calculada - nombre que quieres poner a la columna calculada

In [None]:
#agrupación y cálculos (count, sum, max, min, mean, median, etc.)
dataframe.groupby('columna_agrupacion')['columna_calculo'].median().reset_index(name='nombre_columna_calculada')
#agrupar por dos columnas y aplicar cálculo
dataframe.groupby(['columna1','columna2'])['columna_calculo'].sum().reset_index(name='nombre_columna_calculada')

#value_counts: recuento de veces que aparece cada registro de la columna seleccionada (se hace la agrupación automáticamente)
variableX = dataframe['columna_calculo'].value_counts().reset_index(name='nombre_columna_calculada')

#aplicar cálculo a una columna -> no hace la agrupación directa
variableX = dataframe['columna_calculo'].count()

#groupby + size(): hace el recuento de la columna agrupada
variableX = dataframe.groupby('columna_agrupacion').size().reset_index(name='nombre_columna_calculada')

#multiples cálculos a la columna agrupada (también puede ser primer/ultimo registro de esa agrupacion - first / last)
dataframe.groupby('columna_agrupacion').agg(nombre_columna1=('columna_calculo1', 'cálculo1'), 
                                            nombre_columna2=('columna_calculo2', 'cálculo2'),
                                            nombre_columna3=('columna_calculo3', 'cálculo3'))

### Crear una nueva columna partiendo de alguna/s ya conocidas

In [None]:
#calcular a partir de dos columnas ya conocidas
dataframe['nombre_columna_calculada'] = dataframe['columna1'] + '* / + -' +  dataframe['columna2']

#asignar con condiciones: manera 1
def assign_x(x):
    if x == 'condicion_1':
         return 'resultado1'
    elif x == 'condicion_2':
         return 'resultado2'
    else: 
        return 'resultado3'

dataframe['nombre_columna_nueva'] = dataframe['columna_condicion'].apply(assign_x)

#manera 2 - crear columna nueva reemplazando los valores de otra columna (que sirve como condicional)
dataframe['nombre_columna_nueva'] = dataframe['columna_condicion'].replace({'valor1':'cambio1', 'valor2':'cambio2'})

#manera 3: función lambda
dataframe['nombre_columna_nueva'] = dataframe['columna_condicion'].apply(lambda x: 'resultado1' if x == 'condicion_1' else 'resultado2')

### Visualizaciones en Python: https://www.data-to-viz.com/

In [None]:
#definir estilo de las visualizaciones 
plt.style.use('ggplot')

#### Una variable categórica

In [None]:
#pie chart - variable_numerica = recuento de la variable categorica
plt.figure(figsize=(10,10))

plt.pie(dataframe['variable_numerica'], autopct='%1.2f%%', wedgeprops={"linewidth": 1.5, 'edgecolor': 'white'})
plt.title('Titulo_pie_chart')
plt.legend(dataframe['variable_categorica'], title="nombre_leyenda")

In [None]:
#barplot - si hay muchas categorías
plt.figure(figsize=(10, 7))
sns.barplot(x="variable_numérica", 
            y="variable_categórica", 
            data=dataframe, 
            errorbar=None)

plt.title('Titulo_barplot')
plt.xlabel('Titulo_eje_x_variable_numerica')
plt.ylabel('Titulo_eje_y_variable_categorica')

#### Una variable numérica

In [None]:
#histograma básico:
plt.figure(figsize=(10,6))
plt.hist(dataframe['variable_numerica'])
plt.title('Titulo_histograma')
plt.xlabel('Titulo_eje_x')
plt.ylabel('Frecuencia')

#histograma más completo:
bins = np.arange(min('variable'), max('variable'), 'intervalo_salto')
values, bins, bars = plt.hist(dataframe['variable_numerica'], bins=bins, edgecolor="white")

plt.xticks(bins)
plt.bar_label(container=bars)

plt.tight_layout()
plt.show()

#### Relación entre 2 variables numéricas

In [None]:
#scatter plot básico:
plt.figure(figsize=(10,10))
plt.scatter(dataframe['variable_numerica_1'], dataframe['variable_numerica_2'])
plt.title('Titulo_scatter_plot')
plt.xlabel('Titulo_eje_x_variable_1')
plt.ylabel('Titulo_eje_y_variable_2')

#extra:
plt.xticks(np.arange(min('variable_1'), max('variable_1'), 'salto'))
plt.yticks(np.arange(min('variable_2'), max('variable_2'), 'salto'))

plt.tight_layout()
plt.show()

#### Una variable numérica y una categórica

In [None]:
#boxplot
plt.figure(figsize=(14,10))
ax = sns.boxplot(x='variable_categorica', y='variable_numerica', data=dataframe, hue='opcional_variable_categorica')
plt.title('Titulo_boxplot')
plt.xlabel('Titulo_eje_x_variable_categorica')
plt.ylabel('Titulo_eje_y_variable_numerica')

#extra: jitter
ax = sns.stripplot(x='variable_categorica', y='variable_numerica', data=dataframe, color='black', jitter=0.1, size=3)

plt.yticks(np.arange(min('variable_num'), max('variable_num'), 'salto'))
ax.tick_params(axis='x', labelrotation=45)

plt.tight_layout()
plt.show()

In [None]:
#violinplot
plt.figure(figsize=(13,8))
g = sns.violinplot(x='variable_categorica', y='variable_numerica', data=dataframe, hue='opcional_variable_categorica', inner='quart') 
g.set_title('Titulo_violinplot')
g.set_xlabel('Titulo_eje_x_variable_categorica')
g.set_ylabel('Titulo_eje_y_variable_numerica')

#extra: jitter
g = sns.stripplot(x='variable_categorica', y='variable_numerica', data=dataframe, hue='opcional_variable_categorica', jitter=0.1, size=2.5)

g.set_yticks(np.arange(min('variable_num'), max('variable_num'), 'salto'))

plt.tight_layout()
plt.show()

#### Dos variables categóricas y una numérica

In [None]:
#barplot
plt.figure(figsize=(14, 6))
ax = sns.barplot(x='variable_categorica1', y='variable_numerica', data=dataframe, hue='variable_categorica2', errorbar=None)

plt.title('Titulo_barplot')
plt.xlabel('Titulo_eje_x')
plt.ylabel('Titulo_eje_y')

ax.tick_params(axis='x', labelrotation=45)

plt.tight_layout()
plt.show()

In [None]:
#boxplot, violinplot -- si en la representación de boxplot o violinplot añadimos hue, añadimos una variable categórica 

### Scripts en PowerBI

* Cargar los dataframes en PowerBI: código de conexión a MySQL 
    * añadir librería pandas
    * IMPORTANTE: guardar cada dataframe en una variable

* Vigilar el separador de decimales

* Script objeto visual: copiar código Python, adaptarlo 
    * añadir las librerías usadas para hacer esa visualización
    * IMPORTANTE: añadir una columna con índice único para evitar que se borren registros aparentemente duplicados

### Eliminar la base de datos y cerrar conexiones

In [None]:
#cerrar la conexión
conexion = conexion.dispose()

#eliminar la base de datos (almacenada en diccionario)
del dataframe

#eliminar bbdd en MySQL
DROP DATABASE <name>;

#eliminar dataframe (hay que especificar los indices a eliminar)
dataframe.drop(dataframe.index, inplace=True)