### Data Loading

Este notebook va a ser utilizado para carga el data set ya limpio y con todos los datos necesarios, originalmente scrapeado. Será cargado a MySQL Workbench.

In [1]:
import mysql.connector as conn
from sqlalchemy import create_engine
import warnings
warnings.filterwarnings('ignore')
import pandas as pd

In [2]:
with open('contraseñas.txt') as file:
    mypasswd = file.read()

#### Carga del dataset
Leemos y cargamos el archivo CSV que hemos limpiado y completado en pasos anteriores.

In [3]:
df_full = pd.read_csv('../data/full_data.csv')

In [13]:
df_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 31 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Unnamed: 0                     153 non-null    int64  
 1   date                           153 non-null    object 
 2   Latitude                       153 non-null    float64
 3   Longitude                      153 non-null    float64
 4   Followed_GTOA_Protocol         153 non-null    object 
 5   Interaction_time               153 non-null    object 
 6   Boat_Type                      153 non-null    object 
 7   Boat_Length                    153 non-null    object 
 8   Towing_Inflatable              153 non-null    object 
 9   Trailing_Fishing_Lure          153 non-null    object 
 10  Physical_Contact_With_Boat     153 non-null    object 
 11  Number_of_Adult_Orcas          153 non-null    int64  
 12  Number_of_Juvenile_Orcas       153 non-null    int

In [7]:
# En el anterior notebook añadimos a propósito el índice de cada fila con intención de hacerlo el Primary Key de cada interacción. Vamos a ponerle de titulo 'Indice':
df_full.rename(columns={'Unnamed: 0': 'indice'}, inplace=True)
df_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 31 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   indice                         153 non-null    int64  
 1   date                           153 non-null    object 
 2   Latitude                       153 non-null    float64
 3   Longitude                      153 non-null    float64
 4   Followed_GTOA_Protocol         153 non-null    object 
 5   Interaction_time               153 non-null    object 
 6   Boat_Type                      153 non-null    object 
 7   Boat_Length                    153 non-null    object 
 8   Towing_Inflatable              153 non-null    object 
 9   Trailing_Fishing_Lure          153 non-null    object 
 10  Physical_Contact_With_Boat     153 non-null    object 
 11  Number_of_Adult_Orcas          153 non-null    int64  
 12  Number_of_Juvenile_Orcas       153 non-null    int

In [18]:
# Volvemos a cambiar la fecha a datetime, parece que al guardar a csv y cargar el dataframe de nuevo, se desconfigura este datatype:
df_full.date = df_full.date.astype('datetime64[ms]')
print(df_full.date.dtype)

datetime64[ms]


In [4]:
str_conn = f'mysql+pymysql://root:{mypasswd}@localhost:3306/orcas'
cursor = create_engine(str_conn)

A continuación se hace mención de la tabla `interactions`, esta ha sido creada directamente en MySQL Workbench. Se puede revisar el query de creación en la carpeta `SQL` de este repositorio y además, en el siguiente apartado de este Notebook se incluye el proceso de pensado para asignar un tipo de dato y su tamaño.

In [8]:
df_full.to_sql('interactions',con=cursor, if_exists='append', index=False)

153

*IMPORTANTE* 

Cuando se quiera añadir más casos a la tabla de la BBDD, habrá que cambiar el dataframe por el nuevo y, manteniendo el `if_exists='append' ` , la nueva información se añadirá a la vieja tabla.

*Ojo* que también es importante que la nueva tabla coincida en formato con la antigua, mismo número de columnas y tipo de dato. También sería inteligente comprobar el máximo número de caracteres de cada columna de la nueva tabla para asegurar que no habrá problemas de dimensionamiento.

#### Creación de la tabla dentro de la BBDD

El proceso llevado a cabo a continuación no afecta directamente a la tabla en MySQL Workbench, esta ha sido creada vía el archivo create.sql guardado en este mismo repositorio en la carpeta `SQL`.

Lo que se hace en este apartado es contar el máximo numero de caracteres de cada columna para saber definir el tipo de dato y tamaño de cada columna.

In [20]:
# Como debo definir el tipo de dato de cada columna, me gustaría calcular la longitud máxima de caracteres de cada una de las columnas 
# de tipo objeto.

# Lo hago a continuación:

max_lengths = df_full.select_dtypes(include='object').apply(lambda col: col.astype(str).apply(len).max())
max_lengths

Followed_GTOA_Protocol           7
Interaction_time                 7
Boat_Type                       14
Boat_Length                      7
Towing_Inflatable                7
Trailing_Fishing_Lure            7
Physical_Contact_With_Boat       7
Rudder                          11
Motoring_or_Sailing             12
Speed_Knots                      7
Sea_State                        8
Wind_Speed_Beaufort             21
Daylight_or_Darkness             5
Cloud_Cover                      9
Distance_Off_Land_NM             7
Depth_Meters                     9
Depth_Gauge                      7
Autopilot                        7
Hull_Topsides_Color             11
Antifoul_Color                  10
Boat_Damaged                    50
Tow_Required                     7
Crew_Response                 6163
Orcas_Behaviour               1633
dtype: int64

* Como se puede ver, debido a la limpieza llevada a cabo en pasos anteriores la mayoría de columnas tienen un número de caracteres reducida, a salvedad de los comentarios de la tripulación.

In [22]:

query ='''

create table interactions(
    indice int primary key not null,
    date datetime,
    Latitude float,
    Longitude float,
    Followed_GTOA_Protocol varchar(10),
    Interaction_time varchar(10),
    Boat_Type varchar(15),
    Boat_Length varchar(10),
    Towing_Inflatable varchar(10),
    Trailing_Fishing_Lure varchar(10),
    Physical_Contact_With_Boat varchar(10),
    Number_of_Adult_Orcas int,
    Number_of_Juvenile_Orcas int,
    Number_of_Uncertain_Age_Orcas int,
    Rudder varchar(15),
    Motoring_or_Sailing varchar(15),
    Speed_Knots varchar(10),
    Sea_State varchar(10),
    Wind_Speed_Beaufort varchar(25),
    Daylight_or_Darkness varchar(10),
    Cloud_Cover varchar(10),
    Distance_Off_Land_NM varchar(10),
    Depth_Meters varchar(15),
    Depth_Gauge varchar(10),
    Autopilot varchar(10),
    Hull_Topsides_Color varchar(15),
    Antifoul_Color varchar(15),
    Boat_Damaged varchar(60),
    Tow_Required varchar(10),
    Crew_Response varchar(6200),
    Orcas_Behaviour varchar(1700)
    );
'''


4.DataLoading - done