In [1]:
# Comenzaremos leyendo el archivo AnalisisMarino.csv y luego realizaremos un análisis inicial de cada variable. Posteriormente, pasaremos al análisis exploratorio detallado del conjunto de datos.

#Instalar en el terminal si estas trabajando en Rstudio:
#como este ejemplo: pip3 install pandas

# Importando pandas y numpy para manejo y análisis de datos
import pandas as pd
import numpy as np

In [3]:
# Importando matplotlib y seaborn para visualización
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# Configurando estilos de seaborn para mejorar la estética de las visualizaciones
sns.set_style("whitegrid")


In [6]:
# Importando scikit-learn para técnicas de preprocesamiento y modelado
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

In [7]:
# Leyendo el archivo CSV
df_marino = pd.read_csv('AnalisisMarino.csv')
# Mostrando las primeras filas del DataFrame para tener una idea inicial de los datos
df_marino.head()


Unnamed: 0,Especie,Latitud,Longitud,Fecha,Tamaño,Peso,Profundidad,Temperatura del agua,Salinidad,Oxígeno disuelto,...,Velocidad de nado,Color predominante,Tipo de agua,Método de avistamiento,Sexo,Edad estimada,Estado de conservación,Número de aletas,Presencia de parásitos,Dieta reciente
0,Pez Payaso,22.866888,-141.914792,2023-07-21,165.120034,26.26445,207.459705,22.400466,37.904041,8.305125,...,10.374877,rojo,salada,red,femenino,19,vulnerable,3,no,plancton
1,Tiburón Blanco,-42.922633,164.878496,2023-07-11,131.025494,36.401537,233.176262,10.363485,30.948666,5.340861,...,18.057886,gris,dulce,sonar,indeterminado,2,en peligro,2,no,peces pequeños
2,Salmón,-47.738454,147.289063,2022-10-12,126.497569,32.676544,256.908652,6.098199,32.013617,2.894884,...,4.341985,azul,salobre,red,femenino,32,crítico,5,sí,algas
3,Salmón,-3.580413,-94.960754,2023-04-02,93.279929,42.740469,389.230699,15.97223,37.004205,9.285067,...,8.392404,azul,dulce,sonar,femenino,19,vulnerable,3,sí,moluscos
4,Pez Espada,29.118669,109.437909,2023-06-05,134.544566,9.622408,109.633952,27.368134,30.0572,7.453074,...,8.547533,azul,salada,sonar,femenino,36,vulnerable,6,no,crustáceos


In [11]:
#Aquí está una vista previa de las primeras filas del conjunto de datos:

#Contiene 26 columnas (variables) que abarcan desde la especie del pez, coordenadas geográficas, fecha de observación, características físicas, hasta detalles sobre el hábitat y comportamiento del pez.
#Las variables incluyen tanto características numéricas como categóricas.
#Para tener una mejor comprensión de los datos, vamos a realizar un análisis inicial de cada variable, comenzando con un resumen descriptivo de las variables numéricas y luego analizando la distribución de las variables categóricas.


In [12]:
# Resumen descriptivo de las variables numéricas
summary_numeric = df_marino.describe()

summary_numeric


Unnamed: 0,Latitud,Longitud,Tamaño,Peso,Profundidad,Temperatura del agua,Salinidad,Oxígeno disuelto,Clorofila,Velocidad de nado,Edad estimada,Número de aletas
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,-0.562309,-0.476391,110.311653,25.230766,250.854636,17.594974,34.948209,5.989233,1.553079,12.887062,25.0272,4.4866
std,28.791718,104.13919,51.956005,14.227333,143.154312,7.24506,2.894132,2.30044,0.842547,7.081061,14.207992,1.696322
min,-49.999446,-179.993975,20.001518,0.50232,1.064876,5.004508,30.001009,2.000235,0.10008,0.500386,1.0,2.0
25%,-25.780658,-90.193087,65.598487,13.052659,126.795399,11.26874,32.395844,3.984125,0.821113,6.714641,13.0,3.0
50%,-0.458527,-1.48087,110.765329,25.213693,251.399657,17.703761,34.981436,5.980873,1.55824,12.962322,25.0,4.0
75%,24.122581,91.080849,155.28085,37.639524,374.915054,23.97097,37.437281,7.975542,2.290234,19.076915,37.0,6.0
max,49.978937,179.989973,199.971434,49.997015,499.937674,29.99668,39.99992,9.998903,2.999601,24.996377,49.0,7.0
