# Resumen

La infertilidad es un problema creciente que afecta alrededor del 15% de las parejas en edad reproductiva en todo el mundo. Aunque tradicionalmente se ha asociado la infertilidad con factores femeninos, alrededor del 40-50% de los casos puede ser atribuido a factores masculinos. Por ello, es crucial que, en parejas que experimentan dificultades para concebir, se considere la evaluación tanto del hombre como de la mujer.

El análisis de semen, conocido como espermograma, es una herramienta esencial para diagnosticar la infertilidad masculina. Este examen evalúa diversos parámetros del semen, tales como el volumen, la concentración de espermatozoides, su motilidad y la morfología. Los resultados de este análisis proporcionan información clave sobre la salud reproductiva del hombre. Con estos datos, los especialistas pueden determinar el tipo de tratamiento más adecuado, ya sea inseminación artificial, fecundación in vitro (FIV) o el uso de donantes de esperma. 

Si bien el espermograma es muy útil, en la mayoria de los casos la infertilidad sigue siendo de causa idiopática. Esto significa que, a pesar de los avances en las pruebas y diagnósticos, aún no se pueden identificar todas las razones por las cuales algunos hombres presentan problemas de fertilidad. Por esta razón, se hace necesario mejorar tanto las técnicas utilizadas en el estudio del semen como en el procesamiento de los datos recopilados. Un enfoque más detallado y preciso podría permitir descubrir factores más sutiles que hoy en día se pasan por alto, lo que a su vez abriría nuevas posibilidades para el diagnóstico y tratamiento personalizado de la infertilidad masculina.

El objetivo general del siguiente trabajo es hacer uso de las herramientas que aportan las ciencias de datos para profundizar el análisis de los espermogramas. La hipotesis general que rige este analisis es que al aplicar técnicas avanzadas de análisis de datos, como el aprendizaje automático y la inteligencia artificial, es posible identificar patrones complejos en grandes volúmenes de datos que no son detectables a simple vista, lo que permitiría descubrir nuevas causas subyacentes de la infertilidad masculina. 

En la primera seccion (Seccion 1) del proyecto se utilizara una base de datos de la Organizacion Mundial de la Salud (WHO, 2020) que contiene datos de parametros seminales de hombres con fertilidad comprobada. El objetivo de esta seccion es realizar un estuduio detallado de la fertilidad masculina.

# Seccion 1

Importamos las librerias necesarias para el desarrollo del proyecto:

In [2]:
#para el procesamiento de los datos
import pandas as pd
import numpy as np

#para la visualizacion de los datos
import matplotlib.pyplot as plt
import seaborn as sns

Cargamos el dataset "Fertile man semen parameters 2020 - WHO":

In [8]:
url = 'https://raw.githubusercontent.com/jschiavie/Curso_Coder/refs/heads/main/Fertile_Man_WHO_2020.csv'
df_sperm = pd.read_csv(url)

#### Informacion general del DataSet

Vista general de la tabla:

In [24]:
df_sperm.head()

Unnamed: 0,Publisher,Semen_Volume,Sperm_Concentration,Total_Number,Total_Motility,Progressive_Motility,Non-progressive_Motility,Immotile_Spermatozoa,Vitality,Normal_Forms
0,Aboutorabi,3.2,27.0,86.4,35.0,20.0,15.0,65.0,,
1,Aboutorabi,0.8,136.0,108.8,47.0,35.0,12.0,53.0,,
2,Aboutorabi,2.0,71.0,142.0,49.0,42.0,7.0,51.0,,
3,Aboutorabi,1.0,35.0,35.0,50.0,28.0,22.0,50.0,,
4,Aboutorabi,2.0,46.0,92.0,51.0,28.0,33.0,49.0,,


In [25]:
df_sperm.tail()

Unnamed: 0,Publisher,Semen_Volume,Sperm_Concentration,Total_Number,Total_Motility,Progressive_Motility,Non-progressive_Motility,Immotile_Spermatozoa,Vitality,Normal_Forms
3584,Tang,1.7,23.0,39.1,53.0,52.0,1.0,,82.0,25.0
3585,Tang,2.5,110.0,275.0,66.0,66.0,0.0,,95.0,30.0
3586,Tang,2.0,109.0,218.0,64.0,44.0,20.0,36.0,,11.0
3587,Tang,6.2,96.0,595.2,39.0,29.0,10.0,61.0,,7.0
3588,Tang,3.0,36.0,108.0,54.0,38.0,16.0,46.0,,11.0


In [26]:
df_sperm.shape

(3589, 10)

El data set contiene 10 columnas y 3589 filas. El indice representa cada muestra de semen independiente.

In [27]:
df_sperm. columns

Index(['Publisher', 'Semen_Volume', 'Sperm_Concentration', 'Total_Number',
       'Total_Motility', 'Progressive_Motility', 'Non-progressive_Motility',
       'Immotile_Spermatozoa', 'Vitality', 'Normal_Forms'],
      dtype='object')

Los parametros seminales medidos son:
- volumen de muestra
- concentracion de espermatozoides (10^6 celulas/ml)
- numero total (10^6 celulas)
- movilidad total (%)
- motilidad progresiva (%)
- motilidad no progresiva (%)
- espermatozoides inmoviles (%)
- viabilidad (%)
- forma normal (%)

Ademas se agrega una columna que indica el autor del trabajo que recopila los datos (Publisher).


In [29]:
df_sperm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3589 entries, 0 to 3588
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Publisher                 3589 non-null   object 
 1   Semen_Volume              3586 non-null   float64
 2   Sperm_Concentration       3587 non-null   float64
 3   Total_Number              3584 non-null   float64
 4   Total_Motility            3488 non-null   float64
 5   Progressive_Motility      3389 non-null   float64
 6   Non-progressive_Motility  3387 non-null   float64
 7   Immotile_Spermatozoa      2800 non-null   float64
 8   Vitality                  1337 non-null   float64
 9   Normal_Forms              3335 non-null   float64
dtypes: float64(9), object(1)
memory usage: 280.5+ KB


De este analisis descriptivo ya podemos inferir que 8 de los diez parametros utilizados contiene datos nulos entre las mediciones.

#### Preprocesamiento

Buscamos datos duplicados:

In [31]:
df_sperm.duplicated().sum()

np.int64(220)

La tabla tiene 220 datos duplicados. Los eliminamos:

In [33]:
df_sperm = df_sperm.drop_duplicates()

df_sperm.duplicated().sum()

np.int64(0)

In [30]:
df_sperm.describe()

Unnamed: 0,Semen_Volume,Sperm_Concentration,Total_Number,Total_Motility,Progressive_Motility,Non-progressive_Motility,Immotile_Spermatozoa,Vitality,Normal_Forms
count,3586.0,3587.0,3584.0,3488.0,3389.0,3387.0,2800.0,1337.0,3335.0
mean,3.421182,82.576889,270.313842,64.282782,53.641385,10.996956,37.75452,77.091249,16.676462
std,1.539109,64.507758,232.780551,14.071035,14.100712,9.649534,12.308291,13.347578,11.318816
min,0.1,0.9,2.52,0.0,0.0,0.0,2.0,29.0,0.0
25%,2.3,36.0,107.875,55.326816,45.0,4.0,30.0,69.0,8.0
50%,3.01,66.0,209.49625,64.0,54.798762,8.0,37.0,78.0,14.0
75%,4.2,110.0,362.559375,73.0,62.666667,15.0,45.0,88.0,23.0
max,12.5,532.0,3115.2,100.0,94.0,56.0,100.0,100.0,76.0


(3589, 10)