# Ejercicios con Pandas y Visualización de Datos - Toxicidad Acuática

En este notebook trabajaremos con un conjunto de datos relacionado con la toxicidad acuática de compuestos químicos.
Utilizaremos **pandas** para manipular los datos y **matplotlib** para representar gráficamente la información.

🔧 Asegúrate de tener los paquetes `pandas` y `matplotlib` instalados antes de ejecutar el notebook.

Importa las librerías necesarias y carga el archivo `'Dataset_EC50_Pandas.csv'`. Visualiza las primeras filas para asegurarte que el DataFrame es correcto.


In [1]:
import pandas as pd

# Cargar el archivo CSV con el delimitador correcto
df = pd.read_csv('Dataset_EC50_Pandas.csv', sep=';')

# Visualizar las primeras filas del DataFrame
df.head()

Unnamed: 0,CAS Number,Chemical Name,SMILES,Species Scientific Name,Species Common Name,Species Sub Phylum,Effect,Organism Lifestage,Exposure Duration Mean (Days),Conc 1 Mean (Standardized),Conc 1 Mean Op (Standardized),Conc 1 Units (Standardized)
0,50-29-3,"1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...",Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1,Osteichthyes,Bony Fishes,Vertebrata,Mortality,Juvenile,NR,0.028,,AI mg/L
1,50-29-3,"1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...",Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1,Mugil cephalus,Striped Mullet,Vertebrata,Mortality,Not reported,NR,0.0004,,AI mg/L
2,50-29-3,"1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...",Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1,Mugil cephalus,Striped Mullet,Vertebrata,Mortality,Not reported,NR,0.0008,,AI mg/L
3,50-29-3,"1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...",Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1,Mugil cephalus,Striped Mullet,Vertebrata,Mortality,Not reported,NR,0.0055,,AI mg/L
4,50-29-3,"1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...",Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1,Mugil cephalus,Striped Mullet,Vertebrata,Mortality,Not reported,NR,0.0004,,AI mg/L


# Ejercicios con Pandas y Visualización de Datos - Toxicidad Acuática

### Ejercicio 1: Exploración básica
Muestra cuántas filas y columnas tiene el DataFrame, y qué nombres tienen las columnas.

In [2]:
# Mostrar el número de filas y columnas
print(f"El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.")

# Mostrar los nombres de las columnas
print("Los nombres de las columnas son:")
print(df.columns.tolist())

El DataFrame tiene 4227 filas y 12 columnas.
Los nombres de las columnas son:
['CAS Number', 'Chemical Name', 'SMILES', 'Species Scientific Name', 'Species Common Name', 'Species Sub Phylum', 'Effect', 'Organism Lifestage', 'Exposure Duration Mean (Days)', 'Conc 1 Mean (Standardized)', 'Conc 1 Mean Op (Standardized)', 'Conc 1 Units (Standardized)']


### Ejercicio 2: Detección de valores nulos
Cuenta cuántos valores faltantes hay en la columna "Conc 1 Mean (Standardized)".

In [3]:
# Contar valores nulos en la columna "Conc 1 Mean (Standardized)"
valores_nulos = df['Conc 1 Mean (Standardized)'].isnull().sum()
print(f"Hay {valores_nulos} valores faltantes en la columna 'Conc 1 Mean (Standardized)'.")

Hay 0 valores faltantes en la columna 'Conc 1 Mean (Standardized)'.


### Ejercicio 3: Valores únicos
Muestra todos los efectos diferentes registrados en la base de datos.

In [4]:
# Mostrar todos los efectos diferentes registrados en la base de datos
efectos_unicos = df['Effect'].unique()
print("Efectos diferentes registrados en la base de datos:")
print(efectos_unicos)

Efectos diferentes registrados en la base de datos:
['Mortality']


### Ejercicio 4: Especies más frecuentes
Muestra las 5 especies científicas más comunes en el dataset.

In [5]:
# Mostrar las 5 especies científicas más comunes
especies_comunes = df['Species Scientific Name'].value_counts().head(5)
print("Las 5 especies científicas más comunes son:")
print(especies_comunes)

Las 5 especies científicas más comunes son:
Species Scientific Name
Pimephales promelas    658
Lepomis macrochirus    568
Oncorhynchus mykiss    493
Danio rerio            426
Ictalurus punctatus    184
Name: count, dtype: int64


### Ejercicio 5: Estadísticas descriptivas
Convierte la columna de concentración a formato numérico y muestra estadísticas básicas.

In [6]:
# Convertir la columna "Conc 1 Mean (Standardized)" a formato numérico
df['Conc 1 Mean (Standardized)'] = pd.to_numeric(df['Conc 1 Mean (Standardized)'], errors='coerce')

# Mostrar estadísticas descriptivas básicas
estadisticas = df['Conc 1 Mean (Standardized)'].describe()
print("Estadísticas descriptivas de la columna 'Conc 1 Mean (Standardized)':")
print(estadisticas)

Estadísticas descriptivas de la columna 'Conc 1 Mean (Standardized)':
count    4.118000e+03
mean     1.778908e+02
std      1.792027e+03
min      2.000000e-07
25%      8.489183e-02
50%      6.800000e-01
75%      1.023000e+01
max      6.200000e+04
Name: Conc 1 Mean (Standardized), dtype: float64


### Ejercicio 6: Filtrado de datos
Filtra las filas donde el efecto es "Mortality" y la concentración es superior a 1.

In [7]:
# Filtrar las filas donde el efecto es "Mortality" y la concentración es superior a 1
filtro_mortalidad = df[(df['Effect'] == 'Mortality') & (df['Conc 1 Mean (Standardized)'] > 1)]

# Mostrar las primeras filas del resultado filtrado
print(filtro_mortalidad.head())

   CAS Number                                      Chemical Name  \
13    50-29-3  1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...   
22    50-29-3  1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...   
27    50-29-3  1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...   
49    50-29-3  1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...   
51    50-29-3  1,1'-(2,2,2-Trichloroethylidene)bis[4-chlorobe...   

                                    SMILES Species Scientific Name  \
13  Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1        Gambusia affinis   
22  Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1        Gambusia affinis   
27  Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1    Rasbora heteromorpha   
49  Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1    Rasbora heteromorpha   
51  Clc1ccc(C(c2ccc(Cl)cc2)C(Cl)(Cl)Cl)cc1    Rasbora heteromorpha   

           Species Common Name Species Sub Phylum     Effect  \
13        Western Mosquitofish         Vertebrata  Mortality   
22        Western Mosquitofish         Ver

### Ejercicio 7: Agrupación por especie
Calcula la concentración media por especie (nombre común) y ordénalas de mayor a menor.

In [8]:
# Calcular la concentración media por especie (nombre común) y ordenarlas de mayor a menor
concentracion_media_especie = df.groupby('Species Common Name')['Conc 1 Mean (Standardized)'].mean().sort_values(ascending=False)

# Mostrar las primeras filas del resultado
print("Concentración media por especie (nombre común), ordenadas de mayor a menor:")
print(concentracion_media_especie.head())

Concentración media por especie (nombre común), ordenadas de mayor a menor:
Species Common Name
Bleak             5000.040000
Indian Catfish    2170.432444
Mummichog         1338.880803
Sunbleak           946.707143
Common Carp        836.277254
Name: Conc 1 Mean (Standardized), dtype: float64


### Ejercicio 8: Gráfico de barras
Representa en un gráfico las 10 especies con mayor concentración media.

In [9]:
!pip install --upgrade nbformat


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [11]:
import matplotlib.pyplot as plt
import plotly.express as px

# Seleccionar las 10 especies con mayor concentración media
top_10_especies = concentracion_media_especie.head(10)


# Crear el gráfico de barras interactivo con Plotly
fig = px.bar(top_10_especies, 
             x=top_10_especies.index, 
             y=top_10_especies.values, 
             labels={'x': 'Especies', 'y': 'Concentración Media (Standardized)'},
             title='Top 10 Especies con Mayor Concentración Media')

# Personalizar el diseño
fig.update_layout(xaxis_title='Especies',
                  yaxis_title='Concentración Media (Standardized)',
                  title_font_size=14,
                  xaxis_tickangle=45)

# Mostrar el gráfico interactivo
fig.show()


### Ejercicio 9: Gráfico de dispersión
Representa un gráfico tipo boxplot para ver cómo varía la concentración según el subfilo.

In [19]:
# Escribe aquí tu solución

### Ejercicio 10: Exportación de subconjunto
Exporta a un nuevo CSV los registros con concentración mayor que 1.

In [20]:
# Escribe aquí tu solución

### Ejercicio 11: Comprobar distribución
Representa un histograma del valor de concentración para analizar si sigue una distribución normal.

In [21]:
# Escribe aquí tu solución

### Ejercicio 12: Transformación logarítmica
Crea una nueva columna con el logaritmo de la concentración (añade 1 para evitar log(0)) y grafícalo de nuevo.

In [22]:
# Escribe aquí tu solución

### Ejercicio 13: Clasificación de toxicidad
Crea una columna nueva que diga si un compuesto es "Tóxico" (> 1) o "No tóxico" (<= 1).

In [23]:
# Escribe aquí tu solución