# Sesión 2: Notebook en Python (Pandas)

In [1]:
# Importación de librerías necesarias
import pandas as pd

# Cargar los datasets
df_size = pd.read_csv('penguins_size.csv')
df_lter = pd.read_csv('penguins_lter.csv')

# Verificar las primeras filas de cada dataset para entender su estructura
print("Primeras filas de penguins_size:")
print(df_size.head())

print("\nPrimeras filas de penguins_lter:")
print(df_lter.head())

Primeras filas de penguins_size:
  species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0  Adelie  Torgersen              39.1             18.7              181.0   
1  Adelie  Torgersen              39.5             17.4              186.0   
2  Adelie  Torgersen              40.3             18.0              195.0   
3  Adelie  Torgersen               NaN              NaN                NaN   
4  Adelie  Torgersen              36.7             19.3              193.0   

   body_mass_g     sex  
0       3750.0    MALE  
1       3800.0  FEMALE  
2       3250.0  FEMALE  
3          NaN     NaN  
4       3450.0  FEMALE  

Primeras filas de penguins_lter:
  studyName  Sample Number                              Species  Region  \
0   PAL0708              1  Adelie Penguin (Pygoscelis adeliae)  Anvers   
1   PAL0708              2  Adelie Penguin (Pygoscelis adeliae)  Anvers   
2   PAL0708              3  Adelie Penguin (Pygoscelis adeliae)  Anvers   
3   PAL0708   

## 1. Exploración Inicial de los Datos

Exploramos la estructura de cada dataset, revisamos los tipos de datos y observamos si existen valores faltantes.

In [2]:
# Información general de ambos datasets
print("Información del dataset penguins_size:")
df_size.info()

print("\nInformación del dataset penguins_lter:")
df_lter.info()


Información del dataset penguins_size:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   342 non-null    float64
 3   culmen_depth_mm    342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                334 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB

Información del dataset penguins_lter:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 17 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   studyName            344 non-null    object 
 1   Sample Number        344 non-null    int64  
 2   Species              3

In [3]:
# Resumen estadístico de los datasets
print("\nEstadísticas descriptivas de penguins_size:")
print(df_size.describe())

print("\nEstadísticas descriptivas de penguins_lter:")
print(df_lter.describe())


Estadísticas descriptivas de penguins_size:
       culmen_length_mm  culmen_depth_mm  flipper_length_mm  body_mass_g
count        342.000000       342.000000         342.000000   342.000000
mean          43.921930        17.151170         200.915205  4201.754386
std            5.459584         1.974793          14.061714   801.954536
min           32.100000        13.100000         172.000000  2700.000000
25%           39.225000        15.600000         190.000000  3550.000000
50%           44.450000        17.300000         197.000000  4050.000000
75%           48.500000        18.700000         213.000000  4750.000000
max           59.600000        21.500000         231.000000  6300.000000

Estadísticas descriptivas de penguins_lter:
       Sample Number  Culmen Length (mm)  Culmen Depth (mm)  \
count     344.000000          342.000000         342.000000   
mean       63.151163           43.921930          17.151170   
std        40.430199            5.459584           1.974793   
m

In [4]:
# Revisión de valores faltantes
print("\nValores faltantes en penguins_size:")
print(df_size.isnull().sum())

print("\nValores faltantes en penguins_lter:")
print(df_lter.isnull().sum())


Valores faltantes en penguins_size:
species               0
island                0
culmen_length_mm      2
culmen_depth_mm       2
flipper_length_mm     2
body_mass_g           2
sex                  10
dtype: int64

Valores faltantes en penguins_lter:
studyName                0
Sample Number            0
Species                  0
Region                   0
Island                   0
Stage                    0
Individual ID            0
Clutch Completion        0
Date Egg                 0
Culmen Length (mm)       2
Culmen Depth (mm)        2
Flipper Length (mm)      2
Body Mass (g)            2
Sex                     10
Delta 15 N (o/oo)       14
Delta 13 C (o/oo)       13
Comments               318
dtype: int64


## 2. Manipulación de Filas y Columnas

Realizamos operaciones básicas para seleccionar columnas específicas y filtrar filas según ciertas condiciones.

In [5]:
# Seleccionar columnas específicas: especie, longitud de aleta, y masa corporal
df_size_selected = df_size[['species', 'flipper_length_mm', 'body_mass_g']]
print("\nColumnas seleccionadas de penguins_size:")
print(df_size_selected.head())


Columnas seleccionadas de penguins_size:
  species  flipper_length_mm  body_mass_g
0  Adelie              181.0       3750.0
1  Adelie              186.0       3800.0
2  Adelie              195.0       3250.0
3  Adelie                NaN          NaN
4  Adelie              193.0       3450.0


In [6]:
# Filtrar filas donde el peso corporal es mayor a 4000 gramos
df_heavy_penguins = df_size[df_size['body_mass_g'] > 4000]
print("\nPingüinos con masa corporal mayor a 4000g:")
print(df_heavy_penguins.head())


Pingüinos con masa corporal mayor a 4000g:
   species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
7   Adelie  Torgersen              39.2             19.6              195.0   
9   Adelie  Torgersen              42.0             20.2              190.0   
14  Adelie  Torgersen              34.6             21.1              198.0   
17  Adelie  Torgersen              42.5             20.7              197.0   
19  Adelie  Torgersen              46.0             21.5              194.0   

    body_mass_g   sex  
7        4675.0  MALE  
9        4250.0   NaN  
14       4400.0  MALE  
17       4500.0  MALE  
19       4200.0  MALE  


## 3. Transformación de Datos

### Creación y Modificación de Columnas

Creamos una nueva columna que convierta la masa corporal de gramos a kilogramos y aplicamos modificaciones a otras columnas.

In [7]:
# Crear una nueva columna para masa corporal en kilogramos
df_size['body_mass_kg'] = df_size['body_mass_g'] / 1000

# Convertir la columna 'sex' a minúsculas para estandarizar los valores
df_size['sex'] = df_size['sex'].str.lower()

print("\nDataFrame con masa corporal en kg y columna 'sex' estandarizada:")
print(df_size[['species', 'body_mass_g', 'body_mass_kg', 'sex']].head())


DataFrame con masa corporal en kg y columna 'sex' estandarizada:
  species  body_mass_g  body_mass_kg     sex
0  Adelie       3750.0          3.75    male
1  Adelie       3800.0          3.80  female
2  Adelie       3250.0          3.25  female
3  Adelie          NaN           NaN     NaN
4  Adelie       3450.0          3.45  female


### Eliminación de columnas

Si una columna no es relevante para el análisis, podemos eliminarla.

In [8]:
# Eliminar la columna 'culmen_depth_mm' ya que no se necesita para ciertos análisis
df_size = df_size.drop(columns=['culmen_depth_mm'])
print("\nDataFrame después de eliminar 'culmen_depth_mm':")
print(df_size.head())


DataFrame después de eliminar 'culmen_depth_mm':
  species     island  culmen_length_mm  flipper_length_mm  body_mass_g  \
0  Adelie  Torgersen              39.1              181.0       3750.0   
1  Adelie  Torgersen              39.5              186.0       3800.0   
2  Adelie  Torgersen              40.3              195.0       3250.0   
3  Adelie  Torgersen               NaN                NaN          NaN   
4  Adelie  Torgersen              36.7              193.0       3450.0   

      sex  body_mass_kg  
0    male          3.75  
1  female          3.80  
2  female          3.25  
3     NaN           NaN  
4  female          3.45  


## 4. Agrupación y Resumen de Datos

Agrupamos los datos por especie y calculamos la masa corporal media y la longitud de aleta media para cada grupo.

In [9]:
# Agrupar por especie y calcular la media de masa corporal y longitud de aleta
df_grouped = df_size.groupby('species')[['body_mass_g', 'flipper_length_mm']].mean()
print("\nMasa corporal y longitud de aleta media por especie:")
print(df_grouped)


Masa corporal y longitud de aleta media por especie:
           body_mass_g  flipper_length_mm
species                                  
Adelie     3700.662252         189.953642
Chinstrap  3733.088235         195.823529
Gentoo     5076.016260         217.186992


## 5. Operaciones Avanzadas

### Combinación de DataFrames

Unimos los dos DataFrames (df_size y df_lter) para crear un dataset completo. La unión se hará en función de columnas comunes, como species y island.

In [10]:
# Renombrar variables
df_lter = df_lter.rename(columns={'Species': 'species',
                                  'Island': 'island',
                                  'Sex': 'sex'}) # Las MAYUS se diferencian de la MINUS

# Reemplazar valores de la columna 'species' en el mismo lugar
df_lter.species.replace({
    "Adelie Penguin (Pygoscelis adeliae)": "Adelie",
    "Chinstrap penguin (Pygoscelis antarctica)": "Chinstrap",
    "Gentoo penguin (Pygoscelis papua)": "Gentoo"
}, inplace=True)

# Reemplazar valores de la columna 'sex' en el mismo lugar
df_lter.sex.replace({
    "MALE": "male",
    "FEMALE": "female"
}, inplace=True)


# Unir los DataFrames en base a las columnas comunes (species, island, sex)
df_combined = pd.merge(df_size, df_lter, on=['species', 'island', 'sex'], how='inner')
print("\nDataFrame combinado:")
print(df_combined.head())


DataFrame combinado:
  species     island  culmen_length_mm  flipper_length_mm  body_mass_g   sex  \
0  Adelie  Torgersen              39.1              181.0       3750.0  male   
1  Adelie  Torgersen              39.1              181.0       3750.0  male   
2  Adelie  Torgersen              39.1              181.0       3750.0  male   
3  Adelie  Torgersen              39.1              181.0       3750.0  male   
4  Adelie  Torgersen              39.1              181.0       3750.0  male   

   body_mass_kg studyName  Sample Number  Region  ... Individual ID  \
0          3.75   PAL0708              1  Anvers  ...          N1A1   
1          3.75   PAL0708              6  Anvers  ...          N3A2   
2          3.75   PAL0708              8  Anvers  ...          N4A2   
3          3.75   PAL0708             14  Anvers  ...          N7A2   
4          3.75   PAL0708             15  Anvers  ...          N8A1   

  Clutch Completion  Date Egg Culmen Length (mm)  Culmen Depth (mm)  \

### Manejo de valores faltantes

Rellenamos o eliminamos valores faltantes en las columnas clave.

In [11]:
# Rellenar valores faltantes en la columna 'body_mass_g' con la media
df_combined['body_mass_g'] = df_combined['body_mass_g'].fillna(df_combined['body_mass_g'].mean())

# Eliminar filas con valores faltantes en la columna 'sex'
df_combined = df_combined.dropna(subset=['sex'])
print("\nDataFrame combinado después de manejar valores faltantes:")
print(df_combined.head())


DataFrame combinado después de manejar valores faltantes:
  species     island  culmen_length_mm  flipper_length_mm  body_mass_g   sex  \
0  Adelie  Torgersen              39.1              181.0       3750.0  male   
1  Adelie  Torgersen              39.1              181.0       3750.0  male   
2  Adelie  Torgersen              39.1              181.0       3750.0  male   
3  Adelie  Torgersen              39.1              181.0       3750.0  male   
4  Adelie  Torgersen              39.1              181.0       3750.0  male   

   body_mass_kg studyName  Sample Number  Region  ... Individual ID  \
0          3.75   PAL0708              1  Anvers  ...          N1A1   
1          3.75   PAL0708              6  Anvers  ...          N3A2   
2          3.75   PAL0708              8  Anvers  ...          N4A2   
3          3.75   PAL0708             14  Anvers  ...          N7A2   
4          3.75   PAL0708             15  Anvers  ...          N8A1   

  Clutch Completion  Date Egg Cul

### Aplicación de funciones a columnas

Aplicamos una función personalizada a una columna para realizar una transformación, como redondear valores.

In [12]:
# Redondear los valores de 'body_mass_kg' a 2 decimales
df_combined['body_mass_kg'] = df_combined['body_mass_kg'].round(2)
print("\nDataFrame combinado con 'body_mass_kg' redondeado a 2 decimales:")
print(df_combined[['species', 'body_mass_g', 'body_mass_kg']].head())


DataFrame combinado con 'body_mass_kg' redondeado a 2 decimales:
  species  body_mass_g  body_mass_kg
0  Adelie       3750.0          3.75
1  Adelie       3750.0          3.75
2  Adelie       3750.0          3.75
3  Adelie       3750.0          3.75
4  Adelie       3750.0          3.75


## 6. Exportación de Resultados

Finalmente, guardamos el DataFrame combinado en un archivo CSV para usos futuros.

In [13]:
# Guardar el DataFrame combinado en un archivo CSV
df_combined.to_csv('penguins_combined_Python.csv', index=False)
print("\nDataFrame combinado guardado como 'penguins_combined.csv'")


DataFrame combinado guardado como 'penguins_combined.csv'
