Mi primer proyecto
Volvemos a encontrarnos con el conjunto de datos de pingüinos PalmerPenguins. Esta vez trabajaremos con ellos desde Python, para ello instalaremos el paquete que nos permitirá cargarlo:

In [None]:
!pip install palmerpenguins

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting palmerpenguins
  Downloading palmerpenguins-0.1.4-py3-none-any.whl (17 kB)
Installing collected packages: palmerpenguins
Successfully installed palmerpenguins-0.1.4


En segundo lugar, importaremos las librerías necesarias:

In [None]:
import pandas as pd
from palmerpenguins import load_penguins

Ahora ya estamos en posición de empezar a trabajar con los datos.

1. Vamos a cargar el conjunto de datos. Muestra por pantalla el número de observaciones y sus características. Mira el tipo de datos de cada una de sus columnas.

In [None]:
penguins = load_penguins()
penguins
penguins.shape

(344, 8)

Como podemos observar tenemos 344 regiostros con 8 columnas o atributos cada uno de ellos.

In [None]:
penguins.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex', 'year'],
      dtype='object')

Ahora vamos a ver los tipos de los datos:

In [None]:
penguins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


Y una pequeña descripción:

In [None]:
penguins.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
count,342.0,342.0,342.0,342.0,344.0
mean,43.92193,17.15117,200.915205,4201.754386,2008.02907
std,5.459584,1.974793,14.061714,801.954536,0.818356
min,32.1,13.1,172.0,2700.0,2007.0
25%,39.225,15.6,190.0,3550.0,2007.0
50%,44.45,17.3,197.0,4050.0,2008.0
75%,48.5,18.7,213.0,4750.0,2009.0
max,59.6,21.5,231.0,6300.0,2009.0


2. Ya sabemos que este conjunto de datos tiene observaciones NA. Vamos a eliminarlas y a verificar que efectivamente no queda ninguno:



In [None]:
penguins.head(5).loc[3]

species                 Adelie
island               Torgersen
bill_length_mm             NaN
bill_depth_mm              NaN
flipper_length_mm          NaN
body_mass_g                NaN
sex                        NaN
year                      2007
Name: 3, dtype: object

Como podemos ver en este caso por ejemplo tenemos muchos valores NaN o "missing". Vamos a eliminar dichos valores para poder tener unos datos más limpios y tractables. Para ello vamos a utilizar la librería numpy.

In [None]:
import numpy as np

In [None]:
penguins_without_na = penguins.dropna()
penguins.columns[penguins.isna().any()]
penguins.notna().sum()
penguins.notnull().sum() # es equivalente a not na en pandas, pero no en numpy

species              344
island               344
bill_length_mm       342
bill_depth_mm        342
flipper_length_mm    342
body_mass_g          342
sex                  333
year                 344
dtype: int64

3. ¿Cuántos individuos hay de cada sexo? Puedes obtener la longitud media del pico según el sexo:

In [None]:
penguins_without_na.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex', 'year'],
      dtype='object')

Es casi seguro que debamos explorar la columna sex del data set

In [None]:
# penguins_without_na["sex"].head(5)
# penguins_without_na["sex"]
np.unique(penguins_without_na["sex"])

array(['female', 'male'], dtype=object)

Como podemos ver tenemos dos columnas diferentes de sex. Estas son 'male' y 'female'. Ahora vamos a contar cuantos individuos tenemos de cada uno de los tipos.

In [None]:
sex_col = penguins_without_na["sex"]
male_regs = penguins_without_na[sex_col == 'male']
total_male = male_regs.shape[0]

Como vemos tenemos 168 registros que son masculinos o 'male'. Si hacemos la diferencia con el total ya deberiamos obtener los femeninos o female.

In [None]:
penguins_without_na.shape[0]-total_male

165

Es decir que hay un total de 168 individuos femeninos. Podemos hecer lo mismo que con los masculinos para ver si el resultado es igual.

In [None]:
female_regs = penguins_without_na[sex_col == 'female']
female_regs.shape[0]

165

Como podemos ver, de las dos formas obtememos el mismo resultado, como era de esperar. Por tanto, tenemos un total de 168 registros masculinos y 156 femeninos.

Para obtener el tamaño medio del pico vamos a usar la función describe, que nos da mucha información sobre nuestro data set.

In [None]:
#Calculamos la longitud media del pico en hombres
# male_regs[male_regs.columns[2:4]].describe()["mean"]
male_regs[male_regs.columns[2:4]].describe().iloc[1:2]

Unnamed: 0,bill_length_mm,bill_depth_mm
mean,45.854762,17.891071


In [None]:
#Calculamos la longitud media del pico en mujeres
# female_regs[female_regs.columns[4]].describe()["mean"]
female_regs[female_regs.columns[2:4]].describe().iloc[1:2]

Unnamed: 0,bill_length_mm,bill_depth_mm
mean,42.09697,16.425455


Como vemos la longitud media del pico es de 205 en hombres y 197 en mujeres. Por tanto los hombres suelen tener un pico mas largo que ellas.

4. Vamos a añadir una columna, vamos a realizar una estimación (muy grosera) del área del pico de los pingüinos (bill) tal como si esta fuese un rectángulo. Esta nueva columnas se llama bill_area y debe encontrarse en la última posición. Verifica que es correcto.

In [None]:
penguins_without_na[penguins_without_na.columns[2:4]]
penguins_b_area = penguins_without_na.assign(bill_area=penguins_without_na.bill_length_mm / penguins_without_na.bill_depth_mm)
penguins_b_area

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year,bill_area
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007,2.090909
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007,2.270115
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007,2.238889
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007,1.901554
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male,2007,1.907767
...,...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009,2.818182
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009,2.403315
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009,2.725275
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009,2.673684


5. Hagamos algo un poco más elaborado, vamos a realizar una agrupación en función del sexo y de la especie de cada observación. Queremos obtener solamente la información referente al sexo Femenino.

In [None]:
penguins_grouped_by_sex = penguins_without_na.groupby(["sex"])
female_penguins = penguins_without_na.loc[penguins_grouped_by_sex.groups['female']]

In [None]:
female_penguins_species_grouped = female_penguins.groupby(["species"])
female_penguins_species_grouped.describe()
# female_penguins_species_grouped["species"].aggregate({
#     "bill_length_mm": np.mean,
#     "bill_depth_mm": np.mean,
#     "body_mass_g": np.mean
# })

Unnamed: 0_level_0,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_depth_mm,bill_depth_mm,...,body_mass_g,body_mass_g,year,year,year,year,year,year,year,year
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Adelie,73.0,37.257534,2.028883,32.1,35.9,37.0,38.8,42.2,73.0,17.621918,...,3550.0,3900.0,73.0,2008.054795,0.81463,2007.0,2007.0,2008.0,2009.0,2009.0
Chinstrap,34.0,46.573529,3.108669,40.9,45.425,46.3,47.375,58.0,34.0,17.588235,...,3693.75,4150.0,34.0,2007.970588,0.869876,2007.0,2007.0,2008.0,2009.0,2009.0
Gentoo,58.0,45.563793,2.051247,40.9,43.85,45.5,46.875,50.5,58.0,14.237931,...,4875.0,5200.0,58.0,2008.068966,0.791669,2007.0,2007.0,2008.0,2009.0,2009.0


In [None]:
penguins_grouped_by_sex_species = penguins_without_na.groupby(["sex", "species"])
penguins_grouped_by_sex_species.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_depth_mm,bill_depth_mm,...,body_mass_g,body_mass_g,year,year,year,year,year,year,year,year
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
sex,species,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
female,Adelie,73.0,37.257534,2.028883,32.1,35.9,37.0,38.8,42.2,73.0,17.621918,...,3550.0,3900.0,73.0,2008.054795,0.81463,2007.0,2007.0,2008.0,2009.0,2009.0
female,Chinstrap,34.0,46.573529,3.108669,40.9,45.425,46.3,47.375,58.0,34.0,17.588235,...,3693.75,4150.0,34.0,2007.970588,0.869876,2007.0,2007.0,2008.0,2009.0,2009.0
female,Gentoo,58.0,45.563793,2.051247,40.9,43.85,45.5,46.875,50.5,58.0,14.237931,...,4875.0,5200.0,58.0,2008.068966,0.791669,2007.0,2007.0,2008.0,2009.0,2009.0
male,Adelie,73.0,40.390411,2.277131,34.6,39.0,40.6,41.5,46.0,73.0,19.072603,...,4300.0,4775.0,73.0,2008.054795,0.81463,2007.0,2007.0,2008.0,2009.0,2009.0
male,Chinstrap,34.0,51.094118,1.564558,48.5,50.05,50.95,51.975,55.8,34.0,19.252941,...,4100.0,4800.0,34.0,2007.970588,0.869876,2007.0,2007.0,2008.0,2009.0,2009.0
male,Gentoo,61.0,49.47377,2.720594,44.4,48.1,49.5,50.5,59.6,61.0,15.718033,...,5700.0,6300.0,61.0,2008.065574,0.793071,2007.0,2007.0,2008.0,2009.0,2009.0


In [None]:
# penguins_grouped_by_sex_species[penguins_grouped_by_sex_species["sex"] == 'female']
species_names = np.unique(penguins_without_na["species"])
l = [('female', s) for s in species_names]
penguins_grouped_by_sex_species.groups.get
result = list(map(penguins_grouped_by_sex_species.groups.get, l))
result.values

AttributeError: ignored

In [None]:
# species_names = np.unique(penguins_without_na["species"])
# female_species_groups = []
# female_species = [female_species_grouif s[0] == 'female' for s in penguins_grouped_by_sex.groups]
# penguins_grouped_by_sex.hist()
# penguins_without_na.loc[penguins_grouped_by_sex.groups.keys()]

6. Como ya sabemos, la variable peso, se encuentra en gramos, la pasaremos a kg. Para ello crearemos una nueva columna llamada body_mass_kg y eliminaremos body_mass_g.

In [None]:
penguins_without_na[penguins_without_na.columns[5:6]]
penguins_mass_kg = penguins_without_na.assign(body_mass_kg=penguins_without_na.body_mass_g / 1000)
penguins_mass_kg = penguins_mass_kg.drop(columns=["body_mass_g"])
penguins_mass_kg

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,sex,year,body_mass_kg
0,Adelie,Torgersen,39.1,18.7,181.0,male,2007,3.750
1,Adelie,Torgersen,39.5,17.4,186.0,female,2007,3.800
2,Adelie,Torgersen,40.3,18.0,195.0,female,2007,3.250
4,Adelie,Torgersen,36.7,19.3,193.0,female,2007,3.450
5,Adelie,Torgersen,39.3,20.6,190.0,male,2007,3.650
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,male,2009,4.000
340,Chinstrap,Dream,43.5,18.1,202.0,female,2009,3.400
341,Chinstrap,Dream,49.6,18.2,193.0,male,2009,3.775
342,Chinstrap,Dream,50.8,19.0,210.0,male,2009,4.100
