# Mi primer proyecto
Volvemos a encontrarnos con el conjunto de datos de pingüinos `PalmerPenguins`. Esta vez trabajaremos con ellos desde `Python`, para ello instalaremos el paquete que nos permitirá cargarlo:


In [1]:
!pip install palmerpenguins

Collecting palmerpenguins
  Downloading palmerpenguins-0.1.4-py3-none-any.whl (17 kB)
Collecting pandas
  Downloading pandas-1.5.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.2/12.2 MB[0m [31m38.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: pandas, palmerpenguins
Successfully installed palmerpenguins-0.1.4 pandas-1.5.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m22.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


En segundo lugar, importaremos las librerías necesarias:

In [1]:
import pandas as pd
from palmerpenguins import load_penguins

Ahora ya estamos en posición de empezar a trabajar con los datos.

1. Vamos a cargar el conjunto de datos. Muestra por pantalla el número de observaciones y sus características. Mira el tipo de datos de cada una de sus columnas.

In [2]:
penguins = load_penguins()
penguins.shape

penguins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


2. Ya sabemos que este conjunto de datos tiene observaciones `NA`. Vamos a eliminarlas y a verificar que efectivamente no queda ninguno:

In [12]:
penguins_nona =  penguins.dropna(subset=["sex"])
penguins_nona.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 333 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            333 non-null    object 
 1   island             333 non-null    object 
 2   bill_length_mm     333 non-null    float64
 3   bill_depth_mm      333 non-null    float64
 4   flipper_length_mm  333 non-null    float64
 5   body_mass_g        333 non-null    float64
 6   sex                333 non-null    object 
 7   year               333 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 23.4+ KB


3. ¿Cuántos individuos hay de cada sexo? Puedes obtener la longitud media del pico según el sexo:

In [4]:
gr_sex = penguins_nona.groupby("sex")
print(gr_sex["bill_length_mm"].describe())

        count       mean       std   min     25%   50%     75%   max
sex                                                                 
female  165.0  42.096970  4.903476  32.1  37.600  42.8  46.200  58.0
male    168.0  45.854762  5.366896  34.6  40.975  46.8  50.325  59.6


4. Vamos a añadir una columna, vamos a realizar una estimación (muy grosera) del área del pico de los pingüinos (bill) tal como si esta fuese un rectángulo. Esta nueva columnas se llama `bill_area` y debe encontrarse en la última posición. Verifica que es correcto.

In [5]:
penguins_nona.insert(loc=penguins_nona.shape[1], column="bill_area", value=penguins_nona.bill_depth_mm*penguins_nona.bill_length_mm)
penguins_nona.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 333 entries, 0 to 343
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            333 non-null    object 
 1   island             333 non-null    object 
 2   bill_length_mm     333 non-null    float64
 3   bill_depth_mm      333 non-null    float64
 4   flipper_length_mm  333 non-null    float64
 5   body_mass_g        333 non-null    float64
 6   sex                333 non-null    object 
 7   year               333 non-null    int64  
 8   bill_area          333 non-null    float64
dtypes: float64(5), int64(1), object(3)
memory usage: 26.0+ KB


5. Hagamos algo un poco más elaborado, vamos a realizar una agrupación en función del sexo y de la especie de cada observación. Queremos obtener solamente la información referente al sexo Femenino.

In [6]:
gr_sex = penguins_nona[ penguins_nona.sex == "female"]
gr_sp_sex = gr_sex.groupby(["species"])
descripcion = gr_sp_sex["bill_area"].describe()
print(descripcion)

           count        mean        std     min     25%      50%       75%  \
species                                                                      
Adelie      73.0  656.852329  53.567473  497.55  623.00  659.650  689.2800   
Chinstrap   34.0  819.750294  72.839623  678.94  777.31  810.800  862.6650   
Gentoo      58.0  649.202931  45.686518  560.33  618.18  652.685  674.4375   

               max  
species             
Adelie      819.72  
Chinstrap  1032.40  
Gentoo      767.60  


6. Como ya sabemos, la variable peso, se encuentra en gramos, la pasaremos a kg. Para ello crearemos una nueva columna llamada `body_mass_kg` y eliminaremos `body_mass_g`.

In [39]:
cop = penguins_nona.loc[:,("body_mass_g")]

penguins_nona.assign(body_mass_kg=cop/1000)
penguins_nona = penguins_nona.drop(columns=["body_mass_g"])
penguins_nona.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 333 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            333 non-null    object 
 1   island             333 non-null    object 
 2   bill_length_mm     333 non-null    float64
 3   bill_depth_mm      333 non-null    float64
 4   flipper_length_mm  333 non-null    float64
 5   sex                333 non-null    object 
 6   year               333 non-null    int64  
 7   body_mass_kg       333 non-null    float64
dtypes: float64(4), int64(1), object(3)
memory usage: 31.5+ KB
