## Ejercicio 1

El archivo Hawks.csv contiene mediciones de casi 900 aves de tres especies diferentes. Los datos registrados son los siguientes:

- **Epecies.** Es la etiqueta de clase e indica la especie de cada gavilán: gavilanes de Cooper (CH), gavilanes colirrojos (RT) y gavilanes rastreros (SS).
- **Año.** Indica el año en que se avistó el ave.
- **Hallux.** Indica la medida en milímetros del hallux (el dedo posterior del pie, que poseen todas las aves cazadoras para sujetar mejor a sus presas).
- **Ala.** Indica la longitud en milímetros de la pluma más larga del ala.
- **Peso.** Indica el peso del ave en gramos.
- **Cola.** Indica la longitud de la cola del ave en milímetros.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

DATOS_DIR   = '../../Datos/'
data = pd.read_csv(DATOS_DIR + 'hawks.csv')
data.head()

Unnamed: 0,Año,Especie,Ala,Peso,Cola,Hallux
0,1994,RT,2770,9400,218,304
1,1997,RT,3730,9140,221,304
2,2000,RT,3790,10000,217,322
3,2000,RT,3920,11850,229,330
4,2002,RT,3650,11250,213,293



### a)

Calcule la correlación lineal entre los atributos **Ala** y **Cola**. Indique la intensidad de la correlación (no hay correlación/débil/fuerte) y el tipo (positiva/negativa)

<div align="center">

<table>
  <tr>
    <td><b>Valor</b></td>
    <td>0.899888367434395</td>
  </tr>
  <tr style="background-color:#4DA6D8;">
    <td><b>Intensidad</b></td>
    <td>fuerte (>0.8)</td>
  </tr>
  <tr>
    <td><b>Tipo</b></td>
    <td>Positiva</td>
  </tr>
</table>

</div>


In [2]:
corr = data["Ala"].corr(data["Cola"], method="pearson")
print(corr)

0.899888367434395


### b) 

Complete el cuadro con los valores del atributo **Hallux** antes y después de normalizarlos utilizando media y desvío. 

<div style="display: flex; justify-content: center;">
  <table border="1" cellspacing="0" cellpadding="8" style="border-collapse: collapse; text-align: center;">
    <thead style="background-color: #4DA6D8; color: white;">
      <tr>
        <th>Medida</th>
        <th>Sin normalizar</th>
        <th>Normalizado</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Media</td>
        <td>291.771557</td>
        <td>-3.182722e-17</td>
      </tr>
      <tr>
        <td>Desvío</td>
        <td>321.324050</td>
        <td>1.000000e+00</td>
      </tr>
      <tr>
        <td>Mínimo</td>
        <td>95.000000</td>
        <td>-6.123773e-01</td>
      </tr>
      <tr>
        <td>Q1</td>
        <td>152.000000</td>
        <td>-4.349863e-01</td>
      </tr>
      <tr>
        <td>Q2</td>
        <td>295.000000</td>
        <td>1.004731e-02</td>
      </tr>
      <tr>
        <td>Q3</td>
        <td>315.000000</td>
        <td>7.228978e-02</td>
      </tr>
      <tr>
        <td>RIC</td>
        <td>163.000000</td>
        <td>5.072761e-01</td>
      </tr>
      <tr>
        <td>Máximo</td>
        <td>3414.000000</td>
        <td>9.716759e+00</td>
      </tr>
      <tr>
        <td><b>Bigote Inferior</b><br><i>(valor extremo mínimo dentro del rango de normalidad)</i></td>
        <td>-92.500000</td>
        <td>-1.195900e+00</td>
      </tr>
      <tr>
        <td><b>Bigote Superior</b><br><i>(valor extremo máximo dentro del rango de normalidad)</i></td>
        <td>559.500000</td>
        <td>8.332039e-01</td>
      </tr>
    </tbody>
  </table>
</div>


In [3]:
def calculate_metrics(data, column):
	desc = data[column].describe()

	ric = desc["75%"] - desc["25%"]

	bigote_inferior = desc["25%"] - 1.5 * ric
	bigote_superior = desc["75%"] + 1.5 * ric

	table = pd.DataFrame({
		"Medida": ["Media", "Desvío", "Mínimo", "Q1", "Q2", "Q3", "RIC", "Máximo",
				"Bigote Inferior", "Bigote Superior"],
		"Valor": [desc["mean"], desc["std"], desc["min"], desc["25%"], desc["50%"],
				desc["75%"], ric, desc["max"], bigote_inferior, bigote_superior]
	})

	print(column)
	print(table)
	print("\n")

calculate_metrics(data, "Hallux")

mean = data["Hallux"].mean()
std = data["Hallux"].std()
data["Hallux_z"] = (data["Hallux"] - mean) / std

calculate_metrics(data, "Hallux_z")


Hallux
            Medida        Valor
0            Media   291.771557
1           Desvío   321.324050
2           Mínimo    95.000000
3               Q1   152.000000
4               Q2   295.000000
5               Q3   315.000000
6              RIC   163.000000
7           Máximo  3414.000000
8  Bigote Inferior   -92.500000
9  Bigote Superior   559.500000


Hallux_z
            Medida         Valor
0            Media -3.182722e-17
1           Desvío  1.000000e+00
2           Mínimo -6.123773e-01
3               Q1 -4.349863e-01
4               Q2  1.004731e-02
5               Q3  7.228978e-02
6              RIC  5.072761e-01
7           Máximo  9.716759e+00
8  Bigote Inferior -1.195900e+00
9  Bigote Superior  8.332039e-01




Compare los valores obtenidos e indique el valor de verdad de las siguientes afirmaciones:

**I.** El valor de Q2 normalizado permite afirmar que la media y la mediana tienen valores cercanos.

- RTA: **Verdadero.** Puesto que Q2 es muy cercano a cero, significa que esta cerca de la media (puesto que la normalización mide los datos en función de desvío respecto de la media).

**II.** El máximo valor de Hallux se encuentra a más de 9 desvíos por encima de la media. 
	
- RTA: **Verdadero.** Los valores con normalización z-score se pueden medir cómo a cuantos desvío se esta de la media. En este caso el valor es mayor a 9.

**III.** Un hallux que mida más de 600 mm es considerado atípico extremo.

- RTA: **Falso.** Es atípico leve.

**IV.** Un valor normalizado del atributo “hallux” de 2 se considerará un valor atípico extremo.

- RTA: **Falso.** Dado que es extremo si es mayor a Q3 + 3 * RIC = 2.3550322, entonces un valor de 2 no lo es.

**V.** En un gavilán es atípico que su hallux mida menos de 100 mm.

- RTA: **Falso.** Dado que el bigote inferior es negativo, solo pueden ser atípicos a partir de Q3 + 1.5 * RIC = 559.5