# Análisis de la biodiversidad en colombia
Teniendo en cuenta la base de datos biodiversidad_colombia.csv, que describe información relacionada
con la biodiversidad en diferentes regiones de Colombia, con las siguientes variables:
* **Región:** Indica la región geográfica (Amazonas, Orinoquía, Pacífico, Andes) donde se realizó la
observación.
* **Ecosistema:** Tipo de ecosistema (Bosque, Humedal, Sabana).
* **Especie:** Clasificación de la especie (Mamífero, Ave, Reptil, Anfibio).
* **Abundancia:** Número estimado de individuos por especie.
* **Cobertura:** Porcentaje de cobertura de la vegetación en la zona.
* **Investigadores:** Número de investigadores trabajando en la zona.
* **Altitud** (altura en metros sobre el nivel del mar).
* **TemperaturaMedia** (en grados Celsius)
* **PrecipitacionAnual** (en milímetros).

## Preguntas
1. ¿El tamaño de la muestra es?
2. ¿Cuántos valores faltantes hay en la variable Ecosistema?
3. ¿Cuál es la varianza de la variable TemperaturaMedia?
4. ¿Cuál es la media de la variable Investigadores?
5. ¿Cuál es la categoría que más se repite en la variable Region?
6. ¿Cuál es la media de la abundancia de la especie Ave?
7. ¿Cuál es el valor máximo de la variable Investigadores?
8. ¿Cuál es el valor mínimo de la variable TemperaturaMedia?
9. ¿Cuál es el porcentaje de datos faltantes en la variable Especie?
10. ¿Cuál es la desviación estándar de la variable TemperaturaMedia?

###### ***Nota*** Responde a las preguntas creando un notebook basado en los datos del archivo *biodiversidad_colombia.csv*

#### Importación de librerias

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns                      
import matplotlib.pyplot as plt 
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [3]:
scaler_min_max = MinMaxScaler()
scaler_standard = StandardScaler()

#### Lectura de datos

In [4]:
data = pd.read_csv(r'C:\Users\EMMY\Desktop\Talento Tech\Analisis de datos\Mision 2\Clases\DB\biodiversidad_colombia.csv', sep= ';', decimal=',')
df = data
df.head()

Unnamed: 0,Region,Ecosistema,Especie,Abundancia,Cobertura,Investigadores,Altitud,TemperaturaMedia,PrecipitacionAnual
0,Amazonas,Bosque,Ave,1683,65.6,22.0,2013.5,27.7,1886
1,Orinoquía,Humedal,Ave,1545,17.9,7.0,812.2,13.1,2546
2,Amazonas,Humedal,Reptil,1623,50.2,13.0,112.4,24.6,2171
3,Orinoquía,Sabana,Ave,1333,40.2,35.0,2488.8,23.6,1733
4,Amazonas,Bosque,Mamífero,1643,46.5,35.0,2792.8,25.5,1401


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Region              97 non-null     object 
 1   Ecosistema          82 non-null     object 
 2   Especie             95 non-null     object 
 3   Abundancia          100 non-null    int64  
 4   Cobertura           100 non-null    float64
 5   Investigadores      91 non-null     float64
 6   Altitud             100 non-null    float64
 7   TemperaturaMedia    100 non-null    float64
 8   PrecipitacionAnual  100 non-null    int64  
dtypes: float64(4), int64(2), object(3)
memory usage: 7.2+ KB


### 1. ¿El tamaño de la muestra es?

In [6]:
print(f'El tamaño de la muestra es {df.shape[0]}')

El tamaño de la muestra es 100


### 2. ¿Cuántos valores faltantes hay en la variable Ecosistema?

In [7]:
print(f"En la variable Ecosistema hay {df['Ecosistema'].isna().sum()} valores faltantes") # Se deben usar distintos tipos de comillas

En la variable Ecosistema hay 18 valores faltantes


### 3. ¿Cuál es la varianza de la variable TemperaturaMedia?

In [8]:
print(f'La varianza de la variable TemperaturaMedia es: {df["TemperaturaMedia"].var().round(2)}')

La varianza de la variable TemperaturaMedia es: 26.6


### 4. ¿Cuál es la media de la variable Investigadores?

In [9]:
print(f"La media de la variable Investigadores es: {df['Investigadores'].mean().round(2)}")

La media de la variable Investigadores es: 26.48


### 5. ¿Cuál es la categoría que más se repite en la variable Region?

In [17]:
print(f"La categoría que más se repite en la variable Región es: {df['Region'].mode().iloc[0]}") # .iloc[0] para retornar "Amazonas" sin el índice ni el tipo de dato

La categoría que más se repite en la variable Región es: Amazonas


### 6. ¿Cuál es la media de la abundancia de la especie Ave?

In [11]:
df.groupby('Especie')['Abundancia'].mean() # Retorna todas las especies

print(f"La media de la abundancia de la especie Ave es: {df[df['Especie'] == 'Ave']['Abundancia'].mean()}")

La media de la abundancia de la especie Ave es: 1641.2


### 7. ¿Cuál es el valor máximo de la variable Investigadores?

In [12]:
print(f"El valor máximo de la variable Investigadores es: {df['Investigadores'].max()}")

El valor máximo de la variable Investigadores es: 50.0


### 8. ¿Cuál es el valor mínimo de la variable TemperaturaMedia?

In [13]:
print(f"El valor mínimo de la variable TemperaturaMedia es: {df['TemperaturaMedia'].min()}")

El valor mínimo de la variable TemperaturaMedia es: 13.0


### 9. ¿Cuál es el porcentaje de datos faltantes en la variable Especie?

In [14]:
Especie_NaN = df['Especie'].isna().sum()
Tot = df.shape[0]
print(f"El porcentaje de datos faltantes en la variable Especie es {(Especie_NaN/Tot)*100}%")

El porcentaje de datos faltantes en la variable Especie es 5.0%


### 10. ¿Cuál es la desviación estándar de la variable TemperaturaMedia?

In [15]:
print(f"La desviación estándar de la variable TemperaturaMedia es: {df['TemperaturaMedia'].std().round(2)}")

La desviación estándar de la variable TemperaturaMedia es: 5.16
