# An√°lisis exploratorio de datosüîç:

###DATASET **Glacier.csv**:
Es un conjunto de datos **sobre cambios en los glaciares** (longitud, √°rea, volumen, masa) estandarizados y recopilados internacionalmente, basados ‚Äã‚Äãen observaciones in situ y teledetecci√≥n, as√≠ como en reconstrucciones. publicado por World Glacier Monitoring Service [**WGMS**](https://wgms.ch/data_databaseversions)

- `‚úçcreado` 2024-01-23
- `‚è∞temporalidad de los datos` 1127/2024

`
`
### üìÑ Consideraciones a la hora de analizar `glacier.csv`:

+ este csv contiene Informaci√≥n general (y presumiblemente est√°tica) sobre cada glaciar. Al enviar un nuevo glaciar, asigne un `WGMS_ID` temporal y util√≠celo como `WGMS_ID` en todas las dem√°s filas de la tabla que correspondan a este glaciar.

+ ‚ö† `Atenci√≥n` desde WGMS advierten que los datos pueden contener errores e inexactitudes y sugieren que en caso de ambig√ºedades se les comunique o bien a ellos o a los investigadores e instituciones enumerados en los datos (columnas `INVESTIGADOR` y `SPONS_AGENCY`).



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import re
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
import spacy
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, roc_curve, auc
from sklearn.metrics import classification_report, confusion_matrix


### Primero, leemos y exploramos que contiene el archivo `glacier.csv`
El archivo csv se encuentra guardado dentro de nuestro Drive en una carpeta llamada `data_saturdays` /content/drive/MyDrive/data_saturdays/glacier.csv

In [None]:
#leemos el archivo y representamos sus primeras 10 l√≠neas
df_glaciers = pd.read_csv('/content/drive/MyDrive/data_saturdays/glacier.csv')
df_glaciers.head(10)

  df_glaciers = pd.read_csv('/content/drive/MyDrive/data_saturdays/glacier.csv')


Unnamed: 0,POLITICAL_UNIT,NAME,WGMS_ID,GEN_LOCATION,SPEC_LOCATION,LATITUDE,LONGITUDE,PRIM_CLASSIFIC,FORM,FRONTAL_CHARS,EXPOS_ACC_AREA,EXPOS_ABL_AREA,PARENT_GLACIER,REMARKS,GLACIER_REGION_CODE,GLACIER_SUBREGION_CODE
0,AF,PIR YAKH,10452,UPPER CABUL RIVER BASIN,CHUMAR VALLEY,35.595001,70.169998,6.0,3.0,8.0,NE,NE,,Local people call this glacier PIR YAKH which ...,ASW,ASW-01
1,AF,RGI60-13.10763,156232,,,37.262384,73.525069,,,,,,,,ASC,ASC-02
2,AF,RGI60-13.10764,156233,,,37.258539,73.54661,,,,,,,,ASC,ASC-02
3,AF,RGI60-13.10765,156234,,,37.266134,73.542243,,,,,,,,ASC,ASC-02
4,AF,RGI60-13.10766,156235,,,37.273266,73.535659,,,,,,,,ASC,ASC-02
5,AF,RGI60-13.10767,156236,,,37.26782,73.557927,,,,,,,,ASC,ASC-02
6,AF,RGI60-13.10768,156237,,,37.270174,73.566393,,,,,,,,ASC,ASC-02
7,AF,RGI60-13.10769,156238,,,37.273807,73.576475,,,,,,,,ASC,ASC-02
8,AF,RGI60-13.10770,156239,,,37.284926,73.579521,,,,,,,,ASC,ASC-02
9,AF,RGI60-13.10771,156240,,,37.290455,73.565636,,,,,,,,ASC,ASC-02


### Sacamos el nombre de las **columnas** para comprender que datos contiene este dataset

In [None]:
df_glaciers.columns.values

array(['POLITICAL_UNIT', 'NAME', 'WGMS_ID', 'GEN_LOCATION',
       'SPEC_LOCATION', 'LATITUDE', 'LONGITUDE', 'PRIM_CLASSIFIC', 'FORM',
       'FRONTAL_CHARS', 'EXPOS_ACC_AREA', 'EXPOS_ABL_AREA',
       'PARENT_GLACIER', 'REMARKS', 'GLACIER_REGION_CODE',
       'GLACIER_SUBREGION_CODE'], dtype=object)

Ahora que ya las conocemos vamos a explicar cada una de ellas:
#### `üëâPOLITICAL_UNIT`:
+ C√≥digo de dos caracteres indica el **pa√≠s en el que se encuentra el glaciar**. Una lista de c√≥digos est√° disponible en https://www.iso.org/obp/ui/#search/code.

#### `üëâNAME`:
+ Nombre del glaciar

#### `üëâWGMS_ID`:
+ identificador de los glaciares en la base de datos de Fluctuaciones de Glaciares (FoG)

#### `üëâGEN_LOCATION`:
+ Se refiere a una **entidad geogr√°fica grande** da una idea aproximada de la ubicaci√≥n del glaciar, sin requerir el uso de un mapa o un atlas. (ejemplo: gran cadena monta√±osa)

#### `üëâSPEC_LOCATION`:
+ Se refiere a una **ubicaci√≥n geogr√°fica m√°s espec√≠fica** que se puede encontrar f√°cilmente en un mapa a peque√±a escala. ejemplo: (ejemplo: subcordillera monta√±osa )


#### `üëâLATITUDE`:
+ Latitud en grados decimales (¬∞, WGS 84).
++ valores positivos = hemisferio norte
++ valores negativos= hemisferio sur

#### `üëâLONGITUDE`:
+ Longitud en grados decimales (¬∞, WGS 84).
++ valores positivos = el este del meridiano cero
++ valores negativos= el oeste del meridiano cero


#### `üëâPRIM_CLASSIFIC`:
 + Clasificaci√≥n de los glaciares seg√∫n Masas perennes de hielo y nieve seg√∫n [UNESCO/IAHS, 1970](https://www.wgms.ch/downloads/UNESCO_1970.pdf)

      - `0` = Otro
      - `1` = Capa de hielo continental
      - `2`= Campo de Hielo
      - `3`= Capa de hielo
      - `4` = Glaciar de salida.
      - `5`= Glaciar del valle
      - `6` = Glaciar de monta√±a
      - `7`= Glaciares y campos de nieve
      - `8`= Plataforma de hielo
      - `9`= Glaciar de roca

#### `üëâFORM`:
  + **Clasificaci√≥n** de los glaciares seg√∫n **su forma** seg√∫n Masas perennes de hielo y nieve [UNESCO/IAHS, 1970](https://www.wgms.ch/downloads/UNESCO_1970.pdf)

      - `0` = Otro
      - `1` = Cuencas compuestas
      - `2` = Cuenca compuesta
      - `3` = Cuenca simple
      - `4` = Circo
      - `5`= Nicho
      - `6` = Cr√°ter
      - `7`= Plata de hielo
      - `8`= Grupo
      - `9`= Remanente


#### `üëâFRONTAL_CHARS`:
  + **Clasificaci√≥n** de los glaciares seg√∫n **su frontal** seg√∫n Masas perennes de hielo y nieve [UNESCO/IAHS, 1970](https://www.wgms.ch/downloads/UNESCO_1970.pdf)

      - `0` = Otro
      - `1` = Piamonte
      - `2` = pie expandido
      - `3` = Lobulado
      - `4` = Desprendimiento
      - `5`= Coalescente
      - `6` = Hielo irregular, principalmente limpio
      - `7`= Irregular, cubierto de escombros
      - `8`= Un solo l√≥bulo, principalmente hielo limpio
      - `9`= Un solo l√≥bulo, cubierto de escombros


#### `üëâEXPOS_ACC_AREA`:

  + **Orientaci√≥n** principal del **√°rea de acumulaci√≥n** mediante una br√∫jula de 8 puntos.

#### `üëâEEXPOS_ABL_AREA`

  + **Orientaci√≥n** principal de la **zona de ablaci√≥n** mediante br√∫jula de 8 puntos.

#### `üëâPARENT_GLACIER`

  + es un `WGMS_ID` que se utiliza para **vincular los glaciares** con su  glaciar padre.

#### `üëâREMARKS`

  + algo as√≠ como **comentarios** importantes no incluido en otro lugar.



#### `üëâGLACIER_REGION_CODE`

  + **C√≥digo de la regi√≥n** en la que se encuentra el glaciar seg√∫n [*Glacier Regions* (GTN-G, 2017)](https://doi.org/10.5904/gtng-glacreg-2017-07)


#### `üëâGLACIER_REGION_CODE`

+ **C√≥digo de la subregi√≥n** en la que se encuentra el glaciar seg√∫n [*Glacier Regions* (GTN-G, 2017)](https://doi.org/10.5904/gtng-glacreg-2017-07)
  



  

# Conclusi√≥n
Este dataset `glacier.csv` de momento no arroja variables que nos ayuden a predecir la masa de los glaciares, las columnas que hacen referencia a estos aspectos no dan un dato medible, o bien nos da una orientaci√≥n o una clasificaci√≥n del uno al 9 seg√∫n el tipo de glaciar. Vamos a estudiar el resto de dataset del conjunto.


