# Evaluación Solemne 1
## "_Pronóstico del Clima en Australia_"

###  - Asignatura : Minería de Datos.
####  - Sección : MDY001D.
####  - Docente : Luis Díaz.

#### _Integrantes :_
- _Joaquín Reyes._
- _Jorge Quintui._
- _José López._

### EDA para Pronóstico del Clima
#### - Parte 1: Análisis exploratorio de datos (EDA)
- 1) Análisis de las características.
- 2) Encontrar cualquier relación o tendencia considerando múltiples características.

#### - Parte 2: Ingeniería de características y limpieza de datos:
- 1) Agregar algunas características.
- 2) Eliminación de funciones redundantes.
- 3) Convertir características en forma adecuada para modelar.

#### - Parte 3: Análisis:
- 1) Responder a las preguntas planteadas.
- 2) Análisis de gráficos.
- 3) Propuesta de preguntas.

#### - Parte 4: Exportación:
- 1) Exportación del Dataframe procesado en un archivo csv y excel.

## Acerca de los datos
- Date: Fecha de la observación.
- Location: El nombre común de la ubicación de la estación meteorológica.
- MinTemp: La temperatura mínima en grados centígrados.
- MaxTemp: La temperatura máxima en grados centígrados.
- Rainfall: La cantidad de lluvia registrada para el día en mm.
- Evaporation: Evaporación de la bandeja de clase A (mm) en las 24 horas a las 9 a.
- Sunshine: Cantidad de horas de sol brillante en el día.
- WindGustDir: Dirección de la ráfaga de viento más fuerte en 24 horas hasta la medianoche.
- WindGustSpeed: Velocidad (km / h) de la ráfaga de viento más fuerte en 24 horas hasta la medianoche.
- WindDir9am: Dirección del viento a las 9 am.
- WindDir3pm: Dirección del viento a las 15 pm.
- WindSpeed9am: Velocidad (km / h) del viento a las 9am.
- WindSpeed3pm: Velocidad (km / h) del viento a las 15pm.
- Humidity9am: Humedad (g/m3) del aire a las 9am. (g/m3 = gramos de agua por cada metro cúbico de 
  aire).
- Humidity3pm: Humedad (g/m3) del aire a las 15pm. (g/m3 = gramos de agua por cada metro cúbico de 
  aire).
- Pressure9am: Presión (pascales) del aire a las 9am. 
- Pressure15pm: Presión (pascales) del aire a las 15pm. 
- Cloud9am: Nubosidad (octas) del cielo a las 9am. (octas, a la parte de la bóveda celeste cubierta de nubes, 
  hasta un máximo de 8 para el cielo cubierto o entoldado).
- Cloud15pm: Nubosidad (octas) del cielo a las 15pm. 
- Temp9am: Temperatura (C) a las 9am. 
- Temp15pm: Temperatura (C) a las 15pm. 
- RainToday: Si llueve más de 1mm en el día de la muestra. 
- RainTomorrow: predicción si lloverá más de 1 mm mañana.

In [None]:
# Importación de las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
# Ignora las advertencias
warnings.filterwarnings('ignore')
# para que los gráficos aparezcan en la misma fila
%matplotlib inline

## 1. Análisis Exploratorio de Datos

### 1.1 Carga de Datos

In [None]:
url_train = './dataset/weatherAUS.csv'
df = pd.read_csv(url_train,sep=',')

In [None]:
# Primeros 5 registros
df.head()

In [None]:
# Últimos 5 registros
df.tail()

In [None]:
# Muestra un registro al azar
df.sample()

In [None]:
# Vista general 
df

### 1.2 Tamaño del Dataset

In [None]:
df.shape

### 1.3 Tipos de datos

In [None]:
df.info()

In [None]:
df.dtypes

### 1.4 Valores Nulos

In [None]:
df.isnull().sum()

In [None]:
for x in df.columns:
    print('La cantidad de nulos de la columna', x, ' Es de ', df[x].isna().sum())

### 1.5 Características y Observaciones

In [None]:
for x in df.columns:
 print('El nombre de la característica es :',x)

In [None]:
# ¿Qué columnas tienen los datos?
df.columns

In [None]:
# Cantidad de características
df.shape[1]


In [None]:
# Cantidad de observaciones
df.shape[0]

In [None]:
# Cantidad de Características con datos Cualitativos / Categóricos 

 # Agrupación de las columnas por tipo de datos
tipos = df.columns.to_series().groupby(df.dtypes).groups

ctext = tipos[np.dtype('object')]
len(ctext)

In [None]:
# Cantidad de características con datos Cuantitativos / Numéricos

columnas = df.columns
cnum = list(set(columnas) - set(ctext))
len(cnum)

### 1.6 Medidas Estadísticas Básicas

In [None]:
# Cómo se distribuyen las variables numéricas
df.describe()

In [None]:
# Cómo se comportan las variables categóricas
df.describe(include = 'object')

In [None]:
# Variables cuantitativas y cualitativas.
df.describe(include = 'all')

### 1.7 Datos Únicos

In [None]:
# Datos únicos de location
df["Location"].unique()

### 2. Preprocesamiento de los datos
- Convertir algunas variables continuas en rangos.
- Convertir valores String en valores númericos.
- Eliminar características innecesarias.
- Corregir valores nulos.

Variables Relevantes:
- Date
- RainTomorrow
- RainToday
- Location
- MinTemp          
- MaxTemp          
- Pressure9am      
- Temp3pm          
- Rainfall         
- Humidity9am      
- WindSpeed9am     



#### 2.1 Creamos un respaldo del DataFrame

In [None]:
# Respaldo para limpieza y Transformación
df2 = df

In [None]:
df2.isnull().sum()

#### 2.2 Transformación De Datos Nulos  
- Se puede contactar con la persona que recopiló los datos, si puede entregarnos los datos faltantes.
- Se puede eliminar los registros con datos faltantes.
- Se pueden reemplazar los datos calculando el valor promedio de la variable completa.
- Se pueden dejar los datos faltantes como están.


### Decisión
- **No** es factible eliminar los registros nulos, se pierden muchos datos.
- **No** se pueden solicitar los datos faltantes.

#### Al ser muchos los datos perdidos podemos dejarlos como están o bien imputarlos por el promedio de la variable completa. 

### 1. Para las variables cuantitativas :
#### Debido a que no queremos sesgar el modelo de entrenamiento, vamos a evaluar el coeficiente de variación.
#### Sólo si la media aritmética es representativa se usará el valor promedio, de lo contrario se reemplazará por 0.
- Si el coeficiente de variación tiende a 0 consideraremos el promedio como reemplazo.
- Si el coeficiente de variación tiende a 1 **NO** consideraremos el promedio como reemplazo.

### 2. Para la variables Cualitativas:
#### Se reemplazará el valor por la moda debido a que no son demasiados datos en comparación a las variables cuantitativas.

In [None]:
# Función que calcula de un conjunto de datos la desviación estándar
# {param} conjunto list
# {return} double

def calcularDesviacionStandar(conjunto):
    print("Desviación estándar : ", np.std(conjunto))
    return np.std(conjunto)

# Función que calcula el coeficiente de variación de un conjunto de datos
# {param} devest double 
# {param} mean double
# {return} double
def calcularCoeficienteVariacion(devest, mean):
    print("Coeficiente de variación : ", devest/mean)
    return devest/mean

In [None]:
# Completando valores faltantes datos cuantititavos
for columna in cnum:
    mean = round(df2[columna].mean(),1)
    devest = calcularDesviacionStandar(df2[columna])
    cv = calcularCoeficienteVariacion(devest,mean)
    # Evaluamos si es representativo el promedio
    if cv < 0.5 :
        # Coeficiente de variación que tiende a 0.
        # Reemplazamos el valor NULL por el promedio debido a que es representativo.
        df2[columna] = df2[columna].fillna(mean)    
    else :
        # Coeficiente de variación que tiende a 1.
        # Reemplazamos el valor NULL por un 0 debido a que el promedio no es representativo, los datos están muy dispersos.
        df2[columna] = df2[columna].fillna(0) 

In [None]:
#Completando valores faltantes datos categóricos
for columna in ctext:
    # Buscamos la moda en los valores categóricos del dataframe
    mode = df2[columna].mode()[0]
    print("Moda :",mode, " de la característica " , columna)
    df2[columna] = df2[columna].fillna(mode)

In [None]:
 # Corroboramos si hay nulos en el dataframe
if(df2.isnull().any().any()):
    print('Hay valores nulos.')
else: 
    print('No hay valores nulos.')


In [None]:
df2.isnull().sum()

In [None]:
# Respaldo del dataframe
df3 = df2

#### 2.2 Limpieza y Transformación De Datos

- Variables Categóricas a números

In [None]:
# Variable Categórica RainTomorrow
# Reemplazamos los datos a números con la función dummies de pandas
# Sólo consideramos 1 columna
df2 = pd.get_dummies(df2,columns = ['RainTomorrow'], drop_first = True)
df2.sample()

In [None]:
# Variable Categórica RainToday
# Reemplazamos los datos a números con la función dummies de pandas
# Sólo consideramos 1 columna
df2 = pd.get_dummies(df2,columns = ['RainToday'], drop_first = True)
df2.sample()

In [None]:
# Variable Categórica Date
# Parseamos la variable de la fecha a datetime para utilizar sus propiedades
# Establecemos como indíce del dataframe porque es el identificador de los días
df2['Date'] = pd.to_datetime(df2.Date)
df2.set_index('Date',inplace = True)

In [None]:
# Importamos la librería LabelEncoder de sklearn.preprocessing
from sklearn.preprocessing import LabelEncoder

# Creamos una instancia de labelEncoder
le = LabelEncoder()

In [None]:
# Variable Categórica location

# Convertimos el dataframe a un numpy.ndarray
x = df2.iloc[:,:].values

print(type(x))

# Buscamos los valores únicos de la columna Location
pd.DataFrame(x)[0].unique()

In [None]:
# Transformar las estaciones
df2['Location_encoder'] = le.fit_transform(df2.Location.values)
df2.tail(3)

In [None]:
# Obtenemos los valores de las estaciones y su codificación
location = le.inverse_transform(df2.Location_encoder.values)
locationEncoder = df2.Location_encoder.values

# Parseamos los arreglos a listas
listaClave = np.unique(locationEncoder).tolist()
listaValor = np.unique(location).tolist()

# Imprimimos la clave y valor de cada Estación codificada
diccionarioLocation = []
for i in range(len(listaClave)):
    diccionario = {'Clave':i,'Valor': listaValor[i]}
    diccionarioLocation.append(diccionario)

data = pd.DataFrame(diccionarioLocation)
data.set_index('Clave',inplace = True)

data


- Variables Continuas en rangos

In [None]:
# Importamos la librería Math
import math

In [None]:
# Creamos funciones para agrupar datos en intervalos

# Función que calcula el total de datos, valor mínimo, máximo, n° Intervalos y amplitud de intervalo
# {param} dataFrame dataFrame pandas.core.frame.DataFrame
# {param} caracteristica string
# {return} list

def calculosBasicos(dataFrame, caracteristica):
    
    # 1. Calculamos el total de datos
    total = dataFrame[caracteristica].count()
    print('Total de observaciones : ', total)

    # 2. Cálculamos el valor mínimo
    valor_max = dataFrame[caracteristica].max()
    print("Máxima : " , valor_max)

    # 3. Cálculamos el valor máximo
    valor_min = dataFrame[caracteristica].min()
    print("Mínima : " , valor_min)

    # 4. Cálculamos los intervalos con la regla de Sturges
    n_intervalos = round(1 + 3.322 * math.log(total,10))
    print("Número de intervalos : " , n_intervalos)

    # 5. Cálculamos la amplitud de intervalo
    a_intervalo = math.ceil((valor_max - valor_min) / n_intervalos)
    print('Amplitud de intervalo : ' , a_intervalo)
    
    lista = [total , valor_max , valor_min, n_intervalos, a_intervalo]
    
    return lista

# Función que calcula automáticamente todos los rangos para agrupar en intervalos
# {param} valor_minimo int
# {param} amplitud int
# {param} intervalos int
# return list

def calcularRangos(valor_minimo,amplitud,intervalos):
    lim_inf = valor_minimo
    lista_rangos = []
    for x in range(intervalos):
        lim_sup = lim_inf + amplitud
        rango = {x : {'lim_inf' : lim_inf , 'lim_sup' : lim_sup}}
        lista_rangos.append(rango)
        print("Intervalo :", x, "Límite Inferior :",lim_inf,"Límite Superior :",lim_sup)
        lim_inf = lim_sup
    return lista_rangos

# Función que retorna el límite inferior y superior de un intervalo
# {param} index int
# {param} listDict list
# {return} list

def limites(index, listDict):
    lim_inf = listDict[index].get(index).get('lim_inf')
    lim_sup = listDict[index].get(index).get('lim_sup')
    lista = [lim_inf, lim_sup]
    return lista


# Función que crea automáticamente una nueva característica en un dataframe agrupando datos por intervalos
# {param} listaRangos list
# {param} dataFrame pandas.core.frame.DataFrame
# {param} caracteristica string
# {param} nombreRango string

def agruparIntervarlos(dataFrame, caracteristica, nombreRango):
    basicos = calculosBasicos(dataFrame,caracteristica)
    listaRangos = calcularRangos(basicos[2],basicos[4],basicos[3])
    dataFrame[nombreRango] = 0
    for x in range(len(listaRangos)):
        if x == 0:
            dataFrame.loc[(dataFrame[caracteristica] >= limites(x,listaRangos)[0] ) & (dataFrame[caracteristica] <= limites(x,listaRangos)[1]) , nombreRango] = x
        else:
            dataFrame.loc[ (dataFrame[caracteristica] > limites(x,listaRangos)[0]) & (dataFrame[caracteristica] <= limites(x,listaRangos)[1]) , nombreRango] = x
  

**_Variable Continua MinTemp_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'MinTemp','rango_temp_min')

In [None]:
df2['rango_temp_min'].head()

**_Variable Continua MaxTemp_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'MaxTemp','rango_temp_max')

In [None]:
df2['rango_temp_max'].head()

**_Variable Continua Pressure9am_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'Pressure9am','rango_pres_9am')

In [None]:
df2['rango_pres_9am'].head()

**_Variable Continua Temp3pm_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'Temp3pm','rango_temp_3pm')

In [None]:
df2['rango_temp_3pm'].head()

**_Variable Continua Rainfall_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'Rainfall','rango_rainfall')

In [None]:
df2['rango_rainfall'].head()

**_Variable Continua Humidity9am_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'Humidity9am','rango_hum_9am')

In [None]:
df2['rango_hum_9am'].head()

**_Variable Continua WindSpeed9am_**

In [None]:
# Establecer rangos para agrupar
# Binning o Normalización
agruparIntervarlos(df2, 'WindSpeed9am','rango_wind_9am')

In [None]:
df2['rango_wind_9am'].head()

#### 2.3 Eliminamos características irrelevantes del Modelo

 - Location -> Tenemos la columna Location_encoder, por lo que es innecesario.
 - MinTemp -> Tenemos la columna rango_temp_min, por lo que es innecesario.  
 - MaxTemp -> Tenemos la columna rango_temp_max, por lo que es innecesario.        
 - Rainfall -> Tenemos la columna rango_rainfall, por lo que es innecesario.
 - Evaporation -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.
 - Sunshine -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.      
 - WindGustDir -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.    
 - WindGustSpeed -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.  
 - WindDir9am -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.      
 - WindDir3pm -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.      
 - WindSpeed9am Tenemos la columna rango_wind_9am, por lo que es innecesario.  
 - WindSpeed3pm -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.   
 - Humidity9am Tenemos la columna rango_hum_9am, por lo que es innecesario.    
 - Humidity3pm -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.    
 - Pressure9am Tenemos la columna rango_pres_9am, por lo que es innecesario.   
 - Pressure3pm -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.    
 - Cloud9am -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.       
 - Cloud3pm -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.       
 - Temp9am -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.        
 - Temp3pm -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.               
 - RISK_MM -> No nos aporta información útil para lo que se quiere analizar en nuestro modelo de entrenamiento.         

In [None]:
df2.drop(['RISK_MM','Location','Temp3pm','Temp9am','Cloud3pm','Cloud9am','Pressure3pm','Pressure9am','Humidity3pm','Humidity9am','MinTemp','MaxTemp','Rainfall','Evaporation','Sunshine','WindGustDir','WindGustSpeed','WindDir9am','WindDir3pm','WindSpeed9am','WindSpeed3pm'], axis = 1 , inplace = True)

In [None]:
df2.head(3)

In [None]:
df2.count()

In [None]:
# Agrupa por tiempo
df2.groupby(df2.index.month).head()

## 3. Análisis

In [None]:
## Creamos métodos para construir gráficos
def getGraficoBarras1(xvalues,yvalues,xlabel,ylabel,title,leyenda,color = '#DC29F1'):
    valores = yvalues
    etiquetas = xvalues
    co = np.arange(len(valores))
    an = 0.20
    fig, ax = plt.subplots(figsize = (18,6))
    ax.bar(co,valores,an, label = leyenda,color = color, edgecolor = "black")
    for i,j in zip(co, valores):
        ax.annotate(j,xy=(i , 10),color="white")
    ax.set_xticks(co)
    ax.set_xticklabels(etiquetas)
    ax.set_title(title, fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 16})
    ax.set_xlabel(xlabel, fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 12})
    ax.set_ylabel(ylabel, fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 12})
    plt.legend(loc='upper right')

def getGraficoBarras2(tags,values,xlabel,ylabel,title):
    plt.barh(range(len(tags)), values, edgecolor = "black")
    plt.yticks(range(len(tags)),tags,rotation = 60)
    plt.xlim(min(values) - 1 , max(values) + 1)
    plt.title(title, fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 16})
    plt.xlabel(xlabel, fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 12})
    plt.ylabel(ylabel, fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 12})
    plt.show()

def getGraficoPie1(dataframe,feature,labels,title,colors = ["#EE6055","#60D394","#AAF683","#FFD97D","#FF9B85"]):
    f, ax = plt.subplots(figsize = (18,8))
    dataframe[feature].value_counts().plot.pie(autopct = '%1.1f%%' , ax = ax, explode = [0, 0.1], shadow = True, labels=labels,colors = colors)
    # Cambiamos el título del gráfico
    ax.set_title(title) 
    ax.set_ylabel('')


def getGraficoLineas1(x,y,xlabel,ylabel,title):
    plt.figure(figsize=(10, 6))
    plt.plot(x, y, "r")
    plt.xlabel(xlabel, size = 16,)
    plt.ylabel(ylabel, size = 16)

    plt.title(title, 
            fontdict={'family': 'serif', 
                        'color' : 'black',
                        'weight': 'bold',
                        'size': 16})

    plt.grid(True)
    plt.show()


def getGraficoDispersion1(x,y,xlabel,ylabel,title):
    sns.scatterplot(data=[x,y])
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title)
    plt.show()

def getGraficoHistograma1(x):
    sns.displot(x)
    plt.show()


### 1. ¿Cuál es la diferencia de presión entre el rango mínimo y el máximo que se produce a las 9am?

In [None]:
rango = df3.Pressure9am.max() - df3.Pressure9am.min()
print("La diferencia de presión entre el rango mínimo y máximo que se produce a las 9am es de" , rango, "pascales.")
getGraficoBarras1(["Presión Mínima","Presión Máxima"],[df3.Pressure9am.min().tolist(), df3.Pressure9am.max().tolist()],"Clasificación de presión","Presión (Pascales)","Presión Mínima y Máxima producida a las 9am","Clasificación",['#000'])

_Nota Gráfico de barras "Presión Mínima y Máxima producida a las 9am"._
### Se puede apreciar del gráfico de barras que la presión mínima medida en pascales producida a las 9 am es de 980.5 y la máxima de 1041.0, teniendo una diferencia de 60.5. 

In [None]:
getGraficoBarras2(["Presión Mínima","Presión Máxima"],[df3.Pressure9am.min().tolist(), df3.Pressure9am.max().tolist()],"Presión (Pascales)","Clasificación","Presión Mínima y Máxima producida a las 9am")

_Nota Gráfico de barras Horizontal **"Presión Mínima y Máxima producida a las 9am."**_
### Del gráfico de barras horizontal se puede deducir que la presión máxima a las 9am es 1041.0 y la mínima fue de 980.5, teniendo una disparidad inferior a 100 pascales, con exactitud 60.5. 

### R: La diferencia de presión entre el rango mínimo y máximo que se produce a las 9am es de 60.5 pascales.

### 2. ¿Cuáles son las temperaturas mínimas y máximas que se producen a las 3pm?


In [None]:
# Rango de temperaturas mínimas
intervalo_min = df2.rango_temp_3pm.min()

# Rango de temperaturas máximas
intervalo_max = df2.rango_temp_3pm.max()

# Temp min 
t_min = df3.Temp3pm.min()
# Temp máx
t_max = df3.Temp3pm.max()

print("Temperatura Mínima registrada a las 3pm", t_min,"°C")
print("Temperatura Máxima registrada a las 3pm", t_max,"°C")
print("Intervalo de Temperaturas Mínimas registradas a las 3pm en el intervalo", intervalo_min, "equivalente a los -5.4 y -2.4 °C.")
print("Intervalo de Temperaturas Máximas registradas a las 3pm en el intervalo", intervalo_max, "equivalente a los 45.6 y 48.6 °C.")


In [None]:
getGraficoLineas1(["Temperatura Mínima","Temperatura Máxima"],[t_min,t_max],"Rangos de temperatura","Temperatura °C","Temperaturas mínimas y máximas registradas a las 3pm")

Nota : Gráfico de línea "temperaturas mínimas y máximas registradas a las 3pm"
### Lo que se puede inferir de este gráfico lineal, son las temperaturas mínimas y máximas registradas a las 3 pm. La menor estaría bajo 0, apuntando a -5.4 grados Celsius. La mayor es superior a 45 °C, reconociéndose en 46.7 grados Celsius. 

In [None]:
# Comprobar el número de temperaturas registradas en cada tramo
df2['rango_temp_3pm'].value_counts().to_frame().style.background_gradient(cmap = 'summer_r')

_Nota Tabla de calor **"Cantidad de temperaturas registradas por rangos".**_
### De la tabla de calor se desprenden la cantidad de temperaturas registradas a las 3 pm, clasificadas en intervalos. El intervalo con mayor registro de ellas fue  el número 9 que corresponde a las temperaturas que se encuentran entre 21.6 °C y los 24.6 °C y el de menor sería el intervalo 17 con 8 observaciones en el rango de temperaturas entre los  45.6 y 48.6 grados celsius.

### R:  Según las estadísticas analizadas nos muestra que en la jornada de tarde de las 3pm se identifica una baja de -5.4 °C. Además, se observa que la temperatura máxima registrada a las 3pm en diversas localidades corresponde a 46.7 °C. La representación de la temperatura mínima estipulada a las 3pm equivale a un rango entre -5.4 y -2.4 °C, mientras que las temperaturas máximas ingresada a las 3pm equivale a un rango entre 45.6 °C y 48.6 °C. 


### ¿Cuántos días ha precipitado según la característica RainToday?


In [None]:
# Contamos los días que llovió
# 1 Representa presencia en "YES".
total = df2.RainToday_Yes.count()

cant_dias_si = df2[(df2.RainToday_Yes == 1)]['RainToday_Yes'].count()
cant_dias_no = df2[(df2.RainToday_Yes == 0)]['RainToday_Yes'].count()
print("Según la característica RainToday, llovieron ", cant_dias_si, "días de los",total,"registrados.")


In [None]:
getGraficoPie1(df2,"RainToday_Yes",["No","Sí"],"Precipitaciones")

_Nota : Gráfico Pie **"Precipitaciones."**_
#### Del gráfico de torta o circular se puede deducir que, de los días registrados, en menos del 25% hubo precipitaciones, teniendo con exactitud un 22.1%. Junto a esto, más del 75% (77.9%) de ellos, no tuvieron lluvias.

### R: Según la característica RainToday, 31455 días de los 142193 registrados, tuvieron precipitaciones.

### ¿Cuántas observaciones poseen las siguientes localidades ?

- Portland
- NorfolkIsland
- Moree
- Albany
- Albury

In [None]:
# Función que permite contar las observaciones según la localidad
def cantidadObservaciones(location_encoder):
    return df2[(df2.Location_encoder == location_encoder)]['Location_encoder'].count()


portland = cantidadObservaciones(33)
norfolkIsland = cantidadObservaciones(27)
moree = cantidadObservaciones(21)
albany = cantidadObservaciones(1)
albury = cantidadObservaciones(2)


print("========================================================================")
print(" OBSERVACIONES POR LOCALIDAD")
print("========================================================================")
print("La localidad de portland tiene un registro de", portland, "observaciones.")
print("La localidad de norfolkIsland tiene un registro de", norfolkIsland, "observaciones.")
print("La localidad de moree tiene un registro de", moree, "observaciones.")
print("La localidad de albany tiene un registro de", albany, "observaciones.")
print("La localidad de albury tiene un registro de", albury, "observaciones.")
print("========================================================================")


In [None]:
registros = ['Portland','NorfolkIsland','Moree','Albany','Albury']
listitaReg = []
for x in range(len(registros)):
    print(df3[(df3.Location == registros[x])]["Location"].count())
    listitaReg.append(df3[(df3.Location == registros[x])]["Location"].count())

getGraficoBarras1(registros, listitaReg,"Localidades","Cantidad de observaciones","Cantidad de observaciones por localidad","Localidades",["#000"])

_Nota de gráfico de barras **"Cantidad de observaciones por localidad."**_
### En el gráfico de barras se pueden visualizar las localidades y la cantidad de observaciones, donde se infiere que la localidad que tuvo más registros fue Canberra con un total de 3418. De la misma forma la que tuvo menos fue Uluru con 1521.

## R: Cantidad de observaciones por localidad 
- La localidad de Portland posee un registro de 2996 observaciones.
- La localidad de NorfolkIsland dispone de un registro de 2964 observaciones.
- La localidad de Moree goza de un registro de 2854 observaciones.
- La localidad de Albany consta de un registro de 3016 observaciones.
- La localidad de Albury conserva un registro de 3011 observaciones.

## - Localidad con el mayor número de observaciones

In [None]:
cantidad = df3.Location.value_counts().max()
nombre = df3.Location.value_counts().idxmax()
print("La localidad con el mayor número de observaciones es", nombre, "con un total de",cantidad, "registros.")

### R: La localidad con el mayor número de observaciones es Canberra con un total de 3418 registros.

## - Localidad con el menor número de observaciones.

In [None]:
cantidad = df3.Location.value_counts().min()
nombre = df3.Location.value_counts().idxmin()
print("La localidad con el menor número de observaciones es", nombre, "con un total de",cantidad, "registros.")

### R: La localidad con el menor número de observaciones es Uluru con un total de 1521 registros.

## 3.2 Preguntas propuestas

#### ** Ver Anexo de excel **

### Pregunta Nro. 1
## Si hoy hubo precipitaciones, ¿Cuál es la probabilidad de que mañana también llueva?

In [None]:
# Agrupamos todos los datos por RainToday y RainTomorrow.
# indicamos una cabecera para distribuir los elementos como quiera y mostramos las cantidades
dataRain = pd.DataFrame(df2.groupby(['RainToday_Yes','RainTomorrow_Yes'])['RainToday_Yes'].count())
dataRain

In [None]:
 # Respondiendo, gráficamente a: Si hoy hubo precipitaciones, ¿cuál es la probabilidad de que mañana también llueva?
df_pie = pd.DataFrame(df2[df2.RainToday_Yes == 1].groupby(['RainToday_Yes','RainTomorrow_Yes'])['RainToday_Yes'].count())
colores = ["#EE6055","#60D394"]
plt.pie(np.array(df_pie).ravel(), labels=[str(df_pie.index[0]) + " Mañana no llueve",str(df_pie.index[1]) + " Mañana llueve"],
autopct='%1.1f%%', shadow=True, startangle=90, colors = colores)
plt.title('Si hoy hubo precipitaciones, ¿cuál es la probabilidad de que mañana también llueva?')
plt.show()

_Nota Gráfico de Pie **"Si hoy hubo precipitaciones, ¿Cuál es la probabilidad de que mañana también llueva?".**_
### Se puede observar según las estadísticas que la probabilidad de que se pronostiquen lluvias al día siguiente sabiendo que hoy precipitó es cercano al 50%.

### R: La probabilidad de que al día siguiente llueva si hoy hubo precipitaciones es de un 46%.

### Pregunta Nro. 2
### ¿En qué localidad hubo más precipitaciones y en cuál hubo menos?

In [None]:
# Agrupamos por código de la locacion y dia de caundo hubo precipitación
df_loc = pd.DataFrame(df2[df2.RainToday_Yes == 1].groupby(['Location_encoder','RainToday_Yes'])['RainToday_Yes'].count())

# Obtenemos el ID de la locación con más precipitaciones y la con menos precipitaciones
locaciones = [df_loc.idxmax(), df_loc.idxmin()]

# Obtenemos la cantidad de días de la locación con más precipitaciones y la con menos precipitaciones.
cant_p = [df_loc.max(),df_loc.min()]

# Guardamos los datos de ambas locaciones
datos = {'Locaciones':locaciones,'cant_dias_p':cant_p}

df_loc = pd.DataFrame(data = datos)

locaciones = []

# Recorremos la serie para obtener el valor de la key de la localidad
for x in df_loc.Locaciones.tolist():
    locaciones.append(x[0][0])

cant_p = []
for x in df_loc.cant_dias_p.tolist():
    cant_p.append(x[0])

# Guardamos los datos de ambas locaciones
datos = {'Locaciones':locaciones,'cant_dias_p':cant_p}

# 33	Portland
# 41	Uluru
df_loc = pd.DataFrame(data = datos)
df_loc

In [None]:
# Extraemos los nombres con las claves obtenidas
key_1 = locaciones[0]
locaciones[0] = data.query("Clave==@key_1")["Valor"].values.tolist()[0]
key_2 = locaciones[1]
locaciones[1] = data.query("Clave==@key_2")["Valor"].values.tolist()[0]
locaciones

# Guardamos los datos de ambas locaciones
datos = {'Locaciones':locaciones,'cant_dias_p':cant_p}

# 33	Portland
# 41	Uluru
df_loc = pd.DataFrame(data = datos)
df_loc

In [None]:
getGraficoBarras1(locaciones,cant_p,"Localidades","Precipitaciones (Días)","¿En qué localidad hubo más precipitaciones y en cuál hubo menos?","Localidades",["#000"])

_Nota Gráfico **"En qué localidad hubo más precipitaciones y en cuál hubo menos?"**_
#### En el gráfico de barras se visualiza las localidades más y menos lluviosas, teniendo por un lado al estado de Portland y Uluru Respectivamente.

### R: En la localidad que hubo más precipitaciones registradas corresponden a Portland con un total de 1088 días, mientras en el estado de Uluru no sobrepasa los 113 días.

### Pregunta Nro. 3
### ¿Cuál es el promedio de humedad del aire a las 9am en las localidades de Portland y Uluru?

In [None]:
# Agrupamos por el nombre de la localidad y sacamos el promedio de las 2 localidades indicadas.
df_hum = pd.DataFrame(df3[(df3.Location == "Portland") | (df3.Location== "Uluru")].groupby(['Location'])['Humidity9am'].mean())
df_hum

In [None]:
list_hum = [df_hum.Humidity9am[0], df_hum.Humidity9am[1]]
list_loc = [df_hum.Humidity9am.index[0], df_hum.Humidity9am.index[1]]

getGraficoBarras1(list_loc,list_hum,"Localidades","Humedad del aire (g/m3)","Promedio de humedad del aire a las 9am en Portland y Uluru","Localidades","#000")

_Nota Gráfico **"Promedio de humedad del aire a las 9am en Portland y Uluru"**_
#### Se puede inferir que en promedio la humedad del aire a las 9 am en la localidad de Portland es superior a los 70 (g/m3), en cambio en el estado de Uluru no supera los 50 (g/m3).

### R : En promedio la humedad del aire en el estado de Portland es de 78.5 (g/m3) y en la localidad de Uluru es de 42.4 (g/m3).

### 4 Exportamos el dataset procesado a un archivo

In [None]:
# Exportamos nuestro archivo a csv
df2.to_csv('./archivos_exportados/Cleaning_climate.csv')

# Exportamos nuestro archivo a excel
df2.to_excel('./archivos_exportados/Cleaning_climate_excel.xlsx')