<a href="https://colab.research.google.com/github/ALuceroMA/B1-Procesamiento-de-Datos-con-Python-2020-2021/blob/master/estimados_de_locacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Reto 2: Estimados de locación

### 1. Objetivos:
    - Implementar los algoritmos para obtener estimados de locación sin utilizar los métodos builtin de pandas

---
    
### 2. Desarrollo:

In [None]:
# 1. Importar el módulo 'os' para interactuar con el sistema operativo y realizar operaciones como cambiar el directorio de trabajo.
import os

# 2. Importar la función 'drive' de la biblioteca 'google.colab' para montar Google Drive en el entorno Colab.
from google.colab import drive

# 3. Montar Google Drive para acceder a los archivos almacenados en él.
#    - '/content/drive': Es el punto de montaje en el sistema de archivos de Colab.
#    - Al montar Google Drive, se creará una carpeta 'drive' en el directorio '/content',
#      que representa el almacenamiento de Google Drive en el entorno de Colab.
drive.mount('/content/drive')

# 4. Establecer el directorio de trabajo en el entorno de Colab.
#    - 'path': Variable que almacena la ruta del directorio de trabajo deseado en Google Drive.
#    - Utilizamos la función 'os.chdir()' para cambiar el directorio de trabajo actual del entorno de Colab a la ruta especificada.
#    - Esto es útil para acceder a archivos en un directorio específico sin necesidad de especificar rutas absolutas cada vez.
path = '/content/drive/MyDrive/Colab Notebooks/notebooks/Sesión 01'
os.chdir(path)

# 5. Imprimir el directorio de trabajo actual para confirmar que el cambio ha sido exitoso.
#    - 'os.getcwd()' devuelve el directorio de trabajo actual. Es útil para verificar si el cambio de directorio se realizó correctamente.
print("Directorio actual:", os.getcwd())

# 6. Listar los archivos en el directorio actual.
#    - 'os.listdir()': Función que devuelve una lista de los nombres de los archivos y directorios en el directorio actual.
#    - Se utiliza para verificar los archivos disponibles en el directorio de trabajo establecido.
os.listdir()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Directorio actual: /content/drive/MyDrive/Colab Notebooks/notebooks/Sesión 01


['estimados_de_locacion.ipynb']

#### a) Implementando estimados de locación

Este Reto va a consistir en implementar el promedio y la mediana sin utilizar los métodos `mean` y `median` que vienen incluidos en `pandas`. Implementar algoritmos desde 0 es una excelente práctica que nos ayuda a entenderlos mejor y recordarlos con más precisión.

Puedes utilizar `pandas` y otras funciones vectorizadas o de reducción. Las únicas funciones que no están permitidas son `mean` y `median`. Las dos funciones que vas a crear deben recibir una serie de `pandas` y regresar un solo número.

#### b) Estimados de locación de diámetros de meteoritos

Ahora vamos a utilizar nuestras funciones custom para obtener estimados de locación de un conjunto de datos que contiene información acerca de objetos que orbitaron cerca de la Tierra durante el periodo de enero y febrero de 1995.

El dataset se llama 'near_earth_objects-jan_feb_1995-clean.csv' y la columna que vamos a analizar se llama 'estimated_diameter.meters.estimated_diameter_max'. Esta columna contiene el diámetro máximo estimado de cada objeto.

El reto es el siguiente:

1. Lee el dataset usando `pandas`.
2. Obtén el promedio y la mediana usando tus funciones custom y asígnalas a `promedio_diametro` y `mediana_diametro`.
3. Corre la celda que contiene el código para verificar tus resultados.
4. Responde la pregunta que te regresa la función de verificación.

In [None]:
# 0. Importar las bibliotecas necesarias.
#    - 'numpy' es una biblioteca de Python utilizada para operaciones matemáticas y manejo de arrays.
#    - 'pandas' es una biblioteca de Python utilizada para el análisis y manipulación de datos.
import numpy as np
import pandas as pd

# 1. Definir una función personalizada para calcular el promedio.
#    - 'serie': Argumento que representa la serie de pandas de la cual se quiere calcular el promedio.
#    - La función utiliza 'serie.sum()' para sumar todos los elementos de la serie y 'serie.count()' para contar el número de elementos.
#    - Se retorna la suma dividida por el conteo, lo que da el promedio de la serie.
def promedio_custom(serie):
    return serie.sum() / serie.count()

# 2. Definir una función personalizada para calcular la mediana.
#    - 'serie': Argumento que representa la serie de pandas de la cual se quiere calcular la mediana.
#    - La función primero ordena la serie en orden ascendente.
#    - Luego verifica si el número de elementos es par o impar para determinar cómo calcular la mediana.
#    - Si es par, se toma el promedio de los dos elementos centrales. Si es impar, se toma el elemento central.
def mediana_custom(serie):
    serie_ordenada = serie.sort_values(ascending=True)
    length_of_series = len(serie)
    mid = length_of_series // 2
    if length_of_series % 2 == 0:
        return (serie_ordenada.iloc[mid - 1] + serie_ordenada.iloc[mid]) / 2
    else:
        return serie_ordenada.iloc[mid]

# 3. Cargar el dataset de meteoritos utilizando pandas.
#    - 'pd.read_csv()' se usa para leer el archivo CSV y cargarlo en un DataFrame.
#    - Se utiliza una URL como argumento para acceder directamente al archivo en línea.
df_meteoritos = pd.read_csv('https://raw.githubusercontent.com/beduExpert/B2-Analisis-de-Datos-con-Python-2020/master/Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)

# 4. Calcular el promedio y la mediana del diámetro de los meteoritos utilizando las funciones personalizadas.
#    - Se selecciona la columna 'estimated_diameter.meters.estimated_diameter_max' para calcular el promedio y la mediana.
promedio_diametro = promedio_custom(df_meteoritos['estimated_diameter.meters.estimated_diameter_max'])
mediana_diametro = mediana_custom(df_meteoritos['estimated_diameter.meters.estimated_diameter_max'])

# 5. Imprimir los resultados para su verificación.
print(f"Promedio del diámetro: {promedio_diametro}")
print(f"Mediana del diámetro: {mediana_diametro}")

Promedio del diámetro: 410.08604223976545
Mediana del diámetro: 215.7943048444


In [None]:
# Pídele al experto la función `verificar_resultados` para que puedas correr la siguiente verificación
def verificar_resultados(df_meteoritos, promedio_diametro, mediana_diametro):
    promedio = df_meteoritos['estimated_diameter.meters.estimated_diameter_max'].mean()
    if promedio_diametro != promedio:
        print(f'El promedio no fue calculado correctamente.')
        print(f'Promedio esperado: {promedio}; Promedio recibido: {promedio_diametro}')
        return


    mediana = df_meteoritos['estimated_diameter.meters.estimated_diameter_max'].median()
    if mediana_diametro != mediana:
        print(f'La mediana no fue calculada correctamente.')
        print(f'Mediana esperada: {mediana}; Mediana recibida: {mediana_diametro}')
        return

    print(f'Los estimados fueron calcualados correctamente.\n')
    print(f'El promedio calculado fue de {promedio_diametro} mientras que la mediana fue de {mediana_diametro}.')
    print(f'¿A qué le atribuyes tú la diferencia?')

verificar_resultados(df_meteoritos, promedio_diametro, mediana_diametro)

Los estimados fueron calcualados correctamente.

El promedio calculado fue de 410.08604223976545 mientras que la mediana fue de 215.7943048444.
¿A qué le atribuyes tú la diferencia?


<details><summary>Solución</summary>

```python
def promedio_custom(serie):
    return serie.sum() / serie.count()
    
def mediana_custom(serie):
    import numpy as np
    
    serie_ordenada = serie.sort_values(ascending=True)
    length_of_series = serie.count()
    
    if length_of_series % 2 == 0:
        bottom =int(length_of_series / 2)
        top = int(bottom + 1)
        return (serie_ordenada.iloc[bottom] + serie_ordenada.iloc[top]) / 2
    else:
        index = int(np.ceil(length_of_series / 2))
        return serie_ordenada.iloc[index]
    
import pandas as pd
df_meteoritos = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)
promedio_diametro = promedio_custom(df_meteoritos['estimated_diameter.meters.estimated_diameter_max'])
mediana_diametro = mediana_custom(df_meteoritos['estimated_diameter.meters.estimated_diameter_max'])
```
    
</details>