# Obtención de insights a partir de visualizaciones
## Descripción

Entrenarás y optimizarás diversos modelos de Machine Learning para resolver una problemática específica, detectada en la instancia de entrega anterior. El objetivo es que puedan utilizar modelos de Machine Learning para resolver el problema de una industria o negocio.

## Objetivos generales

Obtener datos de diversas fuentes como APIs o Bases de datos públicas para luego analizarlos mediante el lenguaje Python con el fin de contestar una pregunta de interés para una industria, negocio o proyecto personal. Se deberán utilizar datasets complejos implementando técnicas avanzadas para la limpieza y adquisición de datos

## Objetivos específicos

* Estructurar un problema en función de múltiples pero simples preguntas/hipótesis a responder

* Importar datos crudos de APIs o bases de datos usando Python

* Limpiar y transformar los datos para permitir un posterior análisis

* Contar una historia mediante el análisis exploratorio de datos

## Requisitos base

* **Un notebook (Colab o Jupyter) que debe contener:**
    * **Abstracto con motivación y audiencia:** Descripción de alto nivel de lo que motiva a analizar los datos elegidos y que audiencia se podrá beneficiar de este análisis

    * **Preguntas/hipótesis que queremos responder:** Lista de preguntas que se busca responder mediante el análisis de datos. Bloques de código donde se importan los datos desde una API o base de datos pública y los guarda en un archivo local csv o json. El estudiante puede luego de descargar los datos, comentar este bloque de código

    * **Análisis exploratorio de datos (EDA):** Análisis descriptivo de los datos mediante visualizaciones y herramientas estadísticas.


**Una presentación (PDF; PowerPoint o Google Slides) que debe contener:**
* Abstracto con motivación y audiencia 
* Descripción de alto nivel de lo que motiva a analizar los datos elegidos y que audiencia se podrá beneficiar de este análisis

* Resumen de metadata: resumen de los datos a ser analizados es decir, número de filas/columnas, tipos de variables, etc

* Preguntas hipótesis que queremos responder: Lista de preguntas que se busca responder mediante el análisis de datos

* Visualizaciones ejecutivas que responden nuestras preguntas: utilización de gráficos que responden las preguntas de interés de nuestro proyecto.

* Insights: resumen de hallazgos del proyecto. Aquí consolidamos las respuestas a las preguntas/hipótesis que fuimos contestando con las visualizaciones


## Sugerencias

Es conveniente retomar el dataset trabajado en la primera pre entrega y enriquecerlo (e.g joins, y creación de nuevas columnas) con información proveniente de APIs públicas siempre que se pueda con el fin de practicar las nuevas habilidades adquiridas. Se recomienda retomar la metodología de trabajo y reutilizar algoritmos ya entrenados, de ser necesario.

## Requisitos extra

* Subir el proyecto a Github

## Dont’s

* Utilizar jerga demasiado técnica en la presentación (recordar que la audiencia de la misma son roles ejecutivos)

* Sobrecargar las diapositivas

* Realizar una presentación con más de 12 slides de extensión

# Entrega 1

##  

In [1]:
# Import data

import pandas as pd
import matplotlib.pyplot as plt

file_path = r'C:\Users\camil\OneDrive - Universidad Austral de Chile\datascience1\proyectoDS_parte1\Data_Science_ll\entrega_1\riqueza.csv'

In [2]:
df = pd.read_csv(file_path)
df.head()
#df.info()

Unnamed: 0,id,recording,site,year,month,day,hour,minute,species,songtype,x1,x2,y1,y2,frequency,validated,url,score,site_id,presencia
0,627470889,SMM09557_20231009_185000.wav,P04_SMM09557,2023,10,9,18,50,Theristicus melanopis,Common Song,19.210667,25.461333,796.875,2390.625,12000,present,https://rfcx-streams-production.s3.eu-west-1.a...,0.30846,48814,1
1,627471573,SMM09261_20231010_002000.wav,P02_SMM09261,2023,10,10,2,20,Theristicus melanopis,Common Song,20.330667,26.581333,796.875,2390.625,12000,(not validated),https://rfcx-streams-production.s3.eu-west-1.a...,0.315499,49108,0
2,627471783,SMM09261_20231008_051500.wav,P02_SMM09261,2023,10,8,7,15,Theristicus melanopis,Common Song,31.114667,37.365333,796.875,2390.625,12000,(not validated),https://rfcx-streams-production.s3.eu-west-1.a...,0.40987,49108,0
3,627472803,SMM09687_20231008_022500.wav,P.568_SMM09687,2023,10,8,2,25,Theristicus melanopis,Common Song,48.362667,54.613333,796.875,2390.625,12000,(not validated),https://rfcx-streams-production.s3.eu-west-1.a...,0.336434,48795,0
4,627472806,SMM09261_20231008_003500.wav,P02_SMM09261,2023,10,8,2,35,Theristicus melanopis,Common Song,24.704,30.954667,796.875,2390.625,12000,(not validated),https://rfcx-streams-production.s3.eu-west-1.a...,0.439855,49108,0


In [None]:
# Esto mostrará únicamente las filas que tienen uno o más valores faltantes (NaN o None) en cualquier columna del DataFrame

registros_con_nulos = df[df.isnull().any(axis=1)]
print(registros_con_nulos)


Empty DataFrame
Columns: [id, recording, site, year, month, day, hour, minute, species, songtype, x1, x2, y1, y2, frequency, validated, url, score, site_id, presencia]
Index: []
