¡Saludos, viajero/a de datos! Me alegra que hayas aterrizado en mi rincón digital donde la ciencia de datos se encuentra con la diversión
-
Soy una aficionada de este maravilloso mundo que es el DATA SCIENCE y una exploradora apasionada que se adentra en las profundidades de su universo para encontrar tesoros ocultos.
-
Me considero una "navegante de datos", siempre buscando nuevas aventuras en la vasta extensión de este océano.
-
La creatividad es mi brújula en este viaje de descubrimiento, donde la innovación y la imaginación se unen para crear soluciones únicas.
-
Analítica galáctica: Utilizo mi mente analítica para explorar datos de todas las formas y tamaños, desde pequeños datos hasta big data, en busca de revelaciones cósmicas.
-
Arte de la visualización: Me encanta convertir estadísticas en visualizaciones que cuenten historias increíbles y hagan que mis registros cobren vida.
-
Maestría en Machine Learning: Domino el arte de enseñar a las máquinas a aprender, capacitándolas para predecir el futuro y resolver problemas complejos.
- Lenguajes de Programación: Python, SQL
- Aprendizaje Automático: TensorFlow, scikit-learn, Keras, Reinforcement Learning,
- Procesamiento de Lenguaje Natural: NLTK&CountVectorizer, spaCy&Textacy
- Visualización de Datos: Matplotlib, Seaborn, Plotly, Tableau
- Herramientas de Big Data: Spark, Hadoop, Docker
- Bases de Datos: MySQL, PostgreSQL
Realizamos un análisis de los millonarios existentes y su evolución desde el año 2012 a 2023. Descargamos los datos de la revista Forbes, de Wealth Source y Epdata entre otros sobre las personas más ricas del mundo en los últimos 10 años. Buscamos patrones en las nacionalidades, géneros, edad, industrias... para responder a nuestras hipótesis, ¿qué tienen en común los millonarios? ¿Hay algo que pueda hacer para acercarme más a mi sueño?
Desarrollé un proyecto de machine learning, para determinar la calidad del agua y su potabilidad, con la columna target IS_SAFE, sobre si el agua se considera segura o no. Usé tanto modelos normales (regresion logistica, SVM..) como modelos con técnicas de más complejas de ensembles (XGBOOST, RANDOM FOREST...).
Di una vuelta al modelo supervisado desarrollado en PROYECTO 2, MACHINE LEARNING SOBRE LA CALIDAD DEL AGUA SUPERVISADO, y USE APRENDIZAJE NO SUPERVISADO PARA IDENTIFICAR PATRONES OCULTOS E INFORMACION NUEVA, ASI COMO POSIBLES RELACIONES ENTRE FEATURES QUE NO SE HABIAN CONSIDERADO CON ANTERIORIDAD y poder tomar posibles decisiones de cara a un futuro.
Junto con 3 compañeros, y junto con la empresa RANDBEE CONSULTANTS generamos un modelo de “nowcasting” basado en una técnica de ML para predecir a tiempo real una de las variables socio-económicas (integración de los inmigrantes en el mercado laboral) a partir de “big data” obtenidos de “Google Trends” y de “GDELT” (‘Global Database on Events Location and Tone’).
- Creamos una API con FAST API para extraer los datos de nuestra variable RESPUESTA, cuantificada a partir de datos proporcionados por Eurostat. En concreto, la serie temporal del indicador: Population by sex, age, citizenship and labour status (1 000) -lfsa_pganws, medido como tasa de actividad por sexo; edad y país de nacimiento, que presenta una frecuencia anual. Estos datos están disponibles desde el año 1995.
- Implementamos una API que permitía extraer información sobre vólumenes de consultas de “Google search data” agregadas bajo la forma de “Google Trends” para un conjunto predefinido de “temas” y “categorías” en distintos periodos de tiempo y a determinadas frecuencias temporales.
- Implementamos una API para extraer información sobre “sentiment indicators” a partir de la base de datos GDELT, en forma de “Article tone” y “Topic popularity rate”.
- Construimos (y validamos) un modelo de “nowcasting” usando técnicas de ML (Random Forest, XGBOOST y LSTM neural network) para la variable socioeconómica señalada utilizando los datos the Google Trends y de GDELT previamente extraídos como predictores.
- Habilitamos una API con 4 llamadas (3 LLAMADAS GET Y UNA LLAMADA POST), una que haga llamada desde el histórico y separe en train y test; la siguiente que entrene el modelo, lo guarde en tu ordenador y te muestre su ruta; una tercera que nos extraiga las métricas tras cargar el modelo ya entrenado, obteniendo los datos de test y devuelviendo el clasification report; y una última llamada POST con un PREDICT que carga el modelo y llama a la función predict del modelo pasándole los datos que le has pasado a la llamada.
¡Gracias por visitar mi espacio de datos! Si estás interesado/a en colaborar en proyectos mágicos de ciencia de datos o simplemente quieres charlar sobre el universo de los datos, no dudes en ponerte en contacto conmigo a través de LinkedIn o por correo electrónico en cjimpar@gmail.com.
¡Que la magia de los datos esté siempre contigo! ¡Espero tener la oportunidad de trabajar juntos en emocionantes proyectos de ciencia de datos!