<div align= "center">

![migracion_img.png](./src/img/migracion_img.png)

<h1>Memoria</h1>
<h2>México y la migración ¿Cuáles son sus causas?</h2>
<h2>EDA - The Bridge 2024 - Data Science </h2>

![migracion_img.png](./src/img/The_bridge_logo.png)

**<h2> Viridiana Espinosa </h2>**


</div>




## [Temario](#1)
-----
1. ###### [Introducción](#introduccion)
2. ###### [Objetivo](#objetivo)
3. ###### [Hipotesis](#hipotesis)
4. ###### [Procedimiento y tratamiento de datos](#procedimiento)
    * ###### [Fuentes](#fuentes)
    * ###### [Librerías](#librerias)
    * ###### [Tratamiento de datos](#tratamiento)
        * ###### [Extracción y lectura de datos](#extraccion)
        * ###### [Limpieza de datos (paso 1)](#limpieza)
        * ###### [Unificación de datos](#unificacion)
        * ###### [Limpieza de datos (paso 2)](#limpieza2)
5. ###### [Inicio del análisis](#analisis)
    * ###### [Cardinalidad y Tipo de variables](#cardinalidad)
6. ###### [Conclusiones](#conclu)

----- 


# Introducción <a id="introduccion"></a>

La migración es un fenómeno complejo que ha afectado a México durante décadas. La historia de la migración mexicana está profundamente entrelazada con factores económicos, sociales y políticos tanto a nivel nacional como internacional. Las causas de la migración pueden variar desde la búsqueda de mejores oportunidades económicas, la reunificación familiar, la violencia y la inseguridad, hasta el acceso a servicios básicos como la educación y la salud. Cada una de estas causas puede influir significativamente en la decisión de emigrar y en el destino final de los migrantes.

# Objetivo <a id="objetivo"></a>

Se busca identificar las distintas motivaciones detrás de la migración mexicana y cómo estas motivaciones influyen en la elección del destino migratorio.

# Hipotésis <a id="hipotesis"></a>

Se asume que la causa de migración determina las razones por la cuales los mexicanos migran a los Estados Unidos Américanos u a otros países. 

# Procedimiento y tratamiento de datos <a id="procedimiento"></a>

### Fuentes <a id="fuentes"></a>

* Se utilizó la fuente de datos del INEGI [INEGI](https://www.inegi.org.mx/programas/ccpv/2020/default.html#tabulados)

# Librerías <a id="librerias"></a>

pandas as pd
numpy as np
matplotlib.pyplot as plt
plotly
os.path 

# Tratamiento de datos <a id="tratamiento"></a>

### Extracción y lectura de datos <a id="extraccion"></a>

* Se crea el código para leer las pestañas del archivo que se van a utilizar, pestañas 05 y 07.
    * En esta parte nos enfrentamoss a dificultades para poder acceder al archivo puesto marcaba un error diciendo que el archivo no se podía encontrar, 
por lo tanto se ha revisado en stack overflow y encontrado una solución que ha funcionado con agregar la letra r al incio.
    * El siguiente reto al que nos encontramos es que el archivo en excel esta bloqueado, así que no podemos ajustar desde el excel directamente, por lo que se tuvo que renombrar las columnas usando métodos de pandas.
    * Nos encontramos un nuevo reto ya que las filas con los títulos estaban concatenadas, así que parecía que necesitaba poner un salto de carro, al final buscando en las librerías y Stack overflow he visto que con el inplace funcionaba el cambio de nombre.
        * Este método se aplica para ambas pestañas en donde se renombran las columnas, por lo cual se ha tenido que utilizar las herramientas de pandas para nombrar las columnas.

### Limpieza de datos <a id="limpieza"></a>
    
* Se comienza verificando si hay Nulos en cada DataFrame se procede a eliminar dichos nulos, se ha notado que las líneas con nulos estaban relacionadas a filas vacías o aquellas columnas que tenían bloqueados los títulos y concatenados.

### Unificación de datos <a id="unificacion"></a>

*En esta sección hacemos la combinación de las tablas 07 y 5. Sin embargo, se observo que una **segunda limpieza** tendría que llevarse acabo*

* Antes de continuar con la limpieza se ha observado que las filas han incrementadp de 1683 en cada tabla a 85833 por lo que se procedió a verificar.
* La solución que se encontró fue crear una nueva columna llamada "Unicode" la cual ayuda a unificar mediante un único valor que tenga como referencia la *Entidad Federativa de residencia actual* y los *Grupos quinquenales de edad* reduciendo las líneas a 5049.
* Revisando más a profundidad, nos percatamos que los datos se están combinando de manera equivocada, por lo que se procedió al análisis del mismo. 
    * El error consistía en que los datos cuando se juntaban se ordenaban de manera diferente, es decir, la tabla 05 se ordenaba por una columna en particular "Grupos Quinquenales" y la tabla 07 "Género" por otra columna, lo que hacía que los totales por línea estuvieran incorrectos. 
    * La solución fue agregar manualmente en Excel un Unicode que concatenará Total, Género y Grupos en ambas tablas y con esto en pandas hemos hecho el "sort_values" en la fórmula para combinar las tablas, corroborado que se haya combinado correctamente al filtrar por grupos y ver si los géneros estaban ordenados de la misma manera y que los importes de totales ambas tablas coincidian.
 
### Limpieza de datos 2 <a id="limpieza2"></a>

* Se verificaron y anularon por segunda vez los nulos. Además se observó que el total de las líneas de cada tabla se redujo de 5049 a 1782 mismas que en la data raw, esta fue otra forma de asegurarse que la unificación de los datos se había hecho de manera correcta.
* Se observó que el total de "No especificados", es decir, el número de migrantes que no tenían asignada una categoría o lugar de residencia creaba una diferencia en el total de ambas tablas, por lo que se procedió a verificar la diferencia entre una tabla y otra y a la tabla con menor importe de migrantes en "No especificados" se añadió la diferencia igualando de esta manera los totales. 
* Una vez unificado el archivo y eliminado duplicados, se procedió a renombrar las columnas para tener una mejor visibilidad de lo que se trataba cada columna.

# Inicio del Análisis <a id="analisis"></a>

* Verificaremos si los motivos que conllevan a la migración de México influyen en que la migración sea en los Estados Unidos de América u en otros países.
* Se verifica cardinalidad de las columnas y se crea tabla como sigue:

|Nombre del campo | Descripción|Tipo de variable|Importancia Inicial | Notas|
------------------|-------------|----------------|--------------------|----------|
Unicode| Indice|índice único||
Entidad_Federativa| Lugar de órigen|Numerica discreta||
Género| Femenino o Masculino|Categorica| 0 |
Grupos_de_edad| Edad habitantes|Numerica discreta| 0|
Total_Causas_Migración| importe total de migración por causa|Numerica continua||
Buscar trabajo| Causa migración|Numerica continua| 1|
Cambio u oferta de trabajo|Causa migración|Numerica continua| 1|
Reunirse con la familia|Causa migración|Numerica continua|3|
Se casó o unió|Causa migración|Numerica continua| 2|
Estudiar|Causa migración|Numerica continua| 1|
Por inseguridad delictiva o violencia|Causa migración|Numerica continua| 1|
Por desastres naturales|Causa migración|Numerica discreta| 3|
Lo deportaron|Causa migración|Numerica discreta| 2|
Otra causa|Causa migración|Numerica continua| 3|
No_especificado_causas|Causa migración que no contiene detalles|Numerica continua| 3|
Total_residen_en_otro_lugar| importe total de habitantes residiendo en otro lugar|Numerica continua| 1|
En otra entidad| Habitantes que residen en el país pero en otro estado que el de órigen|Numerica continua| 3|
En los Estados Unidos de América| Habitantes residiendo en USA|Numerica continua| 1|
En otro país| Habitentes residencia en otro país que no es USA|Numerica continua| 1|
No_especificado_lugar_residencia| Habitantes residiendo en otro lugar pero del que no se tienen detalles de donde|Numerica continua| 3|

* Se comeinzan a elaborar gráficas para el respectivo análisis.
* Nos dimos cuenta que se necesitaban columnas adicionales para el análisis, esto es porque para poder calcular cuanto peso había por categoría vs total de habitantes se tuvo que hacer cálculos adicionales.
    * Con el for nos hemos ayudado a saber que se necesitaba para poder crear una función y si esta funcionaría, por lo cual una vez identificados los datos, se ha continuado con la creación de la función.

# Conclusiones <a id="conclu"></a>

Según el análisis realizado podemos ver que:

##### Migración al exterior

* La cantidad de habitantes que migran de México no esta relacionada con el género puesto que de 6.8M migrantes identificados, son 3.4M de mujeres y 3.4M de hombres relativamente.
* El número de habitantes que migran a los Estados Unidos de América son 0.3M, a otros países son 0.1M y aquellos que migran pero dentro del mismo país son 3.8M. Sin embargo, hay un total de 2.5M migrantes de los cuales no se tienen datos para poder identificar a que lugar emigraron. 
    - Esto quiere decir que un 36% de los migrantes no han indicado su lugar de residencia, mientras que un 5% se tiene identifcado que residen en Estados Unidos de América o en Otros Países.
* En cuanto a género, podemos observar que 0.1M de mujeres migran a Estados Unidos de América, mientras que 0.2M son migrantes de sexo masculino, esto quiere decir que un 70% del total de emigrantes a los Estados Unidos de América (0.3M) son hombres.
* Respecto a los migrantes que residen en otros países que no son los Estados Unidos de América, el total de mujeres que migran son 0.08M, mientras que migrantes masculinos son 0.09M, lo cual indica una proporción más equilibrada en la migración de género, siendo así un 48% de las mujeres y un 52% de hombres.


#### Migración por categorías

* Se ha reflejado que la categoría con más peso respecto a las causas de migración que se tienen registradas en el INEGI están relacionadas con *"Reunirse con la familia"* teniendo un 47.7% de peso en las mujeres y un 37.1% en los hombres.
* La segunda categoría con esta relacionada con *"Buscar trabajo"* teniendo un 14.9% de peso en las mujeres y un 23% en los hombres.
* Finalmente la tercera categoría es diferente entre hombres y mujeres, puesto que:
    - Para mujeres la categoría con más peso esta relacionada con *"Se caso o unió"* con un 13.4% seguido por *"Cambio u oferta de trabajo"* con un 10.5%
    - Mientras que para los hombres la tercera categoría con más peso se relaciona con *"Cambio u oferta de trabajo"* con un 18.3% seguido por *"Se caso o unió"* pero con un porcentaje mucho menor del 7.9% a diferencia de las mujeres.

#### Migración derivado de las causas de migración a USA u otros países

##### Estados Unidos de América
*Respecto a la migración de a los Estados Unidos de América, podemos ver hay 3 categorías principales y curiosamente las mismas tienen proporciones parecidas entre hombres y mujeres:
1. Categoría 1: Reunirse con la familia
* Hombres 82k
* Mujeres 47k
2. Categoría 2: Buscar trabajo
* Hombres 18k
* Mujeres 10k
3. Categoría 3: Cambio u oferta de trabajo
* Hombres 40k
* Mujeres 10k
> En esta sección podemos ver que la parte masculina tienen mayor peso en causas relacionadas con trabajo que las mujeres. Sin embargo, también las mujeres tienen un mayor peso en cuanto a reunirse con la familia se trata con un 55%. 

##### Otros países
*Respecto a la migración de a Otros países, podemos ver hay 3 categorías principales y curiosamente también tienen las mismas tienen proporciones parecidas entre hombres y mujeres:
1. Categoría 1: Reunirse con la familia
* Hombres 29K
* Mujeres 34K
2. Categoría 2: Buscar trabajo
* Hombres 18k
* Mujeres 10k
3. Categoría 3: Cambio u oferta de trabajo
* Hombres 14k
* Mujeres 7k
> Sin embargo a diferencia de los Estados Unidos de América, aquí podemos observar una migración más equilibrada.

> A lo mejor se habrá notado que las estadísticas anteriores en las cuales no estaban segregadas las categorías por lugar de residencia, la tercera categoría con mayor peso para las mujeres era *Se caso o unió* y una vez se ha segregado por lugar de residencia ha pasado desaparecer, esto se debe a que hay datos aportados que no necesarimente tienen el lugar de ubicación, por lo cuál y aunque esto no genera nulos puesto que son cifras cerradas, posiblemente los datos de las mujeres que se unieron o casaron no informaron lugar de residencia, lo que lleva a caer en el comparativo de lugar de residencia vs causas de migración.


Una cosa adicional a notar es que desafortunadamente la causa de migración relacionada con **Estudios** es muy baja, teniendo:
* Estados Unidos de América  
    - Hombres 17
    - Mujeres 7
* Otros países
    - Hombres 6
    - Mujeres 5
- Podemos observar que la diferencia por género es mayor en los Estados Unidos de América que en Otros países donde es más equilibrado.


Una vez analizada toda esta información, se observa que Estados Unidos de América tiene un peso de un 68% (0.3K) de migrantes mexicanos que en otros países con un 32% (0.1K) sobre el importe total identificado de migrantes a otros países de 0.4K. 
Se puede observar que las causas de migración influyen en el país a las que los migrantes van, ya que la mayor causa es por el objetivo de reunirse con su familia con un 37% sobre el total de migrantes (6.8M)
    