<div class="markdown-google-sans">

## <strong>1. Identificación del Problema</strong>
</div>

La migración hacia Estados Unidos es un tema complejo. Cada año [cientos de miles de inmigrantes](https://www.dhs.gov/immigration-statistics/yearbook/2020/table6) entran legalmente al país mencionado, más aquellos que viajan de forma ilegal y que no pueden ser contabilizados. Este proceso de migración ocurre por diversos motivos, como escapar de algún conflicto, factores ambientales, educación, u oportunidades laborales, pero todos se engloban en un mismo concepto: buscar una mejora en la calidad de vida.

Pero, ¿el inmigrante es el único beneficiado por el proceso migratorio?

Existe evidencia sobre los beneficios economicos de la migración. Obviando la parte del migrante que usualmente viaja a otro país para mejorar su calidad de vida y la de su familia, el lugar destino también se ve beneficiado. Los inmigrantes [incrementan el potencial económico](https://www.whitehouse.gov/cea/written-materials/2021/09/17/the-economic-benefits-of-extending-permanent-legal-status-to-unauthorized-immigrants/#:~:text=Immigrants%20also%20make%20an%20important,also%20contribute%20to%20increasing%20productivity.) al aumentar la oferta laboral y contribuyendo en el incremento de la productividad. También se ha demostrado que generan innovación y desarrollo cultural en la zona a la que llegan.

Sabiendo esto, buscamos comprender un poco más la situación de la migración en Estados Unidos, por ejemplo, hacia que estados del país van más inmigrantes, de que país de origen, etc. Específicamente, nos gustaría entender sobre la población latina.

Al hacer un poco de investigación, se encontraron dos estudios con información útil. El primero es un estudio del Pew Research Center titulado "[Key findings about U.S. Immigrants](https://www.pewresearch.org/fact-tank/2020/08/20/key-findings-about-u-s-immigrants/)". En él, se relata que Estados Unidos tiene mas inmigrantes que cualquier otro país del mundo, con más de 40 millones de personas. Para 2018, Mexico fue el top país de origen de población inmigrante,
seguido de China, India, Las Filipinas, y El Salvador. Sin embargo, cuando se habla de regiones, Asia esta proyectado a ser el grupo inmigrante con mayor poblacion en Estados Unidos para el 2055. Finalmente, la mayoria de la poblacion inmigrante vive en California, Texas, y Florida.

Esta información es muy valiosa, pero enfrenta dos problemas: No esta actualizada, y la información no está disponible por estado y país de origen. No podemos, por ejemplo, saber cuantos colombianos hay en California. Para ello, analizamos otros reportes que otorgan información nivel estado, como [este](https://www.pewresearch.org/fact-tank/2020/07/10/hispanics-have-accounted-for-more-than-half-of-total-u-s-population-growth-since-2010/#:~:text=Some%20of%20the%20nation's%20largest,of%20the%20nation's%20Hispanic%20population.), donde se explica que en los estados de New York, New Jersey, Pennsylvania, New Mexico, Rhode Island, y Mississippi, la poblacion latina supero el crecimiento medio poblacional entre 2010 y 2019. Tambien se detalla que, mientras la mitad de los hispanos viven en estados del suroeste, se estan viendo crecimientos poblacionales importantes en estados de otras regiones.

Los datos son valiosos, pero nos encontramos con problemas similares: la informacion no está actualizada, y los datos son de la población hispana, la cuál incluye inmigrantes y no inmigrantes. Por ende, surje la necesidad de buscar datos por nuestros propios medios para poder entender mejor la situación que estamos analizando.


<div class="markdown-google-sans">

## <strong>2. Planteamiento de preguntas</strong>
</div>

En resumen queremos responder las siguientes preguntas:

* ¿Cuántos inmigrantes latinos existen en Estados Unidos, por estado y en total?
* ¿De que país se originan más inmigrantes latinos, por estado y en total?
* ¿Qué estados tienen el mayor porcentaje de inmigrantes latinos con respecto a su población total?
* ¿Cuál ha sido el crecimiento de inmigrantes latinos?
* ¿Algún estado recibe inmigrantes de otra región del mundo de manera significativa (recibe más de otra region que de latinoamérica)?


<div class="markdown-google-sans">

## <strong>3. Colección de Datos</strong>
</div>

Para datos de inmigrantes, una buena opcion es el American Community Survey del Censo de Estados Unidos. Esta es una encuesta que se realiza una vez al año y que contiene datos de número de inmigrantes según país de origen, en distintas geografías. Para ello, el censo cuenta con un API para poder hacer queries muy específicos sobre la información que necesitamos, el cuál usaremos para extraer la información.
La documentación se puede revisar [aquí](https://www.census.gov/programs-surveys/acs/technical-documentation/table-shells.html), mientras que la lista exhaustiva de variables se encuentran en este [link](https://api.census.gov/data/2020/acs/acs5/variables.html).

Al revisar la documentación, encontramos que cada dato que queremos esta almacenado en una variable. Por ejemplo, "B05006_002E" corresponde a la población inmigrante de Europa, mientras que "B05006_150E" nos daría la población inmigrante de México. Con ayuda de la documentación generamos un diccionario que contiene todas las variables que utilizaremos para nuestro API request.


In [90]:
# Definimos diccionario de variables con su respectivo significado

country_codes = {
  'B01001_001E':'Total Population',
  'B05006_001E':'Total Foreign-born',
  'B05006_002E':'Europe',
  'B05006_003E':'Northern Europe',
  'B05006_004E':'Denmark',
  'B05006_005E':'Ireland',
  'B05006_006E':'Norway',
  'B05006_007E':'Sweden',
  'B05006_008E':'United Kingdom (inc. Crown Dependencies)',
  'B05006_009E':'United Kingdom, excluding England and Scotland',
  'B05006_010E':'England',
  'B05006_011E':'Scotland',
  'B05006_012E':'Other Northern Europe',
  'B05006_013E':'Western Europe',
  'B05006_014E':'Austria',
  'B05006_015E':'Belgium',
  'B05006_016E':'France',
  'B05006_017E':'Germany',
  'B05006_018E':'Netherlands',
  'B05006_019E':'Switzerland',
  'B05006_020E':'Other Western Europe',
  'B05006_021E':'Southern Europe',
  'B05006_022E':'Greece',
  'B05006_023E':'Italy',
  'B05006_024E':'Portugal',
  'B05006_025E':'Azores Islands',
  'B05006_026E':'Spain',
  'B05006_027E':'Other Southern Europe',
  'B05006_028E':'Eastern Europe',
  'B05006_029E':'Albania',
  'B05006_030E':'Belarus',
  'B05006_031E':'Bosnia and Herzegovina',
  'B05006_032E':'Bulgaria',
  'B05006_033E':'Croatia',
  'B05006_034E':'Czechoslovakia (includes Czech Republic and Slovakia)',
  'B05006_035E':'Hungary',
  'B05006_036E':'Latvia',
  'B05006_037E':'Lithuania',
  'B05006_038E':'Moldova',
  'B05006_039E':'North Macedonia (Macedonia)',
  'B05006_040E':'Poland',
  'B05006_041E':'Romania',
  'B05006_042E':'Russia',
  'B05006_043E':'Serbia',
  'B05006_044E':'Ukraine',
  'B05006_045E':'Other Eastern Europe',
  'B05006_046E':'Europe, n.e.c.',
  'B05006_047E':'Asia',
  'B05006_048E':'Eastern Asia',
  'B05006_049E':'China',
  'B05006_050E':'China, excluding Hong Kong and Taiwan',
  'B05006_051E':'Hong Kong',
  'B05006_052E':'Taiwan',
  'B05006_053E':'Japan',
  'B05006_054E':'Korea',
  'B05006_055E':'Other Eastern Asia',
  'B05006_056E':'South Central Asia',
  'B05006_057E':'Afghanistan',
  'B05006_058E':'Bangladesh',
  'B05006_059E':'India',
  'B05006_060E':'Iran',
  'B05006_061E':'Kazakhstan',
  'B05006_062E':'Nepal',
  'B05006_063E':'Pakistan',
  'B05006_064E':'Sri Lanka',
  'B05006_065E':'Uzbekistan',
  'B05006_066E':'Other South Central Asia',
  'B05006_067E':'South Eastern Asia',
  'B05006_068E':'Burma',
  'B05006_069E':'Cambodia',
  'B05006_070E':'Indonesia',
  'B05006_071E':'Laos',
  'B05006_072E':'Malaysia',
  'B05006_073E':'Philippines',
  'B05006_074E':'Singapore',
  'B05006_075E':'Thailand',
  'B05006_076E':'Vietnam',
  'B05006_077E':'Other South Eastern Asia',
  'B05006_078E':'Western Asia',
  'B05006_079E':'Armenia',
  'B05006_080E':'Iraq',
  'B05006_081E':'Israel',
  'B05006_082E':'Jordan',
  'B05006_083E':'Kuwait',
  'B05006_084E':'Lebanon',
  'B05006_085E':'Saudi Arabia',
  'B05006_086E':'Syria',
  'B05006_087E':'Turkey',
  'B05006_088E':'Yemen',
  'B05006_089E':'Other Western Asia',
  'B05006_090E':'Asia, n.e.c.',
  'B05006_091E':'Africa',
  'B05006_092E':'Eastern Africa',
  'B05006_093E':'Eritrea',
  'B05006_094E':'Ethiopia',
  'B05006_095E':'Kenya',
  'B05006_096E':'Somalia',
  'B05006_097E':'Uganda',
  'B05006_098E':'Zimbabwe',
  'B05006_099E':'Other Eastern Africa',
  'B05006_100E':'Middle Africa',
  'B05006_101E':'Cameroon',
  'B05006_102E':'Congo',
  'B05006_103E':'Democratic Republic of Congo (Zaire)',
  'B05006_104E':'Other Middle Africa',
  'B05006_105E':'Northern Africa',
  'B05006_106E':'Egypt',
  'B05006_107E':'Morocco',
  'B05006_108E':'Sudan',
  'B05006_109E':'Other Northern Africa',
  'B05006_110E':'Southern Africa',
  'B05006_111E':'South Africa',
  'B05006_112E':'Other Southern Africa',
  'B05006_113E':'Western Africa',
  'B05006_114E':'Cabo Verde',
  'B05006_115E':'Ghana',
  'B05006_116E':'Liberia',
  'B05006_117E':'Nigeria',
  'B05006_118E':'Senegal',
  'B05006_119E':'Sierra Leone',
  'B05006_120E':'Other Western Africa',
  'B05006_121E':'Africa, n.e.c.',
  'B05006_122E':'Oceania',
  'B05006_123E':'Australia and New Zealand Subregion',
  'B05006_124E':'Australia',
  'B05006_125E':'Other Australian and New Zealand Subregion',
  'B05006_126E':'Fiji',
  'B05006_127E':'Micronesia',
  'B05006_128E':'Oceania, n.e.c.',
  'B05006_129E':'Americas',
  'B05006_130E':'Latin America',
  'B05006_131E':'Caribbean',
  'B05006_132E':'Bahamas',
  'B05006_133E':'Barbados',
  'B05006_134E':'Cuba',
  'B05006_135E':'Dominica',
  'B05006_136E':'Dominican Republic',
  'B05006_137E':'Grenada',
  'B05006_138E':'Haiti',
  'B05006_139E':'Jamaica',
  'B05006_140E':'St. Vincent and the Grenadines',
  'B05006_141E':'Trinidad and Tobago',
  'B05006_142E':'West Indies',
  'B05006_143E':'Other Caribbean',
  'B05006_144E':'Central America',
  'B05006_145E':'Belize',
  'B05006_146E':'Costa Rica',
  'B05006_147E':'El Salvador',
  'B05006_148E':'Guatemala',
  'B05006_149E':'Honduras',
  'B05006_150E':'Mexico',
  'B05006_151E':'Nicaragua',
  'B05006_152E':'Panama',
  'B05006_153E':'Other Central America',
  'B05006_154E':'South America',
  'B05006_155E':'Argentina',
  'B05006_156E':'Bolivia',
  'B05006_157E':'Brazil',
  'B05006_158E':'Chile',
  'B05006_159E':'Colombia',
  'B05006_160E':'Ecuador',
  'B05006_161E':'Guyana',
  'B05006_162E':'Peru',
  'B05006_163E':'Uruguay',
  'B05006_164E':'Venezuela',
  'B05006_165E':'Other South America',
  'B05006_166E':'Northern America',
  'B05006_167E':'Canada',
  'B05006_168E':'Other Northern America'
}


El API del censo utiliza algo llamado código FIPS (Federal Information Processing Standard) para codificar cada uno de los estados del país. Por ende, cualquier resultado que arroje datos nivel estatal, contendrá el código FIPS en lugar del nombre del estado.

Utilizando el archivo `state_fips.csv`, podremos interpretar el código FIPS y reemplazarlo con el respectivo nombre del estado.

In [91]:
import csv
import os

csv_filepath = '/content/state_fips.csv'
try:
  with open(csv_filepath, 'r') as f:
    reader = csv.reader(f)
    next(reader)  # Ignoramos headers
    # Generamos diccionario con el respectivo nombre de estado en cada FIPS code
    fips_codes = {row[0]: {'state_name': row[1], 'state_abbreviation': row[2]} for row in reader}
    print("Diccionario generado correctamente")
except FileNotFoundError:
  print(f"No se encontró el archivo '{csv_filepath}' dentro de la carpeta '{os.getcwd()}', por favor verificar que se haya importado correctamente")


Diccionario generado correctamente


Ya que tenemos nuestros diccionarios de ayuda (`country_codes` y `fips_codes`) definiremos una funcion que haga los requests, según el año que necesitemos y las variables que le alimentemos.

In [92]:
import requests

from time import sleep


def generate_data(year, api_key, country_codes):
  foreign_born = dict()
  n = len(country_codes)

  # Loopeamos por cada pais de origen
  for country_code in country_codes:
    country = country_codes[country_code]
    print(f"\rSolicitando datos de {country}, {n-1} países restantes", end='')

    url = f"https://api.census.gov/data/{year}/acs/acs5"
    
    payload = {
        'get': country_code,  # Variable que estamos solicitando (lista completa de variables en https://api.census.gov/data/2020/acs/acs5/variables.html)
        'for': 'state:*',   # Se elige la geografia de estados, con un asterisco para que nos de todos los estados
        'key': api_key
    }

    try:
      r = requests.get(url, payload)
    except:
      print(f"No hay datos para {country}")
      continue

    # El API nos arroja una lista de listas en formato [[valor1, state1], [valor2, state2], ...]
    country_data = r.json()
    
    # Almacenamos los datos en un diccionario
    for row in country_data[1:]:
      fips = row[1]
      pop = row[0]
      state = fips_codes[fips]['state_name']
      
      # Agregamos el estado como un key si no existe en nuestro diccionario completo
      if state not in foreign_born:
        foreign_born[state] = dict()
      
      foreign_born[state][country] = pop
    
    n -= 1
    sleep(0.5)

  print(f"\rListo!")
  return foreign_born

Generamos nuestro primer dataset (2020)

In [None]:
# Generamos nuestra key en https://api.census.gov/data/key_signup.html
api_key = "d8ee5e1b5c2b87231354e491a85d3f5495d94e4b"

# Generamos datos de inmigrantes para 2020
foreign_born_2020 = generate_data(year=2020, api_key=api_key, country_codes=country_codes)

Solicitando datos de Western Europe, 155 países restantes

Tenemos preguntas referentes al crecimiento poblacional de la población inmigrante, por ende sería útil descargar tambien información de 2019.

<strong> Ojo: </strong>Revisando la documentación, pudimos observar que hay ligeros cambios en las variables de este año. Crearemos un nuevo diccionario para poder hacer el request de la data de 2019 de manera correcta.

In [None]:
# Variables que son diferentes en la documentacion de 2019
new_codes = {
  'B05006_004E':'Ireland',
  'B05006_005E':'Denmark',
  'B05006_038E':'North Macedonia (Macedonia)',
  'B05006_039E':'Moldova'
}

# Generamos unos country_codes especificos para 2019, y generamos un nuevo dataset
country_codes_2019 = country_codes.copy()
country_codes_2019.update(new_codes)
foreign_born_2019 = generate_data(year=2019, api_key=api_key, country_codes=country_codes)


Hasta aquí, ya generamos nuestra colección de datos de manera correcta, almacenandola en dos diccionarios: `foreign_born_2020` y `foreign_born_2019`

<div class="markdown-google-sans">

## <strong>4. Análisis Exploratorio de nuestro Dataset</strong>
</div>

Ya tenemos nuestros dos diccionarios con toda la información que necesitamos. Ahora toca convertirlos a dataframes que nos ayudarán a realizar nuestro análisis.

In [None]:
import pandas as pd

df_2020 = pd.DataFrame.from_dict(foreign_born_2020, orient='index')
df_2019 = pd.DataFrame.from_dict(foreign_born_2019, orient='index')

Los datasets contienen información númerica, que representa la población inmigrante según país de origen, en un estado específico (también incluye una variable de la población total del estado). En este caso, las dimensiones de los dataframes son de 52 x 169 (52 estados, 169 geografías/variables). Ya que tenemos en su mayoría datos númericos, facilmente podremos responder nuestras preguntas.

In [None]:
print(df_2020.shape, df_2019.shape)

Al revisar nuestras columnas, todas son de tipo objeto, y los nombres son descriptivos pero extensos en algunos casos. Un primer paso será tomar solamente las columnas que necesitemos, cambiar los headers a un `snake_case` conciso, y cambiar los dtypes a númerico.

In [None]:
# Todas las columnas son de tipo objeto
print("----2020 data----")
df_2020.info()
print("\n----2019 data----")
df_2019.info()

Seleccionamos filas al azar para revisar que datos podemos esperar. Parece ser que el censo nos da información por país (ejemplo: Mexico), por regiones (ejemplo: Latin America), y por continentes (ejemplo: Americas). Podemos revisar la documentación para conocer las agrupaciones exactas.

In [None]:
# Utilizamos option_context para que no nos trunquen columnas
with pd.option_context('display.max_columns', None):
  display(df_2020.sample(5))



En particular, se observa que hay muchísimas columnas con información, mientras que para contestar nuestras preguntas necesitamos datos de inmigrantes de las siguientes geografías:
* Países latinoamericanos
* Total de Latinoamerica
* Totales de otras regiones
* Total general

Por ende, buscaremos eliminar todas las columnas que no cumplan con estos criterios, lo cual reducirá nuestro dataset y lo hará más manejable.

Por otro lado, parece que los estados están siendo utilizados como indices, lo cuál nos causa un poco de ruido. Necesitaremos convertir esos indices a una columna nueva para evitar problemas si queremos concatenar nuestros dataframes.

<div class="markdown-google-sans">

## <strong>5. Limpieza de datos y agregaciones</strong>
</div>

Para poder trabajar cómodamente con nuestro dataset, comenzaremos a realizar las modificaciones que se mencionaron en el apartado anterior. Específicamente, combinaremos los dataframes en uno solo, convertiremos los datos a numerico, y removeremos NANs.

In [None]:
# Combinamos Dataframes
df = pd.concat([df_2020, df_2019], axis=0, keys=['2020', '2019'])

# Convertimos datos de tipo objeto a numerico
df = df.apply(pd.to_numeric)

# Revisamos filas que tengan NANs
df[df.isna().sum(axis=1) > 0]

Al parecer el censo no maneja datos de inmigrantes en Puerto Rico, entonces eliminaremos esas filas.

In [None]:
df.dropna(inplace=True) # Eliminamos NA (los registros de Puerto Rico)

Otras modificaciones necesarias tienen que ver con nuestras columnas. En primer lugar, tenemos un DataFrame con doble índice (año y estado). El primer paso será convertir esos índices a columnas para poder realizar filtros más fácilmente en pasos futuros.

En segundo plano, debemos reducir la dimension de nuestros datos. Tenemos muchas columnas que no necesitaremos y que sería bueno eliminar, aunado a que sería bueno que los nombres de nuestras columnas tengan un nombre más conciso en formato `snake_case`.

In [None]:
# Columnas que queremos mantener, y su nuevo nombre
# Las columnas que mantendremos son las de países latinoamericanos, total de 
# latinoamerica, total de otras regiones, y el total general

rename_cols_map = {
  'Total Population': 'total_pop',
  'Total Foreign-born': 'total_pop_foreign',
  'Europe': 'europe',
  'Northern Europe': 'europe_north',
  'Western Europe': 'europe_west',
  'Southern Europe': 'europe_south',
  'Eastern Europe': 'europe_east',
  'Asia': 'asia',
  'Eastern Asia': 'asia_east',
  'South Central Asia': 'asia_south_central',
  'South Eastern Asia': 'asia_south_east',
  'Western Asia': 'asia_west',
  'Africa': 'africa',
  'Eastern Africa': 'africa_east',
  'Middle Africa': 'africa_middle',
  'Southern Africa': 'africa_south',
  'Western Africa': 'africa_west',
  'Oceania': 'oceania',
  'Americas': 'america',
  'Latin America': 'latin_america',
  'Bahamas': 'bahamas',
  'Barbados': 'barbados',
  'Cuba': 'cuba',
  'Dominica': 'dominica',
  'Dominican Republic': 'dominican_republic',
  'Grenada': 'grenada',
  'Haiti': 'haiti',
  'Jamaica': 'jamaica',
  'St. Vincent and the Grenadines': 'st_vincent_grenadines',
  'Trinidad and Tobago': 'trinidad_tobago',
  'West Indies': 'west_indies',
  'Other Caribbean': 'caribbean_other',
  'Belize': 'belize',
  'Costa Rica': 'costa_rica',
  'El Salvador': 'el_salvador',
  'Guatemala': 'guatemala',
  'Honduras': 'honduras',
  'Mexico': 'mexico',
  'Nicaragua': 'nicaragua',
  'Panama': 'panama',
  'Other Central America': 'central_america_other',
  'Argentina': 'argentina',
  'Bolivia': 'bolivia',
  'Brazil': 'brazil',
  'Chile': 'chile',
  'Colombia': 'colombia',
  'Ecuador': 'ecuador',
  'Guyana': 'guyana',
  'Peru': 'peru',
  'Uruguay': 'uruguay',
  'Venezuela': 'venezuela',
  'Other South America': 'south_america_other'
}

# Nos quedamos con las columnas que queremos
cols_to_keep = list(rename_cols_map.keys())
df = df[cols_to_keep]

# Convertimos indices a columnas
df.reset_index(inplace=True)

# Actualizamos el diccionario con los nuevos nombres, considerando las nuevas columnas de los ex-indices
rename_cols_map.update({'level_0': 'year', 'level_1': 'state'})
df = df.rename(columns = rename_cols_map)

Con la limpieza de datos que hemos hecho, ya podemos empezar a resolver algunas de las preguntas que nos planteamos al inicio del proyecto. Considerando el estado actual del dataset, podemos contestar lo siguiente:
* ¿Cuántos inmigrantes latinos existen en Estados Unidos, por estado y en total?
* ¿Qué estados tienen el mayor porcentaje de inmigrantes latinos con respecto a su población total?

In [None]:
#### ¿Cuántos inmigrantes latinos existen en Estados Unidos, por estado y en total? ####

# Filtramos para ver solamente inmigrantes latinoamericanos, y ordenamos mayor a menor
latinos_by_state = df.copy().loc[df['year'] == '2020', ['state', 'latin_america']]
latinos_by_state.sort_values(by = 'latin_america', ascending=False, inplace=True)

# Total de inmigrantes latinos en el país
latinos_total = latinos_by_state['latin_america'].sum()

try:
  # Le damos formato a los números para que tenga separador de miles y se vea más presentable
  latinos_by_state = latinos_by_state.style.format({'latin_america': '{:,.0f}'})
except ImportError:
  # Para aplicar el "style" se necesita otra librería, se supone que ya debe venir integrada en 
  # Google colab, pero si por alguna razón no está, no realizamos el styling
  pass

# Inmigrantes latinos en Estados Unidos
print(f"En 2020, habia {latinos_total:,.0f} inmigrantes latinos en Estados Unidos")

# Inmigrantes latinos por estado
print("Los números por estado son:")
display(latinos_by_state)

In [None]:
#### ¿Qué estados tienen el mayor porcentaje de inmigrantes latinos con respecto a su población total? ####

# Filtramos para ver solamente inmigrantes latinoamericanos y poblacion total
total_and_latinos = df.copy().loc[df['year'] == '2020', ['state', 'total_pop', 'latin_america']]

# Calculamos proporcion de latinos total
total_latinos = total_and_latinos['latin_america'].sum()
total_pop = total_and_latinos['total_pop'].sum()
latinos_proportion = total_latinos / total_pop

# Calculamos proporcion de inmigrantes latinos con respecto a la poblacion total, para cada estado
total_and_latinos['proportion'] = total_and_latinos['latin_america'] / total_and_latinos['total_pop']
total_and_latinos.drop(['total_pop', 'latin_america'], axis='columns', inplace=True)
total_and_latinos.sort_values(by = 'proportion', ascending=False, inplace=True)

try:
  # Le damos formato a las proporciones
  latinos_proportion_states = total_and_latinos.head().style.format({'proportion': '{:,.2%}'})
except ImportError:
  # Para aplicar el "style" se necesita otra librería, se supone que ya debe venir integrada en 
  # Google colab, pero si por alguna razón no está, no realizamos el styling
  pass

# Proporcion en Estados Unidos
print(f"En 2020, el {latinos_proportion:,.2%} de la población estadounidense eran inmigrantes latinos")

# Proporcion por estado
print("Los estados con mayor porcentaje son:")
display(latinos_proportion_states)

Listo! Con nuestro dataset pudimos responder ambas preguntas fácilmente

<div class="markdown-google-sans">

## <strong>6. Automatización y APIs</strong>
</div>

Nuestro proceso de colección de datos fue realizado mediante el uso del API del censo de Estados Unidos

<div class="markdown-google-sans">

## <strong>7. Transformación, filtración y ordenamiento de datos</strong>
</div>

Para poder resolver nuestras preguntas restantes, es necesario hacer algunas modificaciónes a nuestro dataset. En primer lugar, sería útil modificar las dimensiones de nuestro dataset para convertirlo en formato "largo", de modo que los valores de todas las columnas (excepto `year` y `state`) se almacenen en una sola. A este método también se le conoce como "unpivot".



In [None]:
# Formato largo (muchas filas, pocas columnas)

df_unpivoted = df.copy().melt(id_vars=['year', 'state'], var_name = 'geo_name', value_name = 'population')
print(df_unpivoted.shape)
print(df_unpivoted.info())
display(df_unpivoted.head())

Como se puede observar, cada columna se convirtio en un valor en la nueva columna "geo_name", y cada valor asociado a ese geo_name se escribió en la columna "population". Este formato nos facilitará el trabajo futuro.

Otra transformación que consideramos necesaria es agregar una nueva columna, que nos especifique la "categoria" del valor en la columna `geo_name`. De este forma, podremos saber si `geo_name` hace referencia a un país, a una región, a un continente, etc.

In [None]:
# Funcion para asignarle una categoria a cada variable 

def add_category(value):
  category_map = {
      'totals': {'total_pop', 'total_pop_foreign'},
      'continent': {'europe', 'asia', 'africa', 'oceania', 'america'},
      'region': {
          'latin_america',
          'europe_north', 'europe_west', 'europe_south', 'europe_east',
          'asia_east', 'asia_south_central', 'asia_south_east', 'asia_west',
          'africa_east', 'africa_middle', 'africa_south', 'africa_west'
      },
      'country': {
          'bahamas', 'barbados', 'cuba', 'dominica', 'dominican_republic',
          'grenada', 'haiti', 'jamaica', 'st_vincent_grenadines',
          'trinidad_tobago', 'west_indies', 'caribbean_other', 'belize',
          'costa_rica', 'el_salvador', 'guatemala', 'honduras', 'mexico',
          'nicaragua', 'panama', 'central_america_other', 'argentina',
          'bolivia', 'brazil', 'chile', 'colombia', 'ecuador', 'guyana',
          'peru', 'uruguay', 'venezuela', 'south_america_other'
      }
  }

  for key in category_map:
    if value in category_map[key]:
      return key

  return None

# Creamos la columna de geo_category, para categorizar las geografias
df_unpivoted['geo_category'] = df_unpivoted['geo_name'].map(add_category)


Con esta columna, ya podemos empezar a contestar las preguntas restantes, comencemos con 
* ¿De que país se originan más inmigrantes latinos, por estado y en total?

In [None]:
#### ¿De que país se originan más inmigrantes latinos, por estado y en total? ####

# Filtramos para ver solamente inmigrantes de PAISES latinoamericanos
df_filter = (df_unpivoted['year'] == '2020') & (df_unpivoted['geo_category'] == 'country')
latin_countries = df_unpivoted.copy().loc[df_filter, ['state', 'geo_name', 'population']]

# Total de inmigrantes latinos por país (todo Estados Unidos)
top_countries = latin_countries.groupby('geo_name').sum().sort_values(by='population', ascending = False).head(5)
print("----Países desde donde se originan más inmigrantes----")
display(top_countries)   # El país del que se originan más inmigrantes es México, seguido de El Salvador y Cuba

# Total de inmigrantes latinos por país (por estado)
top_ids = latin_countries.groupby(['state'])['population'].idxmax()
top_countries_states = latin_countries.loc[top_ids]
print("\n\n----País desde donde se originan más inmigrantes, para cada estado----")
display(top_countries_states)   # El país del que se originan más inmigrantes según el estado


El país desde donde se originan más inmigrantes es México, seguido de El Salvador, Cuba, República Dominicana, y Guatemala

Para la información por estado, los países de origen son variados, pero predominan los mencionados anteriormente.


* ¿Cuál ha sido el crecimiento de inmigrantes latinos en Estados Unidos en 2020?

In [None]:
#### ¿Cuál ha sido el crecimiento de inmigrantes latinos? ####

# Filtramos para ver solamente inmigrantes de latinoamerica (total de la region)
df_filter = df_unpivoted['geo_name'] == 'latin_america'
latin_historic = df_unpivoted.copy().loc[df_filter, ['year', 'state', 'geo_name', 'population']]

# Sumamos datos de población por año
latin_historic = latin_historic.groupby(['year', 'geo_name'], as_index=False)['population'].sum()

# Tomamos los valores para cada año
latinos_total_2019 = latin_historic.loc[latin_historic['year'] == '2019']['population'].values[0]
latinos_total_2020 = latin_historic.loc[latin_historic['year'] == '2020']['population'].values[0]

# Calculamos crecimiento
latinos_growth = latinos_total_2020 - latinos_total_2019
latinos_growth_percent = (latinos_growth/latinos_total_2019) # Hubo un decremento en inmigrantes latinos!
print(f"En 2020, los inmigrantes latinos en Estados Unidos disminuyeron en {latinos_growth:,.0f}, lo cuál representa un decremento de {latinos_growth_percent:,.2%} con respecto al año anterior.")


En 2020, los inmigrantes latinos en Estados Unidos disminuyeron en -188,114, lo cuál representa un decremento de -0.85% con respecto al año anterior.


* ¿Algún estado recibe inmigrantes de otra región del mundo de manera significativa (recibe más de otra region que de latinoamérica)?

In [None]:
#### ¿Algún estado recibe inmigrantes de otra región del mundo de manera significativa (recibe más de otra region que de latinoamérica)? ####

# Filtramos para ver solamente inmigrantes de nivel regional (quitamos america ya que esa variable engloba latin_america)
df_filter = (df_unpivoted['geo_category'].isin(['region', 'continent'])) & (df_unpivoted['year'] == '2020') & (df_unpivoted['geo_name'] != 'america')
df_regional = df_unpivoted.copy().loc[df_filter, ['state', 'geo_category', 'geo_name', 'population']]

# Sumamos datos de población por año
df_regional = df_regional.groupby(['geo_name'], as_index=False)['population'].sum()
df_regional.sort_values(by='population', ascending=False).head()

Al revisar la población inmigrante de las otras regiones y continentes, ninguna es mayor a la latina.


<div class="markdown-google-sans">

## <strong>8. Conclusión</strong>
</div>

Nuestro proyecto consistio en hacer un procesamiento de datos de población inmigrante en Estados Unidos. Utilizamos el API del Censo de este país para generar nuestro dataset. Después de un análisis exploratorio de datos, limpieza, y transformaciones, pudimos responder correctamente cada una de las preguntas planteadas al inicio del proyecto.

Utilizamos métodos como filtros con `.loc`, agregaciones con `.sum()` y `.idxmax()`, `group_by`, transformaciones con `map` y `apply`, entre otros.