In [None]:
import pandas as pd
import numpy as np

El set de datos de **nombres** contiene los registros de la cantidad de personas con un nombre específico, nacidas por año en cada estado de Estados Unidos, desde 1910 hasta 2017.

Pandas permite leer diversos tipos de archivo, como csv, json, xlsx, etc. Usualmente, los datos a utilizar en inteligencia artificial se almacenan en formato csv.

In [None]:
# Leer el archivo nombres.csv y convertirlo en un df
df_base = pd.read_csv('nombres.csv')
# Ver los primeros registros del df
df_base.head()

In [None]:
# Mostrar información sobre el df creado
df_base.info()

## Encontrando a Mary

El primer registro muestra que en el estado `MO` nacieron 611 **mujeres** llamadas _Mary_ durante el año 1910. Ante esto podríamos plantearnos las siguientes interrogantes:

- ¿Hay hombres llamados Mary?
- ¿Cuál es la cantidad de hombres llamados Mary en cada estado?
- ¿Cuál es la cantidad promedio de hombres llamados Mary en cada estado?
- ¿Cuáles son los tres estados donde hay más hombres llamados Mary?

Vamos a resolver dichas interrogantes en el siguiente ejemplo.

Lo primero será obtener todos los registros de hombres llamados Mary en todo el conjunto de datos.

In [None]:
# Las condiciones se definen como muestra el ejemplo
# Almacenamos el resultado del filtro en una nueva variable llamada df_mary
df_mary = df_base[
    (df_base['sex'] == 'M') &
    (df_base['name'] == 'Mary')
]
# Consultamos los primeros cinco registros
df_mary.head()

Los datos de `sex` y `name` ya no son relevantes para este set de datos, pues sabemos que todos son `M` y `Mary` respectivamente. Además, ya que no tendremos en cuenta el año para el análisis, tampoco vamos a necesitarlo.

Ya que únicamente necesitamos dos datos para el análisis, podemos crear otro df que contenga únicamente esos dos datos.

In [None]:
# Generar un nuevo df
nuevo_df = df_mary[['state', 'quantity']]
nuevo_df.head()

### Bonus:

Si quisiéramos saber cuántos hombres Mary han habido en total, podemos generar la sumatoria de forma similar a la estadística descriptiva.

In [None]:
nuevo_df[['quantity']].sum()

Ahora que tenemos el set de datos que necesitamos, podemos agrupar la información para realizar el análisis propuesto. Los grupos en un df se crean con el método `groupby`, indicando la serie por la que se desea agrupar.

Una vez se han agrupado, es necesario establecer una función de agregación, que servirá para establecer la forma de manipular los datos no agrupados. Esta agregación se realiza con el método `agg` de un df agrupado, indicando como parámetro la función a utilizar.

In [None]:
# Agrupar por estado utilizando la función sum
estados_df = nuevo_df.groupby('state').agg('sum')
estados_df.head()

In [None]:
# Consultar todos los registros del nuevo DataFrame
estados_df

In [None]:
# Reto:
# Obtener la cantidad promedio de Mary por estado usando estados_df


In [None]:
# Ordenar el set de datos por la mayor cantidad
estados_df.sort_values('quantity', ascending=False)

In [None]:
# Reto
# Obtener los 10 registros con la mayor cantidad de Mary

Al utilizar una serie para agrupar un df, esa serie se convierte en el nuevo índice.

In [None]:
# Por ello es posible acceder por estado
estados_df.loc['CA']

In [None]:
# Para convertir el índice en una columna del df, se puede generar uno nuevo aleatorio con reset_index
# Nota al uso de inplace=True para modificar el df
estados_df.reset_index(inplace=True)
estados_df


Finalmente, cualquier df puede ser exportado a diversos formatos. Por ejemplo, exportemos `estados_df` a un archivo de excel.

In [None]:
estados_df.to_excel('estados_mary.xlsx', index=None)