In [1]:
# Manipulación de matrices
import pandas as pd
# Operaciones numéricas
import numpy as np

In [None]:
Nombre: Javier de Jesus Chacach Santelel
Carne: 1990-18-11071

El set de datos de **nombres** contiene los registros de la cantidad de personas con un nombre específico, nacidas por año en cada estado de Estados Unidos, desde 1910 hasta 2017.

Pandas permite leer diversos tipos de archivo, como csv, json, xlsx, etc. Usualmente, los datos a utilizar en inteligencia artificial se almacenan en formato csv.

In [2]:
# Leer el archivo nombres.csv y convertirlo en un df
df_base = pd.read_csv('nombres.csv')
# Ver los primeros registros del df
df_base.head()

Unnamed: 0,state,sex,year,name,quantity
0,MO,F,1910,Mary,611
1,MO,F,1910,Helen,313
2,MO,F,1910,Dorothy,270
3,MO,F,1910,Mildred,267
4,MO,F,1910,Ruth,237


In [3]:
# Mostrar información sobre el df creado
df_base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5933561 entries, 0 to 5933560
Data columns (total 5 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   state     object
 1   sex       object
 2   year      int64 
 3   name      object
 4   quantity  int64 
dtypes: int64(2), object(3)
memory usage: 226.3+ MB


## Encontrando a Mary

El primer registro muestra que en el estado `MO` nacieron 611 **mujeres** llamadas _Mary_ durante el año 1910. Ante esto podríamos plantearnos las siguientes interrogantes:

- ¿Hay hombres llamados Mary?
- ¿Cuál es la cantidad de hombres llamados Mary en cada estado?
- ¿Cuál es la cantidad promedio de hombres llamados Mary en cada estado?
- ¿Cuáles son los tres estados donde hay más hombres llamados Mary?

Vamos a resolver dichas interrogantes en el siguiente ejemplo.

Lo primero será obtener todos los registros de hombres llamados Mary en todo el conjunto de datos.

In [4]:
# Las condiciones se definen como muestra el ejemplo
# Almacenamos el resultado del filtro en una nueva variable llamada df_mary
df_mary = df_base[
    (df_base['sex'] == 'M') &
    (df_base['name'] == 'Mary')
]
# Consultamos los primeros cinco registros
df_mary.head()

Unnamed: 0,state,sex,year,name,quantity
76848,MO,M,1913,Mary,6
78179,MO,M,1916,Mary,5
79914,MO,M,1920,Mary,9
80430,MO,M,1921,Mary,7
81976,MO,M,1924,Mary,5


Los datos de `sex` y `name` ya no son relevantes para este set de datos, pues sabemos que todos son `M` y `Mary` respectivamente. Además, ya que no tendremos en cuenta el año para el análisis, tampoco vamos a necesitarlo.

Ya que únicamente necesitamos dos datos para el análisis, podemos crear otro df que contenga únicamente esos dos datos.

In [5]:
# Generar un nuevo df
nuevo_df = df_mary[['state', 'quantity']]
nuevo_df.head()

Unnamed: 0,state,quantity
76848,MO,6
78179,MO,5
79914,MO,9
80430,MO,7
81976,MO,5


### Bonus:

Si quisiéramos saber cuántos hombres Mary han habido en total, podemos generar la sumatoria de forma similar a la estadística descriptiva.

In [6]:
nuevo_df[['quantity']].sum()

quantity    9638
dtype: int64

Ahora que tenemos el set de datos que necesitamos, podemos agrupar la información para realizar el análisis propuesto. Los grupos en un df se crean con el método `groupby`, indicando la serie por la que se desea agrupar.

Una vez se han agrupado, es necesario establecer una función de agregación, que servirá para establecer la forma de manipular los datos no agrupados. Esta agregación se realiza con el método `agg` de un df agrupado, indicando como parámetro la función a utilizar.

In [7]:
# Agrupar por estado utilizando la función sum
estados_df = nuevo_df.groupby('state').agg('sum')
estados_df.head()

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
AL,519
AR,159
AZ,6
CA,540
CO,18


In [8]:
# Consultar todos los registros del nuevo DataFrame
estados_df

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
AL,519
AR,159
AZ,6
CA,540
CO,18
CT,26
DC,51
FL,127
GA,482
IA,35


In [14]:
# Reto:
# Obtener la cantidad promedio de Mary por estado usando estados_df

estados_df = nuevo_df.groupby('state').mean()
estados_df.head()

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
AL,10.38
AR,6.625
AZ,6.0
CA,8.852459
CO,6.0


In [10]:
# Ordenar el set de datos por la mayor cantidad
estados_df.sort_values('quantity', ascending=False)


Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
TX,969
NY,785
PA,668
NC,576
IL,570
OH,543
CA,540
AL,519
GA,482
MS,392


In [11]:
# Reto
# Obtener los 10 registros con la mayor cantidad de Mary

estados_df.nlargest(10, 'quantity')


Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
TX,969
NY,785
PA,668
NC,576
IL,570
OH,543
CA,540
AL,519
GA,482
MS,392


Al utilizar una serie para agrupar un df, esa serie se convierte en el nuevo índice.

In [12]:
# Por ello es posible acceder por estado
estados_df.loc['CA']

quantity    540
Name: CA, dtype: int64

In [13]:
# Para convertir el índice en una columna del df, se puede generar uno nuevo aleatorio con reset_index
# Nota al uso de inplace=True para modificar el df
estados_df.reset_index(inplace=True)
estados_df


Unnamed: 0,state,quantity
0,AL,519
1,AR,159
2,AZ,6
3,CA,540
4,CO,18
5,CT,26
6,DC,51
7,FL,127
8,GA,482
9,IA,35


Finalmente, cualquier df puede ser exportado a diversos formatos. Por ejemplo, exportemos `estados_df` a un archivo de excel.

In [54]:
estados_df.to_excel('estados_mary.xlsx', index=None)