In [2]:
# Manipulación de matrices
import pandas as pd
# Operaciones numéricas
import numpy as np
# creacion de graficos y visualizaciones 
import matplotlib.pyplot as plt

In [5]:
#Pandas permite leer diversos tipos de archivo, como csv, json, xlsx, etc. 
#Usualmente, los datos a utilizar en inteligencia artificial se almacenan en formato csv.

#El set de datos de nombres contiene los registros de la cantidad de personas con un nombre específico, 
#nacidas por año en cada estado de Estados Unidos, desde 1910 hasta 2017.

# Leer el archivo nombres.csv y convertirlo en un df
df_archivo = pd.read_csv('nombres.csv')


In [6]:
# Ver los primeros registros del df
df_archivo.head()

Unnamed: 0,state,sex,year,name,quantity
0,MO,F,1910,Mary,611
1,MO,F,1910,Helen,313
2,MO,F,1910,Dorothy,270
3,MO,F,1910,Mildred,267
4,MO,F,1910,Ruth,237


In [7]:
# Mostrar información sobre el df creado
df_archivo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5933561 entries, 0 to 5933560
Data columns (total 5 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   state     object
 1   sex       object
 2   year      int64 
 3   name      object
 4   quantity  int64 
dtypes: int64(2), object(3)
memory usage: 158.4+ MB


In [7]:
#Encontrando a Mary
#El primer registro muestra que en el estado MO nacieron 611 mujeres llamadas Mary durante el año 1910. 
#Ante esto podríamos plantearnos las siguientes interrogantes:

#¿Hay hombres llamados Mary?
#¿Cuál es la cantidad de hombres llamados Mary en total?
#¿Cuál es la cantidad de hombres llamados Mary en cada estado?
#¿Cuál es la cantidad promedio de hombres llamados Mary en cada estado?
#¿Cuáles son los tres estados donde hay más hombres llamados Mary?
#Obtener los 10 registros con la mayor cantidad de Mary
#Crear un nuevo indice numerico ordenado "nueva columna"
#exportar a diversos formatos la informacion ejemplo "Excel,scv" etc 



#Lo primero será obtener todos los registros de hombres llamados Mary en todo el conjunto de datos.
# Las condiciones se definen como muestra el ejemplo
# Almacenamos el resultado del filtro('sex' y 'name') en una nueva variable llamada df_mary

#¿Hay hombres llamados Mary?
df_mary = df_archivo[
    (df_archivo['sex'] == 'M') &
    (df_archivo['name'] == 'Mary')
]


In [17]:
# Consultamos los primeros cinco registros
df_mary.head(5)

Unnamed: 0,state,sex,year,name,quantity
76848,MO,M,1913,Mary,6
78179,MO,M,1916,Mary,5
79914,MO,M,1920,Mary,9
80430,MO,M,1921,Mary,7
81976,MO,M,1924,Mary,5


In [10]:
# Consultamos todos los registros
df_mary

Unnamed: 0,state,sex,year,name,quantity
76848,MO,M,1913,Mary,6
78179,MO,M,1916,Mary,5
79914,MO,M,1920,Mary,9
80430,MO,M,1921,Mary,7
81976,MO,M,1924,Mary,5
...,...,...,...,...,...
5815488,CT,M,1955,Mary,5
5816465,CT,M,1958,Mary,5
5816806,CT,M,1959,Mary,5
5817816,CT,M,1962,Mary,6


In [8]:
#Los datos de sex y name ya no son relevantes para este set de datos, pues sabemos que todos son M y Mary respectivamente. 
#Además, ya que no tendremos en cuenta el año para el análisis, tampoco vamos a necesitarlo.

#Ya que únicamente necesitamos dos datos para el análisis, 
#podemos crear otro df que contenga únicamente esos dos datos.

#creamos nuevo df solo con la informacion que necesitamos estado:"state" y cantidad:"quantity"
#creamos una lista solo con la informacion necesaria lista = []
nuevo_df_mary = df_mary[['state', 'quantity']]
nuevo_df_mary.head()

Unnamed: 0,state,quantity
76848,MO,6
78179,MO,5
79914,MO,9
80430,MO,7
81976,MO,5


In [12]:
#¿Cuál es la cantidad de hombres llamados Mary en total?
nuevo_df_mary[['quantity']].sum()

quantity    9638
dtype: int64

In [9]:
#¿Cuál es la cantidad de hombres llamados Mary en cada estado?
mary_estados_agrupados_df = nuevo_df_mary.groupby('state').agg('sum')
mary_estados_agrupados_df.head()

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
AL,519
AR,159
AZ,6
CA,540
CO,18


In [24]:
#¿Cuál es la cantidad promedio de hombres llamados Mary en cada estado?
mary_estados_promedio_df = nuevo_df_mary.groupby('state').agg('mean')
mary_estados_promedio_df.head()

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
AL,10.38
AR,6.625
AZ,6.0
CA,8.852459
CO,6.0


In [11]:
#¿Cuáles son los tres estados donde hay más hombres llamados Mary?
mary_estados_agrupados_df.sort_values('quantity', ascending=False).head(3)

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
TX,969
NY,785
PA,668


In [28]:
#obtener los 10 registros con la mayor cantidad de Mary
mary_estados_agrupados_df.sort_values('quantity', ascending=False).head(10)

Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
TX,969
NY,785
PA,668
NC,576
IL,570
OH,543
CA,540
AL,519
GA,482
MS,392


In [32]:
#al utilizar una serie para agrupar un df, esa serie se convierte en el nuevo indice
#por esto es posible acceder al estado 
mary_estados_agrupados_df.loc['CA'] #loc[''] lo usamos para filtrar

quantity    540
Name: CA, dtype: int64

In [18]:
#Crear un nuevo indice numerico ordenado "nueva columna"

#para convertit el indice en una colomna de df
#se puede generar uno nuevo aleatorio con reset

#Nota al uso de "inplace=True" para modificar el df
mary_estados_agrupados_df.reset_index(inplace=True) #creamos un nuevo indice ahora aparece los numeros de las columnas
mary_estados_agrupados_df


Unnamed: 0,state,quantity
0,AL,519
1,AR,159
2,AZ,6
3,CA,540
4,CO,18
5,CT,26
6,DC,51
7,FL,127
8,GA,482
9,IA,35


In [12]:
#exportar a diversos formatos la informacion ejemplo "Excel,scv" etc
#la informacion se guarda en al carpeta raiz del docuento actual 
mary_estados_agrupados_df.to_excel('estados_agrupados_mary.xlsx', index=None)



In [38]:
#Otras preguntas de que podemos resolver utilizando estadisticas en pandas

# ¿Cual es el año con la mayor cantidad de Maries en total?
# ¿Cual es el estado que tiene la menor cantidad de maries en total?
# ¿Cuantas Maries nacieron entre 2000 y el 2010 en total?
# ¿en que año hubo mas Maries en el estado de California?


In [13]:
#optenemos la informacion directamente del archivo porque las otras df trabajan 
#con los datos filtrados solo para hombres

df_mary_todos = df_archivo[
    (df_archivo['name'] == 'Mary')
]



In [14]:
#filtramos los campos de la informacion que necesitamos 'state', 'year','quantity'
mary_anos_df = df_mary_todos[['state', 'year','quantity']]



In [15]:
# ¿Cual es el año con la mayor cantidad de Maries en total?
#ordenamos candidad de registros y sumamos por años 
mary_todos_anos_suma_df = mary_anos_df.groupby('year').agg('sum')

#ordenamos la informacion de mayor a menor 
mary_todos_anos_suma_df.sort_values('quantity', ascending=False).head(1)

Unnamed: 0_level_0,quantity
year,Unnamed: 1_level_1
1921,74132


In [16]:
# ¿Cual es el estado que tiene la menor cantidad de maries en total?

#tomamos los datos que necesitamos 'state' y 'quantity' los grupamos y los sumamos de una vez
estado_mayor_mary_df = df_mary_todos[['state','quantity']].groupby('state').agg('sum')

#ordenamos la informacion de mayor a menor
estado_mayor_mary_df.sort_values('quantity', ascending=False).head(1)



Unnamed: 0_level_0,quantity
state,Unnamed: 1_level_1
PA,292558


In [145]:
# ¿Cuantas Maries nacieron entre 2000 y el 2010 en total?

#usamos el df que tiene los datos de los años "mary_todos_anos_suma_df"
filtro_datos = [2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008,2009,2010]

#mary_todos_anos_suma_df
dff = mary_todos_anos_suma_df.loc[filtro_datos].sum()
dff
                            


quantity    48915
dtype: int64

In [146]:
# Otra forma de saber Cuantas Maries nacieron 
#entre 2000 y el 2010 en total de forma mas practica?
mary_todos_anos_suma_df.loc[2000:2010].sum()

quantity    48915
dtype: int64

In [153]:
# ¿en que año hubo mas Maries en el estado de California?
#solo tomamos el df donde realizamos la suma de los años y ordenamos de mayor a menor
ano_mas_mary_df = mary_todos_anos_suma_df.sort_values('quantity', ascending=False)
ano_mas_mary_df.head(1)

Unnamed: 0_level_0,quantity
year,Unnamed: 1_level_1
1921,74132
