# [Solucion] Pandas y Series de Tiempo


#### Se crea una funcion que va a leer la informacion del dataframe de un archivo.

In [2]:
import pandas as pd
import numpy as np

In [3]:
def getDF(path: str): 
    """Obtiene un Dataframe de un archivo excel y setea la variable 'Year' como un entero
    :param path: String con el path del archivo.

    :return: Dataframe
    """
    try:
        df = pd.read_excel(path)
        df['Year'] = df['Year'].astype('Int64')
    except Exception as e:
        print(f"Error ocurrido: {str(e)}")
    
    return df

### 1. Con este archivo, construir un objeto de series de tiempo con el índice igual al año de los juegos olímpicos

In [16]:
filePath = "Summer-Olympic-medals-1976-to-2008.xlsx"
df = getDF(filePath)

In [20]:
#Esta primera version de la funcion es considerando una columna adicional del DF la 
#cual se convertira en un Pandas Series utilizando el año como indice
def getSeriesObjectv1(df, attrIndex, columnUsage = 'City'):
    """La siguiente funcion crea un objeto de Serie 
    :param df: Dataframe a utilizar
    :param attr: attributo con el que se seteara el indice.
    
    :return: Dataframe
    """
    unqAtrrIndex = list(set(df[attrIndex].values))
    dfIndex = df[[columnUsage]].set_index(df[attrIndex]).drop_duplicates()
    return dfIndex[columnUsage]

getSeriesObjectv1(df, 'Year')

Year
1976       Montreal
NaN             NaN
1980         Moscow
1984    Los Angeles
1988          Seoul
1992      Barcelona
1996        Atlanta
2000         Sydney
2004         Athens
2008        Beijing
Name: City, dtype: object

In [19]:
#En esta segunda version utiliza el DF para solo tener el indice
#y genera una Serie con numeros aleatorios.
def getSeriesObjectv2(df, attrIndex):
    """La siguiente funcion crea un objeto de Serie 
    :param df: Dataframe a utilizar
    :param attr: attributo con el que se seteara el indice.
    
    :return: Dataframe
    """
    unqAtrrIndex = list(set(df[attrIndex].values))
    valueRange = np.random.randint(1,10000,size = len(unqAtrrIndex))
    return pd.Series(valueRange, index = unqAtrrIndex)

getSeriesObject(df, 'Year')

1984    3474
1988    9429
1992    4005
1996    9294
2000    8447
2004     512
2008    2759
1976    4714
1980    5822
NaN     9680
dtype: int64

### 2. Separar nombres de apellidos en dos columnas distintas usando la coma como separador

In [5]:
def getColumnName(df, columnAttr:str, columnSplitted:list, strToSplit = ','):
    """La funcion obtiene un dataframe para poder generar nuevas columnas por medio de un split de otra columna.
    :param columnAttr: Columna que sera spliteada
    :param columnSplitted: Lista de nombre de columnas resultado del split
    :param strToSplit: caracter por medio el que se spliteara, por default es ','
    
    :return: Dataframe
    """
    df[columnSplitted] = df[columnAttr].str.split(strToSplit,1,expand=True)
    return df

#Print de una muestra de 10 registros
getColumnName(df, 'Athlete', ['Apellido','Nombre']).head(10)

Unnamed: 0,City,Year,Sport,Discipline,Event,Athlete,Gender,Country_Code,Country,Event_gender,Medal,Apellido,Nombre
0,Montreal,1976,Aquatics,Diving,3m springboard,"KÖHLER, Christa",Women,GDR,East Germany,W,Silver,KÖHLER,Christa
1,Montreal,1976,Aquatics,Diving,3m springboard,"KOSENKOV, Aleksandr",Men,URS,Soviet Union,M,Bronze,KOSENKOV,Aleksandr
2,Montreal,1976,Aquatics,Diving,3m springboard,"BOGGS, Philip George",Men,USA,United States,M,Gold,BOGGS,Philip George
3,Montreal,1976,Aquatics,Diving,3m springboard,"CAGNOTTO, Giorgio Franco",Men,ITA,Italy,M,Silver,CAGNOTTO,Giorgio Franco
4,Montreal,1976,Aquatics,Diving,10m platform,"WILSON, Deborah Keplar",Women,USA,United States,W,Bronze,WILSON,Deborah Keplar
5,Montreal,1976,Aquatics,Diving,10m platform,"LOUGANIS, Gregory",Men,USA,United States,M,Silver,LOUGANIS,Gregory
6,Montreal,1976,Aquatics,Diving,10m platform,"VAYTSEKHOVSKAYA, Elena",Women,URS,Soviet Union,W,Gold,VAYTSEKHOVSKAYA,Elena
7,Montreal,1976,Aquatics,Diving,3m springboard,"POTTER-MCINGVALE, Cynthia",Women,USA,United States,W,Bronze,POTTER-MCINGVALE,Cynthia
8,Montreal,1976,Aquatics,Diving,10m platform,"DIBIASI, Klaus",Men,ITA,Italy,M,Gold,DIBIASI,Klaus
9,Montreal,1976,Aquatics,Diving,10m platform,"ALEINIK, Vladimir",Men,URS,Soviet Union,M,Bronze,ALEINIK,Vladimir


### 3. Obtener medidas resumen del conjunto de datos. Cuál es el país que ganó más medallas?


In [10]:
dfData = df.set_index('Year')

In [11]:
dfData.T.describe()

Year,1976,1976.1,1976.2,1976.3,1976.4,1976.5,1976.6,1976.7,1976.8,1976.9,...,2008,2008.1,2008.2,2008.3,2008.4,2008.5,2008.6,2008.7,2008.8,2008.9
count,12,12,12,12,12,12,12,12,12,12,...,12,12,12,12,12,12,12,12,12,12
unique,12,12,12,12,12,12,12,12,12,12,...,12,12,12,12,12,12,12,12,12,12
top,Aquatics,Soviet Union,"BOGGS, Philip George",Aquatics,Aquatics,Aquatics,Soviet Union,Aquatics,Klaus,Soviet Union,...,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R,Wrestling Gre-R
freq,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1


In [12]:
# En la descripcion del DF podemos ver que Estados Unidos tiene la mayor cantidad de medallas al ser el valor
# mas top en aparecer.
dfData.describe()

Unnamed: 0,City,Sport,Discipline,Event,Athlete,Gender,Country_Code,Country,Event_gender,Medal,Apellido,Nombre
count,15316,15316,15316,15316,15316,15316,15316,15316,15316,15316,15316,15223
unique,9,28,41,293,11337,2,128,127,3,3,8930,5587
top,Beijing,Aquatics,Athletics,hockey,"PHELPS, Michael",Men,USA,United States,M,Bronze,KIM,Vladimir
freq,2042,2210,1523,817,16,9388,1992,1992,8817,5258,103,113


In [13]:
# Podemos ver que en el conteo, Estados Unidos tiene la mayor cantidad de medallas
df.groupby('Country')['Medal'].count().sort_values(ascending=False)

Country
United States    1992
Soviet Union     1021
Australia         798
Germany           691
China             679
                 ... 
Panama              1
Senegal             1
Sri Lanka           1
Sudan               1
Macedonia           1
Name: Medal, Length: 127, dtype: int64

### 4.Construir una tabla que muestre cuántas medallas obtuvieron los hombres en total en cada año que se realizó el evento.

In [17]:
df[df.Event_gender == 'M'].groupby(['Year', 'Event_gender'])['Event_gender'].count()

Year  Event_gender
1976  M                843
1980  M                854
1984  M                911
1988  M                950
1992  M               1041
1996  M               1029
2000  M               1065
2004  M               1052
2008  M               1072
Name: Event_gender, dtype: int64