# Pandas
## Herramienta de python para analizar datos. 

In [1]:
import pandas as pd
import numpy as np

# Series
### Estructura para guardar datos. Es un listado de objetos (data) donde cada objeto tiene un indice.
### Se crea usando dos parametros: Data e Indice

In [2]:
data = np.random.randint(0, 100, 10)  # Crear un listado de numeros aleatorios 
indice = range(1, 11)  # Un listado de numeros para "label" los datos.  

In [3]:
serie = pd.Series(data, indice)  # Crear la serie

In [4]:
serie

1     72
2     76
3     83
4     43
5      6
6     81
7     61
8     34
9     29
10     1
dtype: int32

### El indice puede ser cualquier objeto de pandas o python. Por ejemplo un rango de fechas
### Ver https://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases para  una lista de frecuencias

In [5]:
indice_2 = pd.date_range(start="2015-01-01", end="2018-12-31", freq="D")  # Crear un listado de fechas diarias de 4 años
data_2 = np.random.randint(1, 100, len(indice_2))  # Numeros aleatorios para cada fecha

In [6]:
# Crear serie_2 con los nuevos pararametros
serie_2 = pd.Series(data_2, indice_2)

## Para datos grandes es imposible trabajar con los datos visualmente. Hay que usar información sobre los datos y trabajar con los datos indirectamente. 

In [7]:
# Informacion util de datos grandes:
print(str(len(serie_2)) + "\n")  # El largo de la serie
print(serie_2.head())  # Los primeros cinco datos
print("\n")  
print(serie_2.tail())  # Los ultimos cinco datos
print("\n")
print(str(serie_2.mean()) + "\n")  # El valor promedio
print(str(serie_2.median()) + "\n")  # El valor medio
print(serie_2.std())  # La deviacion estandar

1461

2015-01-01    17
2015-01-02    70
2015-01-03    74
2015-01-04    19
2015-01-05    40
Freq: D, dtype: int32


2018-12-27    83
2018-12-28    62
2018-12-29    40
2018-12-30    23
2018-12-31    51
Freq: D, dtype: int32


50.6735112936345

51.0

28.366960147411604


### Uno puede accesar los datos usando "indexing"

In [8]:
print(serie_2[1000])  # El punto de dato numero 1000 
print(serie_2[:366].head())  # Los primeros 365 datos (Mostrando solo los primeros 5)
print(serie_2[365:].head())  # Los datos despues del valor 365 (Mostrando solo los primeros 5)
print(serie_2[:-365].head())  # Los datos excepto los ultimos 365 (Mostrando solo los primeros 5)

98
2015-01-01    17
2015-01-02    70
2015-01-03    74
2015-01-04    19
2015-01-05    40
Freq: D, dtype: int32
2016-01-01    16
2016-01-02    64
2016-01-03    76
2016-01-04    71
2016-01-05    47
Freq: D, dtype: int32
2015-01-01    17
2015-01-02    70
2015-01-03    74
2015-01-04    19
2015-01-05    40
Freq: D, dtype: int32


### Tambien es posible filtar ciertos valores del data.

In [9]:
serie_filtrada = serie_2[serie_2 > 40]  # Crear una nueva solo con los valores mayores a 40. 

## Resampling
### Es posible reorganizar los datos a otras frecuencias y aplicar transformaciones. 

In [10]:
# Crear una nueva serie con los valores sumados de cada mes para los cuatro años
serie_meses = serie_2.resample("M").sum() 
serie_meses.head()

2015-01-31    1339
2015-02-28    1284
2015-03-31    1276
2015-04-30    1359
2015-05-31    1514
Freq: M, dtype: int32

## Ejercicio 1:
### Crear una nuevas series con los valores sumados de cada año y una con los valores promedios

In [12]:
serie_ = serie_2.resample("Y").sum()
serie_3 = serie_2.resample("Y").mean()
print(serie_.head())
print(serie_3.head())

2015-12-31    18172
2016-12-31    18388
2017-12-31    18510
2018-12-31    18964
Freq: A-DEC, dtype: int32
2015-12-31    49.786301
2016-12-31    50.240437
2017-12-31    50.712329
2018-12-31    51.956164
Freq: A-DEC, dtype: float64


### Es posible usar resample con funciones costumizadas. 

In [12]:
# Simple funcion para costumizar una nueva serie. 
# Funciones pueden llegar a ser mucho mas complejas
# La funcion va a actuar en los datos de la serie como si fuera un listado. 


def funcion_a(listado, numero):
    return sum(listado) + numero 

In [13]:
# Crear una serie 
serie_personalizada = serie_2.resample("M").apply(funcion_a, numero=5) 
serie_personalizada.head()

2015-01-31    1306
2015-02-28    1399
2015-03-31    1550
2015-04-30    1556
2015-05-31    1605
Freq: M, dtype: int32

## Groupby
### Parecido a resample pero es util para crear multi-indices

In [14]:
# Crear una serie agrupada por cada mes con el valor promedio de cada año para ese mes. 
serie_promedio = (serie_2.groupby([serie_2.index.year, serie_2.index.month])).mean()

In [15]:
serie_promedio.loc[2015:2018]  # Los primeros seis meses con el valor promedio de cada año.

2015  1     41.967742
      2     49.785714
      3     49.838710
      4     51.700000
      5     51.612903
      6     56.100000
      7     52.258065
      8     50.709677
      9     53.933333
      10    51.000000
      11    39.266667
      12    52.548387
2016  1     50.129032
      2     49.586207
      3     53.419355
      4     56.700000
      5     52.258065
      6     53.300000
      7     50.032258
      8     48.838710
      9     48.766667
      10    47.870968
      11    50.833333
      12    58.322581
2017  1     49.483871
      2     57.285714
      3     58.774194
      4     50.966667
      5     42.645161
      6     50.533333
      7     48.387097
      8     54.870968
      9     41.700000
      10    54.838710
      11    45.766667
      12    49.000000
2018  1     50.290323
      2     51.821429
      3     46.612903
      4     50.233333
      5     58.032258
      6     45.500000
      7     41.967742
      8     55.741935
      9     46.033333
      10  

## Droping
### Es posible remover ciertos indices

In [16]:
# Los primeros seis meses removidos de todos los años.
serie_promedio_drop = serie_promedio.drop(range(1, 7), level=1) 
serie_promedio_drop.loc[2015:2016]


2015  7     52.258065
      8     50.709677
      9     53.933333
      10    51.000000
      11    39.266667
      12    52.548387
2016  7     50.032258
      8     48.838710
      9     48.766667
      10    47.870968
      11    50.833333
      12    58.322581
dtype: float64

In [17]:
# Remover los primeros 6 meses de 2015 (Más complicado)

# Hacer una copia sin 2015
serie_quince = serie_promedio.drop(2015, level=0)

# Hacer los cambios solo a la sub-serie de 2015 y crear el multi-indice
quince = serie_promedio[2015]
quince = quince.drop(range(1, 7))
quince.index = pd.MultiIndex.from_product([[2015], [x for x in range(7, 13)]])

# Agregar la nueva sub-serie (quince) a serie_quince y ponerlas en orden
serie_quince = serie_quince.append(quince)
serie_quince.sort_index(level=0)


2015  7     52.258065
      8     50.709677
      9     53.933333
      10    51.000000
      11    39.266667
      12    52.548387
2016  1     50.129032
      2     49.586207
      3     53.419355
      4     56.700000
      5     52.258065
      6     53.300000
      7     50.032258
      8     48.838710
      9     48.766667
      10    47.870968
      11    50.833333
      12    58.322581
2017  1     49.483871
      2     57.285714
      3     58.774194
      4     50.966667
      5     42.645161
      6     50.533333
      7     48.387097
      8     54.870968
      9     41.700000
      10    54.838710
      11    45.766667
      12    49.000000
2018  1     50.290323
      2     51.821429
      3     46.612903
      4     50.233333
      5     58.032258
      6     45.500000
      7     41.967742
      8     55.741935
      9     46.033333
      10    46.580645
      11    53.433333
      12    50.741935
dtype: float64

## Ejercicio 2
### Crear una nueve serie solo con los meses y los años pares. 

In [18]:
# Utilizar este listado para 
pares = [x for x in range(1, 12) if x % 2]
serie_promedio_pares = serie_promedio.drop(pares, level=1)
serie_promedio_pares = serie_promedio_pares.drop([2016, 2018])
serie_promedio_pares

2015  2     49.785714
      4     51.700000
      6     56.100000
      8     50.709677
      10    51.000000
      12    52.548387
2017  2     57.285714
      4     50.966667
      6     50.533333
      8     54.870968
      10    54.838710
      12    49.000000
dtype: float64

## Ejerecicio 3
### Crear una serie con el valor promedio de cada mes por cada año hasta 2017 que tienen un valor mayor al promedio de 2018
### Mes debe estar en el nivel 0 de la serie. 

In [19]:
# Crear una serie con los promedios a través de los cuatro años. (EJERCICIO)
serie_promedios = (serie_2.groupby([serie_2.index.month, serie_2.index.year])).mean()
# Crear una serie solo con los datos de 2018 (EJERCICIO)
serie_2018 = serie_promedios.drop([2015, 2016, 2017], level=1)
# Crear una serie sin 2018 (EJERCICIO)
serie_sin_2018 = serie_promedios.drop(2018, level=1)


# Utilizar esta funcion para el ejercicio 
def mayor_a_2018(serie_valores, serie_a_comparar):
    """
    serie_valores: Una serie con los valores que queremos comparar
    serie_a_comparar: Una serie de los 12 meses de 2018
    Regresa una serie con las entradas de serie_valores que son mayor a los meses correspondientes de
    serie_a_comparar 
    """
    indices = []
    datos = []
    for k, v in serie_valores.items():
        mes = k[0]
        if v > serie_a_comparar[mes][2018]:
            indices.append(k)
            datos.append(v)
    multi_indice = pd.MultiIndex.from_tuples(indices)
    return pd.Series(data=datos, index=multi_indice)


# Llamar funcion
mayor_a_2018(serie_sin_2018, serie_2018)  # Poner las series creadas aqui

2   2017    57.285714
3   2015    49.838710
    2016    53.419355
    2017    58.774194
4   2015    51.700000
    2016    56.700000
    2017    50.966667
6   2015    56.100000
    2016    53.300000
    2017    50.533333
7   2015    52.258065
    2016    50.032258
    2017    48.387097
9   2015    53.933333
    2016    48.766667
10  2015    51.000000
    2016    47.870968
    2017    54.838710
12  2015    52.548387
    2016    58.322581
dtype: float64

## Trabajando con un file csv. 

In [35]:
# Abrir file y crear serie de file
file = "https://raw.githubusercontent.com/pandolf99/Ejercicios_ciencia_de_datos/master/monthly-car-sales-in-quebec-1960.csv"
serie_carros = pd.read_csv(file, index_col=0, squeeze=True)
# Revisar el principio y el final
print(serie_carros.head())
print(serie_carros.tail())

Month
1960-01     6550.0
1960-02     8728.0
1960-03    12026.0
1960-04    14395.0
1960-05    14587.0
Name: Monthly car sales in Quebec 1960-1968, dtype: float64
Month
1968-09                                  14385.0
1968-10                                  21342.0
1968-11                                  17180.0
1968-12                                  14577.0
Monthly car sales in Quebec 1960-1968        NaN
Name: Monthly car sales in Quebec 1960-1968, dtype: float64


### Los datos reales muchas veces son imperfectos.
### Por ejemplo este no tiene las fechas en el tipo de data de tiempo de pandas y el ultimo indice no es una fecha
### Hay que limpiarlos

In [36]:
# Remover el ultimo indice que no contiene datos
serie_carros = serie_carros.dropna()
# Convertir a tipo de tiempo y cambiar la frecuencia a final de mes
# Usar pad para llenar los indices de final de mes con los valores de principio de mes
serie_carros.index = pd.to_datetime(serie_carros.index)
serie_carros = serie_carros.resample("M").mean()
serie_carros.tail()

Month
1968-08-31    16722.0
1968-09-30    14385.0
1968-10-31    21342.0
1968-11-30    17180.0
1968-12-31    14577.0
Freq: M, Name: Monthly car sales in Quebec 1960-1968, dtype: float64

## Ejercicio 4
### Encontrar los seis meses de cada año con las mayores ventas de cada año y crear una serie de multi_indice

In [38]:
# Agrupar por año para encontrar los mayores valores de cada año
indice = [range(1960, 1969), range(1, 13)]
index = pd.MultiIndex.from_product(indice)
serie_carros.index = index
# Iterar a través de todos los años para encontrar los mayores 6
lista = []
for i in range(1960, 1969):
    s = serie_carros[i].sort_values(ascending=False)
    s2 = s[0:7]
    meses = s2.index
    ind = pd.MultiIndex.from_product([[i], meses])
    s2.index = ind
    lista.append(s2)
serie_6_mayores = pd.concat(lista)
serie_6_mayores.loc[1960:1962]

1960  5     14587.0
      4     14395.0
      6     13791.0
      3     12026.0
      10     9545.0
      7      9498.0
      11     9364.0
1961  5     15926.0
      6     13821.0
      4     13784.0
      11    12759.0
      3     11837.0
      7     11143.0
      10    10015.0
1962  5     20900.0
      4     17010.0
      6     16205.0
      3     15200.0
      11    12256.0
      7     12143.0
      10    11474.0
Name: Monthly car sales in Quebec 1960-1968, dtype: float64

In [None]:
lista = []
for i in range(1960, 1968):
    lista_local = []
    ventas_pasadas = serie_carros[i]
    ventas_actuales = serie_carros[i + 1]
    for ix in range(1, 13):
        if ventas_pasadas[[ix]].values > ventas_actuales[[ix]].values:
            lista_local.append(ventas_actuales[[ix]])
    s = pd.concat(lista_local)
    meses = s.index
    s.index = pd.MultiIndex.from_product([[i+1], meses])
    lista.append(s)
serie_final = pd.concat(lista)
serie_final