# Pandas
## Herramienta de python para analizar datos. 

In [3]:
import pandas as pd
import numpy as np

# Series
### Estructura para guardar datos. Es un listado de objetos (data) donde cada objeto tiene un indice.
### Se crea usando dos parametros: Data e Indice

In [4]:
data = np.random.randint(0, 100, 10)  # Crear un listado de numeros aleatorios 
indice = range(1, 11)  # Un listado de numeros para "label" los datos.  

In [5]:
serie = pd.Series(data, indice)  # Crear la serie

In [6]:
serie

1     26
2      6
3     92
4     98
5     75
6     15
7     84
8     25
9     52
10    85
dtype: int32

### El indice puede ser cualquier objeto de pandas o python. Por ejemplo un rango de fechas
### Ver https://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases para  una lista de frecuencias

In [7]:
indice_2 = pd.date_range(start="2015-01-01", end="2018-12-31", freq="D")  # Crear un listado de fechas diarias de 4 años
data_2 = np.random.randint(1, 100, len(indice_2))  # Numeros aleatorios para cada fecha

In [8]:
# Crear serie_2 con los nuevos pararametros
serie_2 = pd.Series(data_2, indice_2)

## Para datos grandes es imposible trabajar con los datos visualmente. Hay que usar información sobre los datos y trabajar con los datos indirectamente. 

In [9]:
# Informacion util de datos grandes:
print(str(len(serie_2)) + "\n")  # El largo de la serie
print(serie_2.head())  # Los primeros cinco datos
print("\n")  
print(serie_2.tail())  # Los ultimos cinco datos
print("\n")
print(str(serie_2.mean()) + "\n")  # El valor promedio
print(str(serie_2.median()) + "\n")  # El valor medio
print(serie_2.std())  # La deviacion estandar

1461

2015-01-01     4
2015-01-02    99
2015-01-03    71
2015-01-04    55
2015-01-05    48
Freq: D, dtype: int32


2018-12-27    53
2018-12-28    57
2018-12-29    24
2018-12-30    95
2018-12-31    23
Freq: D, dtype: int32


49.42299794661191

49.0

28.61780013262406


## Uno puede accesar los datos usando "indexing"

In [40]:
print(serie_2[1000])  # El punto de dato numero 1000 
print(serie_2[:366].head())  # Los primeros 365 datos (Mostrando solo los primeros 5)
print(serie_2[365:].head())  # Los datos despues del valor 365 (Mostrando solo los primeros 5)
print(serie_2[:-365].head())  # Los datos excepto los ultimos 365 (Mostrando solo los primeros 5)

23
2015-01-01     4
2015-01-02    99
2015-01-03    71
2015-01-04    55
2015-01-05    48
Freq: D, dtype: int32
2016-01-01    85
2016-01-02    65
2016-01-03     1
2016-01-04    79
2016-01-05    68
Freq: D, dtype: int32
2015-01-01     4
2015-01-02    99
2015-01-03    71
2015-01-04    55
2015-01-05    48
Freq: D, dtype: int32


### Tambien es posible filtar ciertos valores del data.
### Se puede usar: <, >, ==, !=

In [25]:
serie_filtrada = serie_2[serie_2 > 40]  # Crear una nueva solo con los valores mayores a 40. 

## Sorting
### Util para acomodar los datos. Uno puede ordenar los indices o los valores. 

In [27]:
serie_ordenada = serie_2.sort_values()
serie_ordenada.head()

2018-03-07    1
2016-10-12    1
2016-08-13    1
2018-11-24    1
2016-08-04    1
dtype: int32

In [28]:
serie_ordenada = serie_2.sort_values(ascending=False)
serie_ordenada.head()

2015-09-21    99
2015-01-02    99
2016-07-15    99
2018-11-17    99
2015-12-04    99
dtype: int32

## Resampling
### Es posible reorganizar los datos a otras frecuencias y aplicar transformaciones. 

In [12]:
# Crear una nueva serie con los valores sumados de cada mes para los cuatro años
serie_meses = serie_2.resample("M").sum()  # Hay que especificar la nueva frecuencia. 
serie_meses.head()

2015-01-31    1542
2015-02-28    1307
2015-03-31    1777
2015-04-30    1402
2015-05-31    1667
Freq: M, dtype: int32

## Ejercicio 1:
### Crear una nuevas series con los valores sumados de cada año y una con los valores promedios

In [13]:
# Hacer ejercicio

### Es posible usar resample con funciones costumizadas. 

In [14]:
# Simple funcion para costumizar una nueva serie. 
# Funciones pueden llegar a ser mucho mas complejas
# La funcion va a actuar en los datos de la serie como si fuera un listado. 


def funcion_a(listado, numero):
    return sum(listado) + numero 

In [15]:
# Crear una serie 
serie_personalizada = serie_2.resample("M").apply(funcion_a, numero=5) 
serie_personalizada.head()

2015-01-31    1547
2015-02-28    1312
2015-03-31    1782
2015-04-30    1407
2015-05-31    1672
Freq: M, dtype: int32

## Groupby
### Parecido a resample pero es util para crear multi-indices

In [16]:
# Crear una serie agrupada por cada mes con el valor promedio de cada año para ese mes. 
serie_promedio = (serie_2.groupby([serie_2.index.year, serie_2.index.month])).mean()

In [17]:
serie_promedio.loc[2015:2018]  # Los primeros seis meses con el valor promedio de cada año.

2015  1     49.741935
      2     46.678571
      3     57.322581
      4     46.733333
      5     53.774194
      6     43.933333
      7     51.032258
      8     46.290323
      9     47.466667
      10    51.838710
      11    40.800000
      12    49.354839
2016  1     47.064516
      2     38.931034
      3     49.354839
      4     47.333333
      5     51.354839
      6     47.166667
      7     49.096774
      8     47.419355
      9     46.633333
      10    52.064516
      11    55.600000
      12    45.193548
2017  1     55.516129
      2     51.571429
      3     44.741935
      4     44.633333
      5     44.129032
      6     48.066667
      7     52.612903
      8     46.548387
      9     47.300000
      10    52.612903
      11    48.900000
      12    50.870968
2018  1     53.580645
      2     59.321429
      3     48.870968
      4     44.833333
      5     49.096774
      6     50.366667
      7     50.935484
      8     56.225806
      9     53.533333
      10  

## Droping
### Es posible remover ciertos indices

In [18]:
# Los primeros seis meses removidos de todos los años.
serie_promedio_drop = serie_promedio.drop(range(1, 7), level=1) 
serie_promedio_drop.loc[2015:2016]

2015  7     51.032258
      8     46.290323
      9     47.466667
      10    51.838710
      11    40.800000
      12    49.354839
2016  7     49.096774
      8     47.419355
      9     46.633333
      10    52.064516
      11    55.600000
      12    45.193548
dtype: float64

In [19]:
# Remover los primeros 6 meses de 2015 (Más complicado)

# Hacer una copia sin 2015
serie_quince = serie_promedio.drop(2015, level=0)

# Hacer los cambios solo a la sub-serie de 2015 y crear el multi-indice
quince = serie_promedio[2015]
quince = quince.drop(range(1, 7))
quince.index = pd.MultiIndex.from_product([[2015], [x for x in range(7, 13)]])

# Agregar la nueva sub-serie (quince) a serie_quince y ponerlas en orden
serie_quince = serie_quince.append(quince)
serie_quince.sort_index(level=0)


2015  7     51.032258
      8     46.290323
      9     47.466667
      10    51.838710
      11    40.800000
      12    49.354839
2016  1     47.064516
      2     38.931034
      3     49.354839
      4     47.333333
      5     51.354839
      6     47.166667
      7     49.096774
      8     47.419355
      9     46.633333
      10    52.064516
      11    55.600000
      12    45.193548
2017  1     55.516129
      2     51.571429
      3     44.741935
      4     44.633333
      5     44.129032
      6     48.066667
      7     52.612903
      8     46.548387
      9     47.300000
      10    52.612903
      11    48.900000
      12    50.870968
2018  1     53.580645
      2     59.321429
      3     48.870968
      4     44.833333
      5     49.096774
      6     50.366667
      7     50.935484
      8     56.225806
      9     53.533333
      10    56.967742
      11    47.666667
      12    50.483871
dtype: float64

## Ejercicio 2
### Crear una nueve serie solo con los meses y los años pares de serie_promedio

In [20]:
# Utilizar este listado para el ejercicio 
pares = [x for x in range(1, 12) if x % 2]  # Listado de numeros pares 
# Remover meses y años pares de serie_promedio

2015  2     46.678571
      4     46.733333
      6     43.933333
      8     46.290323
      10    51.838710
      12    49.354839
2017  2     51.571429
      4     44.633333
      6     48.066667
      8     46.548387
      10    52.612903
      12    50.870968
dtype: float64

## Ejerecicio 3
### Crear una serie con el valor promedio de cada mes por cada año hasta 2017 que tienen un valor mayor al promedio de 2018
### Mes debe estar en el nivel 0 de la serie. 

In [21]:
# Crear una serie con los promedios a través de los cuatro años. (EJERCICIO)
# Crear una serie solo con los datos de 2018 (EJERCICIO)
# Crear una serie sin 2018 (EJERCICIO)


# Utilizar esta funcion para el ejercicio 
def mayor_a_2018(serie_valores, serie_a_comparar):
    """
    serie_valores: Una serie con los valores que queremos comparar
    serie_a_comparar: Una serie de los 12 meses de 2018
    Regresa una serie con las entradas de serie_valores que son mayor a los meses correspondientes de
    serie_a_comparar 
    """
    indices = []
    datos = []
    for k, v in serie_valores.items():
        mes = k[0]
        if v > serie_a_comparar[mes][2018]:
            indices.append(k)
            datos.append(v)
    multi_indice = pd.MultiIndex.from_tuples(indices)
    return pd.Series(data=datos, index=multi_indice)


# Llamar funcion
mayor_a_2018()  # Poner las series creadas aqui

1   2017    55.516129
3   2015    57.322581
    2016    49.354839
4   2015    46.733333
    2016    47.333333
5   2015    53.774194
    2016    51.354839
7   2015    51.032258
    2017    52.612903
11  2016    55.600000
    2017    48.900000
12  2017    50.870968
dtype: float64

## Trabajando con un file csv. 

In [22]:
# Abrir file y crear serie de file
file = "https://raw.githubusercontent.com/pandolf99/Ejercicios_ciencia_de_datos/master/monthly-car-sales-in-quebec-1960.csv"
serie_carros = pd.read_csv(file, index_col=0, squeeze=True)  # Comando para crear una serie de un file
# csv. Se usa index_col para utilizar el nombre que viene en el documento. 
# Revisar el principio y el final
print(serie_carros.head())
print(serie_carros.tail())

Month
1960-01     6550.0
1960-02     8728.0
1960-03    12026.0
1960-04    14395.0
1960-05    14587.0
Name: Monthly car sales in Quebec 1960-1968, dtype: float64
Month
1968-09                                  14385.0
1968-10                                  21342.0
1968-11                                  17180.0
1968-12                                  14577.0
Monthly car sales in Quebec 1960-1968        NaN
Name: Monthly car sales in Quebec 1960-1968, dtype: float64


### Los datos reales muchas veces son imperfectos.
### Por ejemplo este no tiene las fechas en el tipo de data de tiempo de pandas (time_stamp) y el ultimo indice no es una fecha
### Hay que limpiarlos

In [23]:
# Remover el ultimo indice que no contiene datos
serie_carros = serie_carros.dropna()
# Convertir a tipo de tiempo y cambiar la frecuencia a final de mes
# Usar mean para llenar los indices de final de mes con los valores de principio de mes
serie_carros.index = pd.to_datetime(serie_carros.index)
serie_carros = serie_carros.resample("M").mean()
serie_carros.tail()

Month
1968-08-31    16722.0
1968-09-30    14385.0
1968-10-31    21342.0
1968-11-30    17180.0
1968-12-31    14577.0
Freq: M, Name: Monthly car sales in Quebec 1960-1968, dtype: float64

## Ejercicio 4
### Encontrar los seis meses de cada año con las mayores ventas de cada año y crear una serie de multi_indice

In [24]:
# Crear un multi-indice y asignarlo a la serie de carros. 
# Iterar a través de todos los años para encontrar los mayores 6
lista = []
for i in range(1960, 1969):
    # Crear una serie con los valores ordenados de mayor a menor para cada año.
    # Crear otra serie con los primeros seis valores de la serie
    # Salvar los indices (meses) en una variable 
    # Crear un multi-indice con el año y los meses
    # Asignar el indice a la serie creada 
    lista.append()  # Poner serie aqui.
# Pegar las series de la lista
serie_6_mayores = pd.concat(lista)
# Mostrar los años 1960-1962

1960  5     14587.0
      4     14395.0
      6     13791.0
      3     12026.0
      10     9545.0
      7      9498.0
      11     9364.0
1961  5     15926.0
      6     13821.0
      4     13784.0
      11    12759.0
      3     11837.0
      7     11143.0
      10    10015.0
1962  5     20900.0
      4     17010.0
      6     16205.0
      3     15200.0
      11    12256.0
      7     12143.0
      10    11474.0
Name: Monthly car sales in Quebec 1960-1968, dtype: float64

## Ejercicio 5
### Encontrar los meses de cada año (empezando con 1961) que tienen un valor menor al mes correspondiente del año pasado y crear una serie multi-indice. 

In [39]:
lista = []
for i in range(1960, 1968):
    lista_local = []
    # Crear una serie del año pasado y una del año actual (Empezar con 1961 para el actual)
    for ix in range(1, 13):
        if: # Comparar los valores de la serie pasada con los valores de la serie actual. 
            lista_local.append() # Meter en la lista local las entradas de serie que son menores
    # Crear una serie pegando todas las series que pasaron la condición. 
    # Guardar los meses en una variable local 
    # Crear un multi-indice para la serie usando los meses. 
    lista.append() # Meter la serie aqui. 
# Pegar todas las series 
serie_final = pd.concat(lista) 
serie_final

1961  3     11837.0
      4     13784.0
      8      7975.0
1962  9      5568.0
      11    12256.0
1963  3     14405.0
      5     20128.0
      8      8642.0
1964  11    13754.0
      12    11738.0
1965  1     12181.0
1966  2     12760.0
      4     22135.0
      5     20677.0
      6     19933.0
      10    16135.0
      11    17562.0
      12    14720.0
1967  1     12225.0
      2     11608.0
      4     19692.0
      7     14220.0
      8     13434.0
      11    16119.0
      12    13713.0
1968  3     20139.0
      6     21084.0
Name: Monthly car sales in Quebec 1960-1968, dtype: float64