# Introducción a la manipulación de datos con Pandas (Parte II)

* Terminar de conocer las estructuras de datos en Pandas
* Comprender el uso de Pandas para la manipulación de grandes volúmenes de datos

In [None]:
import pandas as pd
#1) Cargue el archivo: df_lluvias_archivo = pd.read_csv('<ruta>/pune_1965_to_2002.csv')
#2) Observe cómo viene el archivo
#3) Utilize help si existe un argumento que nos ayude a generar un index con la info del archivo

df_lluvias_archivo = pd.read_csv(r'~/Downloads/archive/pune_1965_to_2002.csv')

* Se trata de mediciones de precipitaciones (en milímetros)
* Existe un total de trece columnas, una para el año y otras doce para cada uno de los meses
* Tiene un índice numérico


In [None]:
df_lluvias_archivo.head()

**Agregaciones en Pandas**

In [None]:
df_lluvias_archivo.sum()

In [None]:
df_lluvias_archivo.sum(axis = 1)

**El método describe**

In [None]:
df_lluvias_archivo.describe().round(1)

In [None]:
df_lluvias_archivo.T.describe().round(1)

### Operaciones sobre Strings

* A menudo, tendremos que trabajar con datos en forma de Strings, es decir cadenas de caracteres o texto. 
* Es muy probable que no tengan el formato requerido
* Pandas provee métodos para manipular Strings masivamente😄

In [None]:
# 1) Descargar el archivo en https://drive.google.com/file/d/1F7ZyhZlyRQ4P4x90OEVlOAWcY3-lv46m/view
# 2) Usen la columna de president y conviertanlo en un pandas Series 
# 3) Luego buscar en la documentación de pandas cómo hacer que los caracteres se vuelvan Mayusculas
# https://pandas.pydata.org/pandas-docs/stable/reference/series.html
# Tambien podemos usar help

Presidentes_archivo = pd.read_csv(r'~/Downloads/us_presidents 2.csv')
Presidentes_nombres = _


In [None]:
# 1) Buscar a todo los presidentes que comienzan (startswith) 'J'
# 2) Separar los presidentes por espacio "split"


### Introducción a Series de Tiempo


* Son **tipos de datos especiales** donde el tiempo toma un rol fundamental.
* Observamos **cambios en los valores** de la variable a lo largo del tiempo.
* Si ignoramos esa **dimensión temporal**, los valores pierden contexto.

Python provee tres tipos de datos relacionados al tiempo:

* **Time stamp o marca de tiempo**: representan un punto en el tiempo. Por ejemplo, fecha y hora.
* **Período**: representan un intervalo de tiempo. Por ejemplo, frecuencia anual, mensual, semanal (semana del año)
* **Duración**: representa una duración medida en tiempo, es el diferencial de un tiempo inicial a uno final. En pocas palabras el diferencial.

In [None]:
#1) Analizar si es necesario usar un criterio de fecha de primero día,mes,año (dayfirst)

fecha = pd.to_datetime('03-01-2020')
fecha


In [None]:
#1) Secuencia de fechas

fin = pd.to_datetime('10/01/2020',dayfirst=True)
fechas_1 = pd.date_range(start=fecha, end=fin)
fechas_1

In [None]:
#1) Genere una frecuencia semanal (W) y luego mensual (M)

fechas_3 = pd.date_range(start= fecha, periods= 8, freq=)
fechas_3

In [None]:
# Ocho meses consecutivos, a partir del mes de inicio:
mes_inicio = fecha.strftime('%Y-%m')
print(mes_inicio)
fechas_4 = pd.period_range(start=mes_inicio, periods=8, freq='M')
print(fechas_4)


**Diferenciales de Tiempo**

In [None]:
cuanto_tiempo = fechas_3[7] - fechas_3[0]
cuanto_tiempo


In [None]:
cuanto_tiempo_meses = fechas_3[7].to_period('M') - fechas_3[0].to_period('M') 
cuanto_tiempo_meses


In [None]:
fechas_3[0]

**Conversión a DateTimeIndex**

In [None]:
fechas_presidentes_orig = Presidentes_archivo['start']
fechas_presidentes_orig

In [None]:
fechas_presidentes = pd.DatetimeIndex(fechas_presidentes_orig)
fechas_presidentes

In [None]:
#¡Listo!  🎉 
#Ya podemos ejecutar operaciones con objetos de tiempo 😄

Serie_presidentes = pd.Series(Presidentes_nombres.values,index=fechas_presidentes)
Serie_presidentes

### Desafio Generico

In [None]:
#1) Buscar aquellos presidentes que abarca de 1850-1999 (Tip:Slicing and loc)
Serie_presidentes

In [None]:
#2 Cargar archivo (https://drive.google.com/file/d/1F3L_igH1kJ_Rx44rKRjRVAtrPMulYRsY/view),
# construir un objeto de series de tiempo con el índice igual al año de los juegos olímpicos

df = pd.read_csv(r'~/Downloads/Summer-Olympic-medals-1976-to-2008.csv',encoding =_)
df1 = pd.DataFrame(df.values, columns = _, index=_)

In [None]:
#3.Construir una tabla que muestre cuántas medallas obtuvieron las mujeres en total en cada año que se realizó el evento.
