# Repaso pandas

Vamos a trabajar con el dataset que se puede descargar desde este [link](https://www.datos.gob.ar/dataset/turismo-certificado-unico-habilitante-para-circulacion-cuhc---verano/archivo/turismo_176dc4bc-7597-4e9b-850d-0d27bcbca8d0) .

## Fechas

1) Leer el dataset con pandas: Tener en cuenta que hay una columna "fecha_ingreso". ¿ Cómo podemos especificarle a pandas que lea esa columna como una fecha ? Investigar.

Mostrar con ejemplos:

- ¿ Cómo podemos acceder a el día/mes/año de una columna ?
- ¿ Cómo podemos acceder a la semana de el año de una fecha ?
- ¿ Cómo podemos acceder al día de la semana de una fecha ?

Podemos ver en la documentación de pandas, que esta lleno de atributos y funciones de las fechas que podemos utilizar. Por ejemplo, si queremos saber si una fecha corresponde a el primer día del mes: https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.is_month_start.html


In [None]:
import pandas as pd

In [None]:
ruta = "sample_data/certificados-personas-por-fecha-ingreso-provincia-localidad.csv"
df = pd.read_csv(ruta)

In [None]:
type(df["fecha_ingreso"][0])

pandas._libs.tslibs.timestamps.Timestamp

In [None]:
df.fecha_ingreso = pd.to_datetime(df.fecha_ingreso, format="%Y-%m-%d")

In [None]:
df[df.fecha_ingreso.dt.day==1]

Unnamed: 0,fecha_ingreso,destino_provincia,destino_localidad,cantidad_certificados,cantidad_personas
0,2020-12-01,Buenos Aires,Adolfo Gonzáles Chaves,1,2.0
1,2020-12-01,Buenos Aires,Aguas Verdes,5,18.0
2,2020-12-01,Buenos Aires,Alberti,0,
3,2020-12-01,Buenos Aires,Almirante Brown,0,
4,2020-12-01,Buenos Aires,ARRECIFES,1,2.0
...,...,...,...,...,...
170802,2021-03-01,Tucumán,Villa de Leales,0,
170803,2021-03-01,Tucumán,Villa Quinteros,0,
170804,2021-03-01,Tucumán,Yánima,0,
170805,2021-03-01,Tucumán,Yerba Buena,8,13.0


In [None]:
df[(df.fecha_ingreso.dt.day==1) & (df.fecha_ingreso.dt.month==1) & (df.fecha_ingreso.dt.year==2021)]

Unnamed: 0,fecha_ingreso,destino_provincia,destino_localidad,cantidad_certificados,cantidad_personas
58187,2021-01-01,Buenos Aires,Adolfo Gonzáles Chaves,56,106.0
58188,2021-01-01,Buenos Aires,Aguas Verdes,258,565.0
58189,2021-01-01,Buenos Aires,Alberti,8,22.0
58190,2021-01-01,Buenos Aires,Almirante Brown,57,110.0
58191,2021-01-01,Buenos Aires,ARRECIFES,15,40.0
...,...,...,...,...,...
60059,2021-01-01,Tucumán,Villa de Leales,0,
60060,2021-01-01,Tucumán,Villa Quinteros,0,
60061,2021-01-01,Tucumán,Yánima,0,
60062,2021-01-01,Tucumán,Yerba Buena,0,


2) ¿ Qué significan cada una de las columnas ? Imprimir las primeras 5, las útlimas 5 y un sampleo de 5 filas random.

3) ¿ Cuántas filas y columnas tiene el dataset ?

4) ¿ Cuántos valores nulos hay en cada columna ?

5) ¿ Qué porcentaje de valores nulos hay en cada columna ?

6) ¿ Cuántos valores distintos encontramos en la variable destino_provincia ? ¿Y en destino_localidad ?

7) Convertir los valores de la columna destino_provincia a minúsculas

8) Calcular la media y mediana de la columna cantidad_personas

9) Completar los nulos de la columna cantidad_personas con la mediana y calcular nuevamente la media de la columna. ¿ Cómo varió con respecto a el punto 8) ?

10) ¿ Cuál es la fecha mínima de ingreso ? ¿ Y la máxima ?

11) ¿ Cuántos certificados se emitieron en Febrero de 2021 ?

12) Crear una función que se llame remove_spaces() que reciba como parámetro un string y retorne el mismo string sin espacios.

13) Utilizando apply(), aplicar la función remove_spaces sobre la columna destino_localidad del DataFrame.

14) Agrupar los datos por destino_provincia y obtener:
  - Cantidad total de certificados emitidos
  - Cantidad total de personas que lo solicitaron
  - Fecha de el último certificado emitido

15) ¿ Cuál es la provincia que más certificados emitidos tuvo en Enero de 2021 ?


16) Crear una columna nueva que contenga el mes de la fecha.
- Agrupar por esta columna y obtener la sumatoria de la cantidad de certificados por mes


3) ¿ Cuántas filas y columnas tiene el dataset ?

In [None]:
df.shape

(170807, 5)

4) ¿ Cuántos valores nulos hay en cada columna ?

In [None]:
df.isna().sum()

fecha_ingreso            0.000000
destino_provincia        0.000000
destino_localidad        0.000000
cantidad_certificados    0.000000
cantidad_personas        0.502866
dtype: float64

5) ¿ Qué porcentaje de valores nulos hay en cada columna ?

In [None]:
df.isna().sum()/len(df)

6) ¿ Cuántos valores distintos encontramos en la variable destino_provincia ? ¿Y en destino_localidad ?

In [None]:
df["destino_provincia"].unique()

array(['Buenos Aires', 'Catamarca', 'Chubut', 'Cordoba', 'Entre Rios',
       'Jujuy', 'La Rioja', 'Mendoza', 'Misiones', 'Neuquén', 'Rio Negro',
       'Salta', 'San Juan', 'San Luis', 'Santa Fe', 'Tierra Del Fuego',
       'Tucumán'], dtype=object)

In [None]:
df["destino_provincia"].nunique()

17

7) Convertir los valores de la columna destino_provincia a minúsculas

In [None]:
df["destino_provincia"].str.lower()

0         buenos aires
1         buenos aires
2         buenos aires
3         buenos aires
4         buenos aires
              ...     
170802         tucumán
170803         tucumán
170804         tucumán
170805         tucumán
170806         tucumán
Name: destino_provincia, Length: 170807, dtype: object

8) Calcular la media y mediana de la columna cantidad_personas

In [None]:
df["cantidad_personas"].mean().round(1)

124.2

In [None]:
df["cantidad_personas"].median().round(1)

13.0

9) Completar los nulos de la columna cantidad_personas con la mediana y calcular nuevamente la media de la columna. ¿ Cómo varió con respecto a el punto 8) ?

In [None]:
mediana = df["cantidad_personas"].median().round(1)
df["cantidad_personas_replace_mediana"] = df["cantidad_personas"].fillna(mediana)

In [None]:
df["cantidad_personas_replace_mediana"].mean().round(1)

68.3

In [None]:
df["cantidad_personas_replace_mediana"].median().round(1)

13.0

In [None]:
df.isna().sum()/len(df)

fecha_ingreso                        0.000000
destino_provincia                    0.000000
destino_localidad                    0.000000
cantidad_certificados                0.000000
cantidad_personas                    0.502866
cantidad_personas_replace_mediana    0.000000
dtype: float64

10) ¿ Cuál es la fecha mínima de ingreso ? ¿ Y la máxima ?

In [None]:
fecha_min = df["fecha_ingreso"].min()
fecha_min

Timestamp('2020-12-01 00:00:00')

In [None]:
fecha_max = df["fecha_ingreso"].max()
fecha_max

Timestamp('2021-03-01 00:00:00')

11) ¿ Cuántos certificados se emitieron en Febrero de 2021 ?

In [None]:
df[(df.fecha_ingreso.dt.month==2) & (df.fecha_ingreso.dt.year==2021)]["cantidad_certificados"].sum()

1772938

12) Crear una función que se llame remove_spaces() que reciba como parámetro un string y retorne el mismo string sin espacios.

In [None]:
def remove_spaces(string:str)->str:
    sin_espacios = string.replace(" ","")
    return sin_espacios

13) Utilizando apply(), aplicar la función remove_spaces sobre la columna destino_localidad del DataFrame.

In [None]:
df["destino_localidad_sin_espacios"] = df["destino_localidad"].apply(remove_spaces)

14) Agrupar los datos por destino_provincia y obtener:

Cantidad total de certificados emitidos
Cantidad total de personas que lo solicitaron
Fecha de el último certificado emitido

In [None]:
df_agrupado = df.copy()

In [None]:
df_agrupado = df.copy()
df_agrup = df_agrupado.groupby("destino_provincia").agg({"cantidad_certificados": "sum", "cantidad_personas": "sum", "fecha_ingreso": "max"})
df_agrup["cantidad_certificados"].sort_values(ascending=False)

15) ¿ Cuál es la provincia que más certificados emitidos tuvo en Enero de 2021 ?

In [None]:
df_agrup["cantidad_certificados"].sort_values(ascending=False)

destino_provincia
Buenos Aires        2330732
Cordoba              719798
Entre Rios           369029
Rio Negro            277503
Neuquén              258247
Mendoza              177552
Salta                157361
San Luis             133134
Chubut               120916
Santa Fe             116524
Jujuy                104528
Catamarca             90422
Misiones              55752
Tucumán               52508
San Juan              51721
Tierra Del Fuego      31581
La Rioja              30670
Name: cantidad_certificados, dtype: int64

16) Crear una columna nueva que contenga el mes de la fecha.

Agrupar por esta columna y obtener la sumatoria de la cantidad de certificados por mes

In [None]:
df["mes"] = df.fecha_ingreso.dt.month

In [None]:
df_agrupado_mes = df.groupby("mes").agg({"cantidad_certificados": "sum"})

In [None]:
df_agrupado_mes

Unnamed: 0_level_0,cantidad_certificados
mes,Unnamed: 1_level_1
1,2170308
2,1772938
3,31970
12,1102762
