# 🐼 Pandas
## La Libreria de Manejo de Datos



In [1]:
import typing

In [2]:
def greeting(name: str) -> str:
    return 'Hello ' + name


<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" alt="Drawing" style="width: 350px;"/>




En esta clase vamos a aprender como usar la libreria de pandas para análisis de datos. Podes pensar a Pandas como una versión extremadamente poderosa de Excel, con un monton más de posibilidades. Los Temas que vamos a ver son los siguientes:

__Crognograma__

* Librerias
* Manejo de Directorio (OS)
* Análisis Introductorio
* Selección de Filas y Columnas
* Filtering, Selección Condicionada
* Reslover NaN Values
* Operaciones con DataFrames
* Concadenar
* Exportar Archivos 
* Gráficos con Pandas
***

Para más información acerca de pandas  te recomendamos que visites estas páginas: 
- [User Guide Pandas]( https://pandas.pydata.org/docs/user_guide/index.html)

- [Tutorial Pandas ](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

## 📕 Introducción a las Librerias
---
Las librerias son básicamente código externo que podemos utilizar. Esto es clave y es una de la razones para usar python. Mientras más famoso un lenguaje mejores librerias uno dispone.  **Pandas es una libreria** que se centra en el manejo de datos, y es lo que vamos a explorar en este notebook . A continuación instalamos algunas librerias. 



In [2]:
#Instalar si es necesario 
# Formato: !pip install Nombre_de_libreria
!pip install numpy
!pip install pandas 



El símbolo **!**  permite ejecutar como si estubieras en la terminal. 

### ☎️ Importar librerias

---

Hay varias formas de importar, pero en general cada librería tiene una forma **tradicional o popular** de importarse, en el sentido de que la mayoría de la gente lo hace de la misma forma. 

In [3]:
# Importando pandas y numpy
import pandas as pd
import numpy as np

## 📁  Lectura de Archivos
---

Vamos a utilizar el archivo pokemon.csv del github. Vamos a utilizar la función **read_csv()**, hay dos formas de indicarle que archivo leer:

*   Dar un link al archivo csv
*   Indicar el "path" al archivo en nuestra computadora

Si uno esta usando colab se esta manejando con la compu de google, la nuestra no la registra google.  



In [5]:
#Leer con URL 
url = "./Datos/delitos_2019 .csv"
df = pd.read_csv(url)

_Fuente:_  
https://data.buenosaires.gob.ar/dataset?page=3

CSV es un tipo especial de archivo. Otros tipos de archivos comunes son: 
- JSON Files
- HTML Files
- SQL Files

Puede probar **pd.read**  y apretar tab para ver otras opciones (en Colab solo tiene que esperar y le va a aparecer mas opciones).

In [None]:
# Ejemplos de funciones para leer datos:
#pd.read_csv()
#pd.read_excel()
#pd.read_html()
#pd.read_json()
#pd.read_sql()
#pd.read_sas()
#pd.read_pickle()

### 🗂️ Manejo de Archivos  (Solo usuarios en Colab)
---

In [6]:
#Inidica los archivos en el directorio actual
!ls 

'1_Introducción a Pandas .ipynb'        data1.csv
 2_Visualizacion_pandas.ipynb	        data2.csv
'3_Series de Tiempo con Pandas.ipynb'   Datos
'4_Visualización con Seaborn.ipynb'


In [None]:
# En google colab puede subir archivos con esta función
from google.colab import files
uploaded = files.upload()

### 📀  Libreria OS (Opcional)
---
Una libreria que le puede interesar para el manejo de Directorios y Paths (Carpetas) es la libreria OS, para mas  infor visite: 
- [Tutorial - OS](https://stackabuse.com/introduction-to-python-os-module/)
- [Youtube - OS ](https://www.youtube.com/watch?v=tJxcKyFMTGo)

Es como usar la **terminal de la computadora**.
Se suele ver cuando se ve notebooks o proyectos de otras personas. 

In [7]:
#Principales Usos:
import os 

# Directorio Actual
print(os.getcwd()) 


# Mostrar Archivos en el directorio Actual
print(os.listdir())

# crear carpeta
os.mkdir('carpeta')
print(os.listdir())

#Cambiar Directorio 
os.chdir('carpeta')
print(os.listdir())

# Cambiar Directorio
os.chdir("../")
print(os.listdir())


# Elimino la Carpeta 
os.rmdir('carpeta')

/home/matias/Desktop/CCA/(3) Pandas & Visualización
['Datos', '4_Visualización con Seaborn.ipynb', 'data2.csv', '2_Visualizacion_pandas.ipynb', '3_Series de Tiempo con Pandas.ipynb', '1_Introducción a Pandas .ipynb', 'data1.csv', '.ipynb_checkpoints']
['Datos', '4_Visualización con Seaborn.ipynb', 'data2.csv', '2_Visualizacion_pandas.ipynb', 'carpeta', '3_Series de Tiempo con Pandas.ipynb', '1_Introducción a Pandas .ipynb', 'data1.csv', '.ipynb_checkpoints']
[]
['Datos', '4_Visualización con Seaborn.ipynb', 'data2.csv', '2_Visualizacion_pandas.ipynb', 'carpeta', '3_Series de Tiempo con Pandas.ipynb', '1_Introducción a Pandas .ipynb', 'data1.csv', '.ipynb_checkpoints']


La función **walk()** de la libreria os realiza un "search" de arriba hacia abajo de todo el sistema de archivos, partiendo desde el path que le indicas. Devuelve un tuple de tamaño 3 indicando el path (dirección), directorios(Carpetas) en ese path, y archivos en ese path, sucesivamente hasta que llega a la útlima carpeta.


In [None]:
for dirpath, dirnames, filnames in os.walk(os.getcwd()):
  print(f"directorio: {dirpath}")
  print(f"Carpetas: {dirnames}")
  print(f"filnames:{filnames}")
  print()

## 📹 Análisis Introductorio
---

### Funciones escenciales para reconocer la data que vamos a manejar:

* **Head**: Por default te devuelve las 5 primerias filas de nuestros data set (el encabezado). si usaramos la funcion .tail() nos mostraria las ultimas 5
* **Shape**: por cuantas filas y columnas esta compuesto nuestro data set
* **Info**: Nos devuelve columna por columna, cual es su 'Type' y cuantos datos son No Nulos. Tambien nos da informacion sobre cuanta memoria RAM estamos utilizando para correr este set de datos
* **Columns**: lista de todas nuestras columnas separadas por ,
* **Describe**: Nos devuelve informacion de estadistica descriptiva de todas las columnas numericas (cantidad de registros no nulos, media, desvio, cuantiles, etc)



In [8]:
df.head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


In [9]:
# Devuelve (filas, columnas)
df.shape

(117661, 10)

In [10]:
#Lista de Columnas
df.columns

Index(['id', 'fecha', 'franja_horaria', 'tipo_delito', 'subtipo_delito',
       'cantidad_registrada', 'comuna', 'barrio', 'lat', 'long'],
      dtype='object')

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117661 entries, 0 to 117660
Data columns (total 10 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   id                   117661 non-null  int64  
 1   fecha                117661 non-null  object 
 2   franja_horaria       117661 non-null  object 
 3   tipo_delito          117661 non-null  object 
 4   subtipo_delito       11676 non-null   object 
 5   cantidad_registrada  117661 non-null  float64
 6   comuna               117064 non-null  float64
 7   barrio               117064 non-null  object 
 8   lat                  117064 non-null  float64
 9   long                 117064 non-null  float64
dtypes: float64(4), int64(1), object(5)
memory usage: 9.0+ MB


In [12]:
#Estadísticas 
round(df.describe(percentiles=(0.01,0.1,0.9,0.99)),2)

Unnamed: 0,id,cantidad_registrada,comuna,lat,long
count,117661.0,117661.0,117064.0,117064.0,117064.0
mean,429709.84,1.0,7.13,-34.61,-58.43
std,33968.25,0.01,4.71,0.03,0.04
min,353583.0,1.0,1.0,-34.7,-58.53
1%,372057.6,1.0,1.0,-34.68,-58.53
10%,382647.0,1.0,1.0,-34.65,-58.49
50%,429711.0,1.0,7.0,-34.61,-58.43
90%,476775.0,1.0,14.0,-34.57,-58.38
99%,487364.4,1.0,15.0,-34.55,-58.36
max,488541.0,2.0,15.0,-34.53,-58.34


In [13]:
df.sample(5)

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
107900,419591,2019-11-29,18,Hurto (sin violencia),,1.0,14.0,Palermo,-34.583171,-58.422295
102901,477651,2019-11-12,16,Robo (con violencia),,1.0,14.0,Palermo,-34.586604,-58.41276
1858,376511,2019-01-06,1,Hurto (sin violencia),,1.0,6.0,Caballito,-34.626766,-58.442564
39178,386352,2019-04-22,13,Hurto (sin violencia),,1.0,1.0,Retiro,-34.586195,-58.372499
94584,413129,2019-10-18,13,Hurto (sin violencia),,1.0,3.0,San Cristóbal,-34.623032,-58.402242


## 👬 Diferencia entre Series y Data Frames
---

Hay una sútil diferencia cuando trabajamos con una **columna (Series)** o multiples (Data Frames).  Como son diferentes objetos, hay cosas que se pueden hacer en uno y en otros no.







In [14]:
print(type(df["comuna"])) # Serie

type(df) # Data Frame

<class 'pandas.core.series.Series'>


pandas.core.frame.DataFrame

### 🦘 Dtype 

Cada Serie tiene **su propio tipo de dato**, denominado **Dtype**, estos son en general:

- int64 (número entero)
- float (número real)
- object (String, texto)
- bool (verdadero o falso)

In [15]:
# Con info() podemos ver el Dtype de cada Serie
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117661 entries, 0 to 117660
Data columns (total 10 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   id                   117661 non-null  int64  
 1   fecha                117661 non-null  object 
 2   franja_horaria       117661 non-null  object 
 3   tipo_delito          117661 non-null  object 
 4   subtipo_delito       11676 non-null   object 
 5   cantidad_registrada  117661 non-null  float64
 6   comuna               117064 non-null  float64
 7   barrio               117064 non-null  object 
 8   lat                  117064 non-null  float64
 9   long                 117064 non-null  float64
dtypes: float64(4), int64(1), object(5)
memory usage: 9.0+ MB


## 🍧 Selección de Filas y Columnas  
---

###  Selección de  Columnas
---

In [16]:
df["barrio"]

0            Nueva Pompeya
1                  Liniers
2                Chacarita
3                 Floresta
4         Parque Patricios
                ...       
117656     Villa Riachuelo
117657               Boedo
117658           Monserrat
117659        Villa Crespo
117660        Villa Lugano
Name: barrio, Length: 117661, dtype: object

In [17]:
#seleccion de multiples columnas
df[["barrio","comuna"]].sample(7)

Unnamed: 0,barrio,comuna
82272,Mataderos,9.0
18334,Constitución,1.0
47285,Caballito,6.0
110627,Palermo,14.0
99051,Villa Crespo,15.0
21665,Flores,7.0
1350,San Nicolás,1.0


### Selección de  Filas y Columnas
---

seleccion con **LOC** , debemos pasarles "Nombres" , es decir, tanto de filas como columnas, indicarle Qué posicion, hasta donde, o a partir de donde, pero siempre pidiendole con el nombre: `colname` o `rowname` tanto de la fila como de la columna `(fila,columna)`

In [None]:
df.loc[:3,:'barrio']

en este caso le pasamos numeros en las "filas" dado que el `ìndex` es el que Pandas nos da por default del 0 hasta n.

Si quisieramos tomar filas en particular, deberiamos pasarlas en forma de Lista`[1,2,10,232]`

In [18]:
df.loc[0:4, "tipo_delito"] 

0                 Lesiones
1     Robo (con violencia)
2                 Lesiones
3    Hurto (sin violencia)
4     Robo (con violencia)
Name: tipo_delito, dtype: object

con **ILOC** buscamos en términos de la `posición` , no le importa el nombre de las filas o columnas.

In [19]:
df.iloc[:6,:5]

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito
0,374556,2019-01-01,12,Lesiones,Siniestro Vial
1,426152,2019-01-01,6,Robo (con violencia),
2,371604,2019-01-01,8,Lesiones,Siniestro Vial
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor
5,431424,2019-01-01,16,Robo (con violencia),


### 🍫  Selección Condicionada
---

**Simbolos y su Sígnificado:**
  
* No   **-**
* Y   **&**
* O   **|**
* son iguales?    **==**
* mayor, menor ... **>, <, >=, <=** 


In [21]:
df.loc[df["barrio"] == "Villa del Parque"].head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
159,451688,2019-01-01,13,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.599154,-58.483507
188,460113,2019-01-01,16,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.602306,-58.489087
215,446396,2019-01-02,22,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.604106,-58.489222
281,431340,2019-01-02,7,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.606146,-58.497404
346,463250,2019-01-02,4,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.601393,-58.48914


¿Que pasa cuando tenemos que pasarle mas de 1 condicion?

In [None]:
df.loc[(df["barrio"] == "Villa del Parque") & 
       (df["tipo_delito"]=='Robo (con violencia)') & 
       (df['subtipo_delito'] == 'Robo Automotor')].head()

si a la seleccion la `asignamos` a alguna variable, con el **LOC** podemos reutilizarla para realizar una sub-seleccion


In [None]:
mask = (df["fecha"] == "2019-12-30") & (df["comuna"]== 11) & -(df["barrio"]=='Villa del Parque')

df.loc[mask, :'barrio'].head()

_Otro ejemplo:_

In [26]:
mask =  (df["barrio"].isin(["Villa Devoto", "Villa Gral. Mitre"]))
df.loc[ mask, : ].head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
14,371693,2019-01-01,7,Lesiones,Siniestro Vial,1.0,11.0,Villa Devoto,-34.589282,-58.519116
24,375762,2019-01-01,13,Lesiones,Siniestro Vial,1.0,11.0,Villa Devoto,-34.603255,-58.524662
63,452436,2019-01-01,8,Robo (con violencia),,1.0,11.0,Villa Devoto,-34.604306,-58.513099
79,440363,2019-01-01,1,Robo (con violencia),,1.0,11.0,Villa Devoto,-34.600628,-58.51247
155,449568,2019-01-01,11,Robo (con violencia),,1.0,11.0,Villa Devoto,-34.608756,-58.514194


## ☕ Index
---

cuando le pedimos a Pandas que nos devuelva los indices de nuestro DF nos va devolver como estan guardados (parecidos los rangos que vimos anteriormente)

In [27]:
df.index

RangeIndex(start=0, stop=117661, step=1)

### 💾 Setear Index

Podemos **Redefinir** el Indice que tuvimos por default utilizando la siguiente funcion:

In [28]:
# le indicamos una columna para que sea el índice

df.set_index("id").head( )

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


In [29]:
df.head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


El cambio que hicimos **no se guardo!** Esto es muy común con pandas.

Cuando hacemos cambios que afectan el dataset los cambios no se suelen guardar. 

Para que los cambios tengan efecto permanente usamos el parámetro `inplace=True`

In [30]:
df.set_index("id", inplace=True)

In [31]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


Ahora si, cuando utilicemos la funcion **LOC** vamos a tener que pasarle el nuevo Index (ya no es mas de 0 a n)

In [32]:
df.loc[425359, : ]

fecha                             2019-01-01
franja_horaria                            16
tipo_delito            Hurto (sin violencia)
subtipo_delito               Hurto Automotor
cantidad_registrada                      1.0
comuna                                  10.0
barrio                              Floresta
lat                               -34.631877
long                              -58.483975
Name: 425359, dtype: object

In [33]:
df.loc[[371604,425359], :]

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975


### 🕰 ReSetear Index
---



In [34]:
df.reset_index().head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


In [35]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


Nos volvio a pasar lo mismo, esto es porque cuando hacemos un `reseteo` del Index, Pandas va a pisar a nuestro indice actual y lo va a eliminar de nuestro DF 

## 🐾 Resolver NaN 
---
Significa Not a Number, es lo que generalmente conocemos como `Nulo, Null` o en excel es simplemente una celda sin datos. 

Es importante que no haya NaN, ya que estos nos pueden generar problemas (existen ciertos algoritmos que pueden sortearlos pero no es recomendable tenerlos).

Hay 3 opciones:
 - Eliminar filas con NaN
 - Eliminar Calumnas con NaN
 - Reemplzar NaN con Otros Valores

### 🔊 Detectar NaN values

In [36]:
# Primer Método
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 117661 entries, 374556 to 486683
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   fecha                117661 non-null  object 
 1   franja_horaria       117661 non-null  object 
 2   tipo_delito          117661 non-null  object 
 3   subtipo_delito       11676 non-null   object 
 4   cantidad_registrada  117661 non-null  float64
 5   comuna               117064 non-null  float64
 6   barrio               117064 non-null  object 
 7   lat                  117064 non-null  float64
 8   long                 117064 non-null  float64
dtypes: float64(4), object(5)
memory usage: 13.0+ MB


In [37]:
#Segundo  Método, Recomendado
df.isnull().sum()
#isna

fecha                       0
franja_horaria              0
tipo_delito                 0
subtipo_delito         105985
cantidad_registrada         0
comuna                    597
barrio                    597
lat                       597
long                      597
dtype: int64

In [38]:
# Ordenamos de mayor a menor
df.isnull().sum().sort_values()

fecha                       0
franja_horaria              0
tipo_delito                 0
cantidad_registrada         0
comuna                    597
barrio                    597
lat                       597
long                      597
subtipo_delito         105985
dtype: int64

### 📴 Eliminar NaN Values
---

Eliminar columnas o eliminar filas? Depende el tipo de data set que tengamos podremos determinar que conviene. Regularmente _**eliminar filas**_ es mucho mas practico, dado que todas las columnas pueden ser de valor, pero...

Cuando tenemos un caso como este, donde una columna tiene casi todos sus registros Nulos, eliminando las filas perderiamos casi todo el potencial del data set, aqui SI conviene _**eliminar una columna**_ que aporta pocos atributos.


In [39]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


In [40]:
#eliminar columna 'Axis=1, Columnas'
df.drop("subtipo_delito",axis=1).head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
374556,2019-01-01,12,Lesiones,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),1.0,4.0,Parque Patricios,-34.633161,-58.397123


Que pasaria si borrasemos todas las filas con `Nulos`??

In [41]:
#Eliminar Filas
y = df.dropna()
print(y.shape, df.shape)

(11324, 9) (117661, 9)


#### Variables Numericas

In [42]:
# Reemplzar valores NaN
df.fillna(df.mean())

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123
...,...,...,...,...,...,...,...,...,...
486770,2019-12-31,18,Robo (con violencia),Robo Automotor,1.0,8.0,Villa Riachuelo,-34.692347,-58.472299
486678,2019-12-31,4,Robo (con violencia),Robo Automotor,1.0,5.0,Boedo,-34.626424,-58.422846
486668,2019-12-31,1,Robo (con violencia),Robo Automotor,1.0,1.0,Monserrat,-34.615892,-58.370573
486750,2019-12-31,14,Robo (con violencia),Robo Automotor,1.0,15.0,Villa Crespo,-34.602577,-58.433145


**Sugerencia:** En estos casos donde hay pocas variables numericas, podemos reemplazar cada una por su propia Media `mean()`

In [43]:
df['long'].fillna(df['long'].mean(), inplace = True)

In [44]:
# Ordenamos de mayor a menor
df.isna().sum().sort_values(ascending=False)

subtipo_delito         105985
comuna                    597
barrio                    597
lat                       597
fecha                       0
franja_horaria              0
tipo_delito                 0
cantidad_registrada         0
long                        0
dtype: int64

Los métodos más comunes para reemplzar NaN son :

- Variables **Continuas** --> Media, Mediana, Modo


- Variables **Categóricas** --> Modo, Su propia Categoría  NaN

Tambíen se pueden usar modelos estadísticos para intentar predecir los valores desconocidos. 

## 🕹Transformación de Variables
---

#### Qué pasa cuando tenemos valores que queremos descartar, pero no son Nan?

In [45]:
df['franja_horaria'].value_counts().tail()

5      2357
2      1965
4      1814
3      1719
S/D       8
Name: franja_horaria, dtype: int64

Nos vamos a guardar los `Index` de todas las filas que contengan ese "S/D" que hace que una columna Numerica sea un String

In [46]:
h = df[(df.franja_horaria == 'S/D')].index

In [47]:
h.unique()

Int64Index([370989, 392384, 449495, 392348, 392639, 449807, 477325, 370978], dtype='int64', name='id')

Como ya sabemos, con la funcion **DROP** vamos a poder eliminar _Filas con NaN_

In [48]:
df.drop(h, inplace = True)

In [49]:
df.franja_horaria.value_counts().tail()

1    2445
5    2357
2    1965
4    1814
3    1719
Name: franja_horaria, dtype: int64

In [50]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 117653 entries, 374556 to 486683
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   fecha                117653 non-null  object 
 1   franja_horaria       117653 non-null  object 
 2   tipo_delito          117653 non-null  object 
 3   subtipo_delito       11674 non-null   object 
 4   cantidad_registrada  117653 non-null  float64
 5   comuna               117057 non-null  float64
 6   barrio               117057 non-null  object 
 7   lat                  117057 non-null  float64
 8   long                 117653 non-null  float64
dtypes: float64(4), object(5)
memory usage: 9.0+ MB


In [51]:
df.franja_horaria = pd.to_numeric(df.franja_horaria).astype('Int64')

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 117653 entries, 374556 to 486683
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   fecha                117653 non-null  object 
 1   franja_horaria       117653 non-null  Int64  
 2   tipo_delito          117653 non-null  object 
 3   subtipo_delito       11674 non-null   object 
 4   cantidad_registrada  117653 non-null  float64
 5   comuna               117057 non-null  float64
 6   barrio               117057 non-null  object 
 7   lat                  117057 non-null  float64
 8   long                 117653 non-null  float64
dtypes: Int64(1), float64(4), object(4)
memory usage: 9.1+ MB


## 🛡️  Group By
----
¿Que es un Group By?



![Image of Yaktocat](https://data36.com/wp-content/uploads/2017/06/SQL-GROUP-BY-clause-1024x720.png)

In [53]:
df["barrio"].unique()

array(['Nueva Pompeya', 'Liniers', 'Chacarita', 'Floresta',
       'Parque Patricios', 'Boca', 'Villa Pueyrredón', 'Barracas',
       'Almagro', 'Palermo', 'Parque Avellaneda', 'Parque Chacabuco',
       'Villa Devoto', 'San Cristóbal', 'Villa Lugano', 'Retiro',
       'Mataderos', 'Villa Crespo', 'Balvanera', 'Recoleta',
       'Villa Soldati', 'Constitución', 'Villa Urquiza', 'Flores',
       'San Telmo', 'Caballito', 'Nuñez', 'Villa Luro', 'Belgrano',
       'Saavedra', 'Puerto Madero', 'Villa Ortuzar', 'San Nicolás',
       'Boedo', 'Monserrat', 'Colegiales', 'Villa del Parque', 'Coghlan',
       'Villa Santa Rita', nan, 'Monte Castro', 'Villa Riachuelo',
       'Villa Gral. Mitre', 'Paternal', 'Agronomía', 'Vélez Sársfield',
       'Parque Chas', 'Villa Real', 'Versalles'], dtype=object)

In [54]:
#Group By por si solo no hace nada
group_barrio = df.groupby("barrio")
group_barrio

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f81940875e0>

In [55]:
# Devuelve la media para cada variable 
group_barrio.mean()

Unnamed: 0_level_0,franja_horaria,cantidad_registrada,comuna,lat,long
barrio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Agronomía,13.484581,1.0,15.0,-34.592736,-58.491886
Almagro,13.527676,1.0,5.0,-34.607667,-58.420826
Balvanera,13.925742,1.0,3.0,-34.6076,-58.403423
Barracas,13.12345,1.00027,4.0,-34.645137,-58.383798
Belgrano,14.280789,1.0,13.0,-34.559443,-58.455102
Boca,13.565657,1.0,4.0,-34.634076,-58.362294
Boedo,13.923588,1.0,5.0,-34.629162,-58.418788
Caballito,13.890367,1.0,6.0,-34.617539,-58.441193
Chacarita,13.568573,1.000689,15.0,-34.586753,-58.450905
Coghlan,13.777311,1.0,12.0,-34.560808,-58.47419


In [56]:
group_barrio.mean()["franja_horaria"].sort_values(ascending=False).head()

barrio
Puerto Madero    14.590106
Belgrano         14.280789
San Nicolás       14.17211
Colegiales       14.145777
Nuñez            14.072102
Name: franja_horaria, dtype: Float64

In [57]:
group_barrio.std()["comuna"].head()

barrio
Agronomía    0.0
Almagro      0.0
Balvanera    0.0
Barracas     0.0
Belgrano     0.0
Name: comuna, dtype: float64

In [58]:
group_barrio.describe()["cantidad_registrada"].sort_values(by='count',ascending=False).head()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
barrio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Palermo,9559.0,1.000105,0.010228,1.0,1.0,1.0,1.0,2.0
Balvanera,9238.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
San Nicolás,6246.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
Recoleta,5589.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
Flores,5518.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0


## 🎯Merge
---

Es una funcion que nos permite **UNIR** dos Data Frames. 

Esta _Union_ se va a llevar a cabo de diferentes maneras:
 - Inner
 - Left
 - Right
 - Outer

![Image of Yaktocat](https://miro.medium.com/max/1200/1*9eH1_7VbTZPZd9jBiGIyNA.png)


In [59]:
data1 = { 'Nombres': ['Juan','Rosa','Pepe', 'Maria'], 
        'Color': ['Verde','Rojo','Azul','Negro'],
        'Numeros': [5,8,8,9]}

data2 = { 'Nombres': ['Juan','Rosa','Pepe'], 
        'Color': ['Verde','Rojo','Azul'],
        'Numeros': [5,8,8]}

data3 = { 'Nombres': ['Juan','Tini','Pepe', 'Maria'], 
        'Color': ['Verde','Negro','Azul','Negro'],
        'Numeros': [5,20,8,9]}



In [60]:
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)
print(df1)
print(df2)
print(df3)

  Nombres  Color  Numeros
0    Juan  Verde        5
1    Rosa   Rojo        8
2    Pepe   Azul        8
3   Maria  Negro        9
  Nombres  Color  Numeros
0    Juan  Verde        5
1    Rosa   Rojo        8
2    Pepe   Azul        8
  Nombres  Color  Numeros
0    Juan  Verde        5
1    Tini  Negro       20
2    Pepe   Azul        8
3   Maria  Negro        9


In [61]:
df1.merge(df2,on='Nombres')    #default = inner  

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5,Verde,5
1,Rosa,Rojo,8,Rojo,8
2,Pepe,Azul,8,Azul,8


In [62]:
df1.merge(df2,on='Nombres',how='left')
df1.merge(df2,on='Nombres',how='right')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5,Verde,5
1,Rosa,Rojo,8,Rojo,8
2,Pepe,Azul,8,Azul,8


In [63]:
df2.merge(df3,on='Nombres',how='inner')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5,Verde,5
1,Pepe,Azul,8,Azul,8


In [64]:
df3.merge(df2,on='Nombres',how='outer')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5.0,Verde,5.0
1,Tini,Negro,20.0,,
2,Pepe,Azul,8.0,Azul,8.0
3,Maria,Negro,9.0,,
4,Rosa,,,Rojo,8.0


In [65]:
df1.merge(df2,on=['Nombres','Color'],how='left')

Unnamed: 0,Nombres,Color,Numeros_x,Numeros_y
0,Juan,Verde,5,5.0
1,Rosa,Rojo,8,8.0
2,Pepe,Azul,8,8.0
3,Maria,Negro,9,


In [None]:
#Otra forma de escribir la sentencia
pd.merge(df3,df2,on='Nombres',how='outer')

## 🧷 Concatenar
---

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
df2

In [None]:
pd.concat([df1,df2]) # stockean como blockes de lego

In [None]:
pd.concat([df1,df2], axis=1) #Por Default axis=0, se acumulan a la derecha

## 🎨Join 
---

Con el joinning buscamos las mismas Keys en tablas diferentes para poder juntar esos datos.

In [None]:
df10 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])


df11 = pd.DataFrame({'B': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

df10
df11

In [None]:
df1.join(df2,
          rsuffix='_1',
          how='outer')

### _**Aplicamos lo aprendido con las ultimas funciones**_

In [None]:
df_group=pd.concat([df1,df2,df3]).groupby(by=['Nombres','Color']).sum()
df_group

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

##  💮  Operaciones 
---
### Operaciones Básicas

In [None]:
df['cantidad_registrada'].sum()

In [None]:
df['franja_horaria'].mean()

In [None]:
df['cantidad_registrada'].std()

In [None]:
df.nunique().sort_values()

In [None]:
df["barrio"].unique()

In [None]:
df["tipo_delito"].apply(len)

###  🧱   Operaciones entre Columnas

In [None]:
df["columna_x"] = df["comuna"]*(1/3) + df["franja_horaria"]*(2/3)
df["columna_x"] = round(df["columna_x"])
df.head()

In [None]:
# valor Z !
df["columna_z"] =  (df["columna_x"] - df["columna_x"].mean()) / df["columna_x"].std()
df.head()

### 🔦 Info en valores únicos 

In [None]:
#Valores únicos
df["comuna"].unique()

#Cantidad de Valores únicos
df['comuna'].nunique()

#Frecuencia Absoluta 
df['comuna'].value_counts()

###  Columnas  Condicionales 
---

Este paso es muy común y es muy usado para realizar **feature engineering**, crear nuevas variables a partir de ya existentes. 


Queremos crear una nueva columna donde indiquemos que tan cool es el pokemon basado en la generación.  Entonces usamos esta regla:

- Entre 1 y 3 son  Loosers
- Entre 4 y 5 son casi Cool
- 6 son Instagramers 

para esto vamos a usar la **selección condicional** que vimos hace un rato.



In [66]:
df.loc[df['comuna'] <= 4 , 'barrio_clase'] = "este"

df.loc[(4 < df['comuna']) & (df['comuna'] <=8) , 'barrio_clase'] = "oeste"

df.loc[df['comuna']>8 , 'barrio_clase'] = "centro"

df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,barrio_clase
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,este
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,centro
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,centro
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,centro
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,este


In [None]:
print(df["barrio_clase"].unique())
df["barrio_clase"].value_counts()

###  🛠️  Funciones aplicadas a las columnas

Vamos a usar el método **apply()**, el cual toma como input una función. La idea es que se va a ejecutar a cada elemento. 

In [None]:
def times2(x):
    return x*2

In [None]:
df["comuna2"] = df['comuna'].apply(times2)
df.head()

**Funcion INSERT**

In [None]:
h = df['comuna2']
df.insert(0,'comuna_nueva',h)
df.head()

### 🤺 Operaciones Summary
---
Estas son algunas de las funciones que se aplican cuando usamos la **función describe()**

Otras operaciones summary son:
- .min()
- .max()
- .count()
- .idxmax()
- .idxmin()
- .quantile()
- .skew()
- .kurtosis()

In [None]:
print(df["comuna"].min()) # Minimo
print(df["comuna"].max()) # Maximo
print(df["comuna"].count()) # Cantidad
print(df["comuna"].idxmax()) # El índice del valor máximo
print(df["comuna"].idxmin()) # El índice del valor mínimo
print(df["comuna"].quantile([.25,.5,.75])) # Los quantiles
print(df["comuna"].skew()) # Asimetria
print(df["comuna"].kurtosis()) # Kurtosis

Se puede Armar Dataframes a partir de Diccionarios 

## 👾 Funciones Con Pandas! WOW
---
Vamos a ver como crear funciones para automtizar nuestro laburo

In [None]:
def obtener_Z(df, columna):
    # valor Z !
    df2 = pd.DataFrame([])
    df2[f"Z_{columna}"] =  (df[columna] - df[columna].mean()) / df[columna].std()
    return df2

obtener_Z(df, "comuna")

In [None]:
# Sacamos los valores Z para Attack 

Z_comuna = obtener_Z(df, "comuna")

pd.concat([df, Z_comuna ], axis=1)

##  💐 Intervalos de Clase
---

La idea es transformar las variables continuas en discretas, poniendolas en contenedores.

In [None]:
df.head()

In [None]:
# Con Cut le indicamos cuanto contenedores queremos
pd.cut(df["franja_horaria"], bins=15)

In [None]:
# qcut se Basa en quantiles 
df["franja_IC"] = pd.qcut(df["franja_horaria"],[0,0.25,0.5,0.75,1])
df["franja_IC"]

## 🤪  Dummy Variables
---
Es la forma de Transformar variables en discretas en valores numéricos.


La variable toma 1 si se cumple la condición y 0 en caso que no.

In [None]:
df.head()

In [None]:
pd.get_dummies(data = df, columns=["subtipo_delito"], prefix="sub_Dummy", drop_first=True ).head()

## 💌 Funciones relacionadas al Texto
---
En general vamos a usar **.str** para indicar que vamos a usar una función relacionada a las strings. 

In [None]:
df["barrio"].str.lower()

In [None]:
#mask = df["barrio"].str.contains('vil')
#df.loc[mask, :]

##  👩‍🏫 Cambiar los nombres de Columna 
---
Vamos a usar la función **rename()**.

In [None]:
df.rename(columns = {'barrio':'Barrio', "comuna": "Poligono"}, inplace=True)
df.head()

In [None]:
df.columns

In [None]:
df.columns = [x.lower() for x in df.columns]
df

In [None]:
df.columns.values[1] ="nombre"
df.head()

## 👀 Exportando Archivos
---

In [None]:
#Exportando a CSV
df1.to_csv('Ejemplo.csv',index=False)
#Exportando a Excel
df1.to_excel("excel_df.xlsx", index=False)

In [None]:
pd.read_csv("Ejemplo.csv")

# Felicitaciones por completar esta parte!  