# **BA Data | Parque Automotor de la Ciudad.**

Vamos a estructurar y *jugar* con la base de datos del registro vehicular de la Ciudad de Autónoma de Buenos Aires. El dataset pertenece al Portal de Datos Abiertos del Gobierno de la Ciudad. 

Se pueden consultar más recursos en --> https://data.buenosaires.gob.ar/

### **Importamos las librerías y obtenemos la tabla.**

In [None]:
# Tal como vimos en la clase anterior, las herramientas de partida serán casi siempre Numpy & Pandas.

import pandas as pd
import numpy as np

A modo de prueba, en este caso vamos a trabajar con un dataset sin cargarlo localmente, sino desde la plataforma online donde se encuentra. De esta forma no estamos obligados a descargar un recurso para utilizarlo sino que lo vamos a buscar directo en donde se encuentra localizado.


*Nota 1* | Esto implica que cada vez que ese recurso sea actualizado - como en este caso se trata de un dataset de actualización mensual - cada vez que hagamos correr nuestra celda de código, traerá automáticamente la última versión cargada.

*Nota 2* | La locación del recurso se encuentra en el siguiente link --> 
https://data.buenosaires.gob.ar/dataset/parque-automotor


In [None]:
# Variable string que vamos a utilizar como argumento a la hora de extraer nuestro dataset. 

parque_automotor = "https://cdn.buenosaires.gob.ar/datosabiertos/datasets/direccion-general-de-estadisticas-y-censos/parque-automotor/historico_parque_automotor.csv"

Ahora procedemos a leer la tabla con el método *read_csv()*.

In [None]:
# En este caso, sabemos que se trata de un CSV por la terminacióón del hipervínculo que cargamos. 
# Le pasamos como argumento al método nuestra variable detallada anteriormente. 

# Guardamos nuestra información en una variable. 
# Por convención, solemos utilizar la palabra data a la hora de nomenclar la tabla cruda.

data = pd.read_csv(parque_automotor)

### **Primer vistazo a la** *data*.

In [None]:
#Si escribimos el nombre de nuestra variable, vamos a observar nuestro 1° Dataframe. 
data

Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,Ciudad de Buenos Aires,1094202.0
1,2010,Febrero,Ciudad de Buenos Aires,1106044.0
2,2010,Marzo,Ciudad de Buenos Aires,1113739.0
3,2010,Abril,Ciudad de Buenos Aires,1123774.0
4,2010,Mayo,Ciudad de Buenos Aires,1132885.0
...,...,...,...,...
259,2020,Agosto,Argentina,
260,2020,Septiembre,Argentina,
261,2020,Octubre,Argentina,
262,2020,Noviembre,Argentina,


Arriba observamos que nos imprime las *primeras 5* filas y las *últimas 5 filas* con los ejemplos de las columnas. Como en este caso son pocas columnas, vamos a obtener la totalidad de ellas al momento de imprimirlas por pantalla.


*Nota 3* | Si prestamos atención vamos a ver que ya tenemos una fila con valores nulos en una columna. *NaN* --> *Not a number* 

In [None]:
# Si queremos tener información general de la tabla, podemos consultar la cantidad de filas y columnas que tienen con el método ".shape"
data.shape

(264, 4)

El primer elemento de la *tupla* es la cantidad de filas, mientras que el segundo corresponde a la cantidad de columnas.

In [None]:
# Lo podemos hacer más "legible".
print("La base tiene",data.shape[0],"filas")
print("La base tiene",data.shape[1],"columnas")

# Si miramos la sintaxis, vemos que para cada print imprimimos un elemento localizado por posición específica de la tupla.

La base tiene 264 filas
La base tiene 4 columnas


In [None]:
# Podemos listas las columnas del dataframe con el método columns
data.columns.tolist()

['año', 'mes', 'administración', 'cantidad_vehículos']

In [None]:
# El método ".head" nos permite ver los primeros n registros que le pasemos como parámetro a la lista.
# La cantidad que le pasemos como parámetros es lo que imprimirá por pantalla. 

data.head(10)

Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,Ciudad de Buenos Aires,1094202.0
1,2010,Febrero,Ciudad de Buenos Aires,1106044.0
2,2010,Marzo,Ciudad de Buenos Aires,1113739.0
3,2010,Abril,Ciudad de Buenos Aires,1123774.0
4,2010,Mayo,Ciudad de Buenos Aires,1132885.0
5,2010,Junio,Ciudad de Buenos Aires,1142124.0
6,2010,Julio,Ciudad de Buenos Aires,1152177.0
7,2010,Agosto,Ciudad de Buenos Aires,1162110.0
8,2010,Septiembre,Ciudad de Buenos Aires,1172083.0
9,2010,Octubre,Ciudad de Buenos Aires,1183037.0


In [None]:
#Lo mismo sucede con este método pero con los últimos elementos de la lista.

data.tail(5)

Unnamed: 0,año,mes,administración,cantidad_vehículos
259,2020,Agosto,Argentina,
260,2020,Septiembre,Argentina,
261,2020,Octubre,Argentina,
262,2020,Noviembre,Argentina,
263,2020,Diciembre,Argentina,


A la hora de analizar inicialmente una tabla, hay ciertos aspectos que queremos y *debemos* saber:

- Cantidad de columnas.
- Cantidad de filas. 
- Tipo de valores por columna.
- Cantidad de valores nulos. 

Esta información resulta elemental para poder aproximarnos a una *depuración y preparación exitosa de nuestra información*.

In [None]:
# También podemos acceder a información más integral de la tabla con el método ".info()"

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   año                 264 non-null    int64  
 1   mes                 264 non-null    object 
 2   administración      264 non-null    object 
 3   cantidad_vehículos  252 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 8.4+ KB


Con este método vamos a poder acceder a información general por columna, obteniendo su nombre, la cantidad de valores que tiene - descontando nulos - y el tipo de valor asociado.

### **La lupa en los datos.**

Queremos empezar a extraer información un poco más específica, ver qué tipo de datos tenemos, con qué frecuencia, qué valores tiene asociado.

In [None]:
#Podemos consultar una columna filtrando de la siguiente forma
data["año"]

0      2010
1      2010
2      2010
3      2010
4      2010
       ... 
259    2020
260    2020
261    2020
262    2020
263    2020
Name: año, Length: 264, dtype: int64

In [None]:
# También podemos filtrar especificando dos columnas - o más -. 

data[["mes","año"]]

# Y así sucesivamente..

Unnamed: 0,mes,año
0,Enero,2010
1,Febrero,2010
2,Marzo,2010
3,Abril,2010
4,Mayo,2010
...,...,...
259,Agosto,2020
260,Septiembre,2020
261,Octubre,2020
262,Noviembre,2020


In [None]:
#Supongamos que queremos más información, en este caso, la frecuencia de cuánto aparece cada categoría.

data["administracion"].value_counts()

KeyError: ignored

In [None]:
# Sí, nos faltó una tilde y pinchó. 
# En este caso, utilizamos el método "value_counts()" que nos permite contabilizar la frecuencia por categoría. 
# Parece que los registros son iguales.

data["administración"].value_counts()

Argentina                 132
Ciudad de Buenos Aires    132
Name: administración, dtype: int64

In [None]:
# Si miramos un poco los números, ya nos empiezan a indicar algo.
# En la operación anterior, nos muestra los números de la Ciudad y Argentina por igual.
# Acá, que la cantidad de años es 24, dividida por 2, 12..Una fila, una observación por período mensual, para cada administración.

data["año"].value_counts()

# La información parece estar bastante limpia.

2020    24
2019    24
2018    24
2017    24
2016    24
2015    24
2014    24
2013    24
2012    24
2011    24
2010    24
Name: año, dtype: int64

In [None]:
# Miremos una vez más el registro de información que tenemos.

data.head(2)

Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,Ciudad de Buenos Aires,1094202.0
1,2010,Febrero,Ciudad de Buenos Aires,1106044.0


In [None]:
#Quiero ver las categorías de las columnas de las tablas.

for columna in data:
  print(data[columna].unique().tolist())

# Como estoy trabajando con el método "unique()" el cual me permite ver los valores únicos que tiene una columna, con los valores numéricos, no tiene mucho sentido.

[2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020]
['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
['Ciudad de Buenos Aires', 'Argentina']
[1094202.0, 1106044.0, 1113739.0, 1123774.0, 1132885.0, 1142124.0, 1152177.0, 1162110.0, 1172083.0, 1183037.0, 1192963.0, 1203331.0, 9395122.0, 9473131.0, 9517429.0, 9574218.0, 9624870.0, 9675173.0, 9729662.0, 9786588.0, 9843488.0, 9906979.0, 9960306.0, 10014003.0, 1212025.0, 1227727.0, 1237515.0, 1247406.0, 1249089.0, 1253790.0, 1254920.0, 1256247.0, 1268274.0, 1271934.0, 1271912.0, 1275281.0, 10052466.0, 10155707.0, 10215510.0, 10275961.0, 10340890.0, 10416509.0, 10485859.0, 10562283.0, 10646440.0, 10716169.0, 10778448.0, 10815732.0, 1280523.0, 1283110.0, 1290021.0, 1294911.0, 1297425.0, 1302085.0, 1308588.0, 1308994.0, 1306801.0, 1295956.0, 1256416.0, 1323365.0, 10925332.0, 10981140.0, 11061167.0, 11119740.0, 11192226.0, 11260309.0, 11331453.0, 11401784.

In [None]:
# La cantidad de vehículos parecería ser una variable numérica. Por lo pronto, queremos mirar las variables categóricas para frecuencia. 

data["cantidad_vehículos"].dtypes

dtype('float64')

In [None]:
# Quiero ver la información de las columnas, con el tipo de categorías.
# Genero un loop que itere sobre ellas, que excluya aquellas columnas con tipo numérico flotante.

for columna in data:
  if data[columna].dtypes =="float64":
    pass
  else:
    print(data[columna].unique().tolist())

[2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020]
['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
['Ciudad de Buenos Aires', 'Argentina']


In [None]:
# Ahora, supongamos que queremos excluir cualquier variable numérica.
# En ese caso podemos utilizar otra condición que excluya números de tipo entero.

for columna in data:
  if data[columna].dtypes == "float64":
    pass
  elif data[columna].dtypes == "int": 
    pass
  else:
    print(data[columna].unique().tolist())

# En este loop vemos como utilizamos los siguientes métodos ".dtypes", ".unique()", ".tolist()" y "print()" para generar un programa que nos tire variables categóricas de una tabla.

['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
['Ciudad de Buenos Aires', 'Argentina']


In [None]:
# Seguimos agregando funciones para que sea más explicativo el output que tenemos.

for columna in data:
  if data[columna].dtypes == "float64":
    pass
  elif data[columna].dtypes == "int": 
    pass
  else:
    print(data[columna].name,data[columna].unique().tolist())

mes ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
administración ['Ciudad de Buenos Aires', 'Argentina']


In [None]:
# Lo podemos hacer función y reutilizar.
# Atención a la correcta escritura de los parámetros (Debemos detallar los argumentos genéricamente)
# Dado que queremos ver una muestra de las categorías que tenemos, sólo le pedimos los primeros 5 elementos por columna.

def categorias(base):
  for columna in base:
    if base[columna].dtypes == "float64":
      pass
    elif base[columna].dtypes == "int": 
      pass
    else:
       print("Muestra de categorías de la columna",base[columna].name.upper(),base[columna].unique().tolist()[0:5],"\n")
       
  print("De cada columna, muestra hasta 5 categorías de la variable")

categorias(data)

Muestra de categorías de la columna MES ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'] 

Muestra de categorías de la columna ADMINISTRACIÓN ['Ciudad de Buenos Aires', 'Argentina'] 

De cada columna, muestra hasta 5 categorías de la variable


In [None]:
# Apartado rápido: Vamos a testear nuestra función con un nuevo dataset.

# Importamos el un nuevo csv de establecimientos educativos. 
# Esta vez vamos a utilizar un archivo ".xlsx" - mejor conocido como excel - para trabajar sobre él. 
establecimientos_educativos_excel = "http://cdn.buenosaires.gob.ar/datosabiertos/datasets/establecimientos-educativos/establecimientos-educativos.xlsx"
establecimientos = pd.read_excel(establecimientos_educativos_excel)

establecimientos_1 = pd.read_csv("http://cdn.buenosaires.gob.ar/datosabiertos/datasets/establecimientos-educativos/establecimientos-educativos.csv")

In [None]:
# Imprimimos por pantalla el resultado y vamos a ver nuestro dataframe con datos del excel cargado. 
establecimientos[0:2]

Unnamed: 0,long,lat,objectid,cui,cueanexo,cue,anexo,sector,dom_edific,dom_establ,nombre_estab,nombre_abrev,telefono,email,codpost,pagina_web,nivmod,nivelmodal,depfun,de,calle_nombre,calle_altura,comunas,barrio,codigo_postal,codigo_postal_argentino,areaprogra,estado,point_x,point_y,tipest
0,-58.512702,-34.600586,1,200794,20046500,200465,0,1,Mercedes 4002,Mercedes 4002,Centro Educativo de Nivel Secundario N° 65,CENS 65,4501-9054,deaa_cens65_de1@bue.edu.ar,C1419,http://www.buenosaires.gob.ar/educacion/estudi...,SecAdu,Nivel Secundario de Jóvenes y Adultos,Dir de Educación del Adulto y del Adolescente,17,Mercedes,4002.0,11,VILLA DEVOTO,1419.0,C1419BGJ,12 - HOSP ZUBIZARRETA,1,95468.3835,103180.9301,Centro Educativo de Nivel Secundario
1,-58.409572,-34.627545,2,202368,20146700,201467,0,2,Constitución 3156,Constitución 3156,Inst. 9 de Julio,I 9 de Julio,4931-9299,institutoprivado9dejulio@yahoo.com.ar,C1254,http://www.buenosaires.gob.ar/areas/educacion/...,SecCom,Nivel Secundario Común,Dir Gral de Educación de Gestión Privada,6,Constitución,3156.0,3,SAN CRISTOBAL,1254.0,C1254ABB,08 - HOSP RAMOS MEJIA,1,104926.8283,100190.0717,Instituto Educativo Incorporado a la Enseñanza...


In [None]:
# Imprimos por pantalla el resultado y vemos que son los mismos datos.
establecimientos_1[0:2]

Unnamed: 0,long,lat,objectid,cui,cueanexo,cue,anexo,sector,dom_edific,dom_establ,nombre_estab,nombre_abrev,telefono,email,codpost,pagina_web,nivmod,nivelmodal,depfun,de,calle_nombre,calle_altura,comunas,barrio,codigo_postal,codigo_postal_argentino,areaprogra,estado,point_x,point_y,tipest
0,-58.512702,-34.600586,1,200794,20046500,200465,0,1,Mercedes 4002,Mercedes 4002,Centro Educativo de Nivel Secundario N° 65,CENS 65,4501-9054,deaa_cens65_de1@bue.edu.ar,C1419,http://www.buenosaires.gob.ar/educacion/estudi...,SecAdu,Nivel Secundario de Jóvenes y Adultos,Dir de Educación del Adulto y del Adolescente,17.0,Mercedes,4002.0,11.0,VILLA DEVOTO,1419.0,C1419BGJ,12 - HOSP ZUBIZARRETA,1,95468.3835,103180.9301,Centro Educativo de Nivel Secundario
1,-58.409572,-34.627545,2,202368,20146700,201467,0,2,Constitución 3156,Constitución 3156,Inst. 9 de Julio,I 9 de Julio,4931-9299,institutoprivado9dejulio@yahoo.com.ar,C1254,http://www.buenosaires.gob.ar/areas/educacion/...,SecCom,Nivel Secundario Común,Dir Gral de Educación de Gestión Privada,6.0,Constitución,3156.0,3.0,SAN CRISTOBAL,1254.0,C1254ABB,08 - HOSP RAMOS MEJIA,1,104926.8283,100190.0717,Instituto Educativo Incorporado a la Enseñanza...


In [None]:
# Veamos la forma de nuestra tabla alternativa
establecimientos.shape

(2828, 31)

In [None]:
# Probamos nuestra función.
categorias(establecimientos)

Muestra de categorías de la columna DOM_EDIFIC ['Mercedes 4002', 'Constitución 3156', 'Blanco Encalada 3479', 'Avda. Gral. Las Heras 2670', 'Obrero Roberto Núñez 4355'] 

Muestra de categorías de la columna DOM_ESTABL ['Mercedes 4002', 'Constitución 3156', 'Blanco Encalada 3471', 'Avda. Gral. Las Heras 2670', 'Obrero Roberto Núñez 4355'] 

Muestra de categorías de la columna NOMBRE_ESTAB ['Centro Educativo de Nivel Secundario N° 65', 'Inst. 9 de Julio', 'Escuela Infantil N° 06/10° Madre Eufrasia Iaconis', 'Escuela Infantil N° 08/01°', 'Jardín de Infantes Nucleado C (EPCjc 11/02°)'] 

Muestra de categorías de la columna NOMBRE_ABREV ['CENS 65', 'I 9 de Julio', 'EI 06/10', 'EI 08/01', 'JIN C-03 (11)'] 

Muestra de categorías de la columna TELEFONO ['4501-9054', '4931-9299', '4545-3354', '4804-9003', '4867-2749'] 

Muestra de categorías de la columna EMAIL ['deaa_cens65_de1@bue.edu.ar', 'institutoprivado9dejulio@yahoo.com.ar', 'ei6_10@yahoo.com.ar', 'dei_ei8de1@bue.edu.ar / escuelainfanti

Vemos finalmente que sólo nos da muestras de las variables categóricas, las cuales almacena en listas con los elementos en formato *string*

*Nota 5* | La forma en que la función pudo trabajar correctamente fue a partir de darle un marco genérico a los elementos.

In [None]:
# Ejemplo de la función escrita incorrectamente - no modificada -. 

# Esta fue mi loop original. 
for columna in data:
    if data[columna].dtypes == "float64":
      pass
    elif data[columna].dtypes == "int": 
      pass
    else:
      print(data[columna].name,data[columna].unique().tolist())

mes ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
administración ['Ciudad de Buenos Aires', 'Argentina']


In [None]:
# Para paquetizar la función, tengo que definirla y pasarle el parámetro.
# La defino, y le digo que "base" es el argumento con el cual va a trabajar.

def categorias_1(base):
  for columna in data:
    if data[columna].dtypes == "float64":
      pass
    elif data[columna].dtypes == "int": 
      pass
    else:
      print(data[columna].name,data[columna].unique().tolist())

# Cuando ejecuto la celda, no sucede nada dado que sóólo definí la función.

In [None]:
# Ahora, vamos a testear nuestra función.
categorias_1(establecimientos)

#¿Qué sucedió?

mes ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
administración ['Ciudad de Buenos Aires', 'Argentina']


Dado que no modifique el funcionamiento interno de la función definida, siguió operando con la información de la tabla original - *data* - y no con la información de la base *establecimientos* que le pasamos como parámetro. Para evitar esta situación, al momento de definir una función debemos escribir correctamente los argumentos en el cuerpo de nuestro código. 

En este caso, reemplazar *data* por *base* para que realice exactamente las mismas operacione sobre el dataframe que le pasemos como argumento.

--

Ahora queremos avanzar un poco más en las variables nominales y sus categorías captando la frecuencia de aparición en la tabla.

Nuevamente, podemos copiar parte nuestro código anterior y la lógica condicional construida para aplicarla.

In [None]:
for columna in data:
  if data[columna].dtypes =="float64":
    continue
  else:
    print("\n","Columna:",data[columna].name.upper(),"\n",data[columna].value_counts())
    
# Utilizamos nuevos métodos para emprolijar nuestro output. (".upper()",".value_counts()")


 Columna: AÑO 
 2020    24
2019    24
2018    24
2017    24
2016    24
2015    24
2014    24
2013    24
2012    24
2011    24
2010    24
Name: año, dtype: int64

 Columna: MES 
 Octubre       22
Noviembre     22
Marzo         22
Julio         22
Abril         22
Junio         22
Septiembre    22
Febrero       22
Enero         22
Agosto        22
Mayo          22
Diciembre     22
Name: mes, dtype: int64

 Columna: ADMINISTRACIÓN 
 Argentina                 132
Ciudad de Buenos Aires    132
Name: administración, dtype: int64


In [None]:
# Paquetizamos nuestro código para reutilizarlo en una función.

def frecuencia_categorias(base):
  for columna in base:
    if base[columna].dtypes =="float64":
      continue
    elif base[columna].dtypes =="int":
      continue
    else:
      print("\n","Columna:",base[columna].name.upper(),"\n",base[columna].value_counts())

In [None]:
#Testeamos nuestra función con la tabla de educativos. 

frecuencia_categorias(establecimientos)


 Columna: DOM_EDIFIC 
 Rondeau 2751                12
Rio Cuarto y Montesquieu    10
Avda. Entre Ríos 757         7
Corrales 3420 / 3450         7
Martínez Castro 3061         7
                            ..
Avda. Tilcara 3178           1
Avda. Nazca 750              1
Olaya 1565                   1
Moldes 1854                  1
Cullen 5193                  1
Name: dom_edific, Length: 1866, dtype: int64

 Columna: DOM_ESTABL 
 Rio Cuarto y Montesquieu - Avda. Gral. Iriarte alt. 3501    10
Cátulo Castillo 2750                                         8
Avda. Entre Ríos 757                                         7
San Nicolás 588                                              6
Saraza 470                                                   5
                                                            ..
Darregueyra 2369                                             1
Avda. Asamblea 153                                           1
Pujol 644                                                    1

### **Filtrando y modificando tablas.**

A fin de poder trabajar con información un poco más específica, vamos a filtrar y generar nuevas tablas basadas en nuestra tabla original.

In [None]:
#Filtramos para ver qué tipo de administración tenemos.
data["administración"].unique()

array(['Ciudad de Buenos Aires', 'Argentina'], dtype=object)

Como queremos trabajar solamente con datos de la Ciudad, sólo vamos a filtrar por columna de la Ciudad.

In [None]:
#Generamos una nueva variable, en la cual filtramos los datos condicionales de la Columna con el valorde la Ciudad.
data_caba = data[data["administración"]=="Ciudad de Buenos Aires"]

#Imprimimos para ver nuestra data.
data_caba

Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,Ciudad de Buenos Aires,1094202.0
1,2010,Febrero,Ciudad de Buenos Aires,1106044.0
2,2010,Marzo,Ciudad de Buenos Aires,1113739.0
3,2010,Abril,Ciudad de Buenos Aires,1123774.0
4,2010,Mayo,Ciudad de Buenos Aires,1132885.0
...,...,...,...,...
247,2020,Agosto,Ciudad de Buenos Aires,
248,2020,Septiembre,Ciudad de Buenos Aires,
249,2020,Octubre,Ciudad de Buenos Aires,
250,2020,Noviembre,Ciudad de Buenos Aires,


In [None]:
#Utilizamos nuestra función para ver 

categorias(data_caba)

Muestra de categorías de la columna MES ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'] 

Muestra de categorías de la columna ADMINISTRACIÓN ['Ciudad de Buenos Aires'] 

De cada columna, muestra hasta 5 categorías de la variable


In [None]:
# Miremos la tabla filtrada que nos quedó nuevamente. 
# Si observamos, se sigue manteniendo el índice inicial. Podemos resetearlo para que quede prolijo.

data_caba[10:15]

Unnamed: 0,año,mes,administración,cantidad_vehículos
10,2010,Noviembre,Ciudad de Buenos Aires,1192963.0
11,2010,Diciembre,Ciudad de Buenos Aires,1203331.0
24,2011,Enero,Ciudad de Buenos Aires,1212025.0
25,2011,Febrero,Ciudad de Buenos Aires,1227727.0
26,2011,Marzo,Ciudad de Buenos Aires,1237515.0


In [None]:
# Utilizamos el método ".reset_index()" con  el argumento "True" en el parámetro "Inplace=" para que lo haga en la tabla original.
data_caba.reset_index(inplace=True)

#Borramos una columna de index que nos quedará suelta por ahí
data_caba.drop(columns="index",inplace=True)

data_caba

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,Ciudad de Buenos Aires,1094202.0
1,2010,Febrero,Ciudad de Buenos Aires,1106044.0
2,2010,Marzo,Ciudad de Buenos Aires,1113739.0
3,2010,Abril,Ciudad de Buenos Aires,1123774.0
4,2010,Mayo,Ciudad de Buenos Aires,1132885.0
...,...,...,...,...
127,2020,Agosto,Ciudad de Buenos Aires,
128,2020,Septiembre,Ciudad de Buenos Aires,
129,2020,Octubre,Ciudad de Buenos Aires,
130,2020,Noviembre,Ciudad de Buenos Aires,


In [None]:
# Como en este caso tuvimos valores nulos, decidimos sacarlos de la escena porque no nos aportaban información.
data_caba.dropna(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
data_caba

Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,Ciudad de Buenos Aires,1094202.0
1,2010,Febrero,Ciudad de Buenos Aires,1106044.0
2,2010,Marzo,Ciudad de Buenos Aires,1113739.0
3,2010,Abril,Ciudad de Buenos Aires,1123774.0
4,2010,Mayo,Ciudad de Buenos Aires,1132885.0
...,...,...,...,...
121,2020,Febrero,Ciudad de Buenos Aires,1544593.0
122,2020,Marzo,Ciudad de Buenos Aires,1545574.0
123,2020,Abril,Ciudad de Buenos Aires,1544191.0
124,2020,Mayo,Ciudad de Buenos Aires,1544747.0


In [None]:
# Ahora queremos modificar un valor, dado que nos queda muy largo "Ciudad Autónoma de Buenos Aires"
# Utilizamos la función "replace" para modificar un valor específico. Nuevamente usamos el parámetro "inplace" para pedirle que lo haga sobre la tabla original.
 
data_caba.replace(to_replace="Ciudad de Buenos Aires",
                  value="CABA",
                  inplace=True)

data_caba

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  method=method,


Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,CABA,1094202.0
1,2010,Febrero,CABA,1106044.0
2,2010,Marzo,CABA,1113739.0
3,2010,Abril,CABA,1123774.0
4,2010,Mayo,CABA,1132885.0
...,...,...,...,...
121,2020,Febrero,CABA,1544593.0
122,2020,Marzo,CABA,1545574.0
123,2020,Abril,CABA,1544191.0
124,2020,Mayo,CABA,1544747.0


In [None]:
#Por último, vemos que los números están en formato float, cuando en realidad son números absolutos.
data_caba["cantidad_vehículos"].dtypes

dtype('float64')

In [None]:
# Cambiamos el tipo de de dato numérico de la columna específica con el método ".astype" y como argumento el tipo de dato que queremos 
data_caba["cantidad_vehículos"] = data_caba["cantidad_vehículos"].astype(int)

data_caba[0:5]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,año,mes,administración,cantidad_vehículos
0,2010,Enero,CABA,1094202
1,2010,Febrero,CABA,1106044
2,2010,Marzo,CABA,1113739
3,2010,Abril,CABA,1123774
4,2010,Mayo,CABA,1132885


In [None]:
# Ahora generamos un loop para que nos imprima por pantalla determinados valores que queremos visualizar

for i in data_caba.index:
    print("En",data_caba["año"][i],"había",data_caba["cantidad_vehículos"][i])

En 2010 había 1094202
En 2010 había 1106044
En 2010 había 1113739
En 2010 había 1123774
En 2010 había 1132885
En 2010 había 1142124
En 2010 había 1152177
En 2010 había 1162110
En 2010 había 1172083
En 2010 había 1183037
En 2010 había 1192963
En 2010 había 1203331
En 2011 había 1212025
En 2011 había 1227727
En 2011 había 1237515
En 2011 había 1247406
En 2011 había 1249089
En 2011 había 1253790
En 2011 había 1254920
En 2011 había 1256247
En 2011 había 1268274
En 2011 había 1271934
En 2011 había 1271912
En 2011 había 1275281
En 2012 había 1280523
En 2012 había 1283110
En 2012 había 1290021
En 2012 había 1294911
En 2012 había 1297425
En 2012 había 1302085
En 2012 había 1308588
En 2012 había 1308994
En 2012 había 1306801
En 2012 había 1295956
En 2012 había 1256416
En 2012 había 1323365
En 2013 había 1336083
En 2013 había 1340352
En 2013 había 1354485
En 2013 había 1353569
En 2013 había 1359665
En 2013 había 1366084
En 2013 había 1372111
En 2013 había 1377668
En 2013 había 1383457
En 2013 ha

Sin embargo, vemos en el loop que nos genera información repetida mes a mes que nos nos interesa evaluar. Buscamos quedaron solamente con información de dos meses (*enero y diciembre*).

In [None]:
#Creamos dos tablas de acuerdo a referencias mensuales.

# Generamos una tabla con valores filtrados de enero.
data_caba_enero = data_caba[data_caba["mes"]=="Enero"]
data_caba_enero

# Generamos otra tabla con valor filtrados de diciembre. 
data_caba_diciembre = data_caba[data_caba["mes"]=="Diciembre"]
#data_caba_diciembre

In [None]:
# Generamos una nueva tabla sólo con estos valores unificadas.
data_caba_eyd = pd.concat([data_caba_enero,data_caba_diciembre],
                          axis=0).reset_index()

# Borramos la columna de index que nos queda colgada.
data_caba_eyd.drop(columns="index",inplace=True)

In [None]:
data_caba_eyd.shape

(21, 4)

In [None]:
# Por último usemos un método para mejorar nuestro formato de impresión por pantalla.

for i in data_caba_diciembre.index:
  print(("En {} de {} en CABA había un registro de {} autos").format(data_caba_diciembre["mes"][i],data_caba_diciembre["año"][i],data_caba_diciembre["cantidad_vehículos"][i]))

En Diciembre de 2010 en CABA había un registro de 1203331 autos
En Diciembre de 2011 en CABA había un registro de 1275281 autos
En Diciembre de 2012 en CABA había un registro de 1323365 autos
En Diciembre de 2013 en CABA había un registro de 1398595 autos
En Diciembre de 2014 en CABA había un registro de 1424156 autos
En Diciembre de 2015 en CABA había un registro de 1439423 autos
En Diciembre de 2016 en CABA había un registro de 1468109 autos
En Diciembre de 2017 en CABA había un registro de 1506692 autos
En Diciembre de 2018 en CABA había un registro de 1539809 autos
En Diciembre de 2019 en CABA había un registro de 1544215 autos


El camino de código que realizamos fue a fin de poder ir probando distintas *herramientas, métodos y funciones* que podemos ir creando en la medida que vamos trabajando con una base de datos. Nuestro objetivo de hoy fue modificar algunas cosas - por momento con poca usabilidad - para que puedan observar la flexibilidad del lenguaje a la hora de trabajar.

# **Twitter | Tweets de Alberto Fernandez.**


### **Instalamos e importamos los paquetes a utilizar.**

In [None]:
!pip install tweepy



In [None]:
import pandas as pd 
import tweepy 

### **¿Qué es una API? Seteando nuestras credenciales en Twitter.** 


Es una interfaz de aplicaciones específicas que nos permite *consultar y extraer* programáticamente información del entorno.

En ese sentido, el sistema nos pide algunas condiciones de autenticación para poder extraer información, validar nuestra identidad y explicitar las razones por las cuales queremos extraer información.

En este caso, seguiremos los siguientes pasos:

1. Creamos una cuenta de TwitterDeveloper.
2. Una vez habilitada, generamos nuestra primer App de extracción.
3. Generamos dos tokens para poder utilizar a la hora de validar nuestro acceso desde la consola.


Links para crear las cuentas --> [Twitter Developer ](https://developer.twitter.com/en/dashboard)

*Nota n* | En este caso, vamos a explorar desde mi interfaz de usuario. 

In [None]:
#Seteamos las 4 variables que vamos a necesitar para levantar la API que nos permitirá operar en Twitter.
consumerKey = "K3Z9OOsk7itx5PXCvPmU1Rp8T"
consumerSecret = "1rYmibUVNHi4XjGtuT9IOxiPXcQUfs4cE5GjzBsos1e6LKpxtY"
accessToken = "575131836-WQskSYThiSHszy9ydNY3HPVJtRkZEQBWe1wyJpCP"
accesTokenSecret = "vLEv9FO4OcDkjC4U7DxN85vwYvCJj9JDvE11y1llfaHAD"

# Creamos el objeto de autenticación
authenticate = tweepy.OAuthHandler(consumerKey,consumerSecret)

# Seteamos el acceso de token de acuerdo a las variables que creamos previamente 
authenticate.set_access_token(accessToken,accesTokenSecret)

# Creamos el objeto API, el cual llamaremos cada vez que escribamos para acceder. 
api = tweepy.API(authenticate,wait_on_rate_limit=True, wait_on_rate_limit_notify=True)

### **Consulta de información de la cuenta de Alberto Fernández.**

En este caso, queremos hacer nuestra propia de base de datos de tweets de Alberto Fernandez con *Pandas y Tweepy.*

Cuenta Oficial de Alberto Fernandez --> [@alferdez](https://twitter.com/alferdez?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor)

¿Qué información nos puede interesar?

  -  Sus tweets.
  - Cantidad de seguidores.
  - La performance de sus tweets medidas por favoritos y retweets.

In [None]:
#Usaremos nuestro primer método de la librería Tweepy, el cual le damos el nombre de usuario, y se lo asignamos a una variable como valor
user = api.get_user("alferdez")

In [None]:
#Ahora ejecutemos un programa básico y simple con un print y un texto en función de este valor.
print("La cuenta de Alberto Fernandez es",user.screen_name)

#Acá, usé otro método denominado ".screen_name" de la librería Tweepy, el cual nos devuelve el nombre de usuario. 

La cuenta de Alberto Fernandez es alferdez


In [None]:
#Ahora, miren como con un simple programa escrito y estos dos métodos concatenados, obtengo información.
for friend in user.followers():
  print(friend.screen_name)

_RocioLuna12
AldoRancel
toniccelli
xagustinaailenx
DepetrisLourdes
Analia41891210
EstebanCohen4
Romi_detorres
MrLivertyTrump
Daiana92109919
LuzMart56182434
meliiisueldoo
Santiagogug
Gabriel03308129
AriadnaAli4
evamorena1011
MercedesLezana
Juan51634799
ezequie19266371
IrriVeron


In [None]:
#También queremos saber cuantos seguidores tiene

def seguidores_count_single(nombre):
    user1 = api.get_user(nombre)
    print("La cuenta",user1.screen_name,"tiene",user1.followers_count,"seguidores")

In [None]:
#Aplicamos la función que creamos, y nos queda un programa para cada vez que querramos saber esta información.
seguidores_count_single("alferdez")
seguidores_count_single("mauriciomacri")

La cuenta alferdez tiene 1915929 seguidores
La cuenta mauriciomacri tiene 5111825 seguidores


In [None]:
#Defino una lista de usuarios sobre los cuales quiero saber información
#Miremos algunos referentes de Alberto Fernandez 

usuarios = ["alferdez",
            "SantiCafiero",
            "CasaRosada",
            "RossiAgustinOk",
            "avanoliok",
            "RCSalvarezza",
            "MariaEBielsaOk",
            "mmlosardo",
            "LEBasterra",
            "mariomeoni",
            "juancabandie",
            "martin_M_Guzman",
            "EliGAlcorta",
            "trottanico",
            "FerEspinozaOk"
            ]

In [None]:
#Potencio mi función original para que pueda procesar mas elementos. ¿Cómo hago esto? Con un bucle.

def seguidores_count_multiple(nombres):
    for nombre in nombres:
      user1 = api.get_user(nombre)
      print("La cuenta",user1.screen_name,"tiene",user1.followers_count,"seguidores")

In [None]:
seguidores_count_multiple(usuarios)

La cuenta alferdez tiene 1915931 seguidores
La cuenta SantiCafiero tiene 255996 seguidores
La cuenta CasaRosada tiene 832697 seguidores
La cuenta RossiAgustinOk tiene 223784 seguidores
La cuenta avanoliok tiene 42166 seguidores
La cuenta RCSalvarezza tiene 55935 seguidores
La cuenta MariaEBielsaOk tiene 46658 seguidores
La cuenta mmlosardo tiene 26600 seguidores
La cuenta LEBasterra tiene 14002 seguidores
La cuenta mariomeoni tiene 26891 seguidores
La cuenta juancabandie tiene 240957 seguidores
La cuenta Martin_M_Guzman tiene 174439 seguidores
La cuenta EliGAlcorta tiene 56674 seguidores
La cuenta trottanico tiene 123672 seguidores
La cuenta FerEspinozaOK tiene 102627 seguidores


In [None]:
#Nos traemos los últimos 100 tweets de Alberto Fernandez
posteos = api.user_timeline(screen_name="alferdez",count=1000,lang="es",tweet_mode="extend")

In [None]:
#Ya como sabrán, imprimo un comando para que sea legible.
print("último tweet de Alberto Fernandez: \n")


#Declaro una variable nueva para que sirva como "contador" en cada tweet 
i=1
for tweet in posteos[0:10]:
  print(str(i)+")",tweet.text,"\n")
  i=i+1

último tweet de Alberto Fernandez: 

1) Somos la generación que no baja los brazos, que sigue invirtiendo, produciendo y generando trabajo. Y que en este m… https://t.co/3Q37o5JyrD 

2) Junto al gobernador @QuintelaRicardo inauguramos hoy la Central Arauco II del Parque Eólico Arauco en La Rioja, que… https://t.co/UzcFO2tMU6 

3) RT @CasaRosada: EN VIVO | La Rioja - El presidente Alberto Fernández firma convenios y realiza anuncios. https://t.co/womcKnO5bb 

4) Fue muy grato haber participado hoy del encuentro virtual por los 15 años de la Corriente Nacional de la Militancia… https://t.co/dezop64bcD 

5) Hoy me reuní con los interventores del ENRE y del ENARGAS. Analizamos la situación de las tarifas. Observamos con p… https://t.co/T3acpUcMJB 

6) Esta mañana conversé por teléfono con el primer ministro de los Países Bajos, Mark Rutte (@MinPres), sobre la pande… https://t.co/lhpOqAsC8k 

7) RT @JuanZabaletaOK: El @hospitalposadas volvió a ponerse de pie gracias al compromiso y al traba

### **Creando una base de datos de tweets.**

In [None]:
#Creamos nuestro propio dataFrame con los tweets de Alberto:
data_tweet = pd.DataFrame(data=[tweet.text for tweet in posteos],columns=["Tweets"])

In [None]:
#Ahora, queremos ver qué construimos.
#Sólo escribiendo data, podemos ver un ejemplo de las primeras filas. 
data_tweet

Unnamed: 0,Tweets
0,"Somos la generación que no baja los brazos, qu..."
1,Junto al gobernador @QuintelaRicardo inauguram...
2,RT @CasaRosada: EN VIVO | La Rioja - El presid...
3,Fue muy grato haber participado hoy del encuen...
4,Hoy me reuní con los interventores del ENRE y ...
...,...
195,RT @alferdezprensa: 📺“Internet y la fibra ópti...
196,RT @alferdezprensa: 📺“Voy a hacer todos los es...
197,RT @alferdezprensa: 📺“Lo que nosotros pedimos ...
198,RT @alferdezprensa: 📺“Lo último que yo haría e...


In [None]:
#Agregamos la columna "Retweets" a "Data" bajo la siguiente forma:
data_tweet["Retweets"] = [tweet.retweet_count for tweet in posteos]

In [None]:
#Queremos más información. Queremos la cantidad de favoritos. 
data_tweet["Favoritos"] = [tweet.favorite_count for tweet in posteos]

In [None]:
#Por último, queremos saber un poco más de metadata del tweet. Es decir, información sobre el elemento.
#Queremos saber específicamente la fecha y horario en el cual fue publicado. 
data_tweet["Fecha"] =[tweet.created_at for tweet in posteos]

Vemos que finalmente nos quedó una tabla con información de los últimos Tweets de Alberto Fernandez lista para ser procesada y analizada. 

A fin de poder generar una tabla que reordene de acuerdo a la performance de los tweets por favoritos..

¿Qué hacemos? Tenemos una opción, que es ordenar nuestra tabla - la cual está como serie tmeporal actualmente - por cantidad de retweets.

Como no queremos arruinar la que tenemos ordenada temporalmente, generamos una nueva. 

In [None]:
#Creo una variable al cual le asigno como valor los tweets ordenados por cantidad de tweet.
#El método ".sort_values" opera sobre data ordenandola según el primer argumento que escribimos: "Retweets".
#El segundo argumento, le dice que el orden es descendente, al declarar falso al orden ascendente.

favoritos_mas_exitosos = data_tweet.sort_values("Favoritos",ascending=False)

favoritos_mas_exitosos[0:10]

Unnamed: 0,Tweets,Retweets,Favoritos,Fecha
42,La penalización del aborto ha fracasado como p...,14894,82747,2020-09-28 22:43:49
163,Agradezco todas las muestras de preocupación y...,14172,73703,2020-09-09 21:10:08
31,"Se nos fue Quino, uno de los artistas más gran...",3544,28375,2020-09-30 20:52:55
117,Hace 44 años la dictadura secuestraba y tortur...,5900,25576,2020-09-17 00:47:21
89,"Estudiando, los y las jóvenes van consolidando...",2587,20751,2020-09-21 19:17:02
151,Agradezco a los gobernadores y las gobernadora...,4914,18533,2020-09-10 23:24:45
173,Desde @juntoscambioar han convocado al “diálog...,4660,15583,2020-09-08 18:58:38
139,Lo que estamos haciendo no es sembrar discordi...,3787,15428,2020-09-11 20:16:36
120,Un país federal no es en contra de nadie: es a...,3442,14297,2020-09-16 00:45:35
36,Mis sinceras condolencias a la familia del ins...,1848,13828,2020-09-29 11:33:43


In [None]:
#Importamos los métodos que utilizaremos
from google.colab import files

#Convertimos nuestro DataFrame en un archivo .csv y especificando entre paréntesis y comillas, el nombre que le queremos poner al archivo
data_tweet.to_csv("Tweets de AF.csv")

#Escribimos el comando "files.download" para que descargue el archivo creado en nuestro disco local.
files.download("Tweets de AF.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Pero también lo queremos en archivo excel.

#Convertimos nuestro DataFrame a un archivo .xlsx
data_tweet.to_excel("Tweets de AF.xlsx")

#Escribimos nuevamente el comando de descarga y le pasamos el nombre de nuestro archivo.
files.download("Tweets de AF.xlsx")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Recién buscamos explorar cómo podíamos estructurar un dataset sin tener uno, solamente conociendo y explorando las herramientas que podíamos utilizar de acuerdo al problema que teníamos. Generamos una base de datos desde 0 utilizando la *Caja de herramientas* adecuada combinandola con Pandas para poder tener finalmente nuestro CSV.