<a href="https://colab.research.google.com/github/manlio99/Materia-de-aprendizaje/blob/master/4_DataWrangling/intro_to_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### Copyright 2017 Google LLC.

In [None]:
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

 # Introducción rápida a Pandas

**Objetivos de aprendizaje:**
  * Obtener una introducción a las estructuras de datos de `DataFrame` y `Series` de la biblioteca de *Pandas*
  * Acceder y manipular datos dentro de `DataFrame` y `Series`
  * Importar datos CSV a un `DataFrame` de *Pandas*
  * Reindexar un `DataFrame` para obtener datos aleatorios

 [*pandas*](http://pandas.pydata.org/) es una API de análisis de datos en columnas, ideal para manipular y analizar datos de entrada. Además, muchos marcos de trabajo de AA admiten las estructuras de datos *pandas* como entradas.
Si bien una introducción detallada a la API de *pandas* abarcaría muchas páginas, los conceptos principales que presentamos a continuación son simples. Para obtener una referencia más completa, el [sitio de documentación de *pandas*](http://pandas.pydata.org/pandas-docs/stable/index.html) incluye una documentación exhaustiva y numerosos instructivos.

 ## Conceptos básicos

La siguiente línea importa la API de *pandas* e imprime la versión de la API:

In [None]:
from __future__ import print_function

import pandas as pd
pd.__version__

 Las estructuras de datos principales en *pandas* están implementadas en dos clases:

  * **`DataFrame`**, que puedes imaginar como una tabla de datos relacional, con filas y columnas con nombre.
  * **`Series`**, que es una columna simple. Una clase `DataFrame` incluye una o más `Series` y un nombre para cada `Series`.

El marco de datos es una abstracción que se usa normalmente para manipular datos. Hay implementaciones similares en [Spark](https://spark.apache.org/) y [R](https://www.r-project.org/about.html).

 Una manera de crear una `Series` es construir un objeto de `Series`. Por ejemplo:

In [None]:
pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

 Los objetos de `DataFrame` pueden crearse al enviar un `dict` que asigne nombres de columnas de `string` a sus `Series` correspondientes. Si las `Series` no coinciden con la longitud, los valores que falten se completan con valores [NA/NaN](http://pandas.pydata.org/pandas-docs/stable/missing_data.html) especiales. Ejemplo:

In [None]:
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

pd.DataFrame({ 'City name': city_names, 'Population': population })

 Pero por lo general, cargas un archivo completo en un `DataFrame`. El siguiente ejemplo carga un archivo con datos de viviendas de California. Ejecuta la siguiente celda para cargar los datos y crear definiciones de funciones:

In [None]:
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

 En el ejemplo de arriba, se usó `DataFrame.describe` para mostrar estadísticas interesantes sobre un `DataFrame`. Otra función útil es `DataFrame.head`, que muestra los primeros registros de un `DataFrame`:

In [None]:
california_housing_dataframe.head()

 Otra función util de *pandas* es la generación de gráficos. Por ejemplo, `DataFrame.hist` permite estudiar rápidamente la distribución de los valores en una columna:

In [None]:
california_housing_dataframe.hist('housing_median_age')

 ## Acceso a los datos

Puedes acceder a los datos de `DataFrame` mediante las operaciones convencionales de dict/list de Python:

In [None]:
cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
print(type(cities['City name']))
cities['City name']

In [None]:
print(type(cities['City name'][1]))
cities['City name'][1]

In [None]:
print(type(cities[0:2]))
cities[0:2]

 Además, *pandas* proporciona una API muy enriquecida para una [indexación y selección](http://pandas.pydata.org/pandas-docs/stable/indexing.html) avanzadas, que es un tema demasiado amplio como para cubrirlo aquí.

 ## Manipulación de datos

Puedes aplicar operaciones aritméticas básicas de Python a las `Series`. Por ejemplo:

In [None]:
population / 1000.

 [NumPy](http://www.numpy.org/) es un kit de herramientas popular para el cálculo científico. Las `Series` de *pandas* pueden usarse como argumentos para la mayoría de las funciones NumPy:

In [None]:
import numpy as np

np.log(population)

 Para obtener información sobre transformaciones más complejas de una sola columna, puedes usar `Series.apply`. Al igual que la función [función map](https://docs.python.org/2/library/functions.html#map) de Python, `Series.apply` acepta como argumento una función [función lambda](https://docs.python.org/2/tutorial/controlflow.html#lambda-expressions), que se aplica a cada valor.

El siguiente ejemplo crea una nueva `Series` que indica si la `population` es superior a un millón:

In [None]:
population.apply(lambda val: val > 1000000)

 
Modificar `DataFrames` también es simple. Por ejemplo, el siguiente código agrega dos `Series` a un `DataFrame` existente:

In [None]:
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
cities

 ## Ejercicio n.º 1

Para modificar la tabla de `cities`, agrega una nueva columna booleana que sea Verdadera si y solo si *ambos* de los siguientes valores son Verdaderos:

  * La ciudad le debe su nombre a un santo.
  * La ciudad tiene un área superior a 50 millas cuadradas.

**Nota:** Las `Series` booleanas se combinan en función de los bits, en lugar de los operadores booleanos tradicionales. Por ejemplo, cuando utilices *logical and*, usa `&` en lugar de `and`.

**Hint:** "San" en español representa "santo".

In [None]:
# Plantea tu codigo aqui

 ### Solución

Haz clic a continuación para obtener una solución.

In [11]:
cities['Is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(lambda name: name.startswith('San'))
cities

NameError: ignored

 ## Índices
Los objetos `Series` y `DataFrame` también definen una propiedad de `index` que asigna un valor de identificador a cada elemento `Series` o fila `DataFrame`.

De forma predeterminada, en la construcción, *pandas* asigna valores de índice que reflejan la solicitud de los datos de origen. Una vez creados, los valores de índice son estables, es decir, no cambian cuando cambia el orden de los datos.

In [None]:
city_names.index

In [None]:
cities.index

 Llama `DataFrame.reindex` para cambiar el orden de las filas de forma manual. Por ejemplo, la siguiente acción tiene el mismo efecto que ordenar los valores por nombre de ciudad:

In [None]:
cities.reindex([2, 0, 1])

 La reindexación es una excelente manera de seleccionar un `DataFrame` de forma aleatoria. En el ejemplo que se muestra a continuación, tomamos el índice, que es del tipo matriz, y lo enviamos a la función `random.permutation` de NumPy, que selecciona sus valores de forma aleatoria. Utilizar la `reindexación` con esta matriz aleatoria provoca que las filas de `DataFrame` se seleccionen de forma aleatoria de la misma manera.
¡Prueba ejecutar la siguiente celda varias veces!

In [None]:
cities.reindex(np.random.permutation(cities.index))

 Para obtener más información, consulta [Documentación de índice](http://pandas.pydata.org/pandas-docs/stable/indexing.html#index-objects).

 ## Ejercicio n.º 2

El método de `reindex` permite los valores de índice que no están en los valores de índice originales de `DataFrame`. Pruébalo y observa lo que sucede si usas esos valores. ¿Por qué supones que los permite?

In [None]:
# Plantea tu codigo aqui

 ### Solución

Haz clic a continuación para conocer la solución.

 Si la matriz de la entrada `reindex` incluye valores que no se encuentran en los valores de índice originales `DataFrame`, `reindex` agregará nuevas filas para esos índices "faltantes" y completará todas las columnas correspondientes con los valores `NaN`:

In [None]:
cities.reindex([0, 4, 5, 2])

 Este comportamiento es util, ya que por lo general los índices son strings extraídos de los datos actuales (consulta la [*pandas* reindex
documentation](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reindex.html) para obtener un ejemplo en el que los valores de índice son nombres de navegadores).

En este caso, permitir los índices "faltantes" facilita la reindexación mediante una lista externa, dado que no tienes que preocuparte por sanear directamente las entradas.



---


# TIP

Siempre intenten usar archivos csv o json para datos o tablas, .png o .tiff para imágenes, mp4 para video (cuidado con ffmpeg).

### **TIP**
Como subir un archivo a colab en 3 formas ditintas!




# manualmente

In [None]:
#tomada de Nicolás
d1= {"x": [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5], "y":[8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68]} 
df1= pd.DataFrame(data=d1)

# leyendo directamente desde pandas

recuerden subir el archivo ["RAW"](https://static.wixstatic.com/media/1ea3da_47117bdc785e4195b665e9d5e0cb96af~mv2.png/v1/fill/w_941,h_501,al_c,q_90,usm_0.66_1.00_0.01/1ea3da_47117bdc785e4195b665e9d5e0cb96af~mv2.webp)

In [9]:
#tomado de gaston y steven
import pandas as pd
url_gaston = 'https://raw.githubusercontent.com/GastonRAraujo/Materia-Ap_Maq/master/TP1/DataSet.csv'
url_steve = "https://raw.githubusercontent.com/smarvar/Machine-Learnig-practice/master/Cuarteto_de_Anscombe.csv"

df = pd.read_csv(url_gaston) #separado automaticamente por comas
print(df.head)

df = pd.read_csv(url_steve, sep=";")
print(df.head)

<bound method NDFrame.head of      x      y  x.1   y.1  x.2    y.2  x.3    y.3
0   10   8.04   10  9.14   10   7.46    8   6.58
1    8   6.95    8  8.14    8   6.77    8   5.76
2   13   7.58   13  8.74   13  12.74    8   7.71
3    9   8.81    9  8.77    9   7.11    8   8.84
4   11   8.33   11  9.26   11   7.81    8   8.47
5   14   9.96   14  8.10   14   8.84    8   7.04
6    6   7.24    6  6.13    6   6.08    8   5.25
7    4   4.26    4  3.10    4   5.39   19  12.50
8   12  10.84   12  9.13   12   8.15    8   5.56
9    7   4.82    7  7.26    7   6.42    8   7.91
10   5   5.68    5  4.74    5   5.73    8   6.89>


# drive
Yo uso esta, porque manejo cientos de miles de archivos.
Hay varias formas de usar drive, la mas simple la pueden ver en el panel izquierdo en el botón **<>**, escriben drive en el buscador y escogen mounting drive.



In [1]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [10]:
#les recomiendo cambiar la direccion de apertura a su favor
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


revisar en botón con forma de folder en el panel izquierdo.

In [15]:
!ls

drive  sample_data


# Buscador de archivos.
toca volver a subir el archivo cada vez que se reinicia.

In [10]:
#tomado de iván
from google.colab import files
files.upload()


{}

# colab
Este codigo se ejecuta en una computadora que google les presta por una cantidad de tiempo aleatoria, depende de la demanda que tenga su buscador.
Generalmente son computadoras de muy buena calidad y ya tienen preinstaladas muchos paquetes.
 
**Cambiar acelerador a GPU**
 
se puede ver la cantidad de memoria disponible en la barra de arriba a la derecha.


In [2]:
from tensorflow.python.client import device_lib
device_lib.list_local_devices()

[name: "/device:CPU:0"
 device_type: "CPU"
 memory_limit: 268435456
 locality {
 }
 incarnation: 13646170543256196416, name: "/device:XLA_CPU:0"
 device_type: "XLA_CPU"
 memory_limit: 17179869184
 locality {
 }
 incarnation: 10679265499113594080
 physical_device_desc: "device: XLA_CPU device", name: "/device:XLA_GPU:0"
 device_type: "XLA_GPU"
 memory_limit: 17179869184
 locality {
 }
 incarnation: 5920044355200726816
 physical_device_desc: "device: XLA_GPU device", name: "/device:GPU:0"
 device_type: "GPU"
 memory_limit: 15695488000
 locality {
   bus_id: 1
   links {
   }
 }
 incarnation: 5184234404005246071
 physical_device_desc: "device: 0, name: Tesla P100-PCIE-16GB, pci bus id: 0000:00:04.0, compute capability: 6.0"]

In [3]:
!cat /proc/cpuinfo

processor	: 0
vendor_id	: GenuineIntel
cpu family	: 6
model		: 79
model name	: Intel(R) Xeon(R) CPU @ 2.20GHz
stepping	: 0
microcode	: 0x1
cpu MHz		: 2200.000
cache size	: 56320 KB
physical id	: 0
siblings	: 2
core id		: 0
cpu cores	: 1
apicid		: 0
initial apicid	: 0
fpu		: yes
fpu_exception	: yes
cpuid level	: 13
wp		: yes
flags		: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd ibrs ibpb stibp fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm rdseed adx smap xsaveopt arat md_clear arch_capabilities
bugs		: cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds swapgs taa
bogomips	: 4400.00
clflush size	: 64
cache_alignment	: 64
address sizes	: 46 bits physical, 48 b