<a href="https://colab.research.google.com/github/IEEESBITBA/Curso-Python/blob/master/Clase_3_Curso_Python_inicial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 3: Lectura y análisis de información en documentos
Bienvenidos a la tercera clase, en esta ocasión estudiaremos lectura y análisis de documentos de datos junto con librerías.

<img src="https://icons-for-free.com/iconfiles/png/512/document+file+page+paper+programming+icon-1320165844326114116.png" width=300>

# Librerías

Una librería es un conjunto de funciones implementadas por otro programador que nos facilita realizar tareas principalmente porque no debemos reescribir el codigo. En esta clase será vital el uso de librerías para poder analizar archivos con información.

<img src="http://www.goalexandria.com/wp-content/uploads/2016/02/alt-lib.png" width=200px>

¿Como usamos una libreria? Primero debemos importarla.

> **import** (nombre de la libreria) **as** (nombre abreviado)

Como estas pueden tener otras librerias adentro

> **from** (nombre de la libreria) **import** (nombre de la otra) **as** (nombre abreviado)

Para llamar luego a una función de la libreria usamos la siguiente sintaxis:

> (Nombre de la libreria)**.**función(parametros)

Nota: Es importante saber que el **as** es opcional, y que tambien pueden importar solo funciones que necesiten. También es una buena práctica que todas las librerías se importen al principio del programa, osea que el código se encuentre arriba de todo.

In [0]:
import math #Importamos la libreria math

print('El seno de 0 es ',math.sin(0),'y el coseno',math.cos(0))

In [0]:
from math import sin,cos

print('El seno de 0 es ',sin(0),'y el coseno',cos(0))

In [0]:
import math as m

print('El seno de 0 es ',m.sin(0),'y el coseno',m.cos(0))

In [0]:
from os import path as pth

print(pth.join('Carpeta','Archivo.rar'))

Carpeta/Archivo.rar


Algunas librerías muy conocidas e utilizadas son 


*   [numpy](https://numpy.org/) (Cálculo matricial)
*   [pandas](https://pandas.pydata.org/) (Lectura de bases de datos)
*   [maplotlib](https://matplotlib.org/) (Gráficos)
*   [tkinter](https://docs.python.org/3/library/tk.html) (Interfaces gráficas)
*   [scipy](https://www.scipy.org/) (Ciencia de datos)

En esta clase se utilizará  **Pandas** para analizar archivos de información estructurada como tales como **excel**

In [0]:
! pip install numpy



# Lectura de archivos .xlsx .csv

*   ***Información estructurada***



[Pandas](https://pandas.pydata.org) es una librería muy popular en los ultimos tiempos que nos permite, entre otras cosas, sistematizar con unas pocas funciones la conversión de un archivo de información en los tipos de datos que python maneja. En esta clase la utilizaremos para poder leer archivos con información en columnas, tales como los formatos **excel** o **csv**.

<img src="https://pandas.pydata.org/_static/pandas_logo.png" width=600px>

A continuación mostraremos un ejemplo donde se accede a la información de un archivo utilizando *Pandas*. El archivo que leeremos se llama **Datos.xlsx**; lo cargamos a colabollatory con el siguiente comando




In [0]:
 ! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/Datos.xlsx"

--2019-10-25 20:46:54--  https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/Datos.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4054 (4.0K) [application/octet-stream]
Saving to: ‘Datos.xlsx’


2019-10-25 20:46:54 (73.7 MB/s) - ‘Datos.xlsx’ saved [4054/4054]



La función que utilizaremos para cargar los datos del archivo se llama [read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

In [0]:
import pandas as pd

archivo = pd.read_excel("Datos.xlsx") 
# la variable archivo es un tipo de dato especial de pandas
print(archivo)

data = archivo.to_dict("list") 
# "list" significa que vamos a almacenar a cada columna como una lista con su contenido

print(data)

Cambiando el parámetro  "list" por "records" de la función [to_dict](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_dict.html) podemos lograr obtener la información separada por fila

In [0]:
data = archivo.to_dict("records") 
# "records" significa que vamos a obtener el contenido separado por cada fila

print(data)

También a veces es necesario "indexar" el archivo por alguna columna en particular, en estos casos 
podemos agregar un parámetro index_col con el nombre de la columna con la que queremos los datos indexados.
Es importante observar que la columna seleccionada, en otras palabras la columna que contendrá las claves no puede tener valores repetidos.

In [0]:
archivo = pd.read_excel("Datos.xlsx", index_fil ="Legajo") 
# Indicamos que la columna de indexación será apellido. Se ingresa como una lista
# porque es posible a veces indexar por dos columnas distintas
print(archivo)
data = archivo.to_dict("index") 
# "index" significa que vamos a obtener el contenido como diccionarios 
# donde la clave es algun campo de cada fila, en este caso la clave de los 
# diccionarios será la clave "Apellido"

# convertimos el tipo de dato de pandas a un dict de python

print(data)

Tambien es posible escribir archivos con pandas utilizando el comando [to_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html), a continuación mostraremos un ejemplo



In [0]:
data = {
    "personas" : ["Analía Ferreyra" , "Martin Hugo", "Fernando Lorenzo"],
    "edad" : [25, 35, 87] 
} # contenido como listas con el contenido de cada columna

claves = data.keys()

print(claves)

dataFrame = pd.DataFrame(data, None, claves) 
#generamos un dataframe (tipo de dato de pandas) con la informacion

dataFrame.to_excel("personas.xlsx") 
# exportamos la información a un archivo llamado "personas.xlsx"

#### Mini task 2
Leer el archivo **Tabla1.xlsx** y determinar campeon y perdedor.

In [0]:
 ! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/Tabla1.xlsx"

In [0]:
### Atención: es muy largo!!w

archivo = pd.read_excel("Tabla1.xlsx", index_col ="Equipo") 
# Indicamos que la columna de indexación será apellido. Se ingresa como una lista
# porque es posible a veces indexar por dos columnas distintas
print(archivo)
data = archivo.to_dict("index") 
# "index" significa que vamos a obtener el contenido como diccionarios 
# donde la clave es algun campo de cada fila, en este caso la clave de los 
# diccionarios será la clave "Apellido"
print(data)
# convertimos el tipo de dato de pandas a un dict de python
maxpunt = 0
minpunt = 1000000
maxname = ''
minname = ''
for key in data.keys():
    punt = data[key]['Puntos']
    if punt > maxpunt:
        maxpunt=punt
        maxname = key
    if punt < minpunt:
        minpunt=punt
        minname = key
print(maxname, 'resulto compeon con', maxpunt, 'puntos.' )
print(minname, 'resulto descendido con', minpunt, 'puntos.' )


###Uso de dataframes 
La librería pandas posee su propio tipo de datos para el manejo de información, a continuación veremos las operaciones más utilizadas.

In [0]:
import pandas as pd

datos = pd.read_excel("Datos.xlsx") 
# la variable datos es un tipo de dato especial de pandas
print(datos)

Usualmente necesitamos acceder a los datos dispuestos en las columnas esto se hace de la siguiente forma:

In [0]:
columna = 'Quimica'
print(datos[columna])

0    10
1     4
2     2
3     9
4     8
5     1
Name: Quimica, dtype: int64


#### Mini task 3 
Hacer promedio de alumnos en química

Tip: Podemos usar la función **sum**($iterable$) para obtener la suma de todos los campos. ¡La función **len** sigue siendo vá**lida** también!

In [0]:
print(sum(datos['Quimica'])/len(datos))

5.666666666666667


Otra tarea solicitada es acceder una fila en particular, en el ejemplo sería acceder a un alumno en particular lo cual se hace de la siguiente forma:

In [0]:
indice = 0
alumno = datos.loc[indice] 
print(alumno)

Legajo           34567
Nombre            Juan
Apellido      Martinez
Quimica             10
Matematica           7
Fisica               9
Name: 0, dtype: object


Veamos ahora cómo se puede acceder a un dato en particular del alumno:

In [0]:
print(alumno['Matematica'])

7


#### Mini task 4

Escribir una funcion que se le pase un **dataframe**, indice de un alumno y haga el promedio de sus materias.

In [0]:
datos = pd.read_excel("Datos.xlsx") 


## Filtrado de datos
Pandas nos permite trabajar de forma simple con los datos, filtrarlos, sumarlos.

Veamos operaciones con los datos:

- Operaciones matematicas: Veamos un ejemplo para sacar todos los promedios de los alumnos a la vez.

In [0]:
promedios = (datos['Quimica']+datos['Matematica']+datos['Fisica'])/3
print('Todos los promedios')
print(promedios)
print('El promedio maximo es',promedios.max())

Todos los promedios
0    8.666667
1    5.666667
2    3.333333
3    9.000000
4    7.000000
5    2.333333
dtype: float64
El promedio maximo es 9.0


- Filtrado: Nos permite filtrar los datos segun alguna condicion. Esto se realiza de la siguiente manera
> variable**[** (condicion1) &/| (condicion2) &/| (condicion3) ...  **]**

Las condiciones siguien el siguiente formato: variable**[** propiedad **]** >/</<=/... (número)

Nota: No debe ser si o si un numero, puede chequearse contra cualquier cosa mientras se puedan cumplir esas condiciones (mayor, menor, mayor o igual, igual, etc.).

Veamos un ejemplo extrayendo todos los alumnos que hayan aprobado quimica (nota>4):

In [0]:
aprobados = datos[(datos['Quimica']>=4) & (datos['Matematica']>=7)]
print(aprobados)

#### Mini task 5

Obtener el promedio general de todos los aprobados en Matematica.

- Agregar columnas: Para agregar una columa simplemente utilizamos
> variable**[** nombre nueva columna **]** = datos nueva columna

Veamos un ejemplo:

In [0]:
promedios = (datos['Quimica']+datos['Matematica']+datos['Fisica'])/3
datos['Promedio'] = promedios
print(datos)

- Obtener los datos en un diccionario: Pandas tambien nos permite obtener los datos de una forma que ya conocemos que es como un diccionario. Para ello le debemos decir cuales van a ser los keys que debe utilizar. Para eso cuando lo leemos le debemos decir la columna que queremos usar de indice.

> pd.read_csv('archivo', **index_col** = [propiedad])

Veamos un ejemplo:




In [0]:
import pandas as pd

archivo = pd.read_csv("Datos.csv", index_col =["Legajo"]) 
print(archivo)

Observen que ahora la primera columna en vez de ser 0,1,2,... son los legajos, esto nos permite acceder con .loc por legajo!

In [0]:
print(archivo.loc[34567])

## Nota final

Esta libería nos permite simplificar en gran medida el trabajo de convertir información de archivos a datos manejables por nuestro programa en gran medida. Mostramos algunos ejemplos elementales del uso de pandas, no obstante pueden conseguir la documentación oficial de pandas [aquí](http://pandas.pydata.org/pandas-docs/stable/). 

La habilidad de leer y entender la documentación  de librerías se adquiere con tiempo y experiencia, es muy valorada en la industria.

# Lectura de otro tipos de archivos

*   ***Información no estructurada***


A veces es necesario realizar un programa que pueda procesar información que se encuentra en un formato "personalizado", necesitamos en tales casos realizar entonces un programa especializado.

El analisis de un texto es un ejemplo de un archivo para el cual necesitamos realizar una lectura en modo "manual". 

Imaginemos que se necesita leer un archivo .txt con una noticia del diario **The New York Times** y analizar su contenido. 

<img src="http://www.harfordcountyhealth.com/wp-content/uploads/2015/01/Newspaper.jpg" width=400>

El archivo es **noticia.txt**, lo importaremos a la nube con el siguiente comando 

In [0]:
! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/noticia.txt"

--2019-09-10 00:06:12--  https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/noticia.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1153 (1.1K) [text/plain]
Saving to: ‘noticia.txt.1’


2019-09-10 00:06:13 (297 MB/s) - ‘noticia.txt.1’ saved [1153/1153]



En este caso abriremos el archivo con el comando "open" de python y guardamos en una lista strings con el contenido "en bruto", separado en cada linea.
Observen que no estamos utilizando librerías

In [0]:
file = open("noticia.txt") # cargamos el archivo a la memoria

contenido = file.readlines() # calculamos todas las lineas
print(contenido)

for line in contenido: 
    print(line) #mostramos linea a linea

Luego de poder almacenar el contenido, lo separaremos por palabras utilizando en comando split

In [0]:
palabras = []

for line in contenido:
    
    palabras_linea = line.split(' ') # separamos por espacios
    
    for palabra in palabras_linea: # por cada "string" separado por espacios
        palabras.append(palabra)

print(palabras)

¡Podemos observar que algunos carácteres no deseados (como '\ufeff' o '\n') se filtran entre las palabras! Es habitual que cuando analizemos un archivo a mano de manera "personalizada" ocurran esta clase de problemas, los cuales debemos resolver con algunos parches a nuestro programa. En este caso los carácteres no deseados que podemos observar a simple vista son **\ufeff**, **—**, **\n**, **’s**. Los filtraremos utilizando el comando [replace](https://www.geeksforgeeks.org/python-string-replace/) de python

In [0]:
palabras = []

for line in contenido:
    
    # eliminamos los distintos carácteres no deseados uno por uno
    line = line.replace('\ufeff','')
    line = line.replace('—','')
    line = line.replace('\n','')
    line = line.replace('’s','')
    line = line.replace(',','')
    line = line.replace('.','')
   
    palabras_linea = line.split(' ') # separamos por espacios 
    
    for palabra in palabras_linea: # por cada "string" separado por espacios
      if palabra != '':
        palabras.append(palabra.upper())

print(palabras)

['WASHINGTON', 'THE', 'WHITE', 'HOUSE', 'BLINDSIDED', 'BY', 'A', 'PACT', 'BETWEEN', 'CALIFORNIA', 'AND', 'FOUR', 'AUTOMAKERS', 'TO', 'OPPOSE', 'PRESIDENT', 'TRUMP', 'AUTO', 'EMISSIONS', 'ROLLBACKS', 'HAS', 'MOUNTED', 'AN', 'EFFORT', 'TO', 'PREVENT', 'ANY', 'MORE', 'COMPANIES', 'FROM', 'JOINING', 'THE', 'OTHER', 'SIDE', 'TOYOTA', 'FIAT', 'CHRYSLER', 'AND', 'GENERAL', 'MOTORS', 'WERE', 'ALL', 'SUMMONED', 'BY', 'A', 'SENIOR', 'TRUMP', 'ADVISER', 'TO', 'A', 'WHITE', 'HOUSE', 'MEETING', 'LAST', 'MONTH', 'WHERE', 'HE', 'PRESSED', 'THEM', 'TO', 'STAND', 'BY', 'THE', 'PRESIDENT', 'OWN', 'INITIATIVE', 'ACCORDING', 'TO', 'FOUR', 'PEOPLE', 'FAMILIAR', 'WITH', 'THE', 'TALKS', 'BUT', 'EVEN', 'AS', 'THE', 'WHITE', 'HOUSE', 'WAS', 'WORKING', 'TO', 'DO', 'THIS', 'IT', 'WAS', 'LOSING', 'GROUND', 'YET', 'ANOTHER', 'COMPANY', 'MERCEDES-BENZ', 'IS', 'PREPARING', 'TO', 'JOIN', 'THE', 'FOUR', 'AUTOMAKERS', 'ALREADY', 'IN', 'THE', 'CALIFORNIA', 'AGREEMENT', 'HONDA', 'FORD', 'VOLKSWAGEN', 'AND', 'BMW', 'ACCOR

### Mini task

Encontrar la cantidad de ocurrencias de la palabras "**Trump**" y "**the**" en el texto

In [0]:
cant_trump = 0
cant_the = 0
for palabra in palabras:
    if palabra == 'TRUMP':
        cant_trump +=1
    elif palabra == 'THE':
        cant_the +=1
print('Trump:',cant_trump)
print('The:',cant_the)

Trump: 3
The: 13



## Nota final

Es importante que sepan que si bien el uso de librerías simplifica en gran medida nuestros programas, y es una habilidad de gran relevancia saber utilizarlas; a veces, pueden existir limitaciones de versatilidad en su uso, y necesitaremos realizar un programa especifico para analizar nuestros datos.

# Liberías numpy y matplotlib

Se dará una introducción a estas dos liberías que son de las más utilizadas. 

## Numpy
[Numpy]((https://numpy.org/) (**Num**-ber **Py**-thon) es la libreria estándar de Python para trabajar con vectores y matrices. Extiende la funcionalidad de python permitiendo el uso de expresiones vectorizadas (tales como las de matlab, competencia en el campo de cálculo cientifico)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/1200px-NumPy_logo.svg.png" width = 450>

## Maplotlib
[Matplotlib](https://matplotlib.org/) (**Mat**-h **Plot** **Lib**rary) es la libreria estandar de Python para realizar gráficos de diversos tipos. 

<img src="https://matplotlib.org/_static/logo2.png" width= 500>

A continuación mostraremos un ejemplo del uso de numpy y maplotlib utilizando las siguientes funciones:



*   [np.arrage()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html)
*   [np.sin()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.sin.html)
*   [plt.plot()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.plot.html)
*   [plt.show()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.show.html)



In [0]:
import matplotlib.pyplot as plt
import numpy as np
import math
t = np.linspace(0,1,10000)
#np.arange(0,1,0.01) # vector de tiempos
seno = 5*np.sin(2*np.pi*10*t) # expresion vectorizada, tenemos los valores de sin(x) en cada instante

plt.plot(t,seno)
plt.show()


#### Mini task

Gráficar en el intervalo de [-5, 5] una [función gaussiana](https://es.wikipedia.org/wiki/Funci%C3%B3n_gaussiana) definida como

$$ f(x) = e^{-x^2/2} $$

Usar la funcion [np.exp](https://docs.scipy.org/doc/numpy/reference/generated/numpy.exp.html) de numpy 

In [0]:
t = np.arange(-5,5,0.01)
f = np.exp(-(t**2)/2)
plt.plot(t,f)
plt.show()

### Nota final

Si bien es posible realizar cálculos de vectores y matrices sin utilizar librerias con los conocimientos anteriores, la notación vectorizada suele ser más facil de leer, y en muchas ocasiones más optimizada. 
Es importante saber utilizarla, y también conocer sus limites, a veces un loop puede ser la opción más adecuada.

La clase proxima se verán estas dos liberías con una mayor profundidad


# Ejercitación integradora $\newcommand{\dif}{\bigstar}$$\newcommand{\facil}{\color{\green}{\dif}}$ $\newcommand{\pieceofcake}{\color{\cyan}{\dif}}$$\newcommand{\medio}{\color{\yellow}{\dif\dif}}$$\newcommand{\media}{\medio}$$\newcommand{\normal}{\medio}$  $\newcommand{\dificil}{\color{\orange}{\dif\dif\dif}}$ $\newcommand{\imposible}{\color{\red}{\dif\dif\dif\dif}}$


## $\facil$ Copy
*   ***Manejo de archivos***



Armar una función que copie un archivo, y lo guarde como Copia 1 - $nombre$, de ya existir debe guardarlo como Copia 2 -, Copia 3 - , ...

Usar la libreria os para chequear si existe el archivo:
> os.path.exists($nombre$) devolverá True si ya existe
> importar con: Import os

In [0]:
import os

def func(nombre):
    if(os.path.exists(nombre)==True):
        print('Existe')
    else:
        print('No existe')
        
func('Datos.xlsx')
func('Hola.xlsx')

Existe
No existe


## $\facil$ Análisis de idiomas

*   ***Analísis de información no estructurada***


Importar el archivo **noticia.txt**

In [0]:
! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/noticia.txt"

Calcular la [frecuencia de aparición de letras](https://en.wikipedia.org/wiki/Letter_frequency). Compararla con la frecuencia de letras cáracteristica del idioma Inglés (En el articulo de wikipedia pueden encontrarla). ¿Existe alguna relación?

In [0]:
file = open("noticia.txt") # cargamos el archivo a la memoria

contenido = file.readlines() # calculamos todas las lineas

## $\facil$ California Housing

*   ***Analísis de información estructurada***
*   ***Librerías***




Importar el archivo **california_housing_train.xlsx**. 

In [0]:
! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/california_housing_train.xlsx"

Este archivo contiene un conjunto de datos de viviendas de California, el cual fue extraido del censo de nacional de 1990. Para mas info sobre el set de datos: https://developers.google.com/machine-learning/crash-course/california-housing-data-description

Extraer la siguiente información:

*   ¿Cuantas casas hay con valor 'median_house_value' mayor a 80000 tomando de la longitud -120  a -118? Rta: 5466
*   ¿Cual es el promedio de habitaciones por manzana ('total_rooms') de estas casas? Rta: 2466.31

*   ¿Cual es la casa más cara? ¿Cuántas hay con este valor? Rta: 500001.0 - 814 

*   $\medio$ Obtener la media y la varianza de la propiedad 'median_house_value'. Rta: 207300.91 - 13451442293.57

Tip: ¡Pueden utilizar funciones de python para conseguir la media y la varianza!  [numpy.var](https://docs.scipy.org/doc/numpy-1.6.0/reference/generated/numpy.var.html)

In [0]:
import pandas as pd
import numpy as np

archivo = pd.read_csv("california_housing_train.xlsx") 


## $\medio$ El tiempo es dinero

*   ***Analisís de información estructurada***
*   ***Librerías***





La administración del dinero es una tarea que requiere una altísima fiabilidad. En esta ocasión tu objetivo será programar un script que actualize los montos de dinero de una serie de usuarios a partir de la información de las transferencias que fueron realizadas. 

Importar el archivo **Finanzas.xlsx**

In [0]:
! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/Finanzas.xlsx"

--2019-09-12 03:06:59--  https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/Finanzas.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10809 (11K) [application/octet-stream]
Saving to: ‘Finanzas.xlsx’


2019-09-12 03:07:04 (76.5 MB/s) - ‘Finanzas.xlsx’ saved [10809/10809]



<img src="https://psmag.com/.image/t_share/MTI3NTgyMzg2MzE2NzAxNjY2/time-is-money.jpg" width=400>

Debes procesar las transferencias y actualizar el saldo de cada usuario (crear un nuevo archivo excel con los saldos actualizados)

In [0]:
usuarios_archivo = pd.read_excel("Finanzas.xlsx", "Usuarios",index_col="Usuario") 
#leemos los usuarios "indexados" por su nombre

transferencias_archivo = pd.read_excel("Finanzas.xlsx", "Transferencias")


## $\dificil $ Buscando la $


*   ***Procesamiento de información estructurada***
*   ***Librerías***





Utilizando el set de datos del archivo **california_housing_train.xlsx**

Dividir el area cubierta por el censo en cuadrantes de 0.5 de latitud x 0.5  de longitud, encontrar para que cuadrante el valor medio de 'median_house_value' es máximo. Asignar el paso como una variable para que pueda cambiarse facilmente. Para filtrar las zonas de muy baja residencia descarten los valores cuando hay menos de 100 casas

Datos utiles:
- Minimo de longitud: -124.3
- Máximo de longitud: -114.3
- Minimo de latitud: 32.5
- Máximo de latitud: 42.5

Tip: El programa va a tardar en correr, no se asusten!

**Nota final**: Busquen en el mapa estas coordenadas para ver donde quedan! 

In [0]:
import pandas as pd
import numpy as np

archivo = pd.read_excel("california_housing_train.xlsx") 
paso = .5

lats = np.arange(32.5,42.5,paso)
lons = np.arange(-124.3,113.3,paso) 
maximoValor = 0
maximaLat = 0
maximaLon = 0

## $\imposible $ Unificación de bases de datos

Para notificar a sus clientes de promos y novedades, una empresa cuenta con varias listas de mails, obtenidos de eventos, compras, etc. Lamentablemente, hasta ahora no se ha trabajado de forma muy ordenada, y estas listas no tienen coherencia entre sí: hay personas que están presentes en más de una lista, y no todas las listas cuentan con la misma información sobre los clientes: **lo único que es consistente es que siempre el mail está en la primera columna**. Esta locura debe terminar.

Se desea generar una lista unificada de mails, donde estén presentes todos los clientes que se tiene, y sin perder ningún dato sobre ellos. Asimismo, no debe haber personas repetidas, y si se tiene un mismo cliente en dos listas, debe asegurarse que se conserven todos los datos.

Se puede asumir que no habrá datos incongruentes entre sí (por ejemplo, que para un mismo mail no figurarán dos nombres distintos), y que si ocurre se puede elegir uno arbitrariamente.

In [0]:
! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/lista1.csv" 
# primera lista de clientes

! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/lista2.csv"
# segunda lista de clientes

! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/lista_final.csv"
# ejemplo de como tiene que quedar (las columnas pueden quedar en otro orden! salvo la primera)

In [0]:
# con estas lineas pueden obtener los archivos de ejemplo

! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/transferencias.csv" 
! wget "https://raw.githubusercontent.com/IEEESBITBA/Curso-Python/master/Clase_3_datos/usuarios.csv" 