# Modulo 1

In [None]:
import pandas as pd

# Cargar los datos
data = pd.read_csv('../data/vuelosNacionales/vuelosNacionales.csv')
data

In [None]:
import io

# pandas dataframes
stringData = '''Year,Make,Model,Length
                1997,Ford,E350,2.35
                2000,Mercury,Cougar,2.38'''
df = pd.read_csv(io.StringIO(stringData))
df

In [None]:
df['Year'] = df['Year'] - 3
df

In [None]:
data.head()

In [None]:
data.shape

### Quitemos los ```.``` de los números

```166.039 -> 166039
9.465.876 -> 9465876```

In [None]:
columnas = data.columns
print(columnas[:3])

# pasemoslo a lista
columnas = list(columnas)
print(columnas[:3])

columnasConNumeros = columnas[3:]
print(columnasConNumeros)

# para cada columna, quite los .


### ¿Cómo iterar?

In [None]:
for columna in columnasConNumeros:
    
    # limpiar columna
    print(columna)
    limpiarColumna(data, columna)

## Funciones

In [None]:
def limpiarColumna(dataFrame, nombreDeColumna):
    
    columna = dataFrame[nombreDeColumna]
    columnaLimpia = columna.str.replace('.','')
    
    dataFrame[nombreDeColumna] = columnaLimpia
    

# Invoquemos la función


In [None]:
primeraColumna = columnasConNumeros[0]
print(data[primeraColumna])

limpiarColumna(data, primeraColumna)
print(data[primeraColumna])

# De vuelta al ejemplo

In [None]:
for columna in columnasConNumeros:
    
    # limpiar columna
    print(columna)
    limpiarColumna(data, columna)

In [None]:
data.info()

## Condicionales

A veces, nos interesa ejecutar un pedazo de código sólamente si se cumple una condición.

In [None]:
data.info()

In [None]:
# float64 column
data['Número Vuelos Salidos - 2019']

In [None]:
data['Número Vuelos Salidos - 2007'].dtypes == 'float'

In [None]:
def limpiarColumna(dataFrame, nombreDeColumna):
    
    columna = dataFrame[nombreDeColumna]
    
    # CONDICIONAL
    if data[nombreDeColumna].dtypes == 'float':
        columna = columna.astype(str)
        
    columnaLimpia = columna.str.replace('.','')        
    dataFrame[nombreDeColumna] = columnaLimpia

In [None]:
for columna in columnasConNumeros:
    
    # limpiar columna
    print(columna)
    limpiarColumna(data, columna)

¿Quedó bien?

In [None]:
data

In [None]:
data.info()

# Tipos de datos

Hay varios tipos de datos en python (y cualquier lenguaje de programación):

- strings
- enteros (ints)
- flotantes (floats) - decimales
- booleanos (booleans/bools)

Tenemos que convertir la columna de ```str``` (que pandas interpreta como ```object```) a enteros (```int```).

In [None]:

def limpiarColumna(dataFrame, nombreDeColumna):
    
    columna = dataFrame[nombreDeColumna]
    if data[nombreDeColumna].dtypes == 'float':
        columna = columna.astype(str)
        
    columnaLimpia = columna.str.replace('.','')
    # cambiar a entero
    columnaComoNumero = columnaLimpia.astype(int)
    dataFrame[nombreDeColumna] = columnaComoNumero

Intentemos otra vez.

In [None]:
for columna in columnasConNumeros:
    
    # limpiar columna
    print(columna)
    limpiarColumna(data, columna)

# Nans - not a number

- Dato no existe
- Operación matemática no es válida (division por 0)

Eliminemos los ```Nan```s

In [None]:
# Descomprimamos esto

datosLimpios = data.fillna(0)

In [None]:
for columna in columnasConNumeros:
    
    # limpiar columna
    print(columna)
    limpiarColumna(datosLimpios, columna)

In [None]:
datosLimpios.info()

# Visualización de datos

Por categoría (pasajeros salidos, pasajeros llegados, carga y correo entrante, ...)




¿Cómo ha evolucionado el tráfico nacional a lo largo del tiempo?

Podemos mirar las distribuciones de pasajeros salidos del 2004 y el 2019 como una primera aproximación.

In [None]:
#histo
import matplotlib.pyplot as plt 

fig = plt.figure(figsize=(25,5))

bins = [i*0.1e6 for i in range(120)]

plt.hist(datosLimpios['Pasajeros Salidos - 2019'], bins=bins, label='2019', alpha=0.7)
plt.hist(datosLimpios['Pasajeros Salidos - 2004'], bins=bins, label='2004', alpha=0.7)
plt.xlim(0,2e6)
plt.legend()
plt.xlabel('Pasajeros salidos')
plt.ylabel('Frecuencia')
plt.savefig('histogramas.png')
plt.savefig('histogramas.pdf')

Los histogramas no nos dejan ver la imágen completa. Podemos ver cómo ha evolucionado la suma de los pasajeros que salen. 

In [None]:
# plot graph
def estaEnCategoria(elemento):
    return 'Pasajeros Salidos' in elemento

columnasPasajerosSalidos = list(filter(estaEnCategoria,columnasConNumeros))
anios = [2019-i for i in range(16)]

plt.plot(anios,datosLimpios[columnasPasajerosSalidos].sum())
plt.xlabel('Año')
plt.ylabel('Número de pasajeros salidos')

Podemos ver las llegadas y salidas de los pasajeros:

In [None]:
# double line
def plotCategoria(categoria):
    def estaEnCategoria(elemento):
        return categoria in elemento

    columnasPasajerosSalidos = list(filter(estaEnCategoria,columnasConNumeros))
    anios = [2019-i for i in range(16)]

    plt.plot(anios,datosLimpios[columnasPasajerosSalidos].sum(), label=categoria)
    
plotCategoria('Pasajeros Salidos')
plotCategoria('Pasajeros Llegados')
plt.legend()
plt.xlabel('Año')
plt.ylabel('Número de pasajeros')


Miremos **la diferencia** entre los pasajeros que han llegado y salido.

In [None]:
# diferencias
colsSalidos = list(filter(lambda x: 'Pasajeros Salidos' in x, columnasConNumeros))
colsLlegados = list(filter(lambda x: 'Pasajeros Llegados' in x, columnasConNumeros))
anios = [2019-i for i in range(16)]

diferencias = []

for i in range(len(colsSalidos)):
    dif = datosLimpios[colsLlegados[i]].sum() - datosLimpios[colsSalidos[i]].sum()
    diferencias.append(dif)
    
plt.bar(anios,diferencias)
plt.xlabel('Año')
plt.ylabel('Diferencia (número de pasajeros)')
    



# Pequeño resumen del módulo

### Aprendimos...
* Variables, ciclos, condicionales, tipos de datos
* Librerias
    * Pandas
    * Matplotlib

### Aprendimos...
* Aprendan a pescar: busquen en internet que siempre hay respuestas
* Arranquen por Google para buscar datos 