# Ejemplos de uso de pandas con datos reales. (Cap.3- sección 2 en adelante)
##### Creado por Gabriel Missael Barco el 06/02/2020

En este archivos se continua con la elaboración de ejemplos del capitulo 3 del libro, pero esta vez ya con datos de temperatura y lluvia reales de México (2019). Son en total 4 archivos, que usaremos para ejemplificar el uso de Pandas y para al final tener como producto terminado una sola base de datos que tenga todas las tablas de los archivos anteriores, una para lluvias y otra para la temperatura.

In [16]:
import pandas as pd
import numpy as np

#Cargamos los archivos .csv a un DataFrame
tempMax = pd.read_csv("temperatura_maxima.csv", encoding = 'Latin-1')
tempMid = pd.read_csv("temperatura_media.csv", encoding = 'Latin-1')
tempMin = pd.read_csv("temperatura_minima.csv", encoding = 'Latin-1')
lluvia = pd.read_csv("lluvia.csv", encoding = 'Latin-1')

#Previsualizamos la cabecera una tabla
tempMid.head()

Unnamed: 0,Lon,Lat,Clave,Edo,Est,Tmed
0,-99.75,16.76,76805,GRO,ACAPULCO,27.441935
1,-111.83,30.71,76113,SON,ALTAR,13.462069
2,-93.9,16.24,76840,CHIS,ARRIAGA,28.08871
3,-90.5,19.83,76695,CAMP,CAMPECHE,23.374074
4,-111.65,25.01,76402,BCS,CD. CONSTITUCIÓN,17.987097


## Seleccion de datos en series
#### Series como diccionarios.

In [36]:
#Cargamos la columna de estados como una serie
estados = pd.Series(tempMid['Edo'])

#Podemos operar como con diccionarios
print(estados[12])
print('GTO' in estados)
print(estados.keys())
list(estados[1:8].items())

CHIS
False
RangeIndex(start=0, stop=635, step=1)


[(1, 'SON'),
 (2, 'CHIS'),
 (3, 'CAMP'),
 (4, 'BCS'),
 (5, 'SON'),
 (6, 'TAMPS'),
 (7, 'DF')]

#### Series como arreglos unidimensionales

In [43]:
#Podemos acceder las series como arreglos
print(estados[1:7])
print(estados.loc[7])

1      SON
2     CHIS
3     CAMP
4      BCS
5      SON
6    TAMPS
Name: Edo, dtype: object
DF
DF


### Seleccion de datos con DataFrame

Usaremos el DataFrame tempMid

#### DataFrame como un diccionario

In [53]:
#Accedemos como a un diccionario
print(tempMid['Tmed'][0:5])
print(tempMid.Tmed[0:5])
print(tempMid['Tmed'] is tempMid.Tmed)

#Podemos realizar operacions
tempAux = tempMid.copy()
tempAux['raiz'] = tempAux['Tmed'] / tempAux['Lon']
print(tempAux.raiz[0:5])

0    27.441935
1    13.462069
2    28.088710
3    23.374074
4    17.987097
Name: Tmed, dtype: float64
0    27.441935
1    13.462069
2    28.088710
3    23.374074
4    17.987097
Name: Tmed, dtype: float64
True
0   -0.275107
1   -0.120380
2   -0.299134
3   -0.258277
4   -0.161103
Name: raiz, dtype: float64


### Data Frame como arreglo bidimensional

In [63]:
#Consultar valores
print(tempAux.values[0:1])
#Tranponer los datos
print(tempAux.T[0:1])

#Indexar como Numpy
print(tempAux.loc[:2 , :'Edo'])

[[-99.75 16.76 '76805' 'GRO' 'ACAPULCO' 27.44193548 -0.2751071226065163]]
       0       1     2     3       4       5      6     7     8       9    \
Lon -99.75 -111.83 -93.9 -90.5 -111.65 -109.92 -99.17 -99.2 -88.3 -106.13   

     ...    625     626    627    628    629    630   631    632    633   634  
Lon  ... -99.12 -103.73 -99.47 -99.73 -99.65 -99.24 -99.8 -95.93 -95.52 -89.5  

[1 rows x 635 columns]
      Lon    Lat  Clave   Edo
0  -99.75  16.76  76805   GRO
1 -111.83  30.71  76113   SON
2  -93.90  16.24  76840  CHIS


## Operando datos en Pandas
Pandas puede realizar tantas operaciones casi como Numpy :)
### Unfuncs: preservacion de indices

In [66]:
#Podemos realizar operaciones cool
print(np.exp(tempAux.Tmed[0:5]))
print(np.sin(tempAux.Tmed[0:5]*np.pi / 4))


0    8.277156e+11
1    7.022670e+05
2    1.580417e+12
3    1.416548e+10
4    6.481819e+07
Name: Tmed, dtype: float64
0    0.424403
1   -0.912071
2   -0.069616
3   -0.472038
4    0.999949
Name: Tmed, dtype: float64


### UFunc: Alineacion de indices
Pandas alinea los indices en el proceso mientras hace las operaciones

### Alineacion de indices en series
Lo mismo que con DataFrames, si no esta toda la info, se lo salta y pone NaN. Si no quieres Nan, puedes usar otras cosas, como para sumar usar A.add(B, fill_value=0)

Python Operator	Pandas Method(s)
```
+	add()
-	sub(), subtract()
*	mul(), multiply()
/	truediv(), div(), divide()
//	floordiv()
%	mod()
**	pow()
```

## Manejando datos perdidos
En cualquier conjunto de datos reales habrá datos 'perdidios'. Pandas puede manejarlos. Los datos perdidios se expresan como NaN o como None.

### None: Pythonic missing data
No conviene tener None en un arreglo Numpy comun, ya que las operaciones serán mucho ams lentas, ya que no seran numeros, si no objetos. Tampoco puedes realizar calculos.

### NaN (Not a Number): Missing numerical data
Es und dato tipo flotante estandarizado.

In [75]:
vals1 = np.array([1, 2, None])
vals2 = np.array([1, 2, np.nan])

#Crea cosas diferentes
print(vals1.dtype, vals2.dtype)

#Con Nan si se puede operar
print(1+np.nan)
print(0*np.nan)

#Si hay un nan en tu arreglo, debes usar otros comandos
print(np.nansum(vals2))
print(np.nanmin(vals2))
print(np.nanmax(vals2))

object float64
nan
nan
3.0
1.0
2.0


### NaN y None en Pandas

In [78]:
#Soporta ambos tipos de datos
aux = pd.Series([1, np.nan, 2, None])
print(aux)

#Pasa todo None a Nan
aux[0] = None
print(aux)

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64
0    NaN
1    NaN
2    2.0
3    NaN
dtype: float64


### Operando con valores nulos
Se usan los siguientes comandos: 
- isnull(): Generate a boolean mask indicating missing values
- notnull(): Opposite of isnull()
- dropna(): Return a filtered version of the data
- fillna(): Return a copy of the data with missing values - filled or imputed

In [85]:
#Veamos si hay datos nulos en la info de lluvia
nulos = tempMid.isnull()

#Asi se ve
print(nulos[0:5])

#Vemos si hay alguno
print(True in nulos)
#No hay :)

     Lon    Lat  Clave    Edo    Est   Tmed
0  False  False  False  False  False  False
1  False  False  False  False  False  False
2  False  False  False  False  False  False
3  False  False  False  False  False  False
4  False  False  False  False  False  False
False


## Indexación jerarquica
Esto es indexación multiple para poder crear conjuntos de datos de mayos dimension. Puede verse como una matrix n-dimensioanal o como un grafo.

### Series con indexación multiple

In [106]:
#Ejemplo
tupla = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
indice = pd.MultiIndex.from_tuples(tupla)
print(indice.levels, indice.codes)

poblacion = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]

multi = pd.Series(poblacion, indice)
print(multi)

[['California', 'New York', 'Texas'], [2000, 2010]] [[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]]
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64


In [194]:
estados = np.array(tempMid.Edo)
est = []
pos = []
cor = []

est.append(estados[0])

for i in estados:
    if i not in est:
        est.append(i)
        
for i in est:
    pos.append((i, 'Lon'))
    pos.append((i, 'Lat'))

for i in range(len(tempMid.Lon)):
    cor.append(tempMid.Lon[i])
    cor.append(tempMid.Lat[i])

index = pd.MultiIndex.from_tuples(pos)
datos = pd.Series(cor[0:62], index = index)

In [196]:
datos[0:8]

GRO   Lon    -99.75
      Lat     16.76
SON   Lon   -111.83
      Lat     30.71
CHIS  Lon    -93.90
      Lat     16.24
CAMP  Lon    -90.50
      Lat     19.83
dtype: float64

### MultiIndex como dimension extra

Podemos convertir series con indice multiple en un dataframe normal. Parece ser que un indice multiple no se util en este caso, pero para 3 o mas dimensiones si que lo es.

In [201]:
datos_df = datos.unstack()
datos_df.head()

Unnamed: 0,Lat,Lon
AGS,28.7,-100.52
BC,21.28,-89.65
BCS,25.01,-111.65
CAMP,19.83,-90.5
CHIH,18.48,-88.3


In [200]:
#Podemos regresar a lo anterior
datos_df.stack()

AGS  Lat     28.70
     Lon   -100.52
BC   Lat     21.28
     Lon    -89.65
BCS  Lat     25.01
             ...  
VER  Lon   -103.46
YUC  Lat     26.92
     Lon   -105.67
ZAC  Lat     21.28
     Lon    -98.81
Length: 62, dtype: float64

In [205]:
datos_df = pd.DataFrame({'Datos': datos,
                         'Unos :3':1})
datos_df

Unnamed: 0,Unnamed: 1,Datos,Unos :3
GRO,Lon,-99.75,1
GRO,Lat,16.76,1
SON,Lon,-111.83,1
SON,Lat,30.71,1
CHIS,Lon,-93.90,1
...,...,...,...
AGS,Lat,28.70,1
BC,Lon,-89.65,1
BC,Lat,21.28,1
TAB,Lon,-98.17,1


In [210]:
f_u18 = datos_df['Unos :3'] / datos_df['Datos']
f_u18.unstack()[0:5]

Unnamed: 0,Lat,Lon
AGS,0.034843,-0.009948
BC,0.046992,-0.011154
BCS,0.039984,-0.008957
CAMP,0.050429,-0.01105
CHIH,0.054113,-0.011325


### Metodos de creacion de indice multiple
Tan solo es necesario ponerlo bien en el constructor, con los indices correctos o con un diccionario bien organizado.

In [212]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.593608,0.353891
a,2,0.646886,0.877086
b,1,0.114713,0.838972
b,2,0.229684,0.57636


### Metodos explitisos de creacion de indice multiple
Hay un metodo especifico para hacerlo, que ya usamos antes

In [215]:
print(pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], 
                           [1, 2, 1, 2]]))
print(pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])
)
print(pd.MultiIndex.from_product([['a', 'b'], [1, 2]]))

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )
MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )
MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )
