# Introduccion al análisis de datos en Python

## 1 Conceptos de estadística

Tipos de datos:
- **Numéricos**
    - *Discretos*: conuntos de números (enteros y naturales basicamente)
    - *Contínuos*: los reales
        - Intervalo(el cero de la escala es una mera convención)
            - Temperaturas en °C
            - Fechas
        - Proporción(tienen un cero de verdad)
            - Peso en kg
            - Estatura en cm
- **Categoricos**(conjuntos finitos)
    - *Nominales*
        - sí/no
        - colores
        - masculino/femenino
    - *Ordinales*
        - Rangos jerárquicos(cabo/coronel/teniente)
        - Nivel socioeconómico(pobres/clase media/fifis)
        - Preguntas de satisfacción(nula,poca,mucha,toda)

Ejemplo con datos heterogéneos:

|Nombre |  Fecha   |Peso|Promotor |Color|
|-------|----------|----|---------|-----|
|Adrián |2018-09-27|30  |Pasivo   |Azul |
|Beatriz|2013-03-17|40  |Promotor |Rojo |
|Carlos |NA        |83  |Detractor|Verde|
|Daniela|2014-12-25|29  |Pasivo   |Café |
|Ernesto|2090-01-01|50  |NA       |Negro|

# 1.1 Usando Python Puro

In [1]:
import datetime

In [2]:
fecha = datetime.datetime.fromisoformat

In [3]:
tabla=[
    ('Adrián',fecha('2018-09-27'),30,'Pasivo','Azul'),
    ('Beatriz',fecha('2013-03-17'),20,'Promotor','Rojo'),
    ('Carlos',None,83,'Detractor','Verde'),
    ('Daniela',fecha('2014-12-25'),29,'Pasivo','Café'),
    ('Ernesto',fecha('2090-01-01'),50,None,'Negro')
    
]

In [4]:
tabla

[('Adrián', datetime.datetime(2018, 9, 27, 0, 0), 30, 'Pasivo', 'Azul'),
 ('Beatriz', datetime.datetime(2013, 3, 17, 0, 0), 20, 'Promotor', 'Rojo'),
 ('Carlos', None, 83, 'Detractor', 'Verde'),
 ('Daniela', datetime.datetime(2014, 12, 25, 0, 0), 29, 'Pasivo', 'Café'),
 ('Ernesto', datetime.datetime(2090, 1, 1, 0, 0), 50, None, 'Negro')]

In [5]:
pesos=[renglon[2] for renglon in tabla]
print('Promedio de pesos:', sum(pesos)/len(pesos))

Promedio de pesos: 42.4


# Representacion por columnas

In [6]:
tabla = {
   'Nombre' : ['Adrián','Beatriz','Carlos','Daniela','Ernesto'],
    'Fecha' : [fecha('2018-09-27'),fecha('2013-03-17'),None,fecha('2014-12-25'),fecha('2090-01-01')],
    'Peso(kg)' : [30,20,29,50,83],
    'Promotor' : ['Pasivo','Promotor','Detractor','Pasivo',None],
    'Color'    : ['Azul','Rojo','Verde','Café','Negro']
}

In [7]:
tabla

{'Nombre': ['Adrián', 'Beatriz', 'Carlos', 'Daniela', 'Ernesto'],
 'Fecha': [datetime.datetime(2018, 9, 27, 0, 0),
  datetime.datetime(2013, 3, 17, 0, 0),
  None,
  datetime.datetime(2014, 12, 25, 0, 0),
  datetime.datetime(2090, 1, 1, 0, 0)],
 'Peso(kg)': [30, 20, 29, 50, 83],
 'Promotor': ['Pasivo', 'Promotor', 'Detractor', 'Pasivo', None],
 'Color': ['Azul', 'Rojo', 'Verde', 'Café', 'Negro']}

In [8]:
sum(tabla['Peso(kg)'])/len(tabla['Peso(kg)'])

42.4

In [9]:
max(tabla['Peso(kg)'])

83

## 1.2 Usando pandas
 Viene de Python data analysis

In [10]:
import pandas as pd

In [11]:
tabla=pd.DataFrame(tabla)

In [12]:
tabla

Unnamed: 0,Nombre,Fecha,Peso(kg),Promotor,Color
0,Adrián,2018-09-27,30,Pasivo,Azul
1,Beatriz,2013-03-17,20,Promotor,Rojo
2,Carlos,NaT,29,Detractor,Verde
3,Daniela,2014-12-25,50,Pasivo,Café
4,Ernesto,2090-01-01,83,,Negro


In [13]:
tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
Nombre      5 non-null object
Fecha       4 non-null datetime64[ns]
Peso(kg)    5 non-null int64
Promotor    4 non-null object
Color       5 non-null object
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 280.0+ bytes


In [14]:
tabla['Color']

0     Azul
1     Rojo
2    Verde
3     Café
4    Negro
Name: Color, dtype: object

In [15]:
tabla['Color'] = tabla['Color'].astype('category')

In [16]:
tabla['Fecha'] = pd.to_datetime(tabla['Fecha'])

In [17]:
tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
Nombre      5 non-null object
Fecha       4 non-null datetime64[ns]
Peso(kg)    5 non-null int64
Promotor    4 non-null object
Color       5 non-null category
dtypes: category(1), datetime64[ns](1), int64(1), object(2)
memory usage: 445.0+ bytes


In [25]:
tabla.loc[2]

Nombre         Carlos
Fecha             NaT
Peso(kg)           29
Promotor    Detractor
Color           Verde
Name: 2, dtype: object

In [19]:
tabla[['Nombre','Fecha']]

Unnamed: 0,Nombre,Fecha
0,Adrián,2018-09-27
1,Beatriz,2013-03-17
2,Carlos,NaT
3,Daniela,2014-12-25
4,Ernesto,2090-01-01


In [20]:
mascara = tabla['Peso(kg)'] < 50
tabla[mascara]

Unnamed: 0,Nombre,Fecha,Peso(kg),Promotor,Color
0,Adrián,2018-09-27,30,Pasivo,Azul
1,Beatriz,2013-03-17,20,Promotor,Rojo
2,Carlos,NaT,29,Detractor,Verde


In [21]:
tabla[~(tabla['Peso(kg)'] < 50) | (tabla['Promotor']=='Promotor')]

Unnamed: 0,Nombre,Fecha,Peso(kg),Promotor,Color
1,Beatriz,2013-03-17,20,Promotor,Rojo
3,Daniela,2014-12-25,50,Pasivo,Café
4,Ernesto,2090-01-01,83,,Negro


In [22]:
tabla['Peso(kg)']*2.20462

0     66.13860
1     44.09240
2     63.93398
3    110.23100
4    182.98346
Name: Peso(kg), dtype: float64

In [23]:
?pd.DataFrame

[0;31mInit signature:[0m [0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m([0m[0mdata[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mindex[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mcolumns[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mdtype[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
Two-dimensional size-mutable, potentially heterogeneous tabular data
structure with labeled axes (rows and columns). Arithmetic operations
align on both row and column labels. Can be thought of as a dict-like
container for Series objects. The primary pandas data structure.

Parameters
----------
data : numpy ndarray (structured or homogeneous), dict, or DataFrame
    Dict can contain Series, arrays, constants, or list-like objects

    .. versionchanged :: 0.23.0
       If data is a dict, argument order is maintained for Python 3.6
       and later.

index : Index or array-like
    Index to use f