# 1 Procesamiento de datos

**Funciones a recordar:**
*   `.groupby`: Aplicar una función y combinar los resultados. Se utiliza para agrupar grandes cantidades de datos y calcular operaciones de grupo.
*   `.agg` : Se agregan operaciones en el eje especificado, por defecto es el eje 0 (columnas)

In [1]:
import pandas as pd
from pandas import DataFrame
df = pd.DataFrame({'Materia': ['Historia', 'Historia', 'Ciencias', 'Ciencias'],
                   'Grado': ['Primero', 'Segundo', 'Primero', 'Segundo'],
                   'Puntos': [67, 98, 78, 50],
                   'Asistencias': [4, 6, 8, 5]})
print(df)


    Materia    Grado  Puntos  Asistencias
0  Historia  Primero      67            4
1  Historia  Segundo      98            6
2  Ciencias  Primero      78            8
3  Ciencias  Segundo      50            5


In [2]:
df.groupby('Materia').mean()

  df.groupby('Materia').mean()


Unnamed: 0_level_0,Puntos,Asistencias
Materia,Unnamed: 1_level_1,Unnamed: 2_level_1
Ciencias,64.0,6.5
Historia,82.5,5.0


**Agg**

In [3]:
print(df.groupby('Materia').mean())
df.groupby(['Grado','Materia'],axis=0).mean()

          Puntos  Asistencias
Materia                      
Ciencias    64.0          6.5
Historia    82.5          5.0


  print(df.groupby('Materia').mean())


Unnamed: 0_level_0,Unnamed: 1_level_0,Puntos,Asistencias
Grado,Materia,Unnamed: 2_level_1,Unnamed: 3_level_1
Primero,Ciencias,78.0,8.0
Primero,Historia,67.0,4.0
Segundo,Ciencias,50.0,5.0
Segundo,Historia,98.0,6.0


In [4]:
Grado = df.groupby('Grado').mean()
Grado

  Grado = df.groupby('Grado').mean()


Unnamed: 0_level_0,Puntos,Asistencias
Grado,Unnamed: 1_level_1,Unnamed: 2_level_1
Primero,72.5,6.0
Segundo,74.0,5.5


In [5]:
Grado.agg('sum', axis = 'columns') #sumatoria por columna

Grado
Primero    78.5
Segundo    79.5
dtype: float64

In [6]:
Grado.agg('sum', axis = 'rows') #sumatoria por filas

Puntos         146.5
Asistencias     11.5
dtype: float64

In [7]:
df.agg(Alto=('Asistencias','sum'), Bajo=('Asistencias','mean'))

Unnamed: 0,Asistencias
Alto,23.0
Bajo,5.75


Una forma de analizar los datos cualitativos es mediante el conteo de frecuencias, de tal modo que se puede obtener una visualización más concentrada para la toma de decisiones.

In [8]:
import pandas as pd
from pandas import DataFrame

Datos=pd.read_csv('Clima.csv')
print(Datos.dtypes)
Datos.head()

Panorama        object
Temperatura      int64
Humedad         object
Viento         float64
JugarTenis      object
dtype: object


Unnamed: 0,Panorama,Temperatura,Humedad,Viento,JugarTenis
0,nublado,29,alta,7.53,si
1,nublado,22,alta,11.26,si
2,lluvioso,37,alta,18.5,no
3,nublado,30,alta,18.32,no
4,soleado,5,normal,7.88,no


En el conjunto anterior, se muestran tres atributos cualitativos (2 nominales y uno ordinal). Lo más simple es hacer un conteo y analizar el porcentaje de instancias con un valor determinado.

In [9]:
Datos.groupby('Panorama').value_counts()

Panorama  Temperatura  Humedad  Viento  JugarTenis
lluvioso  4            baja     5.42    si            1
          5            baja     14.54   no            1
          22           normal   18.42   no            1
          23           baja     13.95   si            1
          24           alta     8.45    no            1
                                                     ..
soleado   26           baja     12.66   no            1
                       normal   6.70    si            1
                                10.69   no            1
          27           alta     19.59   si            1
          38           normal   19.28   si            1
Length: 198, dtype: int64

In [10]:
ConteoPanorama=Datos['Panorama'].value_counts()
ConteoPanorama


nublado     69
soleado     65
lluvioso    64
Name: Panorama, dtype: int64

In [11]:
Datos.groupby('Panorama').count()

Unnamed: 0_level_0,Temperatura,Humedad,Viento,JugarTenis
Panorama,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lluvioso,64,64,64,64
nublado,69,69,69,69
soleado,65,65,65,65


#Combiancion del gropuby con agg

In [12]:
Datos.groupby('Humedad').agg(Frecuencia=('Temperatura','min'),max=('Temperatura', 'max'))

Unnamed: 0_level_0,Frecuencia,max
Humedad,Unnamed: 1_level_1,Unnamed: 2_level_1
alta,4,38
baja,4,37
normal,4,38


¿Cómo se puede interpretar el uso de la función `cumsum()`? ¿Es viable para cualquier dato cualitativo?

#Frecuencia relativa

In [13]:
ConteoHumedad=Datos['Humedad'].value_counts()
FrecRelativa = ConteoHumedad/(Datos['Humedad'].count())
print(ConteoHumedad)
print(FrecRelativa)
#Datos.groupby('panorama).count()
Datos['Humedad'].count()

baja      70
alta      64
normal    64
Name: Humedad, dtype: int64
baja      0.353535
alta      0.323232
normal    0.323232
Name: Humedad, dtype: float64


198

In [14]:
ConteoHumedad.cumsum()

baja       70
alta      134
normal    198
Name: Humedad, dtype: int64

#Como se puede interpretar el uso de la funcion cumsum()? Es viable para cualquier dato cualitativo?
Ordinales - integrar categorias de acuerdo a su orden

Nominales - no se puede extraer información

In [15]:
ConteoHumedad=ConteoHumedad.reindex(['baja','normal','alta'])
ConteoHumedad.cumsum()

baja       70
normal    134
alta      198
Name: Humedad, dtype: int64

# 2 Distribución de frecuencias

Es una tabla en la que se analiza un atributo por columnas. En las columnas se dispone el número de ocurrencias por cada valor, frecuencia relativa, etc.


In [16]:
#Categoria
#Frecuenci
#Frec max
#Frec relativa
#Frec relativa acumulada
#Atiruboto Humedad
DistFrec=pd.DataFrame(Datos['Humedad'].value_counts())
DistFrec.columns=['Frec']
DistFrec=DistFrec.reindex(['baja','normal','alta'])
DistFrec['FrecAcum']=DistFrec['Frec'].cumsum()
#DistFrec['FrecRe1]=round(DistFrec['Frec]/(Datos['Humedad].count()),2)
DistFrec['FrecRe1']=round(DistFrec['Frec']/(DistFrec['Frec'].sum()),3)
DistFrec['FrecRe1Acum']=DistFrec['FrecRe1'].cumsum()
DistFrec

Unnamed: 0,Frec,FrecAcum,FrecRe1,FrecRe1Acum
baja,70,70,0.354,0.354
normal,64,134,0.323,0.677
alta,64,198,0.323,1.0


#3 Tablas de contingencia

Consiste en crear al menos dos filas y dos columnas para representar datos categóricos en términos de conteos de frecuencia.

In [17]:
#Utilizando dos atributos:
pd.crosstab(Datos['Panorama'],Datos['Humedad'], rownames=['Clima'], colnames=['Humedad'])

Humedad,alta,baja,normal
Clima,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lluvioso,22,20,22
nublado,19,25,25
soleado,23,25,17


In [18]:
pd.crosstab([Datos["Humedad"],Datos["JugarTenis"]], Datos["Panorama"], rownames=["Hum", "Play"])

Unnamed: 0_level_0,Panorama,lluvioso,nublado,soleado
Hum,Play,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
alta,no,11,11,10
alta,si,11,8,13
baja,no,6,13,16
baja,si,14,12,9
normal,no,11,14,8
normal,si,11,11,9


Para implementar el análisis con algoritmos de aprendizaje, es necesario pasar estos datos a enteros, con las técnicas vistas anteriormente, aunque algunas herramientas lo hacen automáticamente. Esto es pertinente para ordinales y nominales

In [19]:
%%shell
jupyter nbconvert --to html 3_1_2_DatosCualitativos_Plantilla.ipynb

This application is used to convert notebook files (*.ipynb)
        to various other formats.


Options
The options below are convenience aliases to configurable class-options,
as listed in the "Equivalent to" description-line of the aliases.
To see all configurable class-options for some <cmd>, use:
    <cmd> --help-all

--debug
    set log level to logging.DEBUG (maximize logging output)
    Equivalent to: [--Application.log_level=10]
--show-config
    Show the application's configuration (human-readable format)
    Equivalent to: [--Application.show_config=True]
--show-config-json
    Show the application's configuration (json format)
    Equivalent to: [--Application.show_config_json=True]
--generate-config
    generate default config file
    Equivalent to: [--JupyterApp.generate_config=True]
-y
    Answer yes to any questions instead of prompting.
    Equivalent to: [--JupyterApp.answer_yes=True]
--execute
    Execute the notebook prior to export.
    Equivalent to: [--ExecutePr

CalledProcessError: ignored