# Ciencia de datos
## Práctica 3. Estadística descriptiva básica
### Alberto Benavides

A partir de los datos limpios, es posible obtener un panorama de los mismos mediante una descripción estadística básica.

Los archivos de datos con los que se trabajará son `enf.csv` y `semanalesTodas.csv`. El primero contiene 784660 registros entre los que figuran

<table>
    <thead>
        <th>Año</th>
        <th>Semana epidemiológica</th>
        <th>Estado de la república</th>
        <th>Nombre de la enfermedad</th>
        <th>Casos registrados</th>
        <th>CIE</th>
    </thead>
    <tbody>
        <tr>
            <td>2005</td>
            <td>38</td>
            <td>TOTAL</td>
            <td>fiebre tifoidea</td>
            <td>541</td>
            <td>a01.0</td>
        </tr>
        <tr>
            <td>2007</td>
            <td>40</td>
            <td>TOTAL</td>
            <td>intoxicacion alimentaria bacteriana</td>
            <td>572</td>
            <td>a05</td>
        </tr>
        <tr>
            <td>2009</td>
            <td>06</td>
            <td>TOTAL</td>
            <td>intoxicacion por plaguicidas</td>
            <td>37</td>
            <td>t60</td>
        </tr>
        <tr>
            <td>2014</td>
            <td>22</td>
            <td>TOTAL</td>
            <td>tumor maligno de la mama</td>
            <td>183</td>
            <td>c50</td>
        </tr>
    </tbody>
</table>

A su vez, `semanalesTodas.csv` tiene 138 registros, como por ejemplo

m|f1|f2|f3|f4|ac1|ac2|ac3|ac4|ac5|ac6|nombre|cie
--|--|--|--|--|--|--|--|--|--|--|--|--
-0.0000000248663435034341|0.08203125|0.32421875|0.228515625|0.341796875|-0.0353784853632604|0.0984218996464425|-0.00344461972131745|0.0567700154312776|0.0977725421321024|0.0205192479048278|TETANOS|A
-0.0000220897382102698|0.0185185185185185|0.12962962962963|0.0925925925925926|0.296296296296296|0.607402251356295|0.471411445175178|0.356199673519829|0.348561242010369|0.259110408088617|0.259945603567456|QUEMADURAS|T
0.0000000498703832573604|0.09375|0.34375|0.21875|0.46875|0.0424310044957832|0.0940176549732551|-0.179929773898205|-0.0266137236241919|-0.269025038558724|-0.0612837593935616|TOXOPLASMOSIS|B

donde 
* m: Pendiente de la regresión lineal,
* f$_i$, $i \in [1, 4]$: Frecuencia $i$ de Fourier (ordenadas de mayor a menor),
* ac$_j$, $j \in [1, 6]$: Autocorrelaciones para los retrasos de $2^{j-1}$ semanas,
* nombre: Nombre de la enfermedad,
* cie: Primera letra de la CIE correspondiente a la enfermedad.

Estos valores se obtuvieron por cada enfermedad a partir de los registros contenidos en `enf.csv`.

In [6]:
import pandas as pd
data = pd.read_csv("D:/FIME/Epidemia/Data/csvSemanales/enf.csv")
data = data[data.estado == "TOTAL"] # https://cmdlinetips.com/2018/02/how-to-subset-pandas-dataframe-based-on-values-of-a-column/
data['cie'] = data['cie'].astype(str).str[0] # https://stackoverflow.com/a/35552899
# print(data['cie'].value_counts()) # https://stackoverflow.com/a/22391554
print(data.groupby(['cie'])['casos'].describe())
print(data.groupby(['anio'])['casos'].describe())
print(data.groupby(['cie', 'anio'])['casos'].describe())

       count           mean            std     min      25%      50%  \
cie                                                                    
a    10017.0    8238.886593   27267.391977     0.0     0.00     28.0   
b     5010.0    1085.947305    2440.398179     0.0     5.00     37.0   
c      104.0     119.490385      74.104622    24.0    49.75     80.0   
e      364.0    2311.829670    3049.646005     5.0    69.00    295.0   
f      207.0     543.859903     545.763387     1.0    52.00    156.0   
g      548.0      26.885036      27.256107     0.0    13.00     18.0   
h      104.0    9997.173077    2382.303338  1685.0  8332.75  10394.5   
i      665.0    1000.296241    2406.767605     2.0    14.00     19.0   
j     1242.0  166282.132045  241732.275705     0.0  1787.00   3366.0   
k      181.0   12312.386740   12732.622177     0.0    37.00   6570.0   
n      208.0   20159.552885   34267.122104    25.0   113.75    865.5   
o       52.0     186.134615      32.418240   103.0   173.25    1

In [7]:
import pandas as pd
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
data = pd.read_csv("D:/FIME/Epidemia/Data/semanalesTodasKmeans.csv")
print(data.groupby(['cluster']).describe())

          ac1                                                              \
        count      mean       std       min       25%       50%       75%   
cluster                                                                     
0        14.0 -1.046648  0.441476 -1.604005 -1.273577 -1.227989 -0.881439   
1         7.0  0.828568  0.224459  0.619978  0.658921  0.696531  1.009096   
2        20.0 -0.187860  0.537334 -1.166307 -0.755412 -0.062209  0.140520   
3        11.0 -0.202785  0.379777 -0.753710 -0.410598 -0.144152 -0.001882   
4        25.0  0.315743  0.502299 -0.536802 -0.057742  0.356492  0.536932   
5         3.0 -2.583847  0.384054 -2.989785 -2.762643 -2.535501 -2.380878   
6        11.0 -0.852748  0.327655 -1.222886 -1.124382 -0.863470 -0.659833   
7         6.0 -1.411662  0.170013 -1.590066 -1.532767 -1.408252 -1.380547   
8         1.0  1.220207       NaN  1.220207  1.220207  1.220207  1.220207   
9         4.0  1.517388  0.027594  1.481670  1.507524  1.519644  1.529508   